首页> 中文学位 >社会化数据挖掘中的若干问题研究
【6h】

社会化数据挖掘中的若干问题研究

代理获取

目录

封面

中文摘要

英文摘要

目录

主要符号对照表

第一章 绪论

1.1 研究背景

1.2 研究内容

1.3 研究创新点

1.4 章节安排

第二章 对于众包序列标注的研究

2.1 简介

2.2 聚合众包序列标注

2.3 实验

2.4 相关工作

第三章 微博僵尸用户检测

3.1 简介

3.2 僵尸用户检测模型

3.3 轻量级检测模型

3.4 实验

3.5 相关工作

第四章 微博软广告检测

4.1 简介

4.2 软广告检测模型

4.3 实验

4.4 相关工作

第五章 用户评论情感倾向性模式抽取

5.1 简介

5.2 迭代采样的频繁项集抽取方法

5.3 实验

5.4 相关工作

第六章 全文总结

参考文献

致谢

攻读学位期间发表的学术论文目录

声明

答辩决议书

展开▼

摘要

Web2.0的热潮催生了众多的以用户为中心的应用。在这些应用中,普通的万维网用户不仅仅是内容的消费者,并且是内容的生产者。例如,在像Twitter这样的微博应用中,普通用户发布微博公开自己正在做的事情,关注其他用户收听到他们发布的微博,转发他人的微博进一步传播信息;在像亚马逊MTurk这样的众包应用中,普通用户可以参加人工标注任务(标注一篇文档的类别,翻译一个句子,标识照片中是否包含头像等等)来赚取报酬;在像亚马逊,EBay这样的在线商城中,普通用户可以对商品打分并且添加评论,这些评论会帮助其他用户更好的了解商品,也给商家提供了第一手的反馈意见;在像维基百科这样的协同编辑网站中,普通用户可以协作完成像编辑百科全书这样规模巨大的项目。根据Alexa的统计,在排名前20被访问次数最多的网站中,11个是以普通用户为中心的。我们将这种借助社会上普通用户的力量的应用称为社会化应用,将普通用户通过社会化应用产生的数据称为社会化数据。
  各式各样的社会化应用产生了海量的社会化数据。如果应用得好,这些数据可以帮助到为数众多的数据挖掘和自然语言理解任务。例如,微博数据可以用来侦测突发事件和预测股票走向;众包数据可以为有监督的模型提供训练标注;用户评论数据可以用来训练情感分类模型;维基百科的数据可以用来构建知识库并且支撑语义网络中的众多应用。然而,社会化数据也存在着很多问题,阻碍了其在实际中的直接使用。首先,社会化数据的制造者是普通的网络用户,他们之中很多人没有通过资格考试,也没有参加过培训。由于专业水平的参差不齐,社会化数据中不可避免的包含了很多错误;其次,有些恶意用户故意散播谣言和制造垃圾信息,导致社会化数据中包含很多虚假有害信息;再次,在像商品评论,微博,博客这样的应用中,为了方便使用,往往允许用户使用自由文本或者半结构格式发布信息,这样缺乏结构的社会化数据很难直接被机器理解和自动处理。
  针对社会化数据中存在的问题,我们从粗粒度到细粒度的顺序,对社会化数据挖掘中的几个重点问题展开研究:
  对于多个用户产生的数据,我们研究如何优化众包序列标注。主要的挑战是众包标注中包含很多错误信息。为了纠正这些错误信息,我们提出了聚合统计模型,考虑了三方面的因素来提高标注的质量:
  (1)多数用户赞同的标注很有可能是正确标注;
  (2)有过正确标注的众包参与者更值得信赖;
  (3)如果一个众包参与者正确标注过一条序列,那么他也很有可能正确标注其他具有类似特征的序列。通过使用聚合模型,我们可以从来自多个用户有噪音的标注中,推导出一个统一的并且质量较高的序列标注。我们进一步在聚合模型上加入了主动学习的策略,优化众包序列标注的流程。在保证标注质量的前提下,尽可能的降低众包标注的费用。
  对于单个用户产生的数据,我们研究一种特别的微博用户:“僵尸用户”。在微博平台上,以下两种交易导致了僵尸用户的出现:其一是购买粉丝:许多明星通过购买大量粉丝来人为制造自己的知名度,作为和广告厂商谈判的筹码。许多普通用户也有意愿购买粉丝,作为炫耀的资本;其二是购买转发:因为新浪微博使用转发量来选取热门微博,很多厂商购买僵尸用户转发广告微博,这样不仅可以扩大宣传范围,也可以让广告微博登上热门微博榜单。通过人为制造粉丝数量和转发数量,僵尸用户造成了微博数据的失真,这不仅会误导普通用户,也会影响基于微博数据的第三方应用。为了提高微博数据的可靠性,我们利用两方面的信息来侦测僵尸用户:
  (1)微博用户的个体特征;
  (2)用户之间的社交关系。通过使用这两方面的信息,我们提出了一种半监督的检测模型来区分僵尸用户和正常用户。
  对于单个用户发布单条数据,我们研究一种特别的微博:“软广告”。在微博平台上,热门微博主具有很强的宣传效应,他们发布的内容可以为数千万用户所看到。很多商家会找热门微博主发布广告内容,我们称之为软广告。软广告没有特别的区分标签,因此具有很强的欺骗性,没有经验的用户会把软广告当成微博主的真心推荐。有经验的用户虽然可以区分软广告和正常微博,但是阅读夹杂着软广告的正常微博会伤害用户使用体验;对于微博平台来说,软广告会抢占他们的广告市场份额。由于软广告的隐蔽性和热门微博主的号召力,很多商家会绕过平台直接和微博主联系。为了保护用户和平台的权益,我们使用有约束的共聚类方法来识别微博软广告。这种方法同时考虑了结构化信息和文本信息。与分类方法相比,这种方法可以解决数据异构的问题,达到更高的识别精度。
  对于单条数据中模式,我们研究如何从用户评论中抽取出具有情感倾向性的模式。这种模式既可以用来训练情感分类器,又可以作为用户评论的摘要。我们将这个问题抽象称为频繁项集挖掘问题。由于评论数据规模巨大,常规的频繁项集挖掘算法会遇到的组合爆炸的问题。本文提出了一种新的方法:基于迭代采样的频繁项集挖掘。这种方法没有直接处理整个数据集合,而是通过迭代采样降低了问题的规模。我们从理论和实践两方面证明,通过迭代一定的次数,既可以避免组合爆炸,又可以保证较高的覆盖率。本文提出的方法非常易于并行化,并且具有很强的鲁棒性。我们在跨领域和跨语言的用户评论中挖掘出了具有情感倾向性的自由模式。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号