首页> 中文学位 >短文本挖掘中的主题模型扩展
【6h】

短文本挖掘中的主题模型扩展

代理获取

目录

第一个书签之前

展开▼

摘要

我们当前正处于社交媒体逐渐取代传统媒体的信息革命时代,在线的社交媒体平台,如Facebook、Twitter,以及国内的新浪、腾讯等公司,它们创建了“普通用户,即是发布者也是传播者”的信息传播模式,使得信息的产生与传播都比以前更加即时、方便、快捷。随着移动智能终端的普及,越来越多的用户愿意随时随地发表自己的意见,分享自己的经历,甚至表达自己的政治观点等,社交媒体已经成为了一个关于公共事件、舆情研究,甚至个人情绪观点的有价值的数据源泉。  互联网普通用户每天通过社交媒体产生海量(TB 级)的短文本数据,其中的信息含量也是传统媒体所无法比拟的。因此,研究如何从这些海量社交媒体短文本中发现有用的信息是当前一项重要的挑战,也已经成为国际学术界的一个研究热点。  主题模型被用来进行文本挖掘已经被证明是一个非常有效的手段,随着即时通讯的发展,挖掘这些海量短文本的主题特征也变得越来越重要。但是,因为短文本的稀疏性,把传统的主题模型(如LDA)直接作用在短文本上,挖掘的主题特征效果及性能都不是很令人满意。  本文在研究LDA主题模型和BTM(Biterm Topic Model)主题模型的基础上,提出一种针对于海量短文本的主题模型。在此主题模型中,通过对每篇短文本获取“词对(biterm)”共现的方式来对文本建模,代替传统主题模型中的“词”共现的方式,这种方式可以在一定程度上缓解数据稀疏的问题,提高了模型对主题挖掘的效果。同时,又保留了一些传统主题模型的优秀特性。  本文的主要研究工作都体现在以下两个方面:  1)沿着主题模型的时间脉络,梳理了主题模型的发展过程,深入研究了LDA主题模型和主题模型的整个模型生成过程、模型性能特性以及各自的形成原因,结合短文本自身的特点,提出了一种将BTM主题模型中的“词对(biterm)”引入到LDA主题模型中的扩展模型(Biterm Latent Dirichlet Allocation,简记为bLDA)。在bLDA主题模型的建模过程中,利用每篇文档中“词对(biterm)”共现的方式来对模型建模,缓解了导致LDA主题模型在短文本应用中,性能下降的数据稀疏性问题。同时,本文模型又没有像BTM主题模型那样,将“词对(biterm)”面向整个语料库直接建模,而导致BTM主题模型的主题维数以及时间复杂度增加。bLDA主题模型只是将“词对(biterm)”局限在各自的文档中,从而保留了传统主题模型的维数和时间性能的优势。  2)本文实验收集到了BTM原始论文中的百度知道标题数据集、搜狗实验室开放的新闻标题数据集和Phan等论文中所使用的英文新闻标题数据集共三个数据集。使用收集到的这三个数据集,对本文提出的扩展主题模型进行实验验证,并将结果与LDA主题模型和BTM主题模型相对比,验证了本文改进的扩展主题模型处理海量短文本挖掘的有效性。

著录项

  • 作者

    代宁;

  • 作者单位

    安徽大学;

  • 授予单位 安徽大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 郑诚;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    短文本挖掘,主题模型扩展,数据稀疏;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号