首页> 中文学位 >基于向量空间模型和LDA模型相结合的微博客话题发现算法研究
【6h】

基于向量空间模型和LDA模型相结合的微博客话题发现算法研究

代理获取

摘要

近年来,随着互联网技术的快速发展和广泛普及,网络信息的传播速度与数量都达到了空前的规模。微博客作为一种新兴的网络媒体,凭着极高的网民普及率,已经成为互联网上的主要信息源之一。由于微博客内容简单(一般少于140个字)且可以通过各种通讯手段(手机、QQ等)实时发布,容易在短时间内产生大量数据。在面对数量如此巨大且杂乱无序的微博客信息时,若采用人工手段去处理它,工作量巨大而且难以及时而准确的找到自己最关心的信息。
  话题发现技术能够将属于同一话题下的分散的信息归并,大大的减少了信息的重复率,便于用户从全局上了解话题中各个方面之间的关系以及话题之间的相互联系,帮助用户在海量信息中快速的找到自己最需要的信息。基于传统向量空间模型上话题检测算法虽得到了广泛的应用,且取得了不错的效果,但在处理大规模的微博客短文本时仍存在着明显的不足:一是降维能力的不足,过高维度的向量会导致文本相似度计算产生误差,影响话题发现精度;二是语义信息的丢失,传统向量空间模型中,文档中单词对应特征项,特征项的权重对应特征向量,文档的相似度取决于特征向量之间的距离,很显然文档之间重复的词语越多越可能相似,然而两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。
  在上述基础上,本文借鉴传统话题发现方法,针对微博客本身的特点,利用LatentDirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对微博客文本进行隐主题提取,通过吉布斯采样算法得到文本在隐主题空间上的向量分布,并将其与传统文本聚类的向量化模型向结合,最终通过多层聚类的方法实现话题发现。本文完成了微博客文本话题发现系统,整个系统由数据采集与预处理和话题结果描述两个子系统构成,在真实数据集上的实验结果表明,本文的方法能够降低错检率和漏检率,减少耗费函数。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号