基于向量空间模型和LDA模型相结合的微博客话题发现算法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来，随着互联网技术的快速发展和广泛普及，网络信息的传播速度与数量都达到了空前的规模。微博客作为一种新兴的网络媒体，凭着极高的网民普及率，已经成为互联网上的主要信息源之一。由于微博客内容简单(一般少于140个字)且可以通过各种通讯手段(手机、QQ等)实时发布，容易在短时间内产生大量数据。在面对数量如此巨大且杂乱无序的微博客信息时，若采用人工手段去处理它，工作量巨大而且难以及时而准确的找到自己最关心的信息。
　　话题发现技术能够将属于同一话题下的分散的信息归并，大大的减少了信息的重复率，便于用户从全局上了解话题中各个方面之间的关系以及话题之间的相互联系，帮助用户在海量信息中快速的找到自己最需要的信息。基于传统向量空间模型上话题检测算法虽得到了广泛的应用，且取得了不错的效果，但在处理大规模的微博客短文本时仍存在着明显的不足：一是降维能力的不足，过高维度的向量会导致文本相似度计算产生误差，影响话题发现精度；二是语义信息的丢失，传统向量空间模型中，文档中单词对应特征项，特征项的权重对应特征向量，文档的相似度取决于特征向量之间的距离，很显然文档之间重复的词语越多越可能相似，然而两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。
　　在上述基础上，本文借鉴传统话题发现方法，针对微博客本身的特点，利用LatentDirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型，对微博客文本进行隐主题提取，通过吉布斯采样算法得到文本在隐主题空间上的向量分布，并将其与传统文本聚类的向量化模型向结合，最终通过多层聚类的方法实现话题发现。本文完成了微博客文本话题发现系统，整个系统由数据采集与预处理和话题结果描述两个子系统构成，在真实数据集上的实验结果表明，本文的方法能够降低错检率和漏检率，减少耗费函数。

著录项

作者
黄波;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科计算机应用技术
授予学位硕士
导师姓名杨燕;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
微博客; 话题发现; 向量空间模型; LDA模型; 多层聚类;

相似文献

中文文献
外文文献
专利

1. 基于VSM和LDA模型相结合的微博话题漂移检测 [J] . 胡秀丽 . 兰州理工大学学报 . 2015,第005期
2. 基于LDA模型的博客垃圾评论发现 [J] . 刁宇峰 ,杨亮 ,林鸿飞 . 中文信息学报 . 2011,第001期
3. 基于ICE-LDA模型的中英文跨语言话题发现研究 [J] . 陈兴蜀 ,罗梁 ,王海舟 . 四川大学学报（工程科学版） . 2017,第002期
4. 基于ICE-LDA模型的中英文跨语言话题发现研究 [J] . 陈兴蜀12 ,罗梁2 ,王海舟12 . 工程科学与技术 . 2017,第002期
5. 一种基于LDA主题模型的话题发现方法 [J] . 郭蓝天 ,李扬 ,慕德俊 . 西北工业大学学报 . 2016,第004期
6. 基于LDA模型的博客垃圾评论发现 [C] . 刁宇峰 ,林鸿飞 . 第六届全国信息检索学术会议 . 2010
7. 基于主题模型和混合模型的微博客交叉话题发现研究 [A] . 詹勇 . 2013

基于向量空间模型和LDA模型相结合的微博客话题发现算法研究

摘要

著录项

相似文献

相关主题

期刊订阅