基于LDA扩展的短文本热点发现研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的普及，网络舆情对社会的稳定以及人们的日常生活产生了很大的影响。随着移动互联网的崛起，使人与人之间交流更为方便，同时也对人们的生活产生了更直接的影响。舆情具有发生范围广，传播速度快等特点，从而如何能够快速的识别热点对人们的生活以及对社会的稳定是极其重要的。话题识别与追踪是热点发现的重要部分。话题识别是对新的话题进行识别并将相关报道组织起来。话题追踪是监控新闻报道或其他信息流以发现某一已知话题相关的新报道。话题识别和追踪是热点发现的重要部分，热点之所以形成是在形成话题之后，通知后续的相关报道和网民的讨论，才可能形成热点事件。
　　本文分别对话题识别与追踪和热点发现方法进行以下研究：首先，针对话题识别与追踪，由于短文本具有文本过短，特征少的特点，本文给出了一种基于主题特征扩展的短文本聚类方法。该方法的主要思想，利用外部资源对短文本在不同层次上进行信息扩展。本文利用人工整理的和非人工整理的资源分别对文档特征以及文本的语义空间进行信息扩展。具体方法:首先利用外部大量的非人工整理的资源对主题模型进行建模，获得的各主题下的词项作为候选种子词;然后对候选种子词利用词与词之间的相似度，通过层次聚类进行聚类获得种子词;最后利用人工整理的资源建立文档词项与各主题的权重关系。实验结果表明，该方法比传统聚类算法效果要好。次，利用热点事件之间内在的关联性从内容层次进行分析。具体方法:首先使用热点事件和非热点事件对支持向量机分类器进行训练，获得热点事件分类器;然后对测试集中的事件进行聚类，获得事件簇;最后，利用分类器对事件簇中的文本进行分类，把该事件簇中判定为热点事件的文本数与该簇中的总文本数之比作为一个指标。实验证明:该指标对热点发现具有良好的指导意义。最后，本文融合预处理和短文本聚类，详细设计了基于潜在狄利克雷分配模型扩展的短文本热点发现方案。该方案涉及到训练潜在狄利克雷分配模型模型，建立主题下的种子词，利用《知网》词语相似度对主题特征进行扩展，利用聚类和分类的方法，进行热点发现。

著录项

作者
甘孟壮;
展开▼
作者单位

重庆邮电大学;

展开▼
授予单位重庆邮电大学;
学科软件工程
授予学位硕士
导师姓名樊兴华;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
数据挖掘; 话题识别; 语义分析; 程序语言;

相似文献

中文文献
外文文献
专利

1. 基于LDA特征扩展的短文本分类方法研究 [J] . 胡朝举 ,徐永峰 . 软件导刊 . 2018,第003期
2. 基于LDA特征扩展的短文本分类方法研究 [J] . 胡朝举 ,徐永峰 . 软件导刊 . 2018,第003期
3. 基于中心词和LDA的微博热点话题发现研究 [J] . 刘干 ,林杰豪 ,翟雯熠 . 情报杂志 . 2021,第005期
4. 基于CBOW-LDA主题模型的Stack Overflow编程网站热点主题发现研究 [J] . 张景 ,朱国宾 . 计算机科学 . 2018,第004期
5. 基于SA-LDA模型的美食热点发现研究 [J] . 蒋建洪 ,王珂 . 扬州大学烹饪学报 . 2017,第004期
6. 基于LDA和生命周期理论的科学研究热点发现与演化研究 [C] . Guan Peng ,关鹏 ,WangYuefen . 第四届全国情报学博士生学术论坛 . 2014
7. 基于CBOW--LDA主题模型的Stack Overflow网站热点主题发现研究 [A] . 张景 . 2018

基于LDA扩展的短文本热点发现研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅