首页> 中文学位 >基于LDA扩展的短文本热点发现研究
【6h】

基于LDA扩展的短文本热点发现研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 论文选题背景

1.2 国内外研究现状

1.3 本文研究内容

1.4 本文组织结构

第二章 热点发现相关基础知识

2.1 基础知识

2.1.1 文本表示模型

2.1.2 特征选择

2.1.3 特征权重

2.2 分类算法

2.2.1 分类算法简介

2.2.2 支持向量机

2.3 聚类算法

2.3.1 聚类算法简介

2.3.2 Kmeans聚类算法

2.3.3 评估指标

2.4 主题模型

2.4.1 主题模型发展史

2.4.2 LDA主题模型

2.5 小结

第三章 基于主题特征扩展的聚类研究

3.1 引言

3.2 基于主题特征扩展的聚类研究

3.2.1 短文本聚类

3.2.2 基本思想

3.2.2 基于主题特征扩展的聚类流程

3.3 实验与分析

3.3.1 数据集

3.3.2 实验设计

3.3.3 实验结果与分析

3.4 小结

第四章 基于聚类和支持向量机相结合的热点发现

4.1 引言

4.2 基于聚类与支持向量机相结合的热点发现

4.2.1 基本思想

4.2.2 基本流程

4.2.3 热点发现相关算法

4.3 实验与分析

4.3.1 实验数据

4.3.2 热点发现评价方法

4.3.3 实验结果与分析

4.4 小结

第五章 基于LDA扩展的短文本热点发现方案

5.1 流程设计

5.2 算法中各模块的设计与实现

5.2.1 预处理

5.2.2 特征提取

5.2.3 特征选择与特征集

5.2.4 LDA模块

5.2.5 特征选择与特征权重

5.2.6 Kmeans聚类

5.2.7 SVM分类

5.3 实验测试

5.3.1 实验语料

5.3.2 模型测试

5.4 小结

第六章 总结及未来的工作

6.1 总结

6.2 未来的工作

致谢

攻硕期间从事的科研工作及取得的研究成果

参考文献

展开▼

摘要

随着互联网的普及,网络舆情对社会的稳定以及人们的日常生活产生了很大的影响。随着移动互联网的崛起,使人与人之间交流更为方便,同时也对人们的生活产生了更直接的影响。舆情具有发生范围广,传播速度快等特点,从而如何能够快速的识别热点对人们的生活以及对社会的稳定是极其重要的。话题识别与追踪是热点发现的重要部分。话题识别是对新的话题进行识别并将相关报道组织起来。话题追踪是监控新闻报道或其他信息流以发现某一已知话题相关的新报道。话题识别和追踪是热点发现的重要部分,热点之所以形成是在形成话题之后,通知后续的相关报道和网民的讨论,才可能形成热点事件。
   本文分别对话题识别与追踪和热点发现方法进行以下研究:首先,针对话题识别与追踪,由于短文本具有文本过短,特征少的特点,本文给出了一种基于主题特征扩展的短文本聚类方法。该方法的主要思想,利用外部资源对短文本在不同层次上进行信息扩展。本文利用人工整理的和非人工整理的资源分别对文档特征以及文本的语义空间进行信息扩展。具体方法:首先利用外部大量的非人工整理的资源对主题模型进行建模,获得的各主题下的词项作为候选种子词;然后对候选种子词利用词与词之间的相似度,通过层次聚类进行聚类获得种子词;最后利用人工整理的资源建立文档词项与各主题的权重关系。实验结果表明,该方法比传统聚类算法效果要好。次,利用热点事件之间内在的关联性从内容层次进行分析。具体方法:首先使用热点事件和非热点事件对支持向量机分类器进行训练,获得热点事件分类器;然后对测试集中的事件进行聚类,获得事件簇;最后,利用分类器对事件簇中的文本进行分类,把该事件簇中判定为热点事件的文本数与该簇中的总文本数之比作为一个指标。实验证明:该指标对热点发现具有良好的指导意义。最后,本文融合预处理和短文本聚类,详细设计了基于潜在狄利克雷分配模型扩展的短文本热点发现方案。该方案涉及到训练潜在狄利克雷分配模型模型,建立主题下的种子词,利用《知网》词语相似度对主题特征进行扩展,利用聚类和分类的方法,进行热点发现。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号