首页> 中文学位 >基于动态Labeled-LDA模型的微博主题挖掘
【6h】

基于动态Labeled-LDA模型的微博主题挖掘

代理获取

目录

声明

致谢

摘要

第一章 绪论

1.1 研究背景及意义

1.2 微博主题挖掘技术的研究现状

1.2.1 国内研究现状

1.2.2 国外研究现状

1.3 存在的问题及本文研究内容

第二章 微博主题特征及微博数据的获取和预处理

2.1 引言

2.2 微博主题特征

2.3 微博数据的获取

2.3.1 新浪微博开放平台API

2.3.2 利用网络爬虫获取微博信息

2.4 微博话题检测

2.4.1 预处理

2.4.2 主题词检测

2.4.3 主题词聚类

2.5 本章小节

第三章 文本主题挖掘技术

3.1 文本挖掘的任务

3.2 文本表示

3.2.1 权值计算

3.2.2 概念模型

3.3 文本分类的几种机器学习方法

3.3.1 概率分类器

3.3.2 贝叶斯回归分析

3.3.3 决策树分类器

3.3.4 神经网络分类器

3.3.5 支持向量机

3.3.6 Boosting分类器

3.4 LDA模型

3.4.1 Gibbs抽样

3.4.2 LDA模型简介

3.4.3 Labeled-LDA模型

3.5 动态文本主题挖掘

3.5.1 文本会话的抽取

3.5.2 动态文本会话抽取预处理

3.5.3 动态短文本聚类算法

3.6 本章小结

第四章 动态Labeled-LDA建模实验

4.1 基于动态Labeled-LDA模型的微博主题挖掘建模

4.2 实验设计与结果分析

4.2.1 实验环境

4.2.2 实验数据

4.2.3 实验设置

4.3 本章小结

第五章 总结和展望

5.1 本文总结

5.2 工作展望

参考文献

攻读硕士学位期间的学术活动及成果情况

展开▼

摘要

随着微博用户的不断增加,微博的影响力也在不断地扩张。微博类动态短文本由于其特有的文本特征,微博主题受时间因素的影响很大。Labeled-LDA模型是传统的LDA模型的一种变形,它是在LDA原有的基础上附加了一层类别标签。使传统的LDA多了一个直接的分配模型类别的优势,同时很好的优化了传统LDA模型在处理文本分类时会出现的在不属于自己的类别上进行生成时可能会导致隐主题的强制分配的问题。  本文的研究目的:由于微博类短文本式网络信息的及时性、动态性和主题复杂性及多样性,首先对已选取好的微博文本在做了预处理后,进行文本特征选择。动态化改进后的VSM特征选择方法明显优于传统的TF-IDF算法。其次,本文构建了动态的Labeled-LDA模型,将标签与动态相结合。方法包括三部分:第一,用Labeled-LDA主题模型进行建模和特征选择,确定主题数和隐主题-文本矩阵;第二,对微博文本划分时间文本集;第三,对Labeled-LDA模型进行动态化的改进,最终给出了针对微博文体的一种新的主题检索模型。实验结论:时间对微博的影响很大,动态化改进后的模型可以看出主题随时间因素的变化更为明显,本文提出的动态标签LDA模型对微博类的动态文本的主题挖掘具有优化作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号