首页> 中文学位 >基于社交媒体的热点主题挖掘及主题演化分析
【6h】

基于社交媒体的热点主题挖掘及主题演化分析

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第1章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 研究内容

1.4 论文组织结构

1.5 本章小结

第2章 相关理论及技术概述

2.1 相关概念介绍

2.2 相关技术--LDA模型

2.3 相关技术—TFLDA模型

2.4 相关技术--TOT模型

2.5 本章小结

第3章 基于社交媒体的热点主题挖掘

3.1 模型框架和思想

3.2 基于MA-LDA模型的热点主题挖掘

3.3 实验设计与结果分析

3.4 本章小结

第4章 基于社交媒体的主题演化分析

4.1相关定义

4.2 hg-TOT模型介绍

4.3 hs-TOT模型介绍

4.4 实验设计与结果分析

4.5 本章小结

第5章 总结与展望

5.1 总结

5.2展望

参考文献

致谢

攻读硕士期间的学术成果

展开▼

摘要

互联网与web2.0技术的飞速发展促使社交媒体(如微博,论坛等)逐渐成为人们进行信息交互的重要平台,并且已有逐渐取代传统媒体的趋势。另外,随着移动社交媒体平台的开发和广泛应用,人们越来越倾向于在社交媒体平台上创建及分享各类信息。据统计,社交网络上每日产生的数据量已达到TB级,其中不乏大量有价值的内容。通过挖掘和分析这些信息可以很好地了解公众的需求和关注热点,进行舆情监测,同时对公众舆论进行正确引导也具有重要的意义。80%以上的社交媒体信息都为文本数据类型,因此文本挖掘成为近年来针对社交媒体内容挖掘的研究热点,而主题模型已经被证明是文本挖掘的一种非常有效的方式。主题分析的宗旨主要是借助于适当的主题模型来挖掘出“文档-主题”,以及“主题-词汇”的关系。合适的主题模型不仅可以成功挖掘出有意义的主题信息,而且还可以进一步应用于文档分类、热点主题挖掘以及信息组织等领域。传统的主题模型如PLSA(概率潜在语义分析)、LDA(潜在狄利克雷分布)虽然在常规类型的文本挖掘方面已经取得了一定的成功,但是对于社交媒体文本这种具有长度短、文本稀疏、用语不规范等特征的特殊文本类型而言已经变得不再适用。这就给面向社交媒体的文本挖掘带来了一定的困难和挑战。
  本研究主要内容包括:⑴以微博为分析案例,并利用微博消息中的一些属性信息(如标签,时间等属性信息)来改进和扩展 LDA模型,并重点进行了针对社交媒体主题建模的两个应用研究:基于社交媒体的热点主题挖掘;基于社交媒体的主题演化分析。⑵提出了一个新的主题模型MA-LDA(Multi-Attribute Latent Dirichlet Allocation)。该模型先后利用微博的转发/评论数、时间和标签属性来分别进行非热点话题的消息过滤、热点与普通话题的区分以及主题表达性的提高,以此来提高热点话题识别的准确率。最终,实验结果证明了该模型在提高热点话题识别的准确率方面以及提高主题表达性方面均具有一定有效性。针对主题演化的分析,在进行时间建模的同时也考虑了提高主题表达性的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号