首页> 中文学位 >热门微博话题事件主题聚类分析
【6h】

热门微博话题事件主题聚类分析

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.1.1 微博的发展

1.1.2 研究目的和意义

1.2 国内外研究现状

1.2.1 社交网络研究

1.2.2 微博情感分析

1.2.3 微博内容研究

1.3 论文主要工作

第二章 文本挖掘概述

2.1 文本表示

2.1.1 中文分词和停用词

2.1.2 词频和逆文档频率

2.1.3 向量空间模型

2.2 文本分类

2.2.1 分类的相关问题

2.2.2 常见分类算法

2.3 文本聚类

2.3.1 聚类的相关问题

2.3.2 扁平聚类算法

2.3.3 层次聚类

2.4 本章小结

第三章 LDA主题模型

3.1 隐性语义索引

3.1.1 隐性语义索引

3.1.2 概率隐性语义索引

3.1.3 一元混合模型

3.2 LDA主题模型

3.2.1 LDA主题模型简介

3.2.2 LDA数学基础

3.2.3 LDA主题模型

3.3 本章小结

第四章 微博主题分析和基于主题聚类的短文本分类

4.1 主题聚类

4.2 微博短文本分类

4.3 算法设计与实验分析

4.3.1 实验数据集和实验环境

4.3.2 词级特征选择:新词发现、分词、特征词选择

4.3.3 主题演化和新主题发现

4.3.4 短文本分类实验

4.4 本章小结

第五章 总结与展望

5.1 全文工作总结

5.2 未来工作展望

参考文献

致谢

展开▼

摘要

在当今的社会中,以互联网为载体,产生了与电视、报纸、广播等传统媒体近乎对等的网络媒体,这些新媒体经过不断地发展,拥有大量的用户基础,它们也成为了社会舆论非常重要的阵地之一,典型的代表有网络视频网站、微博、微信等。这些网络舆论阵地,表达的是群众的意志,是无数网民自由表达观点想法的平台。通过这些平台,网民随时随地发表身边的新鲜事,或者发表对热门微博话题的看法和观点,而这些微博上的舆论信息能够很好的反映人们真实的想法,能够从中挖掘出许多有价值的信息。因此对这些平台上的内容进行研究,有着许多重要的意义,比如舆情分析、新媒体营销、品牌维护等。
  微博是基于关注关系形成的社交网络,用户可以发表少于140个字的文本,对别人的微博进行点赞、评论、转发。随着近几年的发展,用户数快速增长,每天都会生成海量的数据。随着数据量的爆炸式增长,用户越来越感觉到,从这些数据中获取自己关心的有价值的信息越来越难。第一,微博内容五花八门,良莠不齐,充斥着许多垃圾信息;第二,对于特定事件,每个人看问题的角度或者目的不同,掺杂的情感也不同,所以都会有一些不同的看法;第三,随着事件讨论热度变化,或者一些新的情况出现,事件的舆论发生改变,如何准确获取这些演变,也是一个值得研究的问题。对微博的分析研究,有助于我们发现其中蕴含的舆论观点,感情倾向,为决策和预测提供可靠而宝贵的信息支撑。
  本文从文本挖掘的基本概念开始,讨论了相关的算法和基本技术,文本的表示方法,文本挖掘的相关理论。接着详述了LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)主题模型,包括模型的数学基础、评估、推断。本文的主要研究工作有:
  1.通过新词发现、词频TF和逆文档频率IDF进行词级特征选择,能够很好的挑选出良好的特征,剔除不良特征;
  2.使用LDA主题模型对数据建模,然后进行主题聚类,分析主题的变化,提出了主题词及其权重作为二元组的元素结合动态阈值进行新主题发现的方法;
  3.提出了“一篇短文本有且仅有一个主要主题”假设。基于这个假设,使用文本主题分布中的主要主题作为分类决定因素,对文本进行分类,提出了一种先主题聚类再文本分类的方法。
  实验中,面向有关巴黎恐怖袭击微博数据和百度知道数据,采用本文提出的算法,对实验结果进行分析,以验证本文提出的方法。实验结果分析表明,本文的特征选择方法改进了LDA主题模型的建模效果;基于主题词及其权重的新主题发现算法能够很好的发现新主题,这些新主题对应着话题下的一些热门子话题;基于主题聚类的文本分类方法,相比较传统的K均值方法效果上有所提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号