热门微博话题事件主题聚类分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在当今的社会中，以互联网为载体，产生了与电视、报纸、广播等传统媒体近乎对等的网络媒体，这些新媒体经过不断地发展，拥有大量的用户基础，它们也成为了社会舆论非常重要的阵地之一，典型的代表有网络视频网站、微博、微信等。这些网络舆论阵地，表达的是群众的意志，是无数网民自由表达观点想法的平台。通过这些平台，网民随时随地发表身边的新鲜事，或者发表对热门微博话题的看法和观点，而这些微博上的舆论信息能够很好的反映人们真实的想法，能够从中挖掘出许多有价值的信息。因此对这些平台上的内容进行研究，有着许多重要的意义，比如舆情分析、新媒体营销、品牌维护等。
　　微博是基于关注关系形成的社交网络，用户可以发表少于140个字的文本，对别人的微博进行点赞、评论、转发。随着近几年的发展，用户数快速增长，每天都会生成海量的数据。随着数据量的爆炸式增长，用户越来越感觉到，从这些数据中获取自己关心的有价值的信息越来越难。第一，微博内容五花八门，良莠不齐，充斥着许多垃圾信息;第二，对于特定事件，每个人看问题的角度或者目的不同，掺杂的情感也不同，所以都会有一些不同的看法;第三，随着事件讨论热度变化，或者一些新的情况出现，事件的舆论发生改变，如何准确获取这些演变，也是一个值得研究的问题。对微博的分析研究，有助于我们发现其中蕴含的舆论观点，感情倾向，为决策和预测提供可靠而宝贵的信息支撑。
　　本文从文本挖掘的基本概念开始，讨论了相关的算法和基本技术，文本的表示方法，文本挖掘的相关理论。接着详述了LDA（Latent Dirichlet Allocation，潜在狄利克雷分布）主题模型，包括模型的数学基础、评估、推断。本文的主要研究工作有:
　　1.通过新词发现、词频TF和逆文档频率IDF进行词级特征选择，能够很好的挑选出良好的特征，剔除不良特征;
　　2.使用LDA主题模型对数据建模，然后进行主题聚类，分析主题的变化，提出了主题词及其权重作为二元组的元素结合动态阈值进行新主题发现的方法;
　　3.提出了“一篇短文本有且仅有一个主要主题”假设。基于这个假设，使用文本主题分布中的主要主题作为分类决定因素，对文本进行分类，提出了一种先主题聚类再文本分类的方法。
　　实验中，面向有关巴黎恐怖袭击微博数据和百度知道数据，采用本文提出的算法，对实验结果进行分析，以验证本文提出的方法。实验结果分析表明，本文的特征选择方法改进了LDA主题模型的建模效果;基于主题词及其权重的新主题发现算法能够很好的发现新主题，这些新主题对应着话题下的一些热门子话题;基于主题聚类的文本分类方法，相比较传统的K均值方法效果上有所提升。

著录项

作者
王军;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机应用技术
授予学位硕士
导师姓名郑诚;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本挖掘; 微博话题; 主题聚类; 文本分类;

相似文献

中文文献
外文文献
专利

1. 品牌热门话题微博营销研究——以新浪微博热门话题为例 [J] . 陈青 . 青年记者 . 2016,第011期
2. 新浪微博热门话题的符号学分析——以微博打拐事件为例 [J] . 赵启帆 . 新闻世界 . 2015,第004期
3. 面向主题的微博热门话题舆情监测研究——以"北京单双号限行常态化"舆情分析为例 [J] . 张瑜 ,李兵 ,刘晨玥 . 中文信息学报 . 2015,第005期
4. 浅析共景监狱场域下,微博热门话题的形成——以房祖名、柯震东吸毒被抓事件为例 [J] . 任芸莹 . 东南传播 . 2016,第006期
5. 热门事件微博的修辞传播特征——以新浪微博甘肃校车事件为例 [J] . 王亮 . 青年记者 . 2012,第026期
6. 面向主题的微博热门话题舆情监测研究——以“北京单双号限行常态化”舆情分析为例 [C] . Zhang Yu ,张瑜 ,Li Bing . 中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015） . 2015
7. 关于新浪微博热门话题的分析研究——以姚贝娜事件为例 [A] . 张萌 . 2015

热门微博话题事件主题聚类分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅