基于Hadoop的中文微博热点话题发现方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当今世界，微博已经成为人与人信息共享与沟通的重要平台，截止到2016年3月底，微博的日活跃用户达到1.2亿，很多对社会有重大影响力的新闻事件都是从微博中传播出来。微博热点话题的发现对政府机关引导舆情走向、企业管理者的决策、个人的日常生活都具有重要的意义。为了从海量的微博数据中准确地提取出热点话题，本文从以下几个方面进行了研究。首先，本文实现了中文微博的定制爬虫，使用模拟登录技术以及用户关注的爬取策略从种子用户开始解析其关注用户的数据，之后进行爬取、解析与存储微博数据。对于存储后的微博数据，进行繁体字的转化以及根据微博数据的类型进行相应的预处理操作。使用定制微博爬虫爬取数据作为实验的分析对象与系统实现的数据源。针对微博中存在大量与新闻热点无关数据的问题，本文提出了基于微博元数据的热度计算与基于时间变化的热度计算方法来选择热点微博。首先利用点赞数、转发数、评论数、微博发表用户的关注度计算热度值;其次利用词频变化率加权tf-idf的方法计算微博的热度。其次，对微博进行LDA建模，使用得到的微博主题模型进行微博文本向量的表示，解决传统方法表示微博文本的高维度与数据稀疏问题。针对吉布斯采样算法收敛速度慢的问题，实现了基于MapReduce的并行吉布斯采样算法。最后，提出了BHK-means算法用于微博文本聚类，使用黑洞算法寻找K-means算法的全局最优初始聚类中心点，解决K-means算法容易陷入局部最优的问题。针对海量微博数据的处理效率问题，提出了基于MapReduce的BHK-means算法。最后，提出了一种基于LDA与微博热度加权的方法从热点微博簇中提取出话题词。实验结果表明，本文的微博热度计算方法选择的微博中，转发微博的比率明显升高，证明了该方法的有效性;LDA建模较传统的文本表示模型会获得更好的聚类效果，基于MapReduce的吉布斯采样算法求解LDA具有良好的加速比;BHK-means算法具有较高的聚类精度，基于MapReduce的BHK-means算法具有良好的加速比;基于LDA与微博热度加权的方法可以提取出较为准确的热点话题词。

著录项

作者
王伟超;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机应用技术
授予学位硕士
导师姓名柳玉辉;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
中文; 热点; 话题发现;

相似文献

中文文献
外文文献
专利

1. 基于分类的中文微博热点话题发现方法研究 [J] . 郑飞 ,张蕾 . 信息网络安全 . 2014,第009期
2. 基于LDA模型的中文微博热点话题发现 [J] . 谈成访 ,汪材印 ,张亚康 . 宿州学院学报 . 2014,第004期
3. 基于Hadoop的微博热点话题发现的聚类算法 [J] . 彭玉青 ,高红灿 ,张媛媛 . 软件 . 2016,第010期
4. 基于智慧校园平台的热点话题发现方法研究 [J] . 胡海燕 . 科教导刊-电子版（中旬） . 2016,第012期
5. 一种基于词语能量值变化的微博热点话题发现方法研究 [J] . 林思娟 ,林柏钢 ,许为 . 信息网络安全 . 2015,第010期
6. 基于分类的中文微博热点话题发现方法研究 [C] . ZHENG Fei ,郑飞 ,ZHANG Lei . 第29次全国计算机安全学术交流会 . 2014
7. 中文微博新词与热点话题发现技术研究 [A] . 梁韬 . 2015

基于Hadoop的中文微博热点话题发现方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅