首页> 中文学位 >基于Hadoop的中文微博热点话题发现方法研究
【6h】

基于Hadoop的中文微博热点话题发现方法研究

代理获取

目录

声明

摘要

1.1研究背景和意义

1.1.1微博的发展与特点

1.1.2微博热点话题发现的意义

1.2国内外研究现状

1.3论文结构

1.4本章小结

第2章相关工作与技术综述

2.1 Hadoop平台

2.1.1分布式文件系统HDFS

2.1.2 MapReduce分布式计算

2.2微博爬虫爬取数据

2.2.1网络爬虫

2.2.2新浪微博API接口

2.3话题检测与跟踪技术

2.3.1话题检测

2.3.2话题跟踪

2.4中文分词技术

2.5微博文本特征的提取

2.5.1文本表示模型

2.5.2 TF-IDF算法

2.5.3特征降维

2.6相似度计算与聚类算法

2.6.1文本相似度计算

2.6.2聚类算法

2.7本章小结

第3章微博文本建模

3.1微博网络爬虫

3.1.1微博文本的特点

3.1.2定制微博爬虫

3.1.3微博文本预处理

3.2微博热度值计算

3.2.1基于微博元数据的热度计算

3.2.2基于时间变化的微博热度计算

3.3 LDA微博建模

3.3.1 LDA生成模型建模

3.3.2吉布斯采样算法

3.3.3使用吉布斯采样算法求解LDA

3.3.4 LDA潜在主题数的确定

3.4基于MapReduce的并行吉布斯采样算法

3.4.1基于MapReduce的并行吉布斯采样算法的设计

3.4.2基于MapReduce的并行吉布斯采样算法的具体实现

第4章微博热点话题发现

4.1微博文本相似度的计算

4.2文本聚类算法的比较及选取

4.2.1聚类算法评价标准

4.2.2分布式文本聚类算法选择

4.3.1黑洞算法简介

4.3.2黑洞算法寻优过程

4.3.3黑洞算法框架

4.3.4 BHK-means算法

4.4基于MapReduce的并行BHK-means算法

4.4.2基于MapReduce的并行BHK-means算法流程

4.4.3基于MapReduce的并行BHK-means算法的具体实现

4.5基于LDA与微博热度的簇内话题词提取

4.5.1话题词提取要求

4.5.2簇内话题词提取方法

4.6本章小结

第5章系统实现与实验分析

5.1微博热点话题发现系统

5.1.1系统实现平台

5.1.2系统实现流程

5.1.3系统运行参数

5.1.4微博热点话题发现系统运行结果

5.2实验评价方法

5.2.1热点微博提取效率评价

5.2.2聚类算法精确度评价方法

5.2.3算法并行化评价方法

5.3 LDA建模实验结果与性能评估

5.3.1 LDA建模对聚类质量的提升

5.3.2并行吉布斯采样算法加速比实验

5.4 BHK-means算法实验结果与性能评估

5.4.2并行BHK-means算法加速比实验

5.5话题词提取实验

5.6本章小结

第6章总结与展望

6.1论文工作总结

6.2后续工作展望

参考文献

致谢

展开▼

摘要

当今世界,微博已经成为人与人信息共享与沟通的重要平台,截止到2016年3月底,微博的日活跃用户达到1.2亿,很多对社会有重大影响力的新闻事件都是从微博中传播出来。微博热点话题的发现对政府机关引导舆情走向、企业管理者的决策、个人的日常生活都具有重要的意义。为了从海量的微博数据中准确地提取出热点话题,本文从以下几个方面进行了研究。 首先,本文实现了中文微博的定制爬虫,使用模拟登录技术以及用户关注的爬取策略从种子用户开始解析其关注用户的数据,之后进行爬取、解析与存储微博数据。对于存储后的微博数据,进行繁体字的转化以及根据微博数据的类型进行相应的预处理操作。使用定制微博爬虫爬取数据作为实验的分析对象与系统实现的数据源。 针对微博中存在大量与新闻热点无关数据的问题,本文提出了基于微博元数据的热度计算与基于时间变化的热度计算方法来选择热点微博。首先利用点赞数、转发数、评论数、微博发表用户的关注度计算热度值;其次利用词频变化率加权tf-idf的方法计算微博的热度。 其次,对微博进行LDA建模,使用得到的微博主题模型进行微博文本向量的表示,解决传统方法表示微博文本的高维度与数据稀疏问题。针对吉布斯采样算法收敛速度慢的问题,实现了基于MapReduce的并行吉布斯采样算法。 最后,提出了BHK-means算法用于微博文本聚类,使用黑洞算法寻找K-means算法的全局最优初始聚类中心点,解决K-means算法容易陷入局部最优的问题。针对海量微博数据的处理效率问题,提出了基于MapReduce的BHK-means算法。最后,提出了一种基于LDA与微博热度加权的方法从热点微博簇中提取出话题词。 实验结果表明,本文的微博热度计算方法选择的微博中,转发微博的比率明显升高,证明了该方法的有效性;LDA建模较传统的文本表示模型会获得更好的聚类效果,基于MapReduce的吉布斯采样算法求解LDA具有良好的加速比;BHK-means算法具有较高的聚类精度,基于MapReduce的BHK-means算法具有良好的加速比;基于LDA与微博热度加权的方法可以提取出较为准确的热点话题词。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号