声明
摘要
1.1研究背景和意义
1.1.1微博的发展与特点
1.1.2微博热点话题发现的意义
1.2国内外研究现状
1.3论文结构
1.4本章小结
第2章相关工作与技术综述
2.1 Hadoop平台
2.1.1分布式文件系统HDFS
2.1.2 MapReduce分布式计算
2.2微博爬虫爬取数据
2.2.1网络爬虫
2.2.2新浪微博API接口
2.3话题检测与跟踪技术
2.3.1话题检测
2.3.2话题跟踪
2.4中文分词技术
2.5微博文本特征的提取
2.5.1文本表示模型
2.5.2 TF-IDF算法
2.5.3特征降维
2.6相似度计算与聚类算法
2.6.1文本相似度计算
2.6.2聚类算法
2.7本章小结
第3章微博文本建模
3.1微博网络爬虫
3.1.1微博文本的特点
3.1.2定制微博爬虫
3.1.3微博文本预处理
3.2微博热度值计算
3.2.1基于微博元数据的热度计算
3.2.2基于时间变化的微博热度计算
3.3 LDA微博建模
3.3.1 LDA生成模型建模
3.3.2吉布斯采样算法
3.3.3使用吉布斯采样算法求解LDA
3.3.4 LDA潜在主题数的确定
3.4基于MapReduce的并行吉布斯采样算法
3.4.1基于MapReduce的并行吉布斯采样算法的设计
3.4.2基于MapReduce的并行吉布斯采样算法的具体实现
第4章微博热点话题发现
4.1微博文本相似度的计算
4.2文本聚类算法的比较及选取
4.2.1聚类算法评价标准
4.2.2分布式文本聚类算法选择
4.3.1黑洞算法简介
4.3.2黑洞算法寻优过程
4.3.3黑洞算法框架
4.3.4 BHK-means算法
4.4基于MapReduce的并行BHK-means算法
4.4.2基于MapReduce的并行BHK-means算法流程
4.4.3基于MapReduce的并行BHK-means算法的具体实现
4.5基于LDA与微博热度的簇内话题词提取
4.5.1话题词提取要求
4.5.2簇内话题词提取方法
4.6本章小结
第5章系统实现与实验分析
5.1微博热点话题发现系统
5.1.1系统实现平台
5.1.2系统实现流程
5.1.3系统运行参数
5.1.4微博热点话题发现系统运行结果
5.2实验评价方法
5.2.1热点微博提取效率评价
5.2.2聚类算法精确度评价方法
5.2.3算法并行化评价方法
5.3 LDA建模实验结果与性能评估
5.3.1 LDA建模对聚类质量的提升
5.3.2并行吉布斯采样算法加速比实验
5.4 BHK-means算法实验结果与性能评估
5.4.2并行BHK-means算法加速比实验
5.5话题词提取实验
5.6本章小结
第6章总结与展望
6.1论文工作总结
6.2后续工作展望
参考文献
致谢
东北大学;