声明
第一章 绪 论
1.1 选题背景及意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 论文的研究内容
1.4 论文的组织结构
第二章 相关理论研究
2.1 大数据处理平台及技术
2.1.1 Hadoop 平台
2.1.2 分布式文件存储系统HDFS
2.2.3 分布式处理系统MapReduce
2.2.4 资源管理系统YARN
2.2.5 Hadoop生态系统
2.2 微博社交网络舆情分析技术
2.2.1 微博数据采集技术
2.2.2 微博信息的预处理技术
2.2.3 文本聚类分析技术
2.2.4 微博舆情分析技术
2.3 本章小节
第三章 基于Hadoop的微博舆情分析的并行化研究
3.1 文本分布式预处理
3.2 特征选择的分布式计算
3.3 Mahout向量化计算
3.4 Mahout聚类算法
3.5 本章小节
第四章 基于MapReduce的K-means聚类算法的实现与改进
4.1 K-means算法思想
4.2 K-means算法步骤
4.3 基于MapReduce的K-means算法的并行化研究
4.4 基于MapReduce的K-means算法的改进与优化
4.4.1 MapReduce算法的优化
4.4.2 基于MapReduce算法的改进
4.5 本章小节
第五章 实验与分析
5.1 实验环境与配置
5.1.1 实验环境
5.1.2 Hadoop平台的搭建
5.1.3 Mahout的安装和配置
5.2 实验数据与评价指标
5.2.1 实验数据
5.2.2 聚类算法的评价指标
5.3 数据预处理
5.4 测试结果与分析
5.4.1 聚类质量的比较
5.4.2 算法串行和并行比较
5.4.3 热点生成
5.4.4 正负情感分析
5.5 本章小结
第六章 展望与总结
6.1 论文总结
6.2 研究展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
河北工业大学;