声明
摘要
例图目录
列表目录
缩略语
第一章 绪论
1.1 引言
1.2 研究背景与选题意义
1.3 国内外研究现状
1.4 论文的研究内容及章节安排
第二章 网络数据并行处理系统相关技术综述
2.1 引言
2.2 聚类算法相关技术
2.2.1 相似度度量
2.2.2 k-means聚类算法
2.2.4 k-means++聚类算法
2.3 聚类算法评价指标
2.3.1 内部评价指标
2.3.2 外部评价指标
2.4 Hadoop分布式平台
2.4.1 HDFS分布式文件系统
2.4.2 MapReduce分布式计算框架
2.4.3 资源管理系统YARN
2.4.4 Spark分布式计算框架
2.5 本章小结
第三章 Spark相关性能优化研究
3.1 引言
3.2 开发过程中相关性能优化研究
3.2.1 尽量避免使用shuffle类算子
3.2.2 对多次使用的RDD进行持久化
3.3 shuffle性能优化研究
3.3.1 MapReduce shuffle
3.3.2 Spark shuffle
3.4 本章小结
第四章 基于Spark平台的k-means算法研究
4.1 引言
4.2 克洛斯卡尔算法
4.3 基于克洛斯卡尔算法改进的k-means算法
4.4 基于克洛斯卡尔算法和谷本距离改进的k-means算法
4.5 本章小结
第五章 基于Hadoop平台的网络数据并行处理系统设计与实现
5.2.1 硬件环境
5.2.2 软件环境
5.2.3 Hadoop平台的搭建
5.3 网络数据处理系统的实现
5.3.1 网络数据获取模块
5.3.2 聚类模型模块
5.3.3 聚类模型应用模块
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
致谢
参考文献
附录