声明
摘要
第1章 绪论
1.1 课题背景及研究意义
1.2 聚类理论
1.2.1 聚类的定义及过程
1.2.2 相似性度量
1.2.3 常用的聚类算法
1.2.4 聚类结果检验
1.3 国内外研究现状
1.4 主要研究内容
第2章 云计算环境下海量数据聚类的相关技术
2.1 云计算
2.1.1 云计算概述
2.1.2 云计算关键技术
2.2 MapReduce介绍
2.2.1 MapReduce编程模型及运行原理
2.2.2 Hadoop MapReduce实现
2.3 k-means聚类算法
2.3.1 k-means算法概述
2.3.2 k-means算法存在的问题
2.3.3 k-means的MapReduce实现
2.4 k-means++和scalable k-means++
2.5 本章小结
第3章 并行可扩展的k-means++聚类算法
3.1 引言
3.2 并行可扩展的k-means++聚类算法
3.2.1 PSKMI算法实现
3.2.2 PSKM++理论分析
3.2.3 PSKMI算法的优化
3.3 实验及结果分析
3.3.1 实验环境设置
3.3.2 实验结果及分析
3.4 本章小节
第4章 快速的scalable k-means++聚类算法
4.1 引言
4.2 快速的scalable k-means++聚类算法
4.2.1 MRSKMI实现
4.2.2 过采样修正方法
4.2.3 优化策略
4.3 实验及结果分析
4.3.1 实验环境设置
4.3.2 实验结果及分析
4.4 本章小结
第5章 基于抽样估计的数据划分方法
5.1 引言
5.2 同步MaD和Reduce
5.3 解决方法概述
5.4 抽样
5.5 数据划分方法
5.5.1 簇组合
5.5.2 簇分割组合
5.6 应用
5.7 实验及结果分析
5.7.1 实验环境设置
5.7.2 实验结果及分析
5.8 本章小结
第6章 总结与展望
6.1 工作总结
6.2 研究展望
参考文献
攻读学位期间公开发表论文
致谢
作者简介