声明
摘要
第1章 绪论
1.1 研究目的及意义
1.2 国内外发展现状
1.3 本文研究的主要内容
第2章 相关技术研究与分析
2.1 Hadoop云计算平台
2.1.1 系统架构概述
2.1.2 分布式文件系统HDFS
2.1.3 分布式计算框架MapReduce
2.2 数据挖掘及聚类分析
2.2.1 数据挖掘技术
2.2.2 聚类分析定义及改进方向
2.2.3 聚类分析方法
2.3 本章小结
第3章 聚类分析系统的设计与实现
3.1 系统简介
3.1.1 开发环境介绍
3.1.2 总体架构概述
3.2 底层环境搭建
3.2.1 Hadoop集群部署
3.2.2 环境配置与服务搭建
3.3 中间逻辑层实现
3.3.1 数据管理模块
3.3.2 算法管理模块
3.3.3 资源监控模块
3.3.4 日志分析模块
3.4 对外服务层实现
3.5 本章小结
第4章 K-Means并行算法的改进
4.1 传统K-Means算法
4.1.1 算法概念
4.1.2 算法公式
4.1.3 算法执行流程
4.1.4 算法存在的问题
4.2 K-Means算法改进方案
4.2.1 并行随机采样
4.2.2 样本距离计算并行化
4.2.3 数据对象聚类并行化
4.3 改进的K-Means并行算法实现
4.4 聚类分析系统环境下的算法实验
4.4.1 聚类分析系统实验环境介绍
4.4.2 收敛速度比较
4.4.3 正确率比较
4.4.4 初始化采样速率比较
4.4.5 集群环境加速比验证
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的学术论文
致谢
哈尔滨理工大学;