声明
摘要
第一章 绪论
1.1 课题研究背景
1.2 国内外研究现状
1.2.1 分布式数据处理
1.2.2 数据清洗
1.2.3 孤立点检测
1.3 论文主要工作
1.4 论文组织结构
第二章 数据处理相关技术
2.1 云计算
2.1.1 云计算的关键技术
2.1.2 云计算服务模式
2.1.3 云计算平台
2.2 分布式处理
2.3 Hadoop平台简介
2.3.1 HDFS文件系统
2.3.2 MapReduce编程模型
2.3.3 HBase数据库
2.4 聚类分析
2.4.1 聚类方法简介
2.4.2 K-Means算法与K-Medoids算法
2.4.3 距离度量
2.5 孤立点检测技术
2.6 本章小结
第三章 数据转换平台总体设计
3.1 基于大数据的分析评估系统简介
3.1.1 系统结构简介
3.1.2 各功能层分析说明
3.2 数据转换平台设计
3.3 数据转换规则引擎
3.4 孤立点检测模块
3.4.1 模块设计思路
3.4.2 模块整体方案设计
3.4.3 K-Medoids聚类算法
3.5 本章小结
第四章 功能模块的设计与实现
4.1 数据抽取模块详细设计与实现
4.1.1 数据抽取配置
4.1.2 数据抽取配置文件解析
4.1.3 抽取数据存入HDFS
4.2 数据处理模块详细设计与实现
4.2.1 数据处理配置
4.2.2 数据处理配置文件的解析
4.2.3 数据处理的并行化算法
4.3 数据存储模块详细设计与实现
4.3.1 Mysql数据库存储
4.3.2 HBase数据库存储
4.4 孤立点检测模块详细设计
4.4.1 K-Medoids算法并行化思路
4.4.2 基于MapReduce的K-Medoids算法流程
4.4.3 孤立点检测算法的并行化
4.5 孤立点检测模块的实现
4.5.1 K-Medoids算法并行化实现
4.5.2 孤立点检测算法的实现
4.6 数据转换平台功能测试
4.6.1 实验环境
4.6.2 数据转换规则引擎功能测试
4.6.3 孤立点检测模块功能测试
4.7 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献