首页> 中文学位 >基于大数据的数据转换平台的设计与实现
【6h】

基于大数据的数据转换平台的设计与实现

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题研究背景

1.2 国内外研究现状

1.2.1 分布式数据处理

1.2.2 数据清洗

1.2.3 孤立点检测

1.3 论文主要工作

1.4 论文组织结构

第二章 数据处理相关技术

2.1 云计算

2.1.1 云计算的关键技术

2.1.2 云计算服务模式

2.1.3 云计算平台

2.2 分布式处理

2.3 Hadoop平台简介

2.3.1 HDFS文件系统

2.3.2 MapReduce编程模型

2.3.3 HBase数据库

2.4 聚类分析

2.4.1 聚类方法简介

2.4.2 K-Means算法与K-Medoids算法

2.4.3 距离度量

2.5 孤立点检测技术

2.6 本章小结

第三章 数据转换平台总体设计

3.1 基于大数据的分析评估系统简介

3.1.1 系统结构简介

3.1.2 各功能层分析说明

3.2 数据转换平台设计

3.3 数据转换规则引擎

3.4 孤立点检测模块

3.4.1 模块设计思路

3.4.2 模块整体方案设计

3.4.3 K-Medoids聚类算法

3.5 本章小结

第四章 功能模块的设计与实现

4.1 数据抽取模块详细设计与实现

4.1.1 数据抽取配置

4.1.2 数据抽取配置文件解析

4.1.3 抽取数据存入HDFS

4.2 数据处理模块详细设计与实现

4.2.1 数据处理配置

4.2.2 数据处理配置文件的解析

4.2.3 数据处理的并行化算法

4.3 数据存储模块详细设计与实现

4.3.1 Mysql数据库存储

4.3.2 HBase数据库存储

4.4 孤立点检测模块详细设计

4.4.1 K-Medoids算法并行化思路

4.4.2 基于MapReduce的K-Medoids算法流程

4.4.3 孤立点检测算法的并行化

4.5 孤立点检测模块的实现

4.5.1 K-Medoids算法并行化实现

4.5.2 孤立点检测算法的实现

4.6 数据转换平台功能测试

4.6.1 实验环境

4.6.2 数据转换规则引擎功能测试

4.6.3 孤立点检测模块功能测试

4.7 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

致谢

参考文献

展开▼

摘要

随着计算机技术的迅猛发展,人们所接触的数据量呈现爆炸式增长。数据的不断增长在给人们带来巨大价值的同时,也给人们带来了巨大的挑战,海量数据处理工作已经成为当今研究的热点问题。针对数据预处理方面的具体问题,传统的算法无论是从效率上,还是从计算复杂度上都无法满足海量数据的处理需要。云计算的发展为大数据的处理提供了新的解决方案。云计算技术通过使存储和计算能力均匀的分布到集群中的多个存储和计算节点上,从而实现了对超大数据集的巨大的存储和计算能力。同时,各个企业研发各自的云平台用于数据处理、分析数据已经成为主流趋势。
  本文在对海量数据处理进行具体研究的基础上,提出了可定制的数据转换平台方案来简化数据处理。为了保证数据质量,需要对数据集中的孤立点进行检测。因传统算法在聚类过程中时间复杂度较高,本文提出了一种将传统聚类算法并行化设计的孤立点检测方案。
  在数据规则引擎设计方案中,设计了“动作流”的方式来抽象化数据处理动作,允许用户根据实际需要自定义数据处理的流程与方式。设计并实现了“输入-处理-输出”语句形式的配置文件来代替传统的SQL语句和代码编写,减少了人力的耗费。在孤立点检测方案中,将传统的K-Medoids聚类算法进行并行化设计,使得K-Medoids算法满足处理大数据集的需要,同时设计并实现了基于距离和的孤立点检测方法,使得用户无需进行参数设置就可进行数据集中孤立点的检测。通过实验证明,改进的孤立点检测算法大大提升了孤立点检测的效率和准确性。
  本文的数据转换规则引擎方案适合于海量数据的处理工作,节约了大量的代码编写时间,并设计实现了基于距离和的孤立点检测算法进行孤立点的检测处理,具有较好的实用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号