首页> 中文学位 >基于Hadoop2.0的数据挖掘算法并行化研究
【6h】

基于Hadoop2.0的数据挖掘算法并行化研究

代理获取

目录

摘要

第一章 绪论

1.1 论文的研究背景及意义

1.2 国内外研究现状

1.3 本论文的主要工作

1.4 本论文的组织结构

第二章 数据挖掘与云计算

2.1 数据挖掘

2.1.1 数据挖掘概述

2.1.2 决策树分类算法

2.1.3 k-means聚类算法

2.2 云计算

2.2.1 云计算定义

2.2.2 云计算核心技术

2.2.3 基于云计算平台的数据挖掘系统

2.3 本章小结

第三章 Hadoop平台架构研究

3.1 Hadoop平台概述

3.1.1 Hadoop总体介绍

3.1.2 Hadoop核心模块与相关项目介绍

3.2 Hadoop的分布式文件系统HDFS

3.2.1 HDFS的基本架构

3.2.2 HDFS的HA方案

3.3 Hadoop的资源管理系统YARN

3.3.1 YARN架构简介

3.3.2 YARN的工作流程

3.3.3 YARN支持的多计算框架

3.4 本章小结

第四章 基于MapReduce的决策树算法并行实现

4.1 SPRINT决策树算法

4.1.1 算法简介

4.1.2 基本步骤

4.2 离线式计算框架MapReduce

4.2.1 编程模型

4.2.2 资源管理与作业控制

4.2.3 数据引擎

4.3 SPRINT算法的并行实现

4.3.1 并行化方案设计

4.3.2 基于MapReduce框架的算法具体实现

4.4 本章小结

第五章 基于Spark框架的k-means聚类算法并行实现

5.1 canopy聚类算法

5.1.1 算法简介

5.1.2 基本步骤

5.2 内存式计算框架Spark

5.2.1 Spark与MapReduce的异同

5.2.2 Spark的核心特点

5.2.3 Spark实现模式

5.3 Cank-means算法的并行实现

5.3.1 算法并行化方案设计

5.3.2 基于Spark框架的算法并行化实现

5.4 本章小结

第六章 实验环境与结果分析

6.1 实验环境

6.2 实验结果与分析

6.2.1 SPRINT算法并行化实验

6.2.2 Cank-means算法并行化实验

6.2.3 MapReduce框架与Spark框架性能对比

6.3 本章小结

工作总结与展望

参考文献

攻读学位期间申请的专利和发表论文

声明

致谢

展开▼

摘要

当今社会正在经历一场重大的时代变革,以互联网行业为代表的各行各业正被铺天盖地的庞大数据所覆盖,尤其是社交网络、电子商务和移动通信将人们带入了一个以“PB”级为单位的数据信息新时代。在这个大规模生产、分享和应用数据的时代里,以“云计算”技术为核心结合了数据挖掘、人工智能等一系列技术的整体方案成为了我们解决大数据难题、发掘数据价值、征服数据海洋的“巨大动力”。
  Hadoop平台是Apache Software Foundation旗下的一个开源分布式系统。它的软件库是一个允许使用简单的编程模型对集群计算机内的大数据集进行分布式处理的框架,它设计成可以从单一服务器纵向扩展到成千上万的服务器,而其中的每个服务器都提供本地计算及存储。它不依靠硬件来提供高可用性,软件库本身具有能够检测和处理应用层的错误的能力,因此,可以在计算机集群的顶层提供高可用的服务,其中的每个节点都允许失效。近几年来在互联网巨头的带动下,Hadoop逐渐被互联网、金融、银行、教育、政府机关等众多行业所接受、尝试和应用,成为在大数据处理方面呼声最高、应用最广的云计算平台。
  决策树分类算法和k-means聚类算法是数据挖掘领域中应用最广泛的两种挖掘算法,能够将原始数据中隐含的、未知的、有用的信息和知识提取出来,让人们更好地利用数据所带来的巨大价值。本课题立足于已有的云计算平台,设计了基于Hadoop2.0的数据挖掘算法并行化的方法,通过将串行的挖掘算法移植到Hadoop平台上,以此来解决传统的数据挖掘技术面对海量数据无法进行有效挖掘的难题。
  本论文首先介绍了研究内容的两大技术背景:云计算和数据挖掘,结合两者提出了基于云计算平台的数据挖掘算法并行化的思想。然后,深入地研究和探讨了云计算平台Hadoop2.0的架构原理和内部实现细节。在此基础上,本论文着重地分析了两大类型的数据挖掘算法:决策树分类算法和k-means聚类算法,并根据它们的优化算法:SPRINT算法和canopy算法,设计了基于Hadoop2.0平台的并行化方案,详细地描述了算法并行化实现的具体步骤。最后,通过实验来进一步验证基于Hadoop2.0平台的数据挖掘算法并行化的性能效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号