首页> 中文学位 >基于HADOOP平台的并行关联规则算法研究
【6h】

基于HADOOP平台的并行关联规则算法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题研究背景及意义

1.1.1 课题研究的背景

1.1.2 课题研究意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 本文组织结构

第二章 Hadoop云计算平台

2.1 Hadoop简介

2.2 HDFS分布式文件系统

2.2.1 HDFS系统架构

2.2.2 HDFS文件读取

2.2.3 HDFS特性

2.3 MapReduce并行计算框架

2.3.1 MapReduce编程模型

2.3.2 MapReduce特性

2.3.3 Map Reduce示例

2.4 本章小结

第三章 关联规则与Apriori算法

3.1 数据挖掘定义及流程

3.2 关联规则挖掘概念

3.3 Apriori算法介绍

3.3.1 Apriori算法描述

3.3.2 Apriori算法实例

3.3.3 Aprori算法改进

3.4 基于Hadoop平台的Apriori算法实现

3.4.1 并行Apriori算法实现方案

3.4.2 并行Apriori算法设计

3.5 本章小结

第四章 基于Hadoop平台的并行关联规则算法改进

4.1 基于Hadoop和矩阵的Apriori算法改进

4.1.1 算法并行改进策略

4.1.2 MPApriori算法的具体设计

4.1.3 算法设计实现

4.1.4 算法实例分析

4.2 实验结果与分析

4.2.1 实验条件

4.2.2 实验的过程

4.2.3 实验结果及分析

4.3 本章小结

第五章 总结与展望

5.1 全文总结

5.2 展望未来

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

在数据挖掘研究领域中,关联规则算法因其具有目的明确、实现灵活、应用范围广泛等特点成为挖掘数据深层价值的重要手段。在大数据时代,如何能够以更低的成本以及更高效准确的从海量数据中挖掘出有价值的信息,以帮助决策者更加科学的制定决策已成为数据挖掘领域的新课题。
  云计算的出现为海量数据挖掘带来了新的解决方案。Hadoop是由Apache基金会开源实现的一种云计算技术,它的关键技术是Hadoop分布式文件系统和MapReduce并行编程框架。在深入研究传统数据挖掘算法的基础上,如何结合新的框架对传统据挖掘算法进行改进使之能够处理海量数据挖掘问题,是数据挖掘领域的一个热点。
  本文首先详细研究了云计算、Hadoop的分布式文件系统HDFS以及MapReduce并行编程框架。然后,对数据挖掘和关联规则概念进行了阐述,并对关联规则中的经典的Apriori算法进行了详细的分析研究,并在此基础之上给出了算法的一个具体实例,然后将Apriori算法结合Hadoop平台进行并行化实现。在以上研究内容的基础之上,通过引入矩阵的数据结构,根据矩阵的特点以及Apriori算法的性质提出了基于Hadoop和矩阵的关联规则挖掘改进算法。最后,搭建Hadoop的实验环境,用java编程语言完成改进算法的代码编写并调试,通过采用不同的实验数据集和实验条件对算法进行测试。通过实验结果的对比分析,得出改进算法具有更好的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号