首页> 中文学位 >Hadoop平台下关联规则算法并行化研究与实现
【6h】

Hadoop平台下关联规则算法并行化研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

引言

1 绪论

1.1 课题背景

1.2 国内外研究现状

1.3 课题研究的目的及意义

1.4 论文的主要工作和组织结构

2 云计算与Hadoop平台概述

2.1 云计算介绍

2.2 Hadoop平台介绍

3 关联规则算法与并行计算概述

3.1 关联规则算法的定义

3.2 关联规则算法的分类

3.3 并行计算介绍

4 关联规则算法的MapReduce并行化改进与实现

4.1 并行数据挖掘策略

4.2 各种关联规则算法的对比分析

4.3 关联规则算法MapReduce并行化的实现方法

4.4 实验环境与实验工具

4.5 实验数据集的选取

4.6 实验与实验结果分析

结论

参考文献

在学研究成果

致谢

展开▼

摘要

关联规则算法用来描述事物之间的联系和挖掘事物之间的相关性,其核心是通过统计数据项获得频繁项集,被广泛应用于分类设计、捆绑式销售、仓储货存配置等领域,关联规则的挖掘已经成为数据挖掘中一个非常重要的研究方向。近年来,随着网络技术、信息技术和数据库技术的迅猛发展,尤其是互联网的广泛应用,需要分析和管理的数据迅速增多,在挖掘大型数据库中的关联规则数据时,其处理对象多为海量数据和高维数据类型,而传统的关联规则算法如:Apri-ori,Partition,FP-growth,CD,DD,CaD等,无论是运算能力还是并行化效率都不能满足人们的要求,所以如何用更好的数据处理模式来降低运算时间、提高对海量数据的处理能力,已经成为亟待解决的问题。
  云计算平台Hadoop是由Apache软件基金会开发的一个开源的、可以更容易开发和并行处理大规模数据的分布式计算平台,是Google公司云计算三大技术GFS、Map Reduce和Big table的模仿者,它完全使用Java开发,可以广泛运行在多种软硬件平台上,其对海量数据的存储能力和并行计算能力为解决海量数据挖掘问题提供了一种新的解决方案。
  本文对云计算和Hadoop平台进行了介绍,对Hadoop的组成部分HDFS,M-apReduce和HBase进行了深入的研究,给出了Map Reduce并行编程模型的工作原理,深入分析了传统关联规则算法的计算过程及存在的一些缺点。针对串行算法执行效率低,时间复杂度高以及传统并行计算模式不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop平台实现并行关联规则算法的设计方法,首先对传统关联规则Apriori算法进行了改进,并给出了改进算法在Hadoop平台的MapReduce编程模型上的执行流程;然后在Hadoop平台上对改进后的算法进行了单机测试和集群测试,实验结果表明,改进后的算法具有较高的执行效率,良好的加速比和可移植性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号