Hadoop平台下关联规则算法并行化研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

关联规则算法用来描述事物之间的联系和挖掘事物之间的相关性,其核心是通过统计数据项获得频繁项集,被广泛应用于分类设计、捆绑式销售、仓储货存配置等领域,关联规则的挖掘已经成为数据挖掘中一个非常重要的研究方向。近年来,随着网络技术、信息技术和数据库技术的迅猛发展,尤其是互联网的广泛应用,需要分析和管理的数据迅速增多,在挖掘大型数据库中的关联规则数据时,其处理对象多为海量数据和高维数据类型,而传统的关联规则算法如:Apri-ori,Partition,FP-growth,CD,DD,CaD等,无论是运算能力还是并行化效率都不能满足人们的要求,所以如何用更好的数据处理模式来降低运算时间、提高对海量数据的处理能力,已经成为亟待解决的问题。
　　云计算平台Hadoop是由Apache软件基金会开发的一个开源的、可以更容易开发和并行处理大规模数据的分布式计算平台,是Google公司云计算三大技术GFS、Map Reduce和Big table的模仿者,它完全使用Java开发,可以广泛运行在多种软硬件平台上,其对海量数据的存储能力和并行计算能力为解决海量数据挖掘问题提供了一种新的解决方案。
　　本文对云计算和Hadoop平台进行了介绍,对Hadoop的组成部分HDFS,M-apReduce和HBase进行了深入的研究,给出了Map Reduce并行编程模型的工作原理,深入分析了传统关联规则算法的计算过程及存在的一些缺点。针对串行算法执行效率低,时间复杂度高以及传统并行计算模式不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop平台实现并行关联规则算法的设计方法,首先对传统关联规则Apriori算法进行了改进,并给出了改进算法在Hadoop平台的MapReduce编程模型上的执行流程;然后在Hadoop平台上对改进后的算法进行了单机测试和集群测试,实验结果表明,改进后的算法具有较高的执行效率,良好的加速比和可移植性。

著录项

作者
郝晓飞;
展开▼
作者单位

内蒙古科技大学;

展开▼
授予单位内蒙古科技大学;
学科计算机技术
授予学位硕士
导师姓名谭跃生;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
关联规则算法; Hadoop平台; 并行计算; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop平台FP-Growth算法并行化研究与实现 [J] . 戴伟敏 . 宁夏大学学报（自然科学版） . 2020,第001期
2. Hadoop平台上K-means算法的并行化研究与实现 [J] . 杨娟 . 兰州文理学院学报：自然科学版 . 2016,第005期
3. Hadoop平台上K-means算法的并行化研究与实现 [J] . 杨娟 . 甘肃联合大学学报（自然科学版） . 2016,第005期
4. Hadoop平台上Apriori算法并行化研究与实现 [J] . 郝晓飞 ,谭跃生 ,王静宇 . 计算机与现代化 . 2013,第003期
5. 云平台下关联规则算法并行化研究与实现 [J] . 戴伟敏 . 哈尔滨师范大学自然科学学报 . 2017,第005期
6. 一种基于Hadoop平台的海量Web数据挖掘系统研究与实现 [C] . ZHU Xiang ,朱湘 ,JIN Song-chang . 第九届中国通信学会学术年会 . 2012
7. 基于HADOOP平台的并行关联规则算法研究 [A] . 马连灯 . 2017

Hadoop平台下关联规则算法并行化研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅