基于MapReduce的分布式关联规则挖掘算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在数据挖掘的研究范畴中,关联规则挖掘算法是至关重要的一个分支。关联规则算法因其目的明确、实现灵活、求解方便有效、应用范围广泛等特点成为挖掘数据深层价值的重要手段。它的应用在互联网飞速发展的今天拥有更加突出研究意义。信息化迅速加快的今天,数据呈现出爆炸式的增长,此刻,分布式关联规则算法有了更广阔的发展空间。本文先分析了传统的关联规则算法,随后着重研究了分布式条件下的关联规则算法。论文采用目前较为成熟的Hadoop分布式平台,对分布式关联规则算法的改进提出了全新的思路。针对目前基于MapReduce分布式关联规则算法的不足首先引入了全局剪枝策略,提高了算法效率。然后运用频繁矩阵存储的方式减少了内存的消耗。
　　首先,在全面了解关联规则算法背景和研究现状之后,针对现有算法无法处理大规模数据以及分布式数据的缺点,应用Hadoop平台实现对规则和知识的发现的过程。应用MapReduce计算模型可以有效地解决数据分块处理运用多台计算机协同处理海量数据的问题。使得以前难以解决的问题变得简单。
　　其次,针对现有的MapReduce关联规则算法,提出了大规模数据分布式处理的MPAOR(Map Apriori OneReduce Algorithm)算法,本算法在实现了已有的MPAriori(Map Reduce Apriori Algorithm)算法的基础上加入了全局剪枝的技术,使得计算频繁项集的计数量再一次减少,同时论文把频繁矩阵的存储方式加入到分布式关联规则算法中,提出了MapReduce计算模型的频繁矩阵存储的MFMDAP(Map Frequentmatrix Distributed Apriori Algorithm)算法。实验表明论文提出的算法提高了算法的效率,并且节省了内存的使用量,这有利于大粒度数据的计算和存储。在实验中验证了算法的有效性。
　　最后,对全局剪枝的分布式频繁项集算法(MPAOR)和基于频繁矩阵的算法(MFMDAP)的优点和不足进行说明,总结了论文研究的成果和以后的研究方向。

著录项

作者
范燕燕;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科计算机技术
授予学位硕士
导师姓名董红斌,潘悦;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
数据挖掘; 分布式关联规则算法; Hadoop平台; 全局剪枝策略; MapReduce计算模型;

相似文献

中文文献
外文文献
专利

1. 基于MapReduce计算模型的并行关联规则挖掘算法研究综述 [J] . 肖文 ,胡娟 ,周晓峰 . 计算机应用研究 . 2018,第001期
2. 基于网格分布式关联规则挖掘系统模型与算法研究 [J] . 李丹 ,车国海 . 大众科技 . 2008,第004期
3. 基于星型网络的分布式关联规则挖掘算法研究 [J] . 黄贤英 ,王柯柯 ,范伟 . 计算机科学 . 2007,第012期
4. 基于抽样的分布式约束性关联规则挖掘算法研究 [J] . 李宏 ,陈松乔 ,杜剑峰 . 计算机科学 . 2006,第007期
5. 分布式并行关联规则挖掘算法研究 [J] . 王智钢 ,王池社 ,马青霞 . 计算机应用与软件 . 2013,第010期
6. 分布式环境下约束性关联规则的挖掘算法研究 [C] . 杜剑峰 ,李宏 ,陈松乔 . 第二十届全国数据库学术会议 . 2003
7. 基于分布式计算的关联规则挖掘算法研究与应用 [A] . 郭亮 . 2020

基于MapReduce的分布式关联规则挖掘算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅