基于MapReduce的分布式闭频繁模式发现方法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着用户需求和网络的不断发展,人类社会积累的知识、数据急剧增加。如何从海量的事务数据中发现用户感兴趣的规则、有用的知识一直是数据挖掘领域研究者面临的一大难题,而这正是本课题研究希望解决的问题。由于关联规则挖掘领域计算量大,I/O交互集中的特点,原有的串并行方法在解决问题时都存在着一定的缺陷。本课题的研究目的就是改进现有的并行频繁模式挖掘算法使其能够突破现有算法的局限性。
　　本课题围绕着海量并行频繁模式发现问题,展开了深入研究,主要研究成果可归纳为以下几个方面:
　　本文在对现有串并行频繁模式挖掘方法进行了大量调研和深入分析基础上，归纳总结了各方法的优缺点;在MapReduce并行计算框架下,把频繁闭项集挖掘的优化策略引入挖掘过程中,为困扰研究者多年的海量数据下低支持度阀值的频繁模式发现问题提出了一种有效的解决方案,其剪枝、项集合并、项跳过等改进策略有效地优化了并行挖掘过程,提升了频繁模式发现算法的性能。
　　本文在并行闭模式发现的基础上进行了进一步的优化,提出一种挖掘中节点运行负载的评价标准,完善了并行集群分组方法,对集群分组方法进行了负载均衡的优化改进,避免了快节点等待慢节点运行所带来的性能损耗;深入分析了条件FP-tree的挖掘过程,将FP-Bonsai的α?剪枝应用于并行挖掘条件FP-tree过程中,有效简化了条件FP-tree的结构,使算法性能有了进一步的提升;引入了并行闭规则生成优化方法,完善了算法处理的全过程。
　　基于以上研究成果,本文设计并实现了并行闭频繁模式发现原型系统。系统包括预处理、频繁闭项集发现、闭规则产生、用户界面展示等四个模块,涵盖了并行频繁模式发现的全过程,服务于本课题的研究中,提供一个全面覆盖关联规则挖掘研究的实验平台。

著录项

作者
姜冰;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名徐晓飞;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
分布式闭频繁模式; 挖掘算法; 优化策略; 并行集群分组; 负载均衡; 关联规则;

相似文献

中文文献
外文文献
专利

1. MRClose：一种基于MapReduce的并行闭频繁项集挖掘算法 [J] . 胡娟 ,肖文 . 电子技术与软件工程 . 2017,第022期
2. 基于MapReduce的频繁闭项集挖掘算法改进 [J] . 付婷婷 ,杨世平 . 微型机与应用 . 2015,第024期
3. 基于频繁项集挖掘最大频繁项集和频繁闭项集 [J] . 姜晗 ,贾泂 ,徐峰 . 计算机工程与应用 . 2008,第028期
4. 基于频繁模式发现的时间序列异常检测方法 [J] . 李海林 ,邬先利 . 计算机应用 . 2018,第011期
5. 一种基于Close模式发现用户频繁访问路径的方法 [J] . 陈敏 ,苗夺谦 . 计算机工程 . 2007,第008期
6. 基于频繁概念格的序列模式发现研究 [C] . 孙莹 ,胡学钢 . 第四届中国Rough集与软计算学术研讨会 . 2004
7. 时间序列中的知识发现：基于频繁模式发现的分类和聚类方法研究 [A] . 万里 . 2009

基于MapReduce的分布式闭频繁模式发现方法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅