基于MapReduce的分布式闭频繁模式发现方法研究
RESEARCH ON DISTRIBUTED CLOSET FREQUENT PATTERN MINING BASED ON MAPREDUCE
摘 要
Abstract
目 录
第1章 绪 论
1.1 课题研究背景和意义
1.2 国内外相关研究和综述
1.2.1 串行关联规则挖掘算法
1.2.2 并行关联规则方法研究
1.3 研究问题概述
1.4 本文的结构安排
第2章 FP-GROWTH算法及MapReduce模型综述
2.1 关联规则基本概念
2.2 FP-GROWTH算法的基本概念
2.2.1 串行FP-GROWTH算法
2.2.2 并行FP-GROWTH算法
2.3 MapReduce框架介绍
2.3.1 MapReduce模式与框架简介
2.3.2 MapReduce的容错机制
2.3.3 Hadoop-MapReduce的开源实现
2.4 本章小节
第3章 基于MapReduce的并行闭频繁模式发现
3.1 闭频繁模式挖掘
闭项集定义
闭项集挖掘优化
3.2 并行闭频繁模式发现算法
3.2.1 数据预处理与分片
并行计数
项集分组
并行迭代挖掘
合并
算法总结
3.3 实验与分析
3.3.1 实验数据描述
3.3.2 算法评价指标
3.3.3实验结果分析
3.4 本章小节
第4章 并行闭频繁模式发现方法性能优化
4.1 优化策略
4.1.1 负载均衡的分组策略
4.1.2 基于FP-Bonsai的 剪枝优化
4.1.3 并行闭频繁模式规则生成优化
4.2 实验与分析
4.2.1 实验数据描述
4.2.2 算法评价
4.2.3 实验结果分析
4.3 本章小节
第5章 关联规则挖掘系统的设计与实现
5.1 系统功能与环境
5.1.1 开发意义与功能
5.2系统总体设计
5.3系统主要模块
5.3.1 数据预处理模块
5.3.2 频繁闭模式发现模块
5.3.3 规则生成模块
5.3.4 用户展示模块
5.4 本章小节
结 论
参考文献
哈尔滨工业大学学位论文原创性声明及使用授权说明
致 谢