首页> 中文学位 >基于Hadoop的关联规则挖掘算法分析
【6h】

基于Hadoop的关联规则挖掘算法分析

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 研究背景

1.2 国内外研究状况

1.3 研究的内容

1.4 本论文的结构安排

第二章 Hadoop技术与关联规则理论

2.1 Hadoop相关的基本概念

2.2 Hadoop的核心组件

2.3 关联规则的相关概念

2.4 Aproiri算法实例描述

2.5 Fp-Growth算法实例描述

2.6 本章小结

第三章 基于Hadoop的Apriori算法分析与改进

3.1 AprioriTMC算法的基本思想

3.2 AprioriTMC算法的描述

3.3 AprioriTMC算法的伪代码

3.4 AprioriTMC算法的实例分析

3.5 AprioriTMC算法的性能分析

3.6 AprioriTMC算法的并行策略

3.7 AprioriTMC算法的并行性能分析

3.8 本章小结

第四章 基于Hadoop的Fp-Growth算法的分析与应用

4.1 基于Hadoop的Fp-Growth算法设计思想

4.2 搜索引擎的原理描述

4.3 基于关联规则的搜索引擎用户行为分析

4.4 关联规则在搜索引擎的应用场景设计

4.5 关联规则在搜索引擎日志挖掘伪代码

4.6 本章小结

第五章 实验设计与分析

5.1 实验环境建立

5.2 并行AprioriTMC算法的实验与分析

5.3 并行Fp-growth算法在搜素引擎应用实验与分析

5.4 本章小结

第六章 总结与展望

6.1总结

6.2展望

致谢

参考文献

攻读硕士学位期间取得的成果

展开▼

摘要

随着信息技术的发展和互联网领域的革新,大数据研究已经成为热点问题。关联规则在寻找数据的关联性起到了非常重要的作用,是数据挖掘中的一种重要研究方法。其核心问题是如何获取频繁集并据此找出不同项目的相关关系。Hadoop作为云计算最为核心的分布式计算框架,集高效性,可扩展性,低成本等优点于一身,已经成为大数据最佳计算模式之一。
  本文以经典关联规则算法Apriori和Fp-Growth为基础,在分析其Hadoop并行化运行优缺点的基础上,提出了Apriori的Hadoop并行化的改进算法。同时,将Fp-Growth的Hadoop并行化算法应用于搜索引擎主要研究内容如下:⑴对于 Apriori算法在事务压缩、减少扫描次数、简化候选集生成方面进行改进。提出了以元素“0”和“1”表示事务的布尔矩阵模型,引入权值维度,压缩了相同事务的矩阵规模。动态地进行剪枝,以矩阵的“与”运算作为候选集合生成的计算方法。将改进算法结合Hadoop框架进行并行化实现,实验表明该算法适合大规模数据挖掘,具有良好的伸缩性与有效性。⑵基于FP-Growth的Hadoop并行化算法和搜索引擎的原理,对用户行为进行分析,设计出了改进后算法在搜索引擎的应用场景,实现了Fp-Growth的Hadoop并行算法对搜狗实验室的web分析日志的挖掘。实验表明满足支持度的查询词和点击链接频繁集在日志中普遍存在,并且随着Hadoop节点数的增加,算法性能将得到大幅提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号