基于Hadoop的关联规则挖掘算法分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的发展和互联网领域的革新，大数据研究已经成为热点问题。关联规则在寻找数据的关联性起到了非常重要的作用，是数据挖掘中的一种重要研究方法。其核心问题是如何获取频繁集并据此找出不同项目的相关关系。Hadoop作为云计算最为核心的分布式计算框架，集高效性，可扩展性，低成本等优点于一身，已经成为大数据最佳计算模式之一。
　　本文以经典关联规则算法Apriori和Fp-Growth为基础，在分析其Hadoop并行化运行优缺点的基础上，提出了Apriori的Hadoop并行化的改进算法。同时，将Fp-Growth的Hadoop并行化算法应用于搜索引擎主要研究内容如下：⑴对于 Apriori算法在事务压缩、减少扫描次数、简化候选集生成方面进行改进。提出了以元素“0”和“1”表示事务的布尔矩阵模型，引入权值维度，压缩了相同事务的矩阵规模。动态地进行剪枝，以矩阵的“与”运算作为候选集合生成的计算方法。将改进算法结合Hadoop框架进行并行化实现，实验表明该算法适合大规模数据挖掘，具有良好的伸缩性与有效性。⑵基于FP-Growth的Hadoop并行化算法和搜索引擎的原理，对用户行为进行分析，设计出了改进后算法在搜索引擎的应用场景，实现了Fp-Growth的Hadoop并行算法对搜狗实验室的web分析日志的挖掘。实验表明满足支持度的查询词和点击链接频繁集在日志中普遍存在，并且随着Hadoop节点数的增加，算法性能将得到大幅提高。

著录项

作者
黄剑;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科应用数学
授予学位硕士
导师姓名李明奇;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
云计算系统; 数据挖掘; 关联规则; 程序语言;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop物联网数据挖掘的算法分析与应用 [J] . 陈娟 . 计算机时代 . 2018,第006期
2. 智能城市大数据中基于Hadoop的关联规则挖掘研究 [J] . 王其凯 . 电子质量 . 2021,第012期
3. 基于Hadoop的关联规则挖掘算法研究 [J] . 田建勇 . 电脑编程技巧与维护 . 2020,第007期
4. 基于Hadoop的多维关联规则挖掘算法研究及应用 [J] . 杨青 ,张亚文 ,张琴 . 计算机工程与科学 . 2019,第012期
5. 一种基于Hadoop的关联规则挖掘算法 [J] . 丁勇 ,朱长水 ,武玉艳 . 计算机科学 . 2018,第0z2期
6. 一种基于Hadoop的试验数据关联规则挖掘算法 [C] . 吴沛霖 ,何枫 ,仲宇 . 中国宇航学会计算机应用专业委员会2015年度技术交流会 . 2015
7. 基于Hadoop平台的数据挖掘分类算法分析与研究 [A] . 李正杰 . 2016

基于Hadoop的关联规则挖掘算法分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅