基于Spark的分布式频繁项集挖掘算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自20世纪80年代以来，尤其是互联网技术的兴起，导致了海量数据的产生。如何自动、充分利用这些海量数据，顺利解决海量数据中存在的“数据丰富，知识困乏”问题，成为一个迫切需要解决的难题，数据挖掘技术正是在这样的背景下孕育而生的。
　　频繁项集挖掘技术是数据挖掘研究课题中一个很重要的研究基础，它是关联规则分析、序列项集、相关性分析等许多重要数据挖掘任务的基石。随着大数据时代的到来，如何快速、有效地从海量数据中挖掘出有用的信息就变得尤为重要了。近几年，大数据处理引擎Spark的出现，为海量数据的高效处理提供了一个新的解决思路。本文针对频繁项集挖掘技术，充分利用Spark计算引擎的优势，研究基于Spark的分布式频繁项集挖掘算法，主要工作如下：
　　首先，设计一个数据分区策略，使算法能够达到数据独立。针对基于多处理器系统和Hadoop集群的频繁项集挖掘算法通信负载高的问题，通过本文的分区策略，将原始数据进行转换，使得集群中各个节点的数据彼此相互独立，进而可以并行地挖掘频繁项集，从而避免了节点之间的通信，提高了算法的效率。
　　其次，提出均衡分配任务的方法，使集群达到负载均衡。针对传统频繁项集挖掘算法没有负载均衡能力的问题，本文根据原始数据集的划分，通过对数据的重分区和任务的合理分配，将子任务合理地分配到各个计算节点，使集群能够达到负载均衡。
　　然后，研究和选择合适的大数据处理平台，设计分布式频繁项集挖掘算法。针对基于多处理器系统的频繁项集挖掘算法没有容错机制，而基于Hadoop集群的频繁项集挖掘算I/O开销大，不适合迭代计算的问题，我们采用了Apache Spark大数据快速处理引擎来设计分布式频繁项集挖掘算法，从而使算法在高效处理、可伸缩性、负载均衡和容错机制上拥有着优秀的表现。
　　接着，提出两个优化策略以优化本文提出的DFPS算法，使得它在面对大规模计算集群的时候能够充分利用集群的资源。针对本文提出的DFPS算法运行在大规模集群上可能会出现的并行度不够高、没有充分利用集群的计算能力的问题，本文提出了用户自定义和集群自适应两种优化策略来完善DFPS算法。通过将任务划分为更加细小的子任务这种方式，提高了算法的并行度，充分利用了集群的计算能力，使得算法的效率更高。
　　最后，将本文提出的DFPS算法应用到实际的科研项目中。为了验证DFPS算法的实用性和性能，我们将它应用在《SAP大数据技术平台的搭建和技术研究》项目中。项目包括大数据平台的研究设计和搭建、HANA与 R语言的集成，以及基于大数据平台的相关技术研究。DFPS算法是本项目研究的数据挖掘技术之一，在项目的实施过程中，检验了DFPS算法的实用性和挖掘效率。

著录项

作者
陈少总;
展开▼
作者单位

东华大学;

展开▼
授予单位东华大学;
学科软件工程
授予学位硕士
导师姓名乐嘉锦;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
频繁项集挖掘; 关联规则; Spark计算; Hadoop集群; DFPS算法;

相似文献

中文文献
外文文献
专利

1. 基于Spark的分布式大数据分析算法研究 [J] . 宋泊东 ,张立臣 ,江其洲 . 计算机应用与软件 . 2019,第001期
2. 基于Spark框架的大数据局部频繁项集挖掘算法设计 [J] . 王黎 ,吕殿基 . 微型电脑应用 . 2021,第004期
3. 基于Spark的并行频繁项集挖掘算法 [J] . 张素琪 ,孙云飞 ,武君艳 . 计算机应用与软件 . 2019,第002期
4. 基于Spark的投影树频繁项集挖掘算法 [J] . 冯兴杰 ,潘轩 . 计算机工程与设计 . 2018,第008期
5. 基于Spark框架的FP-Growth大数据频繁项集挖掘算法 [J] . 邵梁 ,何星舟 ,尚俊娜 . 计算机应用研究 . 2018,第010期
6. 基于SPARK的两阶段频繁项集挖掘算法 [C] . . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 基于Spark的并行频繁项集挖掘算法研究及应用 [A] . 杜斐阳 . 2018

基于Spark的分布式频繁项集挖掘算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅