一种基于Spark的高效增量频繁模式挖掘算法

荀亚玲; 孙娇娇; 毕慧敏

首页> 中文期刊> 《太原科技大学学报》 >一种基于Spark的高效增量频繁模式挖掘算法

一种基于Spark的高效增量频繁模式挖掘算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

大规模且快速增长的数据集处理给频繁项集挖掘(FIM)带来新的挑战.尽管现有一些方法具有出色的可伸缩性,但不能充分利用了原始数据集的计算结果,且给分布式数据集处理带来了过多的通信开销.针对该问题问题,基于Spark平台提出一种高效的并行增量FIM算法(FCFPIM).FCFPIM结合完全压缩频繁模式树(FCFP-Tree)结构实现增量频繁模式的有效挖掘,当存在数据更新时,无需再重新遍历和挖掘原始数据集,充分利用了原始数据集的挖掘结果;并设计了有效的RDD转换策略以实现频繁模式的有效并行挖掘;另外,为进一步提高并行挖掘效率,引入了相关性分组策略来平衡集群计算节点之间的负载.大量的实验结果表明,FCFPIM可以很好地扩展并有效地处理大规模动态数据集.

著录项

来源
《太原科技大学学报》 |2020年第6期|440-448|共9页
作者
荀亚玲; 孙娇娇; 毕慧敏;
展开▼
作者单位

太原科技大学计算机科学与技术学院太原030024;

太原科技大学计算机科学与技术学院太原030024;

太原科技大学计算机科学与技术学院太原030024;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
频繁模式挖掘; 增量数据挖掘; Spark; 并行计算; 负载均衡;

相似文献

中文文献
外文文献
专利

1. PFPonCanTree:一种基于MapReduce的并行频繁模式增量挖掘算法 [J] . 肖文 ,胡娟 ,周晓峰 . 计算机工程与科学 . 2018,第001期
2. 一种基于FP-树的最大频繁模式增量更新挖掘算法 [J] . 李忠哗 ,任春龙 ,何丕廉 . 计算机应用与软件 . 2007,第005期
3. 基于Spark的并行频繁模式挖掘算法 [J] . 曹博 ,倪建成 ,李淋淋 . 计算机工程与应用 . 2016,第020期
4. 一种基于混合搜索的高效Top-K最频繁模式挖掘算法 [J] . 敖富江 ,杜静 ,陈彬 . 国防科技大学学报 . 2009,第002期
5. 一种基于频繁模式有向无环图的数据流频繁模式挖掘算法 [J] . 任家东 ,王倩 ,王蒙 . 燕山大学学报 . 2011,第002期
6. 一种高效的数据流频繁模式挖掘算法究 [C] . 张广路 ,雷景生 . 2010年中国通信国际会议 . 2010
7. 基于SPARK的海量数据频繁模式挖掘算法研究 [A] . 赵焱德 . 2016

一种基于Spark的高效增量频繁模式挖掘算法

摘要

著录项

相似文献

相关主题

期刊订阅