海量数据下的并行频繁项集挖掘算法

敖孟飞; 石鸿雁

首页> 中文期刊>统计与决策 >海量数据下的并行频繁项集挖掘算法

海量数据下的并行频繁项集挖掘算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

文章针对频繁项集挖掘中传统串行Eclat算法面对海量数据时挖掘效率不高的问题,提出一种海量数据下的并行频繁项集挖掘算法,即I-SPEclat算法。首先,对Eclat算法存在的缺陷进行改进,引入图的邻接矩阵作为数据的存储结构,避免了大量的交集运算;其次,利用先验性质对候选项集进行预剪枝和后剪枝,减少无用候选项集的数量,节约存储空间;再次,根据项集的前缀对数据进行划分,平衡每个计算节点的工作负载;最后,将改进的Eclat算法在Spark分布式计算框架上实现并行化。实验结果表明,I-SPEclat算法较已有的改进Eclat算法在时间消耗和内存消耗方面均有减少,且面对不同规模的数据集也有着良好的扩展性。

著录项

来源
《统计与决策》|2022年第18期|48-53|共6页
作者
敖孟飞; 石鸿雁;
展开▼
作者单位

沈阳工业大学理学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;算法理论;
关键词
Eclat算法; Spark框架; 邻接矩阵; 剪枝优化;
入库时间 2022-11-24 05:24:52

相似文献

中文文献
外文文献
专利

1. 云环境下基于二进制编码聚类的并行频繁项集挖掘算法 [J] . 刘博 ,李云 ,张晓斌 . 微电子学与计算机 . 2012,第11期
2. 采用N-list结构的混合并行频繁项集挖掘算法 [J] . 刘卫明 ,张弛 ,毛伊敏 . 计算机科学与探索 . 2022,第1期
3. 基于MapReduce的并行频繁项集挖掘算法研究 [J] . 刘卫明 ,张弛 ,毛伊敏 . 计算机应用研究 . 2021,第003期
4. 基于Spark的并行频繁项集挖掘算法 [J] . 张素琪 ,孙云飞 ,武君艳 . 计算机应用与软件 . 2019,第002期
5. 数据流中闭频繁项集的并行挖掘算法 [J] . 冯忠慧 ,尹绍宏 . 软件工程师 . 2018,第008期
6. 云环境下基于二进制编码聚类的并行频繁项集挖掘算法 [C] . LIU Bo ,刘博 ,LI Yun . 2012年江苏省人工智能学术会议 . 2012
7. 基于频繁项集挖掘的2FP-Forest算法及其并行化处理研究 [A] . 王泽儒 . 2019

海量数据下的并行频繁项集挖掘算法

摘要

著录项

相似文献

相关主题

期刊订阅