首页> 中文期刊> 《太原科技大学学报》 >一种基于Spark的高效增量频繁模式挖掘算法

一种基于Spark的高效增量频繁模式挖掘算法

         

摘要

大规模且快速增长的数据集处理给频繁项集挖掘(FIM)带来新的挑战.尽管现有一些方法具有出色的可伸缩性,但不能充分利用了原始数据集的计算结果,且给分布式数据集处理带来了过多的通信开销.针对该问题问题,基于Spark平台提出一种高效的并行增量FIM算法(FCFPIM).FCFPIM结合完全压缩频繁模式树(FCFP-Tree)结构实现增量频繁模式的有效挖掘,当存在数据更新时,无需再重新遍历和挖掘原始数据集,充分利用了原始数据集的挖掘结果;并设计了有效的RDD转换策略以实现频繁模式的有效并行挖掘;另外,为进一步提高并行挖掘效率,引入了相关性分组策略来平衡集群计算节点之间的负载.大量的实验结果表明,FCFPIM可以很好地扩展并有效地处理大规模动态数据集.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号