首页> 中文期刊> 《计算机技术与发展》 >一种改进的并行关联规则增量更新算法研究

一种改进的并行关联规则增量更新算法研究

         

摘要

传统的基于频繁模式增长的并行关联规则算法在处理动态更新的数据集时,需要把更新后的数据集全部压缩到频繁模式树中,消耗了大量时间和存储空间,且没有充分考虑头表分组过程中组间负载量不同的问题.针对在关联规则的实际挖掘过程中,数据集快速增长所造成的增量更新问题,基于并行频繁模式增长PFP-tree算法,结合Spark分布式并行处理框架,提出一种改进的并行关联规则增量更新算法.在增量更新过程中,为了减少挖掘时间和存储空间,利用已有挖掘结果对新增数据集构建频繁模式树.通过改进头表分组策略,实现了并行挖掘节点之间的负载均衡.实验分析表明,相较于传统的关联增量更新算法,该算法是可行的且具备较高的挖掘效率和可扩展性,适用于动态增长的大数据环境.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号