首页> 中文期刊> 《微型电脑应用》 >FP-growth算法改进与分布式Spark研究

FP-growth算法改进与分布式Spark研究

         

摘要

频繁项集的挖掘一直是数据挖掘领域重要的研究方向之一.FP-growth算法作为无剪枝算法的代表算法被广泛应用于事务数据集的挖掘中.但是FP-growth算法对计算和数据集的规模是敏感的,一方面构建FP-tree过程中查找操作作为主要耗时操作时间复杂度较高,另一方面在数据集的横向或纵向维度较大时将使挖掘效率降低甚至失败.解决以上问题的高效而广泛使用的策略是降低搜索时间复杂度和应用分布式计算.提出了一种基于Spark框架和改进FP-growth算法的分布式DFP算法,试验结果表明,相比于基于MapReduce框架的PFP算法、基于Spark框架和原始FP-growth算法实现的PFP SPK算法,DFP算法更加高效,集群和数据伸缩性更好.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号