首页> 中国专利> 一种基于Spark的Apriori并行化方法、系统及装置

一种基于Spark的Apriori并行化方法、系统及装置

摘要

本发明公开了一种基于Spark的Apriori并行化方法、系统及装置,方法包括获取事务数据库,根据事务数据库生成候选集和频繁集;将候选集和频繁集分发至集群进行合并操作以及可配置的剪枝操作;根据合并操作和剪枝操作的结果,生成满足最小支持度的频繁集。系统包括预获取模块、处理模块和生成模块。装置包括存储器和处理器。本发明通过将频繁集分发至集群进行合并操作提高了候选集的生成速度以及效率;同时,本发明通过采用可配置的剪枝操作,提高了频繁集的生成速度并降低了网络开销。本发明作为一种基于Spark的Apriori并行化方法、系统及装置,可广泛应用于数据挖掘领域。

著录项

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号