【24h】

Performance Evaluation of Apriori Algorithm on a Hadoop Cluster

机译:Hadoop集群对APRIORI算法的性能评估

获取原文

摘要

Frequent Itemset Mining is a well-known concept in data sciences. If we feed frequent itemset miner algorithms with large datasets they become resource hungry fast as their search space explodes. This problem is even more apparent when we try to use them on Big Data. Recent advances in parallel programming provides good solutions to deal with large datasets but they present their own problems when we try to modify existing data mining algorithms for the new paradigms. The Apriori-algorithm is a classic solution for mining frequent item-sets. In this paper, we provide a parallel implementation of the Apriori algorithm for the Hadoop platform. We introduce a method to measure the performance of the distributed algorithm. In our experimental results we find choke points in the algorithm and provide resolutions.
机译:频繁的项目集挖掘是数据科学中的众所周知的概念。 如果我们使用大型数据集馈送频繁的项目集矿物算法,它们将在其搜索空间爆炸时快速成为饥饿的资源。 当我们尝试在大数据上使用它们时,此问题更加明显。 并行编程的最新进展提供了处理大型数据集的良好解决方案,但是当我们尝试修改新的范例的现有数据挖掘算法时,他们呈现自己的问题。 APRiori-Algorithm是挖掘频繁项目集的经典解决方案。 在本文中,我们提供了Hadoop平台的APRiori算法的并行实现。 我们介绍一种测量分布式算法性能的方法。 在我们的实验结果中,我们在算法中发现了Choke点并提供了分辨率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号