首页> 外文期刊>Computer science >Multi-pass sorted neighborhood blocking with MapReduce
【24h】

Multi-pass sorted neighborhood blocking with MapReduce

机译:使用MapReduce的多遍排序邻域阻塞

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

Cloud infrastructures enable the efficient parallel execution of data-intensive tasks such as entity resolution on large datasets. We investigate challenges and possible solutions of using the MapReduce programming model for parallel entity resolution using Sorting Neighborhood blocking (SN). We propose and evaluate two efficient MapReduce-based implementations for single- and multi-pass SN that either use multiple MapReduce jobs or apply a tailored data replication. We also propose an automatic data partitioning approach for multi-pass SN to achieve load balancing. Our evaluation based on real-world datasets shows the high efficiency and effectiveness of the proposed approaches.
机译:云基础架构支持高效并行执行数据密集型任务,例如对大型数据集进行实体解析。我们研究使用MapReduce编程模型通过排序邻里阻止(SN)进行并行实体解析的挑战和可能的解决方案。我们建议和评估两种有效的基于MapReduce的单遍和多遍SN实现,这些实现要么使用多个MapReduce作业,要么应用量身定制的数据复制。我们还提出了一种针对多通道SN的自动数据分区方法,以实现负载平衡。我们基于实际数据集的评估显示了所提出方法的高效性和有效性。

著录项

  • 来源
    《Computer science》 |2012年第1期|p.45-63|共19页
  • 作者单位

    Institut fuer Informatik, Fakultaet fuer Mathematik und Informatik, Universitat Leipzig, PF 100920, 04009 Leipzig, Germany;

    Institut fuer Informatik, Fakultaet fuer Mathematik und Informatik, Universitat Leipzig, PF 100920, 04009 Leipzig, Germany;

    Institut fuer Informatik, Fakultaet fuer Mathematik und Informatik, Universitat Leipzig, PF 100920, 04009 Leipzig, Germany;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

    mapreduce; hadoop; cloud computing; entity resolution; blocking; sorted neighborhood;

    机译:减少Hadoop云计算;实体决议;阻塞排序邻里;

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号