首页> 中文期刊> 《计算机学报》 >面向MapReduce的迭代式数据均衡分区策略

面向MapReduce的迭代式数据均衡分区策略

             

摘要

cqvip:MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据均衡分区策略,将每个Mapper节点要处理的数据块细分后以迭代方式循环处理,根据已迭代轮次的微分区分配结果决定当前迭代轮次的微分区分配方案,以不断调整历次迭代产生的数据倾斜,逐步实现数据均衡分区.给出了迭代式数据分区策略的分配时机、分配准则、分配评价模型和分配算法.基于公开的数据集,对迭代式数据均衡分区策略进行了详细测评,结果表明,该策略能够得到更均衡的数据分区结果,当数据集本身倾斜比较显著时,MapReduce整体性能比默认分区策略平均提高了11.1%和19.7%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号