基于Key值解决MapReduce中Reduce负载不均衡算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

MapReduce计算框架以其简洁的编程模型处理日志、文档、报表和其他复杂的数据集分析，可是由于MapReduce计算框架采用的是默认的哈希一次分区机制，在处理数据量很大的时候，就容易导致数据划分不均匀出现数据倾斜的问题。虽然开源Hadoop系统为用户提供了自定义分区的方法，但是在数据复杂而且没有规律的情况下，是不清楚输入的数据是怎么分布的，这样也就不能够写出用户自己定义的分区方法，所以MapReduce计算过程中数据倾斜问题还是很难被避免的。
　　为了解决数据划分的不均衡，本文提出了一种将分区向Reducer指派时按照键值对中的key的种类进行分区的方法。这种分区的思想是:
　　①将传统分区的分区号与Reducer任务号一对一的关系转换为多对一的关系;
　　②通过分区筛选算法和分配算法确定分区号和Reducer的对应关系。以达到解决MapReduce任务中数据分布倾斜导致reduce负载不均衡的问题。
　　通过实验，对比分析实验的结果。分析试验结果表明key分区策略能有效的平衡各个Reduce任务的输入规模，很大程度上改进了数据在Reduce上倾斜的问题，提高了整个作业任务的执行效率。

著录项

作者
罗永青;
展开▼
作者单位

安徽理工大学;

展开▼
授予单位安徽理工大学;
学科计算机技术
授予学位硕士
导师姓名吴明晖;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
MapReduce计算框架; Reduce负载不均衡; 数据分布; Key值解; 分区筛选;

相似文献

中文文献
外文文献
专利

1. MapReduce编程模型中key值二次分类算法 [J] . 刘帅 . 计算机时代 . 2018,第003期
2. 基于反馈调度的MapReduce负载均衡分区算法研究 [J] . 刘寒梅 ,韩宏莹 . 信息通信 . 2015,第010期
3. 基于负载均衡的MapReduce后备任务上限自适应算法 [J] . 李燕歌 ,张治斌 ,王娜 . 计算机应用研究 . 2015,第001期
4. MapReduce模型中基于直方图的数据均衡算法 [J] . 周渭博 ,钟勇 ,王阳 . 西北工业大学学报 . 2018,第003期
5. 分布式系统中基于移动代理的负载均衡模型和负载更新算法的研究 [J] . 杨永健 ,鞠九滨 ,陈亚军 . 计算机工程与应用 . 2005,第017期
6. 基于压力反馈的MapReduce负载均衡策略 [C] . LI Hang-chen ,李航晨 ,QIN Xiao-lin . 2014湖北省计算机学会学术年会 . 2014
7. 基于MapReduce的频繁模式挖掘算法并行化及负载均衡的研究 [A] . 晏依 . 2019

基于Key值解决MapReduce中Reduce负载不均衡算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅