首页> 中文学位 >基于Key值解决MapReduce中Reduce负载不均衡算法
【6h】

基于Key值解决MapReduce中Reduce负载不均衡算法

代理获取

目录

声明

摘要

插图和附表清单

1 绪论

1.1 课题背景及意义

1.1.1 海量数据的产生

1.1.2 研究数据倾斜的意义

1.2 国内外研究状况

1.3 本文主要研究的内容

1.4 文章组织结构安排

2 MapReduce相关基础知识及概述

2.1 Hadoop平台

2.1.1 产生背景

2.1.2 相关组件

2.1.3 Hadoop的应用

2.1.4 作用和意义

2.2 MapReduce介绍

2.2.1 MapReduce简述

2.2.2 MapReduce框架

2.3 理解MapReduce

2.3.1 拓展一个单词计数程序

2.3.2 相同程序在MapReduce中拓展

2.4 数据倾斜

2.4.1 数据倾斜分析

2.4.2 数据倾斜相关解决方法

3 基于Key分区解决数据倾斜问题

3.1 Hadoop默认分区策略

3.2 基于key分区策略在Hadoop上的处理流程

3.3 分区算法

3.4 Key分区策略在Hadoop上的实现

4 实验及结果分析

4.1 环境配置

4.1.1 硬软件环境

4.1.2 集群的网络环境

4.2 实验结果分析

4.2.1 实验评估一

4.2.2 实验评估二

5 总结与展望

参考文献

致谢

作者简介

展开▼

摘要

MapReduce计算框架以其简洁的编程模型处理日志、文档、报表和其他复杂的数据集分析,可是由于MapReduce计算框架采用的是默认的哈希一次分区机制,在处理数据量很大的时候,就容易导致数据划分不均匀出现数据倾斜的问题。虽然开源Hadoop系统为用户提供了自定义分区的方法,但是在数据复杂而且没有规律的情况下,是不清楚输入的数据是怎么分布的,这样也就不能够写出用户自己定义的分区方法,所以MapReduce计算过程中数据倾斜问题还是很难被避免的。
  为了解决数据划分的不均衡,本文提出了一种将分区向Reducer指派时按照键值对中的key的种类进行分区的方法。这种分区的思想是:
  ①将传统分区的分区号与Reducer任务号一对一的关系转换为多对一的关系;
  ②通过分区筛选算法和分配算法确定分区号和Reducer的对应关系。以达到解决MapReduce任务中数据分布倾斜导致reduce负载不均衡的问题。
  通过实验,对比分析实验的结果。分析试验结果表明key分区策略能有效的平衡各个Reduce任务的输入规模,很大程度上改进了数据在Reduce上倾斜的问题,提高了整个作业任务的执行效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号