首页> 中文学位 >Hadoop平台下基于时间与负载均衡的任务调度优化
【6h】

Hadoop平台下基于时间与负载均衡的任务调度优化

代理获取

目录

第一个书签之前

Hadoop平台下基于时间与负载均衡的任务调度优化

Hadoop平台下基于时间与负载均衡的任务调度优化

摘要

Abstract

第1章 绪论

1.1课题研究背景及意义

1.2国内外研究现状

1.2.1小作业的研究现状

1.2.2负载均衡的研究现状

1.2.3调度算法的研究现状

1.3 本论文主要研究内容

1.4 论文结构安排

1.5 本章小结

第2章 Hadoop相关技术

2.1 云计算技术

2.1.1云计算概念

2.1.2云计算的分类

2.1.3云计算的主要技术

2.2 Hadoop平台

2.2.1 Hadoop简介

2.2.2 Hadoop的生态系统

2.2.3 分布式文件系统HDFS

2.2.4 MapReduce编程模型

2.3 Hadoop作业调度机制

2.3.1Hadoop作业调度流程

2.3.2Hadoop常见的作业调度算法

2.4本章小结

第3章 基于时间的Reduce任务调度

3.1 MapReduce的执行过程

3.2小作业的Reduce“饥饿”问题

3.3基于时间的Reduce任务调度

3.3.1任务时间评估模型

3.3.2 算法描述

3.4 本章小结

第4章 基于抽样与贪心算法的负载均衡

4.1 MapReduce的数据倾斜问题

4.2抽样估计

4.2.1 抽样类型

4.2.2 抽样分析

4.3基于贪心算法的分区策略

4.3.1分区概述

4.3.2 基于贪心算法的分区策略介绍

4.3.3 基于贪心算法的分区策略算法实现

4.4本章小结

第5章 实验结果与分析

5.1 实验环境的搭建

5.1.1 环境配置

5.1.2 软硬件环境

5.2实验结果分析

5.2.1 小作业的执行效率和资源利用率实验及结果

5.2.2 数据倾斜问题及实验

5.3 本章小结

结 论

致 谢

参考文献

作者简介

攻读硕士期间发表论文和参加科研情况说明

展开▼

摘要

随着“互联网+”的提出,各大中小企业都积极响应号召,对企业进行转型,而这些企业每天都会产生海量的数据。海量数据的存储以及计算处理迫切需要需要一种新型的计算方式,云计算在这种情况下应运而生。而Hadoop平台是目前应用最广泛的云计算平台,也是专家学者们对大数据进行研究使用最多的平台。MapReduce是一种分布式计算框架,是Hadoop对大数据进行分布式计算的核心组件。MapReduce的性能直接影响着Hadoop集群的性能,因此对MapReduce作业调度算法进行研究,对提高Hadoop集群的性能有着重要的意义。而现有的调度算法中,对Reduce阶段的调度略显简单,主要存在着以下两方面的缺陷。他们分别是是小作业的Reduce阶段执行效率不高和数据倾斜的问题。 本文通过对MapReduce执行过程以及其调度算法的研究,提出了一种基于时间与负载均衡的Reduce任务调度算法(task time and load balance,TTALB)。该算法在作业开始执行Map阶段的时候,采用合理的抽样方法对Map阶段产生的key进行抽样,并根据Map阶段的用时等相关信息,对Map阶段的剩余完成时间进行预估,通过对Map阶段剩余完成时间的比较,对等待队列中的Reduce任务进行重排序,从而提高小作业的Reduce执行效率。另一方面,在抽样的基础上,得到key的频次分布,进而估计出数据分布情况,然后根据贪心算法把这些数据均分到Reduce节点上,从而解决数据倾斜的问题,实现负载均衡。 最后,本文算法通过与Hadoop自带的公平调度算法和分位数分区算法的实验结果进行对比,表明了本文提出的算法不仅能提高小作业Reduce的执行效率,而且还能更好地实现负载均衡,降低作业的执行时间。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号