首页> 中文学位 >Hadoop中作业调度算法的研究
【6h】

Hadoop中作业调度算法的研究

代理获取

目录

声明

第1章 绪 论

1.1 研究背景及其现状

1.2 研究现状

1.3 研究内容

1.4 本文的组织结构

第2章 Hadoop平台及技术

2.1 Hadoop平台分析

2.2 Hadoop平台调度算法研究

2.3 本章小结

第3章 基于多队列和轮转的MQWR算法

3.1 Hadoop调度框架

3.2 异构环境下资源调度的问题和改进

3.3 区分作业类型

3.4 动态调整节点资源数量

3.5 MQWR调度算法

3.6 本章小结

第4章 基于作业时间和指数平滑的TMF调度算法

4.1 Hadoop基础算法及存在的问题

4.2 改进的思路

4.3 TMF算法思想

4.4 TMF算法执行过程

4.5本章小结

第5章 实验与分析

5.1 实验基准和实验环境

5.2 MQWR算法性能测试

5.3 TMF算法性能测试

5.4本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

展开▼

摘要

Hadoop是一个分布式计算的解决方案,随着互联网的快速发展,数字新一代开始崛起,人们的消费生活模式也跟随着不断改变,电子商务和社交网络开始成为人们生活中重要的组成部分,与此同时庞大的数据量也随着领域的发展产生出来。在Hadoop平台上能编写应用,这些应用能运行在分布式系统上,可以用来处理规模比较大的数据。本文深入分析了Hadoop调度算法研究的的近况,对于Hadoop调度算法的一些问题,例如执行效率低下、资源利用率不高和无法适应异构环境进行了研究。
  首先,对Hadoop算法FIFO和作业分类算法的优缺点进行了详尽的分析,并具体针对单队列资源利用率低下和不能适应异构环境的问题进行了改进。把作业划分成不同队列,然后根据作业的截止时间分配不同的时间片轮流执行不同队列里面的作业,提出了基于多队列和轮转的Hadoop调度算法。该算法提高了集群效率和资源利用率。
  其次,对 Hadoop原生算法Fair和基于任务时间的算法的优缺点进行了详细的分析,并具体针对小作业任务的“饥饿”问题和系统资源利用率低的问题进行了改进。该算法根据以下方法动态的估计作业的剩余执行时间,首先计算集群环境下任务以前的执行率,然后用指数平滑预估作业在下一次执行中的执行率。估计剩余时间后对Map和Reduce阶段二者的差值进行分析,对作业进行不同的排序,提出基于任务时间和指数平滑的调度算法。该算法解决了小作业饥饿及资源效率低的问题。
  最后,搭建Hadoop运行环境,实现了MQWR算法和TMF算法。并且把这两个算法与Fair调度算法和Task Schedule Deadline调度算法对比,说明本文提出的算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号