首页> 中文学位 >Hadoop平台任务调度算法的研究与改进
【6h】

Hadoop平台任务调度算法的研究与改进

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 研究工作

1.3 论文结构安排

第2章 相关理论知识

2.1 Hadoop平台背景

2.1.1 Hadoop的起源及简介

2.1.2 Hadoop的发展及现状

2.2 Hadoop的总体结构与模块简介

2.2.1 Hadoop MapReduce编程模型

2.2.2 Hadoop分布式文件系统HDFS

2.3 Hadoop平台值得研究的主要问题

第3章 Hadoop平台的任务调度算法分析

3.1 任务调度流程

3.1.1 作业的提交

3.1.2 作业的初始化

3.1.3 任务的分配

3.1.4 任务的执行

3.1.5 任务进度和状态的更新

3.1.6 任务的完成

3.1.7 任务的失败

3.2 现有的任务调度算法

3.2.1 FIFO调度算法

3.2.2 公平调度算法(Fair Scheduler)

3.2.3 计算能力调度算法(Capacity Scheduler)

3.2.4 推测式任务调度算法(Speculative Task)

3.3 Hadoop现有的任务调度算法的实验对比

第4章 改进的推测式任务调度算法

4.1 Hadoop调度器的不足

4.1.1 Hadoop原有调度器的缺陷

4.1.2 LATE调度算法的缺陷

4.2 落后任务判定算法的改进

4.2.1 慢任务判定算法的改进

4.2.2 任务的剩余时间估计算法的改进

4.3 慢节点判定算法的改进

4.4 基于数据局部性的任务调度算法

第5章 实验设计及结果分析

5.1 实验环境及实验数据

5.1.1 实验平台的选择及配置

5.1.2 评估方法及实验数据

5.2 LOL调度器的性能评估

5.2.1 系统中存在慢节点

5.2.2 系统中不存在慢节点

5.3 LOL调度器中各参数对性能的影响

5.3.1 SpeculativeCap对LOL调度器的影响

5.3.2 SlowTaskThreshold对LOL调度器的影响

5.3.3 SlowTrackerThreshold对LOL调度器的影响

第6章 结论与展望

6.1 论文总结

6.2 研究展望

参考文献

致谢

展开▼

摘要

云计算是一种新兴的并行计算技术,在学术界和商业界都取得了巨大的发展,已有大量的云计算系统被投入使用。现有的Hadoop平台在异构环境下的调度效率低下,任务响应时间长,浪费系统资源。因此,通过研究现有的Hadoop平台的任务调度算法,发现其不足并改进,对改善Hadoop平台的整体性能和提高系统资源利用率有着很重要的意义。
  本文首先介绍了云计算的发展背景及现状、Hadoop平台的基本架构和核心技术。然后对Hadoop平台的任务调度技术进行了深入研究,在详细分析了四种现有的任务调度算法,包括FIFO算法、公平调度算法(Fair Scheduler)、计算能力调度算法(Capacity scheduler)和推测式任务调度算法(Speculative Task)的主要思想、设计思路、优点以及不足之处的基础上,给出了一种改进的推测式任务调度算法。在改进算法中,通过统计在工作节点上记录的信息来得到Map和Reduce任务各个阶段的时间比例,并对慢的工作节点详细区分,考虑节点的数据局部性,高效地在快节点上启动落后任务的备份任务,从而使任务的响应时间更短,提高系统资源的利用率。
  最后通过搭建实验环境,对算法进行编程实现和实验验证,并利用现有的几种调度算法与改进的调度算法进行比较,来评估改进的算法的性能。实验结果表明改进算法能够更加合理地利用系统资源,有效的调度任务,在异构集群中性能更为良好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号