首页> 中文学位 >作业感知的Hadoop集群网络调度方法研究
【6h】

作业感知的Hadoop集群网络调度方法研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景和意义

1.2 国内外研究现状与分析

1.2.1 网络拓扑

1.2.2 网络流信息获取

1.2.3 网络调度

1.3 论文主要工作

1.4 论文组织架构

2 背景知识和相关技术分析

2.1 Hadoop应用框架

2.2 shuffle阶段网络流特点

2.3 实时监控机制inotify

2.4 NS2网络模拟平台

2.5 本章小结

3 应用层网络流预测

3.1 可行性分析

3.2 网络流信息的存储位置

3.3 预测代理

3.4 网络预测信息的收集

3.5 网络流的标记

3.6 本章小结

4 基于作业的网络流优先级调度

4.1 优先级调度的优点

4.2 同作业同优先级分配方式和网络资源分类

4.3 胖树拓扑

4.3.1 胖树定义

4.3.2 胖树特点

4.4 路径管理

4.4.1 spray路径管理方法

4.4.2 flow-based路径管理方法

4.5 队列管理

4.6 容错性

4.6.1 agg层与core层间链路失效

4.6.1 edge层与agg层间链路失效

4.7 本章小结

5 实验验证

5.1 实验设置

5.2 Hadoop shuffle阶段网络流模型

5.2.1 shuffle阶段数据传输模式

5.2.2 shuffle阶段网络流模型

5.3 实验结果与分析

5.3.1 单路径下实验结果

5.3.2 多路径下实验结果

5.3.3 背景流量情境下对比实验

5.3.4 调度命令延迟情境下对比实验

5.3.5 链路失效情境下对比实验

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

近年来,数据呈爆炸式增长,数据中心已经成为处理大数据的核心基础设施。为了能够快速有效地分析和提取数据中有价值的信息,研究人员提出了分布式计算框架,如Hadoop、Dryad等。这些框架将大数据划分成多个数据分片,利用集群中数以千计的机器并行的处理每个数据分片,最后通过网络传输分片的结果并汇总成最终的结果。提高集群利用率,减少运行应用的完成时间是每个数据中心的共同目标。
  在数据中心中,大数据应用框架如Hadoop在不同的运算阶段会产生大量的网络传输,已经成为影响应用性能的重要因素。通过对网络流的调度可以提高应用的性能。传统的方法大多数从网络流的角度进行调度,并没有考虑网络流之间的相关性。本文以Hadoop作为具体的实例,从应用层获得shuffle阶段网络流的信息,并根据shuffle阶段网络流的特点采用基于作业的优先级调度方法对数据流进行调度。
  首先,我们观察到关于shuffle阶段网络流的信息存储在Hadoop应用框架的临时文件和日志文件中。因此我们可以从从应用层来获得网络流信息。通过对这些文件的实时监控和分析,我们可以获得网络流信息和相互依赖关系。
  其次,我们利用全局视图,采用基于作业的优先级调度方法优化shuffle阶段网络传输。关键在于为所属相同作业的网络流分配相同的优先级。采用优先级调度策略,高优先级的网络流优先获得网络资源。通过这种优先级分配方式,使shuffle阶段一个作业的网络流能够尽快地一起完成,避免因为某一个网络流的延迟导致作业长时间的等待。我们从路径管理和交换机端的缓冲队列管理两个角度出发,为作业分配网络资源。在Fat-Tree拓扑下,我们提出flow-based和spray两种利用等价多路径的方法,实现网络上的负载均衡。在交换机端,我们设置多个优先级队列,提出队列管理方法。数据包在到达交换机时根据分配的优先级,加入到相应的优先级队列中。
  最后,在NS2网络模拟平台上模拟我们的调度方法进行大量对比实验。实验结果表明,基于作业的优先级调度方法能够减少shuffle阶段作业的平均完成时间,而且对于最高优先级的作业能够明显减少其网络传输的完成时间。同时,为了使模拟实验结果更加接近真实网络情况,我们设置背景流量情境、调度延迟情景和链路失效情景,在不同情景下运行对比实验。实验结果表明基于作业的优先级调度依然具有优化shuffle阶段网络流的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号