首页> 中文学位 >异构环境中MapReduce资源调度机制的负载优化方法研究
【6h】

异构环境中MapReduce资源调度机制的负载优化方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 研究意义

1.3 国内外研究现状

1.3.1 Hadoop调度机制研究现状

1.3.2 推测执行策略研究现状

1.4 主要研究内容

1.5 论文的组织结构

2.1 大数据平台概况

2.2 异构环境

2.3 Yarn概述

2.4 MapReduce及其应用

第三章 异构环境中资源感知的自适应推测执行策略研究

3.1 推测执行策略概况

3.1.1 Straggler与推测执行策略

3.1.2 当前主要策略及其不足

3.2 推测执行策略优化

3.2.1 当前任务执行时间预测优化

3.2.2 备份任务执行时间预测优化

3.2.3 资源感知推测执行策略

3.3 实验与性能分析

3.3.1 实验环境

3.3.2 实验数据集

3.3.3 性能评估标准

3.3.4 实验结果与分析

3.4 本章小结

第四章 异构环境中二层资源调度的负载优化研究

4.1 资源调度概况

4.2 双层资源调度模型

4.3 第二层资源调度的负载优化方案

4.3.1 作业历史数据采集

4.3.2 基于K-ELM的预测模型

4.3.3 资源模型优化

4.4 实验与性能分析

4.4.1 预测模型性能评估

4.4.2 双层资源调度模型负载优化评估

4.4.3 负载优化综合评估

4.5 本章小结

第五章 总结与展望

5.1 本文所做的工作

5.2 本文的主要创新点

5.3 研究展望

参考文献

致谢

作者简介

展开▼

摘要

2006年,Google、Amazon等公司提出了云计算的概念,通过云计算,用户可以根据流量负载快速发布和调整应用资源。近些年,虚拟化技术和容器技术的快速发展,为上层应用提供了可靠而便捷的资源;物联网、社交网络等产生了大量的数据,传统的数据处理平台已经难以支撑。Hadoop的诞生使得高效地处理海量数据成为了可能。目前,Hadoop已经广泛应用于工程领域,并且展现了出色的性能。MapReduce作为其核心组件,虽然已经获得了大量学者和工程师的注意,但是在异构环境中仍然面临着负载倾斜导致任务执行不够高效的问题,并且目前为止,还没有有效的解决方案可以准确估计实时机器负载和任务的执行时间。另外,高效准确的MapReduce资源分配对于优化节点负载以及达到节点负载均衡的目的至关重要。本文针对异构环境中MapReduce资源调度机制的负载优化方法进行了研究。具体研究内容如下:
  (1)基于实时资源情况,提出了自适应推测执行算法(ASE)。ASE通过多级索引存储机制,对不同节点在不同阶段的运行信息进行分类存储,并结合线性回归算法,实现对当前任务剩余运行时间和备份任务所需的运行时间预测。通过考虑实时集群运行状况,对当前任务实施不同的策略以加快作业的执行速度。最后,在负载状况不同的集群中,本文对ASE的性能进行了评估。
  (2)基于双层资源调度模型,提出了二层调度算法(SSA)以改善Hadoop双层调度模型中第二层的调度过程。建立了时间预测模型PMK-ELM,并评估其预测精度。在此基础之上,PMK-ELM被加入到SSA调度过程中。Map任务运行后,通过预测模型计算中间数据分配到不同Reducer所需要的执行时间。通过使用多目标优化算法,达到节约作业执行时间和结果数据相对分布均匀的目的。结合上文提出的自适应推测执行策略,从计算和存储两方面,综合评估负载优化方案的作业执行时间以及磁盘空间占用比,达到了负载优化的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号