首页> 中文学位 >动态内存感知的Spark任务调度策略研究
【6h】

动态内存感知的Spark任务调度策略研究

代理获取

目录

声明

第1章 绪论

1.1研究背景和意义

1.1.1大数据处理技术发展背景

1.1.2 Spark大数据处理平台

1.1.3 Spark任务调度现状及不足

1.2 国内外研究现状

1.2.1分布式任务调度研究现状

1.2.2 MapReduce平台任务调度研究现状

1.2.3 Spark平台任务调度研究现状

1.3本文主要工作

1.4本文组织结构

1.5本章小结

第2章 相关理论与技术基础

2.1大数据处理平台

2.1.1 大数据应用的新特征

2.1.2大数据处理平台的发展过程

2.2 Spark平台

2.2.1 Spark平台概述

2.2.2 Spark运行基本运行流程

2.2.3 Spark平台任务调度

2.3 Spark相关任务调度优化介绍

2.4 本章小结

第3章 Spark任务数据评估方法

3.1 RDD的基本设计原理

3.1.1 RDD概述

3.1.1 RDD之间的依赖关系

3.2 Spark任务执行引擎

3.2.1 Stage的划分与执行

3.2.2 任务的生成与执行

3.3 任务数据评估

3.3.1 任务数据评估方法

3.3.2 任务数据评估方法的有效性

3.4 本章小结

第4章 动态内存感知的Spark任务调度策略

4.1Spark中任务线程并发数的限制

4.2自适应内存资源的动态任务调度策略

4.2.1 初始任务并发数

4.2.2 任务调度并发度的动态调整

4.3算法设计与描述

4.3.1初始任务调度并发算法描述

4.3.2任务调度并发动态调整算法

4.4本章小结

第5章 系统实现与性能分析

5.1系统实现

5.1.1 系统架构

5.1.2 模块功能介绍

5.2性能测试及分析

5.2.1测试环境及实验设置

5.2.2直接性能提升效果对比

5.2.2间接性能比较分析

5.2.3资源利用率的影响

5.3本章小结

总结与展望

参考文献

致谢

附录A 攻读学位期间所发表的学术论文目录

展开▼

摘要

在当今大数据时代,大规模数据处理主要是基于分布式的并行处理计算,调度在提高大数据并行处理框架的性能方面起着重要作用。Spark作为大数据处理领域最新技术进展,其是一个基于内存计算的并行计算框架,使用多线程任务调度模型。在Spark任务调度过程中不会考虑内存资源,而是由用户设置参数确定任务执行进程中并发执行的任务线程数量。这对任务线程乃至整个应用程序的执行性能造成了潜在限制。为了克服现有的Spark任务调度中存在的这种限制,本文提出一种动态内存感知的Spark任务调度策略(Dynamic Memory-Aware Task Scheduling,DMATS),在符合Spark原有的任务数据本地化调度原则基础上,考虑内存计算资源,并且通过静态和动态的方式,调整任务并发度,使得任务的并发执行总是最适应于任务执行器的计算资源。具体来说,本文主要贡献包括:  1)本文提出了一种任务数据统计方法来计算任务需要处理的数据量以确定每个任务的资源需求。这种方法通过分析基于RDD的Spark执行引擎,查找现有相关信息经由一定的计算处理获得任务处理数据量的值,在较少额外计算开销和通信延迟下,可以得到实际任务处理数据量的结果数值。  2)本文提出了一种计算执行器中初始任务调度并发度的自适应算法,用以确定初始阶段时,在执行器上可以调度的线程任务的初始数量。该算法在保证现有的调度机制性能不受损害的基础上,考虑了任务资源需求以及执行器可用执行内存资源,给出了自适应执行器内存资源的初始任务调度并发度。  3)本文提出了一种任务调度并发度动态调整算法,该算法可以根据先前完成的任务的内存使用情况反馈来动态调整并发度。在这种动态反馈调整变化中,极大地满足了在任务运行时对内存资源的使用需求,不仅可以提升资源利用率,而且可以提高Spark平台整体运行性能。  4)总结上述提出的研究成果,基于Spark的开源平台,实现了基于动态内存感知的Spark任务调度策略系统平台。该系统平台对上述提出的任务数据统计方法以及初始静态和后序动态任务调度并行度调整算法进行了实际应用。采用了性能测试工具HiBench,选取典型的两种类型的负载对该任务调度策略进行性能与资源使用测试实验。结果分析表明,与原生Spark的调度策略相比,其应用执行时间最大缩短了43.64%,平均缩短了27.8%,CPU与内存资源利用率也有明显的提升,平均提升了5.7%和12.3%,并且与其它基于Spark改进的任务调度策略工作相比其提升效果平均高了将近10.6%。

著录项

  • 作者

    曾爱玲;

  • 作者单位

    湖南大学;

  • 授予单位 湖南大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 唐卓;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    大数据处理,Spark,任务调度,内存感知;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号