基于异构Spark集群的分区动态负载调度算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着大数据技术的发展，各种大数据处理框架不断出现。Spark是目前最主流的一种大数据处理计算框架。Spark支持内存计算，提供交互式计算和查询，支持丰富的数据操作，并提供数据挖掘，机器学习，流计算等服务。计算机集群的异构性是指集群中的计算机具有不同的硬件配置，从而使得这些计算机在Spark作业中的表现存在差异。云计算的发展和数据中心的使用使得集群更容易变得异构，机器学习的兴起使得集群可能存在混合CPU和GPU架构的计算机，从而使得集群变得异构。集群负载均衡是将作业或者任务分摊到多个计算单元进行执行，增加吞吐量，提高数据处理能力和可用性。为了进行资源隔离和资源复用，软件架构的运行时环境越来越复杂，Spark可能运行在复杂多变的负载环境下。通过分析Spark的源代码，发现两点问题：Spark的基于同构处理器核心数量的资源分配策略无法适应异构的集群环境；Spark的任务调度缺少基于负载的任务调度策略。为了对上述两点进行优化，本文提出一种基于异构Spark集群的分区动态负载调度算法。该算法由两部分组成，分别是基于区域的作业调度和根据动态负载的任务调度。基于区域的作业调度包括根据异构性将集群划分为不同区域和基于区域的作业计算资源分配。区域是集群中具有相同处理器核心数量并在测试基准程序中具有相近性能的计算机的分组；基于区域的资源分配是指根据用户的配置，为Spark作业分配指定区域或者相邻区域的计算资源。通过基于区域的作业调度，充分利用集群的异构性加速Spark作业运行速度，并使用户可以根据作业的优先级要求为作业分配不同性能的计算资源。根据动态负载的任务调度是指Spark根据在集群各个节点上定时收集的负载信息进行任务调度。这种负载调度方式将使Spark避免或减少使用高负载的节点，将更多任务调度到低负载的节点上运行，从而加速Spark作业运行速度。

著录项

作者
朱迅;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名汤羽;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类汽车工程;
关键词
异构; Spark; 集群; 分区; 动态; 负载调度;

相似文献

中文文献
外文文献
专利

1. 异构Spark集群下自适应任务调度策略 [J] . 杨志伟 ,郑烇 ,王嵩 . 计算机工程 . 2016,第001期
2. 基于动态负载均衡的分布式任务调度算法研究 [J] . 朱虹宇 ,李挺 ,闫健恩 . 高技术通讯 . 2014,第012期
3. 基于服务网格的动态负载平衡调度算法研究 [J] . 任长林 ,王家华 . 西安石油大学学报（自然科学版） . 2007,第003期
4. 基于时隙分区的TTE任务调度算法研究 [J] . 郑重 ,何锋 ,熊华钢 . 电光与控制 . 2021,第011期
5. 基于反馈调度的MapReduce负载均衡分区算法研究 [J] . 刘寒梅 ,韩宏莹 . 信息通信 . 2015,第010期
6. 基于有色网的动态负载下高性能计算机作业调度系统的性能分析 [C] . Li Zhijia ,李智佳 ,Jiao Li . 2014全国高性能计算学术年会 . 2014
7. 基于异构Spark集群下的Task调度优化方法 [A] . 樊森 . 2019

基于异构Spark集群的分区动态负载调度算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅