首页> 中国专利> 基于遗传算法的GPU集群多作业调度方法

基于遗传算法的GPU集群多作业调度方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开基于遗传算法的GPU集群多作业调度方法。通过遗传算法降低寻找最优解的时间复杂度，基于最小化多作业完成时间的资源分配方式为多作业分配GPU资源，复用作业调度过程中可能出现的空闲资源，最终得到一个完成时间最小，资源利用率较高的多作业调度方案。与现有技术相比，本发明有效解决了GPU集群上的多作业调度完成时间久、资源利用率低等问题，深度学习有关的工作者在调度方案的指导下，能够快速完成对模型不同参数架构的质量验证，得到反馈结果，进而对模型进行改良，以便快速投入到下一次的实验或生产当中。

著录项

公开/公告号CN112905316A

专利类型发明专利
公开/公告日2021-06-04

原文格式PDF
申请/专利权人杭州电子科技大学;
展开▼

申请/专利号CN202110143748.7
发明设计人胡海洋;傅懋钟;李忠金;
展开▼

申请日2021-02-02
分类号G06F9/48(20060101);G06F9/50(20060101);G06N3/04(20060101);G06N3/12(20060101);
代理机构33240 杭州君度专利代理事务所(特殊普通合伙);
代理人朱亚冠
地址 310018 浙江省杭州市下沙高教园区2号大街
入库时间 2023-06-19 11:16:08

说明书

技术领域

本发明涉及一种GPU集群上的深度学习作业调度方法，特别是一种基于遗传算法并结合最小化时间的资源分配、复用的GPU集群多作业调度方法。

背景技术

深度学习已经广泛应用于人工智能的众多领域，如图像分类、动作识别、语音识别、自然语言处理等。深度学习的成功依赖于从训练数据集中学习表达复杂特征的能力。另外，为了提高学习精度和模型即深度神经网络的性能，增加训练数据集大小和扩大模型规模已被证明是非常有效的。然而，大规模的深度神经网络模型也显著延长了训练时间。使用单个GPU训练复杂的大规模深度神经网络模型将花费大量的时间，比如数天、数周甚至是数月。

因此，大多数科研实力领先的企业、研究所和大学更偏向于在拥有数十或数百个GPU的集群上采用分布式训练的方式来加快模型训练。目前，已有许多支持在GPU集群上进行分布式训练的系统和框架，在调度深度学习作业时具有显著的性能表现。例如：TensorFlow和PyTorch是两个现有的最先进的机器学习框架，它们通过数据并行和模型并行的方式支持分布式深度神经网络模型的训练。

现有关于分布式深度神经网络模型训练的研究大多数集中在减少单个模型的完成时间上。但研究者和学者往往需要在GPU集群当中运行多个训练作业(即同时训练多个模型)。例如，为了搜索模型达到满意精度的最优参数，研究者和学者通常尝试多种参数配置，从而形成批量的训练作业，并采用反馈驱动的方式来排除低精度的参数配置。此外，当设计一个新的人工智能算法时，应该进行结果和性能验证，以便与一些最新的研究进行比较。以动作识别的研究过程为例，为了探索提出的权重共享约束对时空特征编码的可行性，这一思想应该在现有的经典模型(如C3D、ARTNet、STC、I3D等)和多个数据集(如ResNet、SoundNet、TSN-Flow、COSt等)上进行测试和验证。这些都是研究者和学者所面临的典型场景。

然而，仅有少量的研究工作考虑了多作业的调度，且集中于减少集群能耗以及提高资源利用率上，这也直接影响了多作业共同训练的完成时间。

发明内容

本发明的一个目的是针对目前技术的不足，提出了一种基于遗传算法并结合最小化时间的资源分配、复用的GPU集群多作业调度方法，它将给出多作业的一套调度方案，该方案可有效减少多作业的完成时间，并提高集群资源利用率。

本发明通过遗传算法降低寻找最优解的时间复杂度，基于多作业完成时间最小的资源分配方式为多作业分配GPU资源，复用作业调度过程中可能出现的空闲资源，最终得到一个完成时间最小，资源利用率较高的多作业调度方案。

本发明方法包括以下步骤：

步骤(1)资源-时间建模，收集深度学习作业在不同GPU数量下的完成时间。

步骤(2)根据遗传算法的思想建立个体和种群，每个个体信息当中将包含多作业的一种执行顺序方案。

步骤(3)为多作业进行资源分配，分配的前提是使得多作业的完成时间最小，得到多作业的初始资源分配方案。

步骤(4)改进多作业初始资源分配方案，复用调度过程中可能出现的空闲资源，进一步减小完成时间并提高资源利用率。

步骤(5)计算个体适应度，进行个体选择，筛选出最终个体，其所包含的调度方案即是多作业的最终调度方案。

本发明的另一个目的是一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的方法。

本发明的又一个目的是一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述的方法。

本发明的有益效果：

1)引入遗传算法降低搜索最优解的时间复杂度。

2)通过两类最小化多作业完成时间的资源分配方案为多作业进行资源分配。

3)复用空闲资源，进一步减少多作业完成时间并提高集群资源利用率。

与现有技术相比，本发明有效解决了GPU集群上的多作业调度完成时间久、资源利用率低等问题，深度学习有关的工作者在调度方案的指导下，能够快速完成对模型不同参数架构的质量验证，得到反馈结果，进而对模型进行改良，以便快速投入到下一次的实验或生产当中。

相似文献

专利
中文文献
外文文献

1. 基于遗传算法的GPU集群多作业调度方法 [P] . 中国专利： CN112905316A . 2021-06-04
2. 一种基于预算功率指导的高能效GPU集群系统调度方法 [P] . 中国专利： CN102819460B . 2015.05.20
3. METHOD OF A POWER CONSUMPTION SCHEDULING USING GENETIC ALGORITHMS AND DEVICE OF A POWER CONSUMPTION SCHEDULING USING GENETIC ALGORITHMS [P] . 韩国专利： KR101348439B1 . 2014-01-09

机译：基于遗传算法的功率调度方法及基于遗传算法的功率调度装置
4. METHOD OF A POWER CONSUMPTION SCHEDULING USING GENETIC ALGORITHMS AND DEVICE OF A POWER CONSUMPTION SCHEDULING USING GENETIC ALGORITHMS [P] . 韩国专利： KR20130030646A . 2013-03-27

机译：基于遗传算法的功率调度方法及基于遗传算法的功率调度装置
5. GPU GPU apparatus and method for interaction between a coarse-grained GPU resource scheduler and a GPU aware scheduler [P] . 韩国专利： KR101765723B1 . 2017-08-08

机译：用于在粗粒度GPU资源调度器和GPU感知调度器之间进行交互的GPU GPU设备和方法