首页> 中国专利> 基于高性能计算集群HPC的CAE作业运行时间预测方法及装置

基于高性能计算集群HPC的CAE作业运行时间预测方法及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及汽车诊断技术领域，提供了一种基于高性能计算集群HPC的CAE作业运行时间预测方法，包括如下步骤：S1、对接收的作业进行标识，采用作业编号进行标识；S2、基于特征属性序列Pi预测业务在不同队列下的运行时间TRi；S3、计算该作业在不同队列下的完成时间TTi，将该作业分配至完成时间TTi最早的队列，并输出该作业的作业完成时间。此方法可部署到拥有几百乃至数千个节点的高性能计算共用云/私有云HPC系统，提高作业调度系统负载均衡功能的性能，提高用户使用体验和HPC资源利用率。

著录项

公开/公告号CN112463341A

专利类型发明专利
公开/公告日2021-03-09

原文格式PDF
申请/专利权人奇瑞汽车股份有限公司;
展开▼

申请/专利号CN202011458906.X
发明设计人黄茁;田冠男;涂金刚;高磊;潘文杰;付长虎;
展开▼

申请日2020-12-11
分类号G06F9/48(20060101);G06F9/50(20060101);G06F9/54(20060101);G06N20/00(20190101);
代理机构34107 芜湖安汇知识产权代理有限公司;
代理人钟雪
地址 241009 安徽省芜湖市芜湖经济技术开发区长春路8号
入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及到任务调度技术领域，提供了一种基于高性能计算集群的CAE作业运行时间预测方法及装置。

背景技术

随着CAE仿真技术在汽车研发领域的广泛应用，公有云和企业私有云HPC(高性能计算集群)系统在汽车等研发型企业中得到了广泛部署和大面积的使用。作业调度系统是HPC系统完成批量计算任务的核心业务系统。其功能为资源管理和作业调度，负责处理批量计算任务的软硬件资源分配和作业排队管理。支持批处理、交互式作业和串行、多种并行作业。作业调度系统的一个核心目标就是实现计算任务与软硬件资源的良好匹配。从而达到，任务能够快速的获得资源分配开始计算，计算资源也可以得到合理的利用，避免出现资源分配不合理导致的浪费。

作业调度系统的原理，是围绕着两个核心任务展开的。

一、任务调度：用户提交的作业给HPC作业调度系统之后，调度系统需要根据作业的各种属性信息，如求解软件类型、用户所属组，目标资源池等信息，将提交的作业拆分成具体的计算任务，并按照排队规则，将计算任务安排到各个批处理任务队列中，并且跟踪和监控任务的执行结果。

二、资源调度：本质上是对任务和资源做匹配，根据集群中主机的资源使用情况，分配合适的资源来运行任务。和操作系统的进程调度算法比较类似，资源调度的主要目标是，在固定的资源供给的情况下，尽可能提高资源使用率，减少任务等待的时间(任务等待资源去执行的时间)，减少任务运行的延迟或者响应时间，尽可能公平分配资源(资源公平的被分配到所有任务)。

当前主流的HPC调度系统，如PBS、LSF、Platform、SGE，在资源分配和任务调度功能方面，存在一个缺点，即调度系统无法对用户关心的两个问题给出明确的答案：

1、用户的计算作业(若无法立即开始计算)需要等待多长时间才能开始运行

2、其提交的计算作业何时可以完成运行收到计算结果。

发明内容

本发明提供了一种基于高性能计算集群的CAE作业运行时间预测方法，旨在改善上述问题。

本发明是这样实现，一种基于高性能计算集群HPC的CAE作业运行时间预测方法，所述方法具体包括如下步骤：

S1、对接收的作业进行标识；

S2、基于特征属性序列Pi预测作业在不同队列下的运行时间TRi，每个队列对应于高性能计算集群HPC中的一个主机；

S3、预估该作业在不同队列下的完成时间TTi，将该作业分配至完成时间TTi最早的队列，并输出该作业的预估完成时间。

进一步的，业务在不同队列下的运行时间TRi的获取方法具体如下：

S21、提取作业中的指定特征属性序列Pi；

S22、将特征属性序列Pi输入对应队列的作业运行时间回归函数，输出该作业在不同队列的运行时间TRi；

作业运行时间回归函数TR表示具体如下：

TR＝Feature_1*Coef_1+Feature_2*Coef_2+…+Feature_n*Coef_n+Coef_0

其中，Feature_0、…、Feature_n表示作业的n个特征属性，Coef_0、…、Coef_n分别表示n个特征属性的回归函数系数。

进一步的，回归函数系数的获取方法具体如下：

基于数据库中的作业信息构建机器学习训练数据集[Feature(i),TR(i)]；

经机器学习算法训练后，得到各特征属性的回归函数系数Coef_0、…、Coef_n。

进一步的，作业在不同队列下的完成时间TTi的计算方法具体如下：

S31、计算各队列列表中已存在作业的运行时间，队列列表中所有作业的运行时间即为对应队列的等待时间TQi；

S32、计算各队列的等待时间TQi与作业在各队列下的运行时间TRi之和，即为该作业的完成时间TTi。

本发明是这样实现的，一种基于高性能计算集群HPC的CAE作业运行时间预测装置，所述装置包括：

作业接收单元，用于对接收的作业进行标识；

运行时间预估单元，基于特征属性序列Pi预测作业在不同队列下的运行时间TRi；

完成时间预估单元，用于预估该作业在不同队列下的完成时间TTi，将该作业分至配完成时间TTi最早的队列，并输出该作业的预估完成时间TTi。

进一步的，运行时间预估单元包括：

属性提取模块，用于提取作业中的指定特征属性序列Pi；

回归预测模块，用于将特征属性序列Pi输入对应队列的作业运行时间回归函数，输出该作业在不同队列的运行时间TRi；

作业运行时间回归函数TR表示具体如下：

TR＝Feature_1*Coef_1+Feature_2*Coef_2+…+Feature_n*Coef_n+Coef_0

其中，Feature_0、…、Feature_n表示作业的n个特征属性，Coef_0、…、Coef_n分别表示n个特征属性的回归函数系数。

进一步的，回归预测模块包括：

训练集子模块，基于数据库中的作业信息构建机器学习训练数据集[Feature(i),TR(i)]；

回归系数生成子模块，经机器学习算法训练后，得到各特征属性的回归函数系数Coef_0、…、Coef_n。

进一步的，完成时间预估单元包括：

等待时间计算模块，用于计算各队列列表中已存在作业的运行时间，队列列表中所有作业的运行时间即为对应队列的等待时间TQi；

完成时间计算模块，用于计算各队列的等待时间TQi与作业在在各队列下的运行时间TRi之和，即为该作业的完成时间TTi，并进行输出显示。

本发明的目的是解决高性能计算公有云/私有云集群上CAE作业运行时间的不可预测以及因此产生的资源利用率低下的问题而提出的利用机器学习算法估计计算作业运行时间的预测方法。此方法可部署到拥有几百乃至数千个节点的高性能计算共用云/私有云HPC系统，提高作业调度系统负载均衡功能的性能，提高用户使用体验和HPC资源利用率。

附图说明

图1为本发明实施例提供的基于高性能计算集群HPC的CAE作业运行时间预测方法的流程图；

图2为本发明实施例提供的基于高性能计算集群HPC的CAE作业运行时间预测装置的结构示意图。

具体实施方式

下面对照附图，通过对最优实施例的描述，对本发明的具体实施方式作进一步详细的说明。

图1为本发明实施例提供的基于高性能计算集群HPC的CAE作业运行时间预测方法的流程图，该方法具体包括如下步骤：

S1、对接收的作业进行标识，采用作业编号进行标识；

提交作业到HPC系统，并对作业进行合法性验证，验证通过后，给予正式的作业编号，用于标识HPC系统中的作业。

S2、基于特征属性序列Pi预测业务在不同队列下的运行时间TRi；

HPC系统扫描作业，提取出特征属性序列Pi，比如作业计算类型、作业规模，作业申请资源量(核数)、作业特性1、作业特性2等等，特征属性是通过人工定义的方式产生。

每个队列对应于高性能计算集群HPC中的一个主机，高性能计算集群HPC由主机群组成，主机群中的主机性能相同或不同，每类主机对应于一个作业运行时间回归函数TR，业务在不同队列下的运行时间TRi的获取方法具体如下：

S21、提取作业中的指定特征属性序列Pi；

S22、将特征属性序列Pi输入对应队列的作业运行时间回归函数，输出该作业在不同队列下的运行时间；

作业运行时间回归函数TR表示具体如下：

TR＝Feature_1*Coef_1+Feature_2*Coef_2+…+Feature_n*Coef_n+Coef_0

其中，Feature_0、…、Feature_n表示作业的n个特征属性，Coef_0、…、Coef_n分别表示n个特征属性的回归函数系数，回归函数系数的获取方法具体如下：

基于数据库中的作业信息构建机器学习训练数据集[Feature(i),TR(i)]，Feature(i),TR(i)分别表示机器学习训练数据集中第i各训练数据的特征属性及其运行时间；数据库中保存有历史作业的各特征属性Feature及其运行时间TR信息。

经机器学习算法训练后，得到各特征属性的回归函数系数Coef_0、…、Coef_n，将回归函数系数Coef_0、Coef_1、Coef_2…Coef_n与待预测作业的特征值Feature_1…Feature_n一起代入相应队列下的作业运行时间回归函数TR中，即可预测到该作业在对应队列下的运行时间。

S3、计算该作业在不同队列下的完成时间TTi，将该作业分配至完成时间TTi最早的队列，并输出该作业的预估完成时间。

在本发明实施例中，作业在不同队列下的作业运行时间TRi的计算方法具体如下：

S31、计算各队列中已存在作业的运行时间，队列中所有作业的运行时间即为对应队列的等待时间TQi；

S32、计算各队列的等待时间TQi与作业在各队列下的运行时间TRi之和，即为该作业的完成时间TTi。

依据各队列中作业列表，给出每个队列的等待时间TQi，待分配作业的预计运行时间TRi相加，得到待分配作业在每个队列的作业完成时间TTi。最后，依据作业完成时间TTi最短原则，将待分配作业分配到预计完成时间最短的队列q中，并将此作业队列下的预计运行时间TRi＝q和TTi＝q标记到此作业上。

图2为本发明实施例提供的基于高性能计算集群HPC的CAE作业运行时间预测装置的结构示意图，为了便于说明，仅示出与本发明实施例相关的部分。

该装置包括：

作业接收单元，用于对接收的作业进行标识，采用作业编号进行标识；

提交作业到HPC系统，并对作业进行合法性验证，验证通过后，作业接收单元给予正式的作业编号，用于标识HPC系统中的作业。

运行时间预估单元，基于特征属性序列Pi预测业务在不同队列下的运行时间TRi；

在本发明实施例中，运行时间预估单元包括：

属性提取模块，用于提取作业中的指定特征属性序列Pi；

回归预测模块，用于将特征属性序列Pi输入对应队列的作业运行时间回归函数，输出该作业在不同队列下的运行时间；

每个队列对应于高性能计算集群HPC中的一个主机，高性能计算集群HPC由主机群组成，主机群中的主机性能相同或不同，每类主机对应于一个作业运行时间回归函数TR；

在本发明实施例中，作业运行时间回归函数TR表示具体如下：

TR＝Feature_1*Coef_1+Feature_2*Coef_2+…+Feature_n*Coef_n+Coef_0

其中，Feature_0、…、Feature_n表示作业的n个特征属性，Coef_0、…、Coef_n分别表示n个特征属性的回归函数系数。其中，回归预测模块包括：

训练集子模块，基于数据库中的作业信息构建机器学习训练数据集[Feature(i),TR(i)]；

回归系数生成子模块，经机器学习算法训练后，得到各特征属性的回归函数系数Coef_0、…、Coef_n。

将回归函数系数Coef_0、Coef_1、Coef_2…Coef_n与待预测作业的特征值Feature_1…Feature_n一起代入相应队列下的作业运行时间回归函数TR中，即可预测到该作业在对应队列下的运行时间。

完成时间预估单元，用于计算该作业在不同队列下的完成时间TTi，将该作业分配至完成时间TTi最早的队列，并输出该作业的作业完成时间。

在本发明实施例中，完成时间预估单元包括：

等待时间计算模块，用于计算各队列中已存在作业的运行时间，队列中所有作业的运行时间即为对应队列的等待时间TQi；

完成时间计算模块，用于计算各队列的等待时间TQi与作业在各队列下的运行时间TRi之和，即为该作业的完成时间TTi，并进行输出显示。

显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，均在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于高性能计算集群HPC的CAE作业运行时间预测方法及装置 [P] . 中国专利： CN112463341A . 2021-03-09
2. 高性能计算集群系统故障预测方法和装置 [P] . 中国专利： CN105159815A . 2015-12-16
3. JOB SCHEDULING IN AN INFINIBAND NETWORK BASED HPC CLUSTER [P] . IN2015CH00460A . 2016-08-05

机译：基于无穷网络的HPC集群中的作业调度
4. JOB SCHEDULING IN AN INFINIBAND NETWORK BASED HPC CLUSTER [P] . 世界知识产权组织专利： WO2016122714A1 . 2016-08-04

机译：基于无穷网络的HPC集群中的作业调度
5. METHOD AND APPARATUS FOR PREDICTION OF REMAINING OPERATIONAL PERIOD BASED ON POWER CONSUMPTION IN MOBILE APPARATUS HAVING BASIC BATTERY [P] . 韩国专利： KR20150102377A . 2015-09-07

机译：具有基本电池的移动设备中基于功耗的剩余运行时间预测方法和装置