首页> 中国专利> 多任务选择模型构建方法、多任务选择性维护方法及系统

多任务选择模型构建方法、多任务选择性维护方法及系统

摘要

本发明涉及多任务选择模型构建方法、多任务选择性维护方法及系统,通过将有效寿命衰减模型和风险函数调整模型结合起来,针对多次任务选择性维护建立建模,解决了现有技术中模型只能针对单次任务选择性维护的问题,利用该模型计算系统可靠性和维修成本的精度;通过将多任务选择性维护最优问题规范为离散马尔科夫决策过程,基于强化学习框架调整神经网络结构进行求解,实现了对每个组件在中断期间的最优维修策略和每次维修任务的最优运行时长,提高了维修效率和维修成本,并且有效克服了维数不固定和维数灾难的缺陷。

著录项

  • 公开/公告号CN112800678A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 南京航空航天大学;

    申请/专利号CN202110123843.0

  • 发明设计人 皮德常;徐悦;陈阳;

    申请日2021-01-29

  • 分类号G06F30/27(20200101);G06Q10/04(20120101);G06Q10/06(20120101);G06Q10/00(20120101);G06N3/04(20060101);G06N7/00(20060101);G06F111/08(20200101);G06F119/02(20200101);

  • 代理机构11569 北京高沃律师事务所;

  • 代理人杨媛媛

  • 地址 211106 江苏省南京市江宁区将军路29号

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本发明涉及工程应用和信息科学的交叉技术领域,特别是涉及多任务选择模型构建方法、多任务选择性维护方法及系统。

背景技术

维修活动在现代工业的经济中起着重要的作用,其成本约占总生产成本的28%,最高可达40%。一般来说,组件在中断期间可进行维护,以提高后续任务执行的可靠性。然而,由于维护资源的限制(如预算、时间、人力和维修设施),不可能对所有组件都执行维修。为了克服这一问题,决策者在中断期间选择若干组件以及对所选组件根据相应的维修等级进行维修,该过程被称为选择性维护。

选择性维护问题的研究集中于建立模型和求解方法两方面,属于非线性整数规划问题。现有的选择性维护模型局限于单次任务的状态变化,其主要针对单次任务选择性维护,讨论组件或系统在多状态、随机性、独立性、模糊性、不确定等条件下的可靠性评估和成本计算。另外现有技术在可靠性评估建模时,仅考虑了组件维修后带来的寿命退化,造成可靠性评估结果并不准确。

基于此,本领域亟需一种对多次任务选择性维护模型的构建方法,以提高对系统可靠性评估。

发明内容

本发明的目的是提供多任务选择模型构建方法、多任务选择性维护方法及系统,实现了对多次任务建模,根据模型可以实现对系统的可靠性以及维修成本的准确评估和计算。

为实现上述目的,本发明提供了如下方案:

一种多任务选择模型构建方法,包括:

采用有效寿命衰减模型和风险函数调整模型,计算每次维修任务在不同的维修策略下的风险率函数,其中所述维修策略包括组件不维修策略、更换组件策略和不完美维修策略;

根据所述风险率函数计算可靠性函数和成本函数;

根据所述可靠性函数和所述成本函数建立多任务选择模型;

根据所述多任务选择模型评估所述组件所在系统的可靠性和所述组件的维修成本;

根据所述可靠性的大小和所述维修成本的大小,在每次维修任务时对所述组件选取维修策略。

一种多任务选择性维护方法,包括:

以多任务选择模型中的可靠性函数满足可靠性预设值的同时,成本函数最小为目标,构建目标维护模型;

将所述目标维护模型转化为马尔科夫决策模型,所述马尔科夫决策模型为一个包括状态空间、动作空间、奖励函数和状态转移函数的四元组函数,其中所述动作空间表示所有动作的集合,所述动作包括每段中断时间内对所述组件的维修策略和每次维修任务的运行时间;

采用强化学习框架和神经网络对所述马尔科夫决策模型进行训练优化求解;

当训练次数满足预测训练次数时,输出每段中断时间内对所有组件的最优维修策略和每次所述维修任务的最优运行时间;

按照所述最优的维修策略和所述最优的运行时间对所述组件维修。

一种多任务选择性维护系统,包括:

模型构建模块,用于以多任务选择模型中的可靠性函数满足可靠性预设值的同时,成本函数最小为目标,构建目标维护模型;

模型转化模块,用于将所述目标维护模型转化为马尔科夫决策模型,所述马尔科夫决策模型为一个包括状态空间、动作空间、奖励函数和状态转移函数的四元组函数,其中所述动作空间包括每次中断期间对所述组件的维修策略和每次维修任务的运行时间;

求解模块,用于采用强化学习框架和神经网络对所述马尔科夫决策模型进行训练优化求解;

输出模块,用于当训练次数满足预测训练次数时,输出所有组件的最优维修策略和所述维修任务的最优运行时间;

维修模块,用于按照所述最优的维修策略和所述最优的运行时间对所述组件维修。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明通过构造一种多任务选择模型,解决了现有了现有技术中模型只能针对单次任务选择性维护的问题,适用性强;

本发明的多任务选择模型评估组件系统的可靠性和维修成本时,通过将有效寿命衰减模型和风险函数调整模型结合起来,提高了可靠性和成本的计算精度。

本发明基于强化学习框架调整神经网络结构,对多任务选择模型求解,有效解决了维数不固定和维数灾难的问题;在满足特定系统资源(预设时间、需求可靠性、限定的人力和维修设施)的前提下,实现了对每个组件在中断期间的最优维修策略和每次维修任务的最优运行时长,提高了维修效率和维修成本。

本发明经过扩展后,可适用于多任务、各种规模及类型的选择性维护系统。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种多任务选择模型构建方法流程图;

图2为本发明实施例1提供的将不完美维修策略对应的风险率函数应用于维修任务的维修任务序列图;

图3为本实施例2提供的一种多任务选择性维护方法流程图;

图4为本实施3提供的一种多任务选择性维护系统结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供多任务选择模型构建方法、多任务选择性维护方法及系统,实现了对多次任务建模,根据模型可以实现对系统的可靠性以及维修成本的准确评估和计算。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1:

参阅图1,本发明提供了一种多任务选择模型构建方法,包括:

步骤S1:采用有效寿命衰减模型和风险函数调整模型,计算每次维修任务在不同的维修策略下的风险率函数,其中所述维修策略包括组件不维修策略、更换组件策略和不完美维修策略;

决策者对组件不采取任何维修活动的过程即为采取不维修策略,由于该策略下的组件状态没有任何改进,因而组件状态为“恢复如旧”状态,其风险率函数维持不变,对应公式为:

h

其中,x代表组件i自上次维修后距离第k次维修任务的时间,k为大于等于1的正整数,h

决策者对组件进行维修或更换的过程即为采取更换组件策略,该策略下组件状态从新开始,被称之为“恢复如新”,其风险率函数重设为开始时的函数,对应公式为:

h

其中,h

不完美维修策略(IM)下的组件状态介于“恢复如旧”和“恢复如新”之间。图2所示即为将不完美维修策略对应的风险率函数应用于维修任务的维修任务序列图,其中,tm

不完美维修策略对应的风险率函数为:

h

其中,A

步骤S2:根据所述风险率函数计算可靠性函数和成本函数;

所述可靠性函数表示为:

其中,R

所述成本函数表示为:

其中,C

步骤S3:根据所述可靠性函数和所述成本函数建立多任务选择模型;

步骤S4:根据所述多任务选择模型评估所述组件所在系统的可靠性和所述组件的维修成本;

步骤S5:根据所述可靠性的大小和所述维修成本的大小,在每次维修任务时对所述组件选取维修策略。

本实施例通过构造一种多任务选择模型,解决了现有了现有技术中模型只能针对单次任务选择性维护的问题,适用性强;本实施例同时考虑风险率调整和有效寿命衰减,计算不同维修策略对应的风险率函数,进而应用该风险率函数进一步对系统可靠性评估时,准确率可大大提高。

实施例2:

不同的维修策略会带来系统状态的改变。在不同的系统状态下,对组件采取哪种维修策略,使得在特定系统资源(预设时间、需求可靠性、限定的人力和维修设施)下最小化成本是目前本领域普遍研究的一个问题。

由于该问题的解空间规模大且复杂,目前主要的求解方法包含进化算法和强化学习方法。进化算法,如遗传算法、差分进化算法、粒子群优化算法等可以很好求解NP-难(NP-Hard问题,即多项式复杂程度的非确定性问题)的优化问题;但当问题维度可变时,传统进化算法并不能直接应用于问题求解。传统的强化学习方法存在维数灾难问题,尤其是在面对大规模复杂系统的时候。

为了克服现有技术的缺陷,参阅图3,本发明还提供了一种多任务选择性维护方法,包括:

步骤Sa:以多任务选择模型中的可靠性函数满足可靠性预设值的同时,成本函数最小为目标,构建目标维护模型;

所述目标维护模型表示为:

其中,s.t.表示限制条件,C表示所述目标维护模型中的成本函数,i,n表示组件的数量,

步骤Sb:将所述目标维护模型转化为马尔科夫决策模型,所述马尔科夫决策模型为一个包括状态空间、动作空间、奖励函数和状态转移函数的四元组函数,其中所述动作空间表示所有动作的集合,所述动作包括每段中断时间内对所述组件的维修策略和每次维修任务的运行时间。

由于系统组件状态(如有效寿命,风险函数,可靠性等)的转换与历史值无关,因而目标维护模型可以转化为马尔科夫决策模型。该四元组函数可以表示为(S,A,P,R),其中:

S为状态空间,表示系统所有状态的集合。对于一个组件i在第k次维修任务时,它的状态state

组件状态state

state

系统状态表示为:

state(k)=[state

A为动作空间,表示所有动作的集合。对于一个组件i在第k次维修任务的动作action

R为奖励函数,表示所有reward(state,action)的集合,即根据对当前状态执行动作之后得到的收益值。本实施例将是否满足系统可靠性需求下的成本函数作为奖励函数,计算公式为:

reward(k)=-(C+(R<R

其中,ζ为不满足可靠性需求时的惩罚系数,如果系统可靠性R低于需求的可靠性值R

P为状态转移函数,用于对当前状态执行某一动作后得到下一状态的转移函数,可参照不同维修策略l导致组件风险率函数计算,具体如下:采用不维修策略时,令风险率调整参数A

步骤Sc:采用强化学习框架和神经网络对所述马尔科夫决策模型进行训练优化求解,具体包括:

初始化第一维修策略神经网络Q

根据所述四元组函数,得到所述第一维修策略神经网络和所述第一维修任务运行时长神经网络的输入,具体包括:根据状态空间S,初始化第k次任务时的系统状态state(k);根据当前系统状态state(k)和动作空间A,分别得到第一维修策略神经网络和第一维修任务运行时长神经网络的输入:input

将所述四元组函数存储到缓存区;

从所述缓存区选取一定数量的样品{state(j),action(j),reward(j+1),state(j+1)};

根据所述样品的维修策略目标值target

进一步的,所述target

其中,target

在预定次数下对所述目标维修策略神经网络和所述目标维修任务运行时长神经网络更新,即

当所述组件所在系统的逻辑运行时间大于预设系统运行时间T(即state(j+1)为终止状态)时,转入“将所述四元组函数存储到缓存区”步骤;否则,当训练次数满足预测训练次数时,输出每段中断时间内对所有组件的最优维修策略和每次所述维修任务的最优运行时间。

步骤Sd:当训练次数满足预测训练次数时,输出每段中断时间内对所有组件的最优维修策略和每次所述维修任务的最优运行时间;

步骤Se:按照所述最优的维修策略和所述最优的运行时间对所述组件维修。

作为一种可选的实施方式,将所述四元组函数存储到缓存区,具体包括:

根据ε策略选取第k次维修任务对应的维修动作action

其中,argmax表示一种对所述状态-动作函数求参数的函数,Q

状态-动作值函数Q(state(k),action(k))表示在已知状态的情况下,根据策略π选择动作所获得长期回报的优劣程度,记作Q值。也就是说,针对不同系统状态实施不同维修动作和运行时间,在满足特定系统资源的条件下,最大化长期受益Q值(即最小化长期消耗成本C);

令所述第k次维修任务对应的动作空间action(k)=[action

根据当前任务的状态空间得到下一次任务的状态空间state(k+1),根据当前任务的奖励函数得到所述下一次任务的奖励函数reward(k+1);

将{state(k),action(k),reward(k+1),state(k+1)}存入所述缓存区D中,其中state(k)表示所述第k次维修任务对应的系统状态。

本实施例基于强化学习框架调整神经网络结构,对多任务选择模型求解,有效解决了维数不固定和维数灾难的问题,适用于多任务、多类型的选择性维护模型。

实施例3:

参阅图4,本发明还提供了一种多任务选择性维护系统,包括:

模型构建模块M1,用于以多任务选择模型中的可靠性函数满足可靠性预设值的同时,成本函数最小为目标,构建目标维护模型;

模型转化模块M2,用于将所述目标维护模型转化为马尔科夫决策模型,所述马尔科夫决策模型为一个包括状态空间、动作空间、奖励函数和状态转移函数的四元组函数,其中所述动作空间包括每次中断期间对所述组件的维修策略和每次维修任务的运行时间;

求解模块M3,用于采用强化学习框架和神经网络对所述马尔科夫决策模型进行训练优化求解;

输出模块M4,用于当训练次数满足预测训练次数时,输出所有组件的最优维修策略和所述维修任务的最优运行时间;

维修模块M5,用于按照所述最优的维修策略和所述最优的运行时间对所述组件维修。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号