首页> 中国专利> 一种基于深度确定性策略梯度的自适应控制方法

一种基于深度确定性策略梯度的自适应控制方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了一种基于深度确定性策略梯度的自适应控制方法，依据真实系统特性构建的仿真训练环境；构建状态(观测量)，回报函数，截止条件，动作；构建深度确定性策略梯度方法的critic网络、actor网络和相应的目标网络，通过与仿真训练环境的试错交互进行训练；使用actor网络训练结果作为该系统的控制器。本发明将深度强化学习方法应用于控制器设计，介绍该方法的实施步骤，通过离线仿真训练，达到控制器要求后移植到真实环境中，实现非线性系统自适应控制。

著录项

公开/公告号CN112597693A

专利类型发明专利
公开/公告日2021-04-02

原文格式PDF
申请/专利权人沈阳航盛科技有限责任公司;
展开▼

申请/专利号CN202011297651.3
发明设计人卢旺;孟凡石;孙继泽;
展开▼

申请日2020-11-19
分类号G06F30/27(20200101);G06N3/08(20060101);G06K9/62(20060101);G06N3/04(20060101);
代理机构44395 广东良马律师事务所;
代理人刘海杰
地址 110000 辽宁省沈阳市皇姑区塔湾街40号
入库时间 2023-06-19 10:27:30

说明书

技术领域：

本申请涉及计算机软件技术领域，具体涉及一种基于深度强化学习技术的自适应控制方法。

背景技术：

传统的PID控制器需要系统进行精确建模，并通过拉普拉斯变换将时域模型转换为频域传递函数，再根据根轨迹等方法设计经典PID控制器，该种方法缺点在于非线性问题需要进行线性假设，建模过程较为复杂，并且控制器设计的好坏依赖于所抽象的数学模型精确程度。

本申请所要解决的问题是如何解决非线性系统的控制问题，并且不依赖于精确的数学模型，构建一种无模型控制方法。

发明内容

本申请的目的是提出一种基于深度强化学习技术的自适应控制方法。解决非线性系统的控制问题，并且不依赖于精确的数学模型，构建一种无模型控制方法。

本申请的技术方案包括以下步骤：一种基于深度确定性策略梯度的自适应控制方法，其特征在于：它包括以下步骤：

1)首先依据真实系统特性构建仿真训练环境，仿真训练环境与真实系统保持一致，使环境与强化学习训练进行交互；

2)分别构建状态，回报，动作和截止条件作为深度强化学习的训练要素，动作区间：a∈[A

3)构建critic网络、actor网络和相应的critic-target网络、actor-target网络，上述网络形成神经网络；

4)对critic网络和actor网络进行若干轮训练；本轮训练结束，开始下一轮训练；5)使用训练结果actor网络作为控制器。

所述状态，回报，动作和截止条件分别为状态state：以当前值truevalue，误差值error＝reference–truevalue和误差的积分∫edt作为状态量state；

回报：reward＝10(|e|＜0.1)-1(|e|≥0.1)-100(truevalue≤min||truevalue≥max)如果实际值小于最小值min或最大值max，则回报为-100；如果误差绝对值大于0.1，则回报值为-1；如果误差绝对值小于0.1，则回报值为+10；

截至条件：如果truevalue≤min||truevalue≥max，则本轮训练终止。

对critic网络和actor网络进行训练的流程包括：

a)初始化actor网络和critic网络的神经网络参数θ

接下来开始进行M轮训练：

b)actor根据actor网络选择一个action，并传递到环境中，a

c)环境执行action后返回回报reward和新的状态state(t+1)；

d)将(s

e)计算神经网络的loss，依据公式：

f)采用Adam optimizer更新θ

g)计算actor网络的策略梯度：

h)采用Adam optimizer更新θ

i)采用soft update方式更新actor-target网络和critic-target网络：

本申请的优点是：依据真实系统特性构建的仿真训练环境；构建状态(观测量)，回报函数，截止条件，动作；构建深度确定性策略梯度方法的critic网络、actor网络和相应的目标网络，通过与仿真训练环境的试错交互进行训练；使用actor网络训练结果作为该系统的控制器。

本发明将深度强化学习方法应用于控制器设计，介绍该方法的实施步骤，通过离线仿真训练，达到控制器要求后移植到真实环境中，实现非线性系统自适应控制。

附图说明

图1是环境与强化学习训练交互示意图；

图2神经网络结构示意图；

图3深度确定性策略梯度神经网络与训练环境交互示意图；

图4将训练后的actor网络移植到真实系统。

具体实施方式

本发明提出一种基于深度确定性策略梯度的自适应控制方法，其主要特征在于包括以下步骤：

1)首先依据真实系统特性构建的仿真训练环境，仿真训练环境与真实系统保持一致即可，环境与强化学习训练交互如图1。

2)根据深度强化学习的训练要素，分别构建状态，回报，动作和截止条件；

状态state：以当前值truevalue，误差值error＝reference–truevalue和误差的积分∫edt作为状态量state；

截至条件：如果truevalue≤min||truevalue≥max，则本轮训练终止；

动作区间：a∈[A

3)根据深度确定性策略梯度方法，构建critic网络、actor网络和相应的critic-target网络、actor-target网络,神经网络结构如图2所示。

深度确定性策略梯度神经网络与环境交互示意图如图3所示。

4)对critic网络和actor网络进行训练

使用深度确定性策略梯度算法对critic网络和actor网络进行训练，训练流程如下：

a)初始化actor网络和critic网络的神经网络参数θ

接下来开始进行M轮训练：

b)actor根据actor网络选择一个action，并传递到环境中，

c)环境执行action后返回回报reward和新的状态state(t+1)；

d)将(s

e)计算神经网络的loss，依据公式：

f)采用Adam optimizer更新θ

g)计算actor网络的策略梯度：

h)采用Adam optimizer更新θ

I)采用soft update方式更新actor-target网络和critic-target网络：

本轮训练结束，开始下一轮训练。

5)使用训练结果actor网络作为控制器。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于深度确定性策略梯度的自适应控制方法 [P] . 中国专利： CN112597693A . 2021-04-02
2. 一种基于深度确定性策略梯度的主动悬架控制方法 [P] . 中国专利： CN112158045A . 2021-01-01
3. CLASS Cognitive Load Adaptive Software System. A complex software system and method for managing the continuous improvement of human learning based on evidence-based strategies arising from Cognitive Load Theory. [P] . AU2018236887A1 . 2019-04-18

机译： CLASS认知负载自适应软件系统。一种复杂的软件系统和方法，用于管理基于认知负荷理论的循证策略而不断改进的人类学习。
4. A cooperative adaptive cruise control method for vehicle based on the variable time gap spacing strategy [P] . GB2594762A . 2021-11-10

机译：基于可变时隙间隙间距策略的车辆协作自适应巡航控制方法
5. Kind of self-adaptive network congestion control method based on SCPS-TP [P] . 美国专利： US10263904B2 . 2019-04-16

机译：基于SCPS-TP的一种自适应网络拥塞控制方法