首页> 中国专利> 一种基于深度确定性策略梯度的自适应控制方法

一种基于深度确定性策略梯度的自适应控制方法

摘要

本发明提供了一种基于深度确定性策略梯度的自适应控制方法,依据真实系统特性构建的仿真训练环境;构建状态(观测量),回报函数,截止条件,动作;构建深度确定性策略梯度方法的critic网络、actor网络和相应的目标网络,通过与仿真训练环境的试错交互进行训练;使用actor网络训练结果作为该系统的控制器。本发明将深度强化学习方法应用于控制器设计,介绍该方法的实施步骤,通过离线仿真训练,达到控制器要求后移植到真实环境中,实现非线性系统自适应控制。

著录项

  • 公开/公告号CN112597693A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 沈阳航盛科技有限责任公司;

    申请/专利号CN202011297651.3

  • 发明设计人 卢旺;孟凡石;孙继泽;

    申请日2020-11-19

  • 分类号G06F30/27(20200101);G06N3/08(20060101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构44395 广东良马律师事务所;

  • 代理人刘海杰

  • 地址 110000 辽宁省沈阳市皇姑区塔湾街40号

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域:

本申请涉及计算机软件技术领域,具体涉及一种基于深度强化学习技术的自适应控制方法。

背景技术:

传统的PID控制器需要系统进行精确建模,并通过拉普拉斯变换将时域模型转换为频域传递函数,再根据根轨迹等方法设计经典PID控制器,该种方法缺点在于非线性问题需要进行线性假设,建模过程较为复杂,并且控制器设计的好坏依赖于所抽象的数学模型精确程度。

本申请所要解决的问题是如何解决非线性系统的控制问题,并且不依赖于精确的数学模型,构建一种无模型控制方法。

发明内容

本申请的目的是提出一种基于深度强化学习技术的自适应控制方法。解决非线性系统的控制问题,并且不依赖于精确的数学模型,构建一种无模型控制方法。

本申请的技术方案包括以下步骤:一种基于深度确定性策略梯度的自适应控制方法,其特征在于:它包括以下步骤:

1)首先依据真实系统特性构建仿真训练环境,仿真训练环境与真实系统保持一致,使环境与强化学习训练进行交互;

2)分别构建状态,回报,动作和截止条件作为深度强化学习的训练要素,动作区间:a∈[A

3)构建critic网络、actor网络和相应的critic-target网络、actor-target网络,上述网络形成神经网络;

4)对critic网络和actor网络进行若干轮训练;本轮训练结束,开始下一轮训练;5)使用训练结果actor网络作为控制器。

所述状态,回报,动作和截止条件分别为状态state:以当前值truevalue,误差值error=reference–truevalue和误差的积分∫edt作为状态量state;

回报:reward=10(|e|<0.1)-1(|e|≥0.1)-100(truevalue≤min||truevalue≥max)如果实际值小于最小值min或最大值max,则回报为-100;如果误差绝对值大于0.1,则回报值为-1;如果误差绝对值小于0.1,则回报值为+10;

截至条件:如果truevalue≤min||truevalue≥max,则本轮训练终止。

对critic网络和actor网络进行训练的流程包括:

a)初始化actor网络和critic网络的神经网络参数θ

接下来开始进行M轮训练:

b)actor根据actor网络选择一个action,并传递到环境中,a

c)环境执行action后返回回报reward和新的状态state(t+1);

d)将(s

e)计算神经网络的loss,依据公式:

y

f)采用Adam optimizer更新θ

g)计算actor网络的策略梯度:

h)采用Adam optimizer更新θ

i)采用soft update方式更新actor-target网络和critic-target网络:

本申请的优点是:依据真实系统特性构建的仿真训练环境;构建状态(观测量),回报函数,截止条件,动作;构建深度确定性策略梯度方法的critic网络、actor网络和相应的目标网络,通过与仿真训练环境的试错交互进行训练;使用actor网络训练结果作为该系统的控制器。

本发明将深度强化学习方法应用于控制器设计,介绍该方法的实施步骤,通过离线仿真训练,达到控制器要求后移植到真实环境中,实现非线性系统自适应控制。

附图说明

图1是环境与强化学习训练交互示意图;

图2神经网络结构示意图;

图3深度确定性策略梯度神经网络与训练环境交互示意图;

图4将训练后的actor网络移植到真实系统。

具体实施方式

本发明提出一种基于深度确定性策略梯度的自适应控制方法,其主要特征在于包括以下步骤:

1)首先依据真实系统特性构建的仿真训练环境,仿真训练环境与真实系统保持一致即可,环境与强化学习训练交互如图1。

2)根据深度强化学习的训练要素,分别构建状态,回报,动作和截止条件;

状态state:以当前值truevalue,误差值error=reference–truevalue和误差的积分∫edt作为状态量state;

回报:reward=10(|e|<0.1)-1(|e|≥0.1)-100(truevalue≤min||truevalue≥max)如果实际值小于最小值min或最大值max,则回报为-100;如果误差绝对值大于0.1,则回报值为-1;如果误差绝对值小于0.1,则回报值为+10;

截至条件:如果truevalue≤min||truevalue≥max,则本轮训练终止;

动作区间:a∈[A

3)根据深度确定性策略梯度方法,构建critic网络、actor网络和相应的critic-target网络、actor-target网络,神经网络结构如图2所示。

深度确定性策略梯度神经网络与环境交互示意图如图3所示。

4)对critic网络和actor网络进行训练

使用深度确定性策略梯度算法对critic网络和actor网络进行训练,训练流程如下:

a)初始化actor网络和critic网络的神经网络参数θ

接下来开始进行M轮训练:

b)actor根据actor网络选择一个action,并传递到环境中,

a

c)环境执行action后返回回报reward和新的状态state(t+1);

d)将(s

e)计算神经网络的loss,依据公式:

y

f)采用Adam optimizer更新θ

g)计算actor网络的策略梯度:

h)采用Adam optimizer更新θ

I)采用soft update方式更新actor-target网络和critic-target网络:

本轮训练结束,开始下一轮训练。

5)使用训练结果actor网络作为控制器。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号