法律状态公告日
法律状态信息
法律状态
2022-11-01
授权
发明专利权授予
技术领域
本发明属于工业控制技术领域,具体涉及一种基于匹配或不匹配不确定性的不确定仿射非线性离散时间(DT)仿射非线性系统的自适应交错强化学习方。
背景技术
虽然在鲁棒控制领域已经有了大量的研究成果,但从离散时间采样的角度设计非线性系统的鲁棒控制器仍然是一个值得研究的问题。上述关于鲁棒控制的结果仅适用于连续时间线性或非线性系统。由于离散时间控制器具有可以用现代嵌入式硬件直接以数字形式实现的重要优点,那么如何直接在离散时间内为系统,特别是非线性DT系统设计鲁棒控制器就自然而然地提出了一个问题。DT系统与连续时间系统的本质差异对解决这一问题提出了挑战,而DT系统的非线性特性又会使其变得更加复杂。利用求解广义HJB方程的思想,提出了一种具有匹配不确定性的DT非线性系统的鲁棒控制策略。应该关注的包括两个方面。其一是针对DT非线性系统在自适应动态规划ADP结构下的鲁棒控制方法,该方法既适用于匹配的未知不确定性,也适用于不匹配的未知不确定性。另一种是在求解优化问题时,用简化的HJB方程代替Generalized Hamilton-Jacobi-Bellman(GHJB)方程,使得DT仿射非线性系统的鲁棒控制器可以用交错RL方法学习,计算量较小。
发明内容
本发明涉及一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,是一种针对非线性离散系统在自适应动态规划结构下的鲁棒控制方法。该方法既适用于结构匹配的未知确定性,也适用于非结构匹配的未知确定性。在用ADP方法求解优化问题时,提出一种简化的HJB方程使得离散仿射非线性系统的鲁棒控制器可以用交错RL方法学习。
本发明的目的是通过以下技术方案实现的:
一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,包括如下步骤:(1)基于最优控制的问题,推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件;(2)结合神经网络逼近的交错RL方法寻找UUB稳定性的鲁棒控制策略;
所述步骤(1)分为三个阶段:1)鲁棒控制问题;2)增广效用函数的标准系统的最优控制问题;3)设计鲁棒控制器:
阶段1)鲁棒控制问题具体为:建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题,基于给出假设和定义,跟踪关注鲁棒控制问题;DT仿射非线性系统(1)描述为:
x
其中x
阶段2)最优控制的优化问题求解具体为:首先基于动态规划方法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程,然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略,然后找出系统的鲁棒控制与相应标准系统的最优控制之间的内在联系,找到两类不确定DT仿射非线性系统的鲁棒控制器通过最优控制的方法;具体为:
关于系统(1)的标称系统(2),
x
假设,对于系统(2),希望找到控制律u
其中r(x
其中
其中
阶段3)基于阶段2)获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中,所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略确保系统对于不确定性系统的所有可能实现的稳定性;
对于系统(2),如果假设1成立,则控制策略
简化后的HJB方程成立。
其中,
利用满足(8)的最优值函数V
其中,
所述步骤(2)具体为:
1)值函数和控制协议估计控制策略分别使用基于Value函数近似的带误差的神经网络(NNs)来表示,给出近似策略迭代方法,估计最右控制性;
2)分析算法的收敛性:分别定义在系统中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得任意接近简化的HJB方程的解;如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差尽可能小,采用在时间步长处的权重和权重的交织单步更新,从而开发出以下交织RL方法,在本方法中,权重和将与迭代指数交错训练,直到在每个时间步长k收敛为止;
3)自适应控制协议设计:采用梯度下降法执行三重指标迭代策略,方法是最小化近似误差;
具体为:用于强化控制策略的交错式RL;
提出交错的RL方法逼近鲁棒控制器,使得DT仿射非线性系统(1)的轨迹为UUB;平滑值函数和控制策略分别使用基于Value函数近似的带误差的NNs来表示为:
因此
且在每次迭代i时,控制策略由下式给出:
其中ω
式中,
其中l
其中x
不确定系统的交错RL方法:
Ⅰ.初始化:设置时间步长k=1,迭代指数i=0,给定初始状态x
Ⅱ.交错迭代:给定权重υ
如果不满足
Ⅲ.设置ω
Ⅳ.||ω
Ⅴ.得到
权重ω
进一步地,所述阶段1)给出假设和定义具体为:
假设1:系统(1)无漂移,即f(0)=0,g(0)=0,f(x
定义1:如果存在一种控制策略u
定义2:系统(1)假设在原点,如果存在一个绑定M和时间步N(N是一个正整数),这样解集x
进一步地,还包括证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性;对所提方法的有效性进行验证,采用仿真软件,联合验证理论方法和结果的有效性。
进一步地,所述证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性的具体步骤如下:
①收敛性验证:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标i,神经网络权递归方程步骤指标j和时间指标k(i,j为正整数,k为第k次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②不确定系统的UBB稳定性:
首先简化的HJB方程的解作为Lyapunov函数候选,其后进行泰勒展开,
进一步地,所述方法实现后,采用学习到的鲁棒控制策略的近似值作为系统的控制行为,以容忍不确定性。
本发明的优点与效果是:本发明提出的方法的主要优点是首次建立了一种简化的HJB方程,用于求解DT仿射非线性系统的鲁棒控制器,在未知匹配不确定性和非匹配不确定性的适用性意义上更具一般性。此外,本发明还对所设计的控制器下的交错RL方法的收敛性和有界不确定闭环系统的UUB稳定性进行了严格的证明。这种方法的提出,从长远来看,可以保证工业上的系统高效,稳定的运行,从而提高了效率。
附图说明
图1为不确定性交错RL方法框图;
图2为批判者NN和行为者NN的权重演变;
图3为案例模拟中评论家和演员NN的权重的训练结果。
具体实施方式
一种基于匹配或不匹配不确定性DT仿射非线性系统的自适应交错强化学习方法,通过选择合适的效用函数,将鲁棒控制问题转化为标准系统的最优控制问题,在求解简化的HJB方程时,在每个时间步交替实施性能评估和控制策略更新,结合神经网络逼近,从而保证DT仿射非线性系统的一致最终有界(UUB)稳定性,允许所有未知有界不确定性的实现。对所提出的交错RL方法的收敛性和不确定系统的UUB稳定性进行了严格的理论证明;具体步骤如下:(1)基于最优控制的问题,推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件。(2)提出结合神经网络逼近的交错RL来寻找UUB稳定性意义下的鲁棒控制策略。(3)证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性。对所提方法的有效性进行验证,采用仿真软件,联合验证理论方法和结果的有效性。
所述步骤(1)分为三个阶段:1)鲁棒控制问题2)增广效用函数的标准系统的最优控制问题3)鲁棒控制器设计。
阶段2)优化问题求解具体为:首先基于动态规划方法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程,然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略。然后找出系统(1)的鲁棒控制与相应标准系统(2)的最优控制之间的内在联系,找到两类不确定DT仿射非线性系统的鲁棒控制器可以通过最优控制的方法。
阶段3)基于阶段2获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中。所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统(1)的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略可以确保系统(1)对于不确定性系统的所有可能实现的稳定性。
所述步骤(2)具体为:
1)值函数和控制协议估计控制策略可以分别使用基于Value函数近似的带误差的神经网络(NNs)来表示。给出近似策略迭代方法,估计最右控制性。
2)分析收敛性:由于交错RL具有折衷系统的方法和控制更新的收敛速度的能力,因此与标准策略迭代(PI)和值迭代(VI)RLS不同,分别定义在(1)和(2)中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得我们可以任意接近简化的HJB方程的解。如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差可以尽可能小。采用在时间步长处的权重和权重的交织单步更新,从而开发出以下交织RL方法。在方法中,权重和将与迭代指数交错训练,直到在每个时间步长k收敛为止。
3)自适应控制协议设计:采用梯度下降法执行三重指标迭代策略,方法是最小化近似误差。
所述步骤(3)具体步骤如下:
①神经网络权的收敛性:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标i,神经网络权递归方程步骤指标j和时间指标k(i,j为正整数,k为第k次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②不确定系统的UBB稳定性:
首先简化的HJB方程的解作为Lyapunov函数候选,其后进行泰勒展开,
所述步骤③具体步骤如下:
①通过三个案例说明提出的交错RL方法的有效性。
一是使用具有匹配不确定性的扭摆系统来检查所开发的方法的性能;二是具有匹配不确定性的仿射非线性系统;最后是使用具有不匹配不确定性的仿射非线性系统来展示其有效性。
②在仿真平台上进行数据挖掘和优化控制方法的验证。
在本发明中,通过集成动态规划,Lyapunov理论和泰勒级数展开式给出了简化的HJB方程,从而解决该问题使控制器能够保证仿射非线性DT系统的UUB稳定性受到未知匹配和不匹配不确定性的影响。逐次交错地执行值函数逼近和控制策略更新,并在每个时间步使用迭代索引来逐次逼近简化的HJB方程的解,从而得出控制器,在该控制器下,具有匹配和不匹配不确定性的DT仿射非线性系统可以是UUB。提出了针对一般DT仿射非线性系统的鲁棒控制方法的系统推导和分析。对于不考虑不确定性的线性二次调节,所提出的交错式RL方法可以学习近似最优控制器,否则它是一种能够保证DT仿射非线性系统为UUB的控制器。仿真结果证明了该方法的有效。
一、鲁棒控制问题
建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题。此外,还给出了一些假设和定义,以便更容易地跟踪关注的鲁棒控制问题。考虑描述为的DT仿射非线性系统(1):
x
其中x
假设1:系统(1)无漂移,即f(0)=0,g(0)=0,f(x
定义1:如果存在一种控制策略u
定义2:系统(1)假设在原点,如果存在一个绑定M和时间步N(N是一个正整数),这样解集x
二、鲁棒控制器设计及简化HJB方程推导
具增广效用函数的标称系统的最优控制问题,分别推导了允许匹配不确定性和不匹配不确定性的DT仿射非线性系统鲁棒稳定性的两个充分条件。在推导过程中,给出了简化的HJB方程。
关于系统(1)的标称系统(2),
x
假设,对于系统(2),希望找到控制律u
其中r(x
其中
其中
阶段3)基于阶段2)获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中,所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略确保系统对于不确定性系统的所有可能实现的稳定性;
对于系统(2),如果假设1成立,则控制策略
简化后的HJB方程成立
其中,
利用满足(8)的最优值函数V
其中,
这表明V
将定理1的结果扩展到系统(1)具有无与伦比的不确定性的鲁棒稳定性。定理2:对于系统(2),若假设1成立则需将γ(x
Ω上存在一个正定的两次连续可微函数,V(x
则控制策略u
控制策略u
这表明系统(1)对于限制在范围内的不确定性的所有可能实现是稳定的。
三、用于强化控制策略的交错式RL
开发一种交错的RL来逼近鲁棒控制器,使得DT仿射非线性系统(1)的轨迹为UUB。众所周知,平滑值函数V(x
在每个迭代i处,NN被表示为:
因此
其中ω
式中,
其中l
其中x
四、不确定系统的交错RL方法
Ⅰ.初始化:设置时间步长k=1,迭代指数i=0。给定初始状态x
Ⅱ.交错迭代:给定权重υ
如果不满足
Ⅲ.设置ω
Ⅳ.||ω
Ⅴ.得到
在本方法中,权重ω
注意,在所示的时间步长k处,使用执行者NN估计控制策略可以成功地克服由于未来状态不可用而造成的困难。
方法实现后,将采用学习到的鲁棒控制策略的近似值作为系统(1)的控制行为,以容忍不确定性。为了消除在大多数实际工业中非常常见的死区、间隙、饱和执行器非线性对系统性能甚至稳定性的负面影响,可以用类在效用函数中增加一个非二次泛函,这样即使对于不确定系统(1),也可以处理这些非线性控制约束。
五、理论分析
在这一部分中,对方法1的收敛性和不确定系统的UUB稳定性进行了全面的分析。
假设迭代值函数V
其中,
其中
给出了下面的定理,以证明方法1学习的权重ω
定理3:对于系统(2),权重ω
根据定理3,通过实现方法1,经过i和k的迭代,可以得到控制策略
定理4:在学习控制策略
选择简化的HJB方程的解V(x
此外,将(45)改写为使用泰勒级数展开式
其中ω
而后,可推导出
因此,如果
六、案例模拟
通过代表性的例子说明了所提出的交错RL的有效性。
例:通过使用具有匹配不确定性的扭摆系统来检查所开发的方法1的性能。扭转摆的动力学描述如下:
其中,角度θ和角速度ω被视为系统状态。参数J,M,l,f
x
其中p∈[-10,10]是未知的有界参数,
通过使用具有匹配不确定性的倒立摆系统来检查所开发的方法的性能。在实现方法之前,将批判网络和行为者网络的结构分别设置。选择Q=diag(1,1)和NNs激活函数σ(·)=tanh(·)。让评论网和行动网的学习率分别为0.1和0.3。在这个例子中,我们发现在计算机仿真中,对于批判神经网络和演员神经网络,在隐含层中选择8个神经元和2个神经元可以得到令人满意的结果。
选择探测噪声为e
综上,本发明以具有匹配不确定性的倒立摆系统为例,来检验本发明提出的方法的性能。仿真结果表明了学习的控制策略的有效性和可行性以及系统即使在不确定性的情况下,系统仍然能够保持稳定。因此,这种方法的提出,从长远来看,可以保证工业上的系统高效,稳定的运行,从而提高了效率。
机译: 使用基于近似的干扰观测器方法的控制设备,用于具有不匹配干扰的不确定纯反馈非线性系统的自适应跟踪
机译: 使用基于近似的干扰观测器方法的控制设备,用于具有不匹配干扰的不确定纯反馈非线性系统的自适应跟踪
机译: 基于自适应观测器的输出约束跟踪的任意切换不确定仿射非线性系统的控制装置