法律状态公告日
法律状态信息
法律状态
2022-08-26
授权
发明专利权授予
技术领域
本发明涉及强化学习与水面无人船的轨迹跟踪技术领域,具体而言,尤其涉及一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法。
背景技术
水面无人船是具有自主导航能力,并且可自主实现环境感知、目标探测等任务的智能化、无人化水面平台,其最主要的特征便是欠驱动性,即利用两个独立的输入端同时控制三个自由渡的运动;欠驱动系统能够通过较少的驱动器来完成复杂的控制任务,不仅能够降低成本,简化控制系统结构,同事也能提高系统的可靠性与易维护性;但是在对水面无人船的跟踪控制方面仍然存在一些问题,例如:当外界存在较大的风浪流等干扰时,控制器需要较大的值来克服干扰。但当控制器中存在饱和特性时,往往不能达到控制要求,因此需要考虑在控制器存在饱和时的轨迹跟踪控制问题。
发明内容
根据上述提出的技术问题,而提供一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法。本发明考虑了控制器存在输入饱和限制,当外界干扰过大时,控制器不会因为输入饱和特性使得跟踪效果变差。
本发明采用的技术手段如下:
一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法,所述方法包括:
建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;
基于设定的期望轨迹数学模型,引入控制器输入饱和函数;
基于引入控制器输入饱和函数的期望轨迹数学模型,设计无人船控制率;
基于设计的无人船控制率,设计神经网络权重更新率。
进一步地,所述建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;包括:
定义北东坐标系OX
将北东坐标系(OX
将附体坐标系BXYZ视作非惯性坐标系,船舶左右对称时,取其中心为坐标原点B,BX轴沿着船舶中线指向船艏方向,BY轴垂直指向右舷,BZ轴沿XY平面垂直指向下;
对无人水面船进行建模,得到如下船舶运动控制数学模型:
其中,η=[x,y,ψ]
设定无人水面船的期望轨迹数学模型如下:
其中,x
进一步地,所述基于设定的期望轨迹数学模型,引入控制器输入饱和函数,包括:
引入控制器输入饱和函数,其表达式如下:
其中,μ
将上述sat(μ
则引入的控制器输入饱和函数最终表示如下:
sat(μ
其中,ρ(μ
进一步地,所述基于引入控制器输入饱和函数的期望轨迹数学模型,设计无人船控制率,包括:
构建成本函数,如下:
其中,t表示时间;γ表示折扣因子;z表示跟踪误差;e表示指数函数,
构建无人船轨迹跟踪动态,如下:
其中,
定义最优成本函数,如下:
其中,r(e,μ
根据上述定义的最优成本函数,得到哈密尔顿-雅克比-贝尔曼方程,如下:
其中,
得到无人船最优控制率,如下:
进一步地,所述基于设计的无人船控制率,设计神经网络权重更新率,包括:
根据前馈神经网络的全局逼近特性,将最优代价函数表示为:
其中,
设计所述最优成本函数的逼近函数,表示如下:
其中,
基于上述设计的逼近函数,得到哈密尔顿-雅克比-贝尔曼方程,如下:
则最优控制器为:
其中,
其中,Γ
计算演员更新率
其中,k
与现有的技术相比,本方案的有益效果主要体现在:
无人船舶行驶在恶劣的环境中,如北极航道。外界有较大的风浪流等干扰因素,因此无人船需要较大的控制输入来进行控制,本方案考虑控制器存在输入饱和限制,当外界干扰过大时,控制器不会因为输入饱和特性使得跟踪效果变差,更加具有实际工程意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明无人船位置跟踪图。
图3为本发明无人船速度跟踪图。
图4为本发明无人船位置误差图。
图5为本发明无人船速度误差图。
图6为本发明无人船轨迹跟踪图。
图7为本发明评论家神经网络权重更新图。
图8为本发明演员神经网络权重更新图。
图9为本发明无人船控制律图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种具有输入饱和受限的无人船强化学习自适应跟踪控制方法,包括如下步骤:
S1、建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;具体包括:
S11、定义北东坐标系OX
S12、将北东坐标系(OX
S13、将附体坐标系BXYZ视作非惯性坐标系,船舶左右对称时,取其中心为坐标原点B,BX轴沿着船舶中线指向船艏方向,BY轴垂直指向右舷,BZ轴沿XY平面垂直指向下;
S14、对无人水面船进行建模,得到如下船舶运动控制数学模型:
其中,η=[x,y,ψ]
S15、设定无人水面船的期望轨迹数学模型如下:
其中,x
S2、基于设定的期望轨迹数学模型,引入控制器输入饱和函数;具体包括:
S21、引入控制器输入饱和函数,其表达式如下:
其中,μ
S22、将上述sat(μ
S23、引入的控制器输入饱和函数最终表示如下:
sat(μ
其中,ρ(μ
S3、基于设定的期望轨迹数学模型,引入控制器输入饱和函数;具体包括:
S31、构建成本函数,如下:
其中,t表示时间;γ表示折扣因子;z表示误差;e表示指数函数,
S32、构建无人船轨迹跟踪动态,如下:
其中,
S33、定义最优成本函数,如下:
其中,r(e,μ
S34、根据上述定义的最优成本函数,得到哈密尔顿-雅克比-贝尔曼方程,如下:
其中,
S35、得到无人船最优控制率,如下:
S4、基于设计的无人船控制率,设计神经网络权重更新率。具体包括:
S41、根据前馈神经网络的全局逼近特性,将最优代价函数表示为:
其中,
S42、设计所述最优成本函数的逼近函数,表示如下:
其中,
S43、基于上述设计的逼近函数,得到哈密尔顿-雅克比-贝尔曼方程,如下:
则最优控制器为:
其中,
其中,Γ
S44、计算演员更新率
其中,k
从下述附图中可以看出本方法跟踪的优越性。图2为无人船位置跟踪图,可以看出船舶在非常短的时间内跟踪上;图3为速度跟踪图,可见虽然前期的速度有波动,但是在较短的时间内也达到跟踪效果。图4和图5分别是位置误差和速度误差,从这两个误差图中可以看出误差最终都在零附近波动。图6为船舶的旋转仿真实验,船舶参考轨迹为一个圆,可以看出跟踪效果很好;图7和图8分别是评论家权重更新律和演员权重更新率,可见船舶在较短时间内进行训练然后稳定,达到跟踪效果;图9为船舶跟踪控制率,可见船舶在有饱和输入限制时,通过辅助变量的设计使得船舶在具有较大的控制律时仍可以达到跟踪效果,解决了船舶输入饱和限制。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
机译: PSO RBFNN基于RBFNN的基于PSO的分散式自适应跟踪控制,用于不确定具有输入饱和度的电动机器人系统
机译: 基于RBFNN基于使用PSO的分散式自适应跟踪控制,用于输入饱和度的不确定电动机器人系统
机译: 利用估计的相对距离和无人机传感器输入控制无人机跟踪的物体运动的系统和方法