技术领域
本发明涉及强化学习与水面无人船的轨迹跟踪技术领域,具体而言,尤其涉及一种考虑位姿与速度受限的无人船自学习最优跟踪控制方法。
背景技术
如今人工智能技术已经广泛应用于控制领域,特别是无人船系统中。与传统船舶相比无人船可以很好的处理复杂多变的海上环境并且减少人为因素和不确定扰动的影响。强化学习是一个解决最优控制问题的高效的解决方法。它可以解决传统的最优控制问题中求解哈密尔顿-雅克比-贝尔曼方程不易的缺点。Werbos提出一种基于强化学习并使用演员-评论家神经网络的最优控制框架。通过使用演员-评论家神经网络可以逼近成本函数和控制策略,从而满足最优准则且避免了维数灾难问题。当无人船在狭窄水域航行时,无人船的位置和速度会受到一定的限制,但已有的最优控制研究中并没有考虑状态受限的问题,不能解决无人船在狭窄水域航行的问题。
发明内容
根据上述提出的技术问题,而提供一种考虑位姿与速度受限的无人船自学习最优跟踪控制方法。本发明在考虑无人船最优控制的同时引入状态受限的影响,解决无人船在狭窄水域航行的问题。
本发明采用的技术手段如下:
一种考虑位姿与速度受限的无人船自学习最优跟踪控制方法,包括如下步骤:
S1、建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;
S2、考虑无人船状态受限,引入障碍李雅普诺夫函数;
S3、考虑位姿受限,采用反步法计算最优虚拟控制率;
S4、基于步骤S3计算的所述最优虚拟控制率,设计神经网络权重更新率;
S5、考虑速度受限,采用反步法设计最优控制器;
S6、基于步骤S5设计的所述最优控制器,设计神经网络权重更新率。
进一步地,所述步骤S1具体包括:
S11、定义北东坐标系OX
S12、对无人水面船进行建模,得到如下船舶运动控制数学模型:
其中,
S13、设定无人水面船的期望轨迹数学模型如下:
其中,x
进一步地,所述步骤S2具体为:
对于非线性系统
进一步地,所述步骤S3具体包括:
S31、考虑位姿受限,定义无人船的跟踪误差:
e
其中,η
S32、设计成本函数:
其中,γ表示折扣因子,s表示积分变量,t表示时间,α表示最优虚拟控制器;
S33、定义最优成本函数:
其中,r
S34、基于步骤S33定义的所述最优成本函数,得到哈密尔顿-雅克比-贝尔曼方程如下:
S35、计算最优虚拟控制率,计算公式如下:
其中,β
进一步地,所述步骤S4具体包括:
S41、根据前馈神经网络的全局逼近特性,将最优代价函数表示成如下形式:
其中,
S42、设计成本函数的逼近函数:
其中,
S43、采用梯度下降法得到神经网络更新率的导数
其中k
S44、基于障碍李雅普诺夫函数,分析得到评判器神经网络更新率的导数
进一步地,所述步骤S5具体包括:
S51、考虑速度受限,定义无人船的跟踪误差:
S52、系统动态采用神经网络逼近,如下:
其中,θ
S53、定义最优成本函数:
其中,r
S54、基于步骤S53定义的所述最优成本函数,得到哈密尔顿-雅克比-贝尔曼方程如下:
S55、计算最优虚拟控制率,计算公式如下:
其中,β
进一步地,所述步骤S6具体包括:
S61、根据前馈神经网络的全局逼近特性,将最优代价函数表示成如下形式:
其中,
S62、采用梯度下降法得到评判器权重更新率导数
其中,k
S63、基于障碍李雅普诺夫函数,分析得到执行器更新率
较现有技术相比,本发明具有以下优点:
本发明提供的考虑位姿与速度受限的无人船自学习最优跟踪控制方法,使得无人船舶行驶在狭窄水域,并且无人船系统动态未知时,可以实现最优跟踪控制效果,即无人船状态受限情况下的最优控制问题得以解决。在实际应用中,无人船经常会在狭窄水域中航行,如港口,运河等,在船舶密集处,无人船的速度也会受到限制,因此考虑无人船状态受限下的跟踪问题更加有实际意义。
基于上述理由本发明可在强化学习与水面无人船的轨迹跟踪等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明实施例提供的无人船x跟踪图。
图3为本发明实施例提供的无人船y跟踪图。
图4为本发明实施例提供的无人船艏摇角误差图。
图5为本发明实施例提供的无人船纵荡速度误差图。
图6为本发明实施例提供的无人船横荡速度跟踪图。
图7为本发明实施例提供的无人船艏摇速度跟踪图。
图8为本发明实施例提供的无人船x轴误差图。
图9为本发明实施例提供的无人船y轴误差图。
图10为本发明实施例提供的无人船艏摇误差图。
图11为本发明实施例提供的无人船纵荡速度误差图。
图12为本发明实施例提供的无人船横荡速度误差图。
图13为本发明实施例提供的无人船艏摇速度误差图。
图14为本发明实施例提供的无人船轨迹跟踪图。
图15为本发明实施例提供的评判器权重二范数图。
图16为本发明实施例提供的执行器权重二范数图。
图17为本发明实施例提供的无人船控制律图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种考虑位姿与速度受限的无人船自学习最优跟踪控制方法,包括如下步骤:
S1、建立无人水面船数学模型,设定无人水面船的期望轨迹数学模型;
具体实施时,作为本发明优选的实施方式,所述步骤S1具体包括:
S11、定义北东坐标系OX
S12、对无人水面船进行建模,得到如下船舶运动控制数学模型:
其中,
S13、设定无人水面船的期望轨迹数学模型如下:
其中,x
S2、考虑无人船状态受限,引入障碍李雅普诺夫函数;
具体实施时,作为本发明优选的实施方式,所述步骤S2具体为:
对于非线性系统
S3、考虑位姿受限,采用反步法计算最优虚拟控制率;
具体实施时,作为本发明优选的实施方式,所述步骤S3具体包括:
S31、考虑位姿受限,定义无人船的跟踪误差:
e
其中,η
S32、设计成本函数:
其中,γ表示折扣因子,s表示积分变量,t表示时间,α表示最优虚拟控制器;
S33、定义最优成本函数:
其中,r
S34、基于步骤S33定义的所述最优成本函数,得到哈密尔顿-雅克比-贝尔曼方程如下:
S35、计算最优虚拟控制率,计算公式如下:
其中,β
S4、基于步骤S3计算的所述最优虚拟控制率,设计神经网络权重更新率;
具体实施时,作为本发明优选的实施方式,所述步骤S4具体包括:
S41、根据前馈神经网络的全局逼近特性,将最优代价函数表示成如下形式:
其中,
S42、设计成本函数的逼近函数:
其中,
S43、采用梯度下降法得到神经网络更新率的导数
其中k
S44、基于障碍李雅普诺夫函数,分析得到评判器神经网络更新率的导数
S5、考虑速度受限,采用反步法设计最优控制器;
具体实施时,作为本发明优选的实施方式,所述步骤S5具体包括:
S51、考虑速度受限,定义无人船的跟踪误差:
S52、系统动态采用神经网络逼近,如下:
其中,θ
S53、定义最优成本函数:
其中,r
S54、基于步骤S53定义的所述最优成本函数,得到哈密尔顿-雅克比-贝尔曼方程如下:
S55、计算最优虚拟控制率,计算公式如下:
其中,β
S6、基于步骤S5设计的所述最优控制器,设计神经网络权重更新率。
具体实施时,作为本发明优选的实施方式,所述步骤S6具体包括:
S61、根据前馈神经网络的全局逼近特性,将最优代价函数表示成如下形式:
其中,
S62、采用梯度下降法得到评判器权重更新率导数
其中,k
S63、基于障碍李雅普诺夫函数,分析得到执行器更新率
为了验证本发明方法的有效性,进行了仿真实验,如图2-4所示,为无人船位姿跟踪效果图,从图中可以看出,本发明提出的方法有更好的跟踪效果。如图5-7所示,为无人船速度跟踪效果图,从图中可以看出,本发明提出的方法在指定的速度范围内能很好的跟踪期望速度。如图8-10所示,为位姿误差图,从图中可以进一步说明本发明所提出的方法有更小的跟踪误差,如图11-13所示,为速度误差图,同样说明本发明的方法有更好的跟踪效果。如图14所示,为轨迹跟踪图,从该图可以直观的看出本发明方法的优越性,即在指定范围内跟踪期望轨迹。图15和图16分别是神经网络的二范数图,上述两张图说明神经网络在进行初期的学习后到达稳定。图17是无人船控制器图,即采用图17的控制器可以达到上述跟踪效果。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
机译: 跟踪速度伺服控制方法和一种磁盘驱动器的装置,考虑到加速变化,尤其是在减少跟踪时间的同时降低磁盘驱动器中的噪声
机译: 基于移动通信终端的呼叫中断信息的最优收益设备及其控制方法,一种包括该设备的系统,该系统能够考虑移动通信终端的用户模式来实现最优收益
机译: 耦合单元干式离合器,一种用于机动车辆的控制方法,涉及通过考虑速度,发动机扭矩,单元位置和设定点扭矩来估计误差,以提供扭矩扰动估计以校正设定点扭矩。