法律状态公告日
法律状态信息
法律状态
2020-07-24
授权
授权
2018-01-30
实质审查的生效 IPC(主分类):G05B13/04 申请日:20171026
实质审查的生效
2018-01-05
公开
公开
技术领域
本发明涉及一种可重构机器人系统的分散学习最优控制方法,属于机器人控制算法领域。
背景技术
可重构机器人由电源、处理系统、执行器和传感器等模块组成。这些模块组合满足不同构形的标准机电接口来适应复杂工作环境的各种任务要求,基于上述优点,可重构机器人经常应用于不确定性和危险的环境中,如太空探测、灾害救援、高低温环境作业等。此外,在复杂和不确定的环境面前,可重构机器人需要兼顾控制精度和功耗的合适控制系统。
一般来说,为了实现模块化和可重构的特点,可重构机器人应该具有可以添加、删除或者根据任务需要来替换的重要属性,这对于可重构机器人控制系统的设计是一个挑战。分散控制是构建可重构机器人控制系统的一种有效的控制策略。由于仅需要采用每个关节模块的局部信息,使得分散控制策略可以为机器人控制系统提供结构上的灵活性,使得可重构机器人可以根据不同任务的需求重组成不同的构形而无需调整控制器的参数。
由于可重构机器人的子系统动力学模型具有关节子系统间的耦合力矩交联项,包括哥式力项、离心力项和重力项,因此对关节子系统间的耦合力矩交联项的处理是一个难题。近期的一类研究,如[李元春,宋扬,赵博,环境约束可重构机械臂模块化力/位置控制,上海交通大学学报,vol.51,no.6,709-714,2017],该技术将可重构机器人关节子系统间的耦合力矩交联项考虑为一类完全未知的非线性函数,并利用神经网络对其进行近似逼近。然而,如果对于所有的关节模块,都简单的将关节子系统间的耦合力矩交联项视为未知的非线性函数,势必将极大的增大系统不确定性的数量级,从而导致所采用的分散补偿控制器必须具备更大的控制增益以获得理想的控制性能,但是这会使执行器产生瞬时的大功率输出,从而导致机器人关节的抖振效应并降低控制器的稳定性与控制精度。
发明内容
本发明为了解决传统的可重构机器人控制方法中存在机器人关节的抖振效应及稳定性和控制精度低的问题,提出一种性能良好的分散学习最优控制方法,以实现不确定环境接触下可重构机器人系统的高精度分散最优控制。将可重构机器人系统的动力学模型描述为一个相互关联的子系统的合成,通过策略迭代算法求解HJB方程,结合神经网络与近似性能指标函数对位置和速度跟踪性能及各关节模块的控制力矩进行优化,并最终实现完备的分散学习最优控制。
本发明解决技术问题的方案是:
不确定环境接触下的可重构机器人分散学习最优控制方法,其特征是,首先建立可重构机器人系统动力学模型,通过对可重构机器人关节子系统间的耦合力矩交联项的分析,然后构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
该方法包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi,
定义系统的状态向量
则子系统的状态空间的形式可以表示为:
上式中,Bi=(Imiγi)-1,
步骤二,考虑式(11),构建代价函数如下:
其中,si(ei)定义为
构建哈密顿方程和最优代价函数如下:
其中,
在最优控制设计下,
令满足式(16)的分散最优控制律
其中,ui1是反馈控制律,
处理式(11)中的
接下来,定义反馈控制律ui1为
其中,ui1是利用第i个关节模块的已知局部信息设计,设计分散最优控制的律
步骤三,通过神经网络来近似代价函数Ji(si),定义如下:
其中,Wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
将式(21)带入式(18)可得:
理想权值Wci是未知的,用近似权值
根据哈密顿方程(14)和HJB方程(16),哈密顿方程可以进一步改写为:
其中,ui2是补偿控制律,ecHi是由神经网络逼近误差而得到的残差,它可以定义为:
以同样的方式近似哈密顿方程,可得:
定义误差方程为
训练和调整评价网络的权值信息,采用目标函数
其中,αci>0表示评价神经网络的学习速率;
推导出神经网络权值的动态误差,引入下式:
通过式(27),(28)和(29),得到评价神经网络的动态误差如下所示:
在实现在线策略迭代算法来对策略进行改进时,得到了近似最优控制律
结合式(19)与(31),得到本发明的分散学习最优控制律
本发明的有益效果如下:
1、本发明所述的可重构机器人分散学习最优控制方法,可以在面向不确定环境接触的条件下,使机器人系统实现良好的稳定性与控制精度。
2、本发明所述的分散学习最优控制方法,可以在提高可重构机器人控制精度的同时,降低系统执行器的能耗。
3、本发明解决了关节子系统间耦合力矩交联项数量级过大的问题,并降低了机器人系统动力学模型的复杂性。
附图说明
图1为本发明不确定环境接触下的可重构机器人分散学习最优控制方法原理图。
图2为本发明仿真验证中考虑的时变约束力图2(a)和碰撞力图2(b)曲线。
图3为本发明仿真验证中的可重构机器人构形A的位置图3(a)和速度图3(b)跟踪误差曲线。
图4为本发明仿真验证中的可重构机器人构形B的位置图4(a)和速度图4(b)跟踪误差曲线。
图5为本发明仿真验证中的可重构机器人构形A图5(a)和构形B图5(b)的控制力矩曲线。
图6为本发明仿真验证中的可重构机器人构形A关节1图6(a)和关节2图6(b)的评价神经网络权值曲线。
图7为本发明仿真验证中的可重构机器人构形B关节1图7(a)和关节2图7(b)的评价神经网络权值曲线。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,采用本发明的可重构机器人分散学习最优控制方法,其实现中关键处理方法及过程如下:
1、动力学模型的建立。
建立可重构机机器人系统的动力学模型如下:
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi,
(1)式中,关节摩擦项
其中,bfi是粘性摩擦系数,fci是库伦摩擦相关系数,fsi是静态相关系数,fτi是关于Stribeck效应的位置参数,
结合式(2)和式(3),关节摩擦项
其中,
此外,(1)式子中的关节子系统间的耦合力矩交联项
其中,zmi是第i个转子旋转轴上的单位矢量,zlj是第i个关节旋转轴上的单位矢量,zlk是第k个转子旋转轴上的单位矢量。
为了便于分析关节子系统间的耦合力矩交联项,将
其中,
不同于现有的对于包含哥式力项、离心力项、重力项等项的交联项的研究,该方法中由于柔轮输出转矩τfi可以反映出负载转矩和第i个关节与外部环境接触时的转矩,所以子系统交联项
重新改写式(1)中第i个子系统的动力学模型可以得到:
其中,Bi=(Imiγi)-1∈R+与
子系统的状态空间的形式可以表示为:
性质1:根据摩擦力模型(4),如果参数bfi,fci,fsi和fτi都是有界的,我们可以得出
性质2:摩擦力项
性质3:zmi,zlk与zlj是沿着相应关节旋转方向的单位矢量,
2、代价函数与哈密顿函数的构建。
首先,构建代价函数为:
其中,si(ei)定义为
定义哈密顿方程如下:
其中,
定义如下最优代价函数:
易知在最优控制设计下,
令满足式(16)的分散最优控制律
其中,ui1是反馈控制律,
为了处理式(11)中的
定义反馈控制律ui1为:
由于ui1是根据第i个关节模块的局部动态信息来设计的,因此,设计分散最优控制律
通过基于策略迭代的学习算法,来求HJB方程的解。令δ=0,从初始控制策略
3、基于神经网络的代价函数近似实现。
利用单隐层神经网络来近似代价函数Ji(si),定义如下:
其中,Wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
将式(21)带入式(18)可得:
由于理想权值Wci是未知的,所以用近似权值
根据哈密顿方程(14)和HJB方程(16),哈密顿方程可以进一步改写为:
其中,ui2是补偿控制律。ecHi是由神经网络逼近误差而得到的残差,它可以定义为:
以同样的方式近似哈密顿方程,可得:
定义误差方程为
为了训练和调整评价网络的权值信息,采用目标函数
其中,αci>0表示评价神经网络的学习速率。为了推导出神经网络权值的动态误差,引入下式:
通过式(27),(28)和(29),得到评价神经网络的动态误差如下所示
在实现在线策略迭代算法来完成策略改进时,得到了近似最优控制率
结合式(19)与(31),可得可重构机器人系统的分散学习最优控制律
4、仿真验证。
为了验证所提出的分散最优控制方法的有效性,对不确定环境接触的二自由度可重构机器人模型的两种不同构形进行仿真验证,其中,控制器参数由表1给出:
表1控制器参数
可重构机器人的两种不同构形的初始位置均选为x10=[1,1]T,x20=[0,0]T,两种构形的理想轨迹如下所示:
构形A:
x1d=0.4cos(0.3t)-0.1sin(0.5t)
构形B:
x1d=0.2cos(0.5t)-0.2sin(0.4t)
x1d=0.3cos(0.6t)-0.4sin(0.6t)
选取权值向量
fci=0.35+0.7sin(10θi)n·m
fsi=0.5+sin(10θi)n·m
fτi=0.1+0.2sin(10θi)s2/rad2
bfi=0.5+0.3sin(10θi)n·m·s/rad
在仿真中考虑了两种类型的外部环境接触,包括连续时变环境约束(构形A)和随机时间点处的碰撞(构形B)。
对于构形A,其所受到的外界接触力被考虑成由一个长度lc=0.5m,质量mc=4kg,以时变角度变量α(t)=0.75π+0.2sin(t/2)旋转的刚性长杆接触所产生的时变接触力fcont,可以表示为:
对于构形B,在30秒和45秒的时间点上,在垂直于末端执行器的方向上施加50N的碰撞力。
图2所示分别为仿真过程中考虑的时变约束力图2(a)和碰撞力图2(b)曲线。需要注意的是,约束力和碰撞力的信息只用于仿真设计中,而不用于控制器设计中,因为对可重构机器人系统的控制器来说,环境接触力一直是未知的。
图3所示分别为可重构机器人构形A的位置图3(a)和速度图3(b)跟踪误差曲线。在前10秒,由于分散学习最优控制器需要一段时间来训练评价网络,因此这种情况下的跟踪误差都比较明显。在此之后,由于模型的不确定项得到补偿,跟踪误差会收敛到一个很小的范围(小于10e-2弧度)。
图4所示分别为可重构机器人构形B的位置图4(a)和速度图4(b)跟踪误差曲线。由仿真结果可知,瞬时位置误差和速度误差发生30秒和45秒的时间点上,这是由于与环境发生了碰撞的原因,在此之后,跟踪误差在分散最优控制的作用下迅速收敛。
图5所示分别为可重构机器人构形A图5(a)和构形B图5(b)的控制力矩曲线。从中我们可以得出这样的结论:这些控制力矩连续而平滑,可以用于实际的可重构机器人系统中。此外,受益于最优控制策略,力矩消耗在适当的范围内进行了最优化,以匹配每个关节模块的输出功率。值得注意的是,本发明的分散学习最优控制器适用于可重构模块机器人的不同构形,而无需调整控制器参数。
图6所示分别为可重构机器人构形A关节1图6(a)和关节2图6(b)的评价神经网络权值曲线。在线迭代策略算法和评价神经网络训练的实现过程中,对于每个独立的子系统,我们得到了每种情况下两秒钟后的权值收敛的结果,实际上,构形A的评价神经网络的权值会收敛到:
图7所示分别为可重构机器人构形B关节1图7(a)和关节2图7(b)的评价神经网络权值曲线,由仿真结果可知,构形B的评价神经网络的权值会收敛到:
通过上述仿真结果可知,采用本发明所示的分散学习最优控制方法,可以使可重构机器人系统在面向不确定环境接触的条件下实现高性能的轨迹跟踪控制。
机译: 地面和不确定环境下的触觉机器人控制方法和装置
机译: 提供一种用于在自重构机器人中模块化的软件,包括在自重构机器人中的模块,包括计算机可读存储器的产品以及自重构机器人的方法
机译: 自适应移动空间机器人手臂Sayapin-Sineva及其运动和控制方法物理力学特性和几何形状在接触表面和运动轨迹的帮助下