法律状态公告日
法律状态信息
法律状态
2022-09-06
实质审查的生效 IPC(主分类):B25J 9/16 专利申请号:2022105873140 申请日:20220525
实质审查的生效
技术领域
本发明涉及机器人技术领域,特别是涉及一种机器人运动技能学习方法及系统。
背景技术
随着机器人应用领域的扩展,在复杂的非结构化和动态变化环境中机器人的快速技能学习和自主适应的能力成为研究热点。受人类运动学习神经机制启发,相关技术人员提出采用强化学习框架训练机器人学习运动技能。然而目前相关算法面临学习效率低,精度和泛化性能差等关键问题,需要大量的仿真训练,且很难从仿真环境迁移到物理机器人上。
发明内容
本发明的目的是提供一种机器人运动技能学习方法及系统,提高了机器人运动的学习效率。
为实现上述目的,本发明提供了如下方案:
一种机器人运动技能学习方法,包括:
获取机器人的当前环境状态参数及所述机器人的当前动作;
根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略;
根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的;
基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹;
根据优化后的轨迹确定控制所述机器人的运动指令。
可选地,所述根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略,具体包括:
根据归一化优势函数算法构建状态动作值神经网络,所述状态动作值神经网络的输入为当前环境状态参数及当前动作,所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略,通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新;
所述全局价值函数为:
其中,
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,
可选地,还包括:根据
其中,x
可选地,所述基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹,具体包括:
初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,
可选地,所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。
本发明公开了一种机器人运动技能学习系统,包括:
机器人当前数据获取模块,用于获取机器人的当前环境状态参数及所述机器人的当前动作;
全局价值函数和无模型强化学习策略确定模块,用于根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略;
轨迹预测模块,用于根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的;
轨迹优化模块,用于基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹;
运动指令确定模块,用于根据优化后的轨迹确定控制所述机器人的运动指令。
可选地,所述全局价值函数和无模型强化学习策略确定模块,具体包括:
全局价值函数和无模型强化学习策略确定单元,用于根据归一化优势函数算法构建状态动作值神经网络,所述状态动作值神经网络的输入为当前环境状态参数及当前动作,所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略,通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新;
所述全局价值函数为:
其中,
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,
可选地,还包括:根据
其中,x
可选地,所述轨迹优化模块,具体包括:
轨迹优化单元,用于初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,
可选地,所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种机器人运动技能学习方法及系统,根据当前环境状态参数和无模型强化学习策略,采用环境动态模型预测机器人下一时刻的轨迹,并采用模型预测轨迹积分方法优化初始轨迹,通过结合无模型强化学习和基于模型强化学习方法实现了训练机器人通过少量的试错实验自主学习运动技能,实现了机器人运动技能的快速学习,有效提高了物理机器人在实际运动技能学习任务中的学习效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种机器人运动技能学习方法流程示意图一;
图2为本发明一种机器人运动技能学习方法流程示意图二;
图3为本发明一种机器人运动技能学习系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种机器人运动技能学习方法及系统,提高了机器人运动的学习效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种机器人运动技能学习方法流程示意图一,图2为本发明一种机器人运动技能学习方法流程示意图二,如图1-2所示,一种机器人运动技能学习方法包括以下步骤:
步骤101:获取机器人的当前环境状态参数及所述机器人的当前动作。
机器人的环境状态参数包括所述机器人的关节角度值、关节角速度值以及目标(预设关节的关节末端)的笛卡尔空间位置。
机器人具体为机械臂时,环境状态参数包括机械臂的关节角度值、关节角速度值以及机械臂末端的笛卡尔空间位置。
步骤102:根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略。
其中,步骤102具体包括:
根据归一化优势函数算法构建状态动作值神经网络Q,所述状态动作值神经网络的输入为当前环境状态参数x
所述全局价值函数为:
其中,
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,
状态动作价值函数
通过最小化贝尔曼误差进行训练更新,具体包括:
以所述最小化贝尔曼误差
训练主网络的时候,为了稳定学习过程,一般会构造一个目标网络(主网络的一个副本),这个目标网络的参数一般是主网络参数的滑动平均值(低通滤波),这样可避免
步骤103:根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的。
根据
其中,x
以最小化负对数似然均值准则L
本发明根据无模型控制策略π
以最大化有不等式约束的目标函数为目标建立无模型强化学习与基于模型强化学习之间的联系,具体包括:
步骤104:基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹。
其中,步骤104具体包括:
初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,
轨迹优化并更新参数,具体包括:
采用模型预测路径积分方法优化轨迹,并根据
步骤105:根据优化后的轨迹确定控制所述机器人的运动指令。
本发明获取环境状态参数及机器人当前动作;根据所述环境状态参数及机器人当前动作,采用无模型强化学习方法获取全局价值函数及无模型强化学习策略;根据所述环境状态参数及无模型强化学习策略,采用集成神经网络建立环境动态模型预测机器人的状态轨迹;根据所述环境状态参数、环境动态模型、全局价值函数、无模型策略以及预设奖励函数,采用模型预测轨迹积分方法求解机器人最优控制动作,输出指令控制机器人到达目标位置。本发明一种机器人运动技能学习方法为一种机器人运动技能快速学习方法,有效地提高物理机器人在实际运动技能学习任务中的学习效率。
图3为本发明一种机器人运动技能学习系统结构示意图,如图3所示,一种机器人运动技能学习系统包括:
机器人当前数据获取模块201,用于获取机器人的当前环境状态参数及所述机器人的当前动作。
全局价值函数和无模型强化学习策略确定模块202,用于根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略。
轨迹预测模块203,用于根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的。
轨迹优化模块204,用于基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹。
运动指令确定模块205,用于根据优化后的轨迹确定控制所述机器人的运动指令。
所述全局价值函数和无模型强化学习策略确定模块202,具体包括:
全局价值函数和无模型强化学习策略确定单元,用于根据归一化优势函数算法构建状态动作值神经网络,所述状态动作值神经网络的输入为当前环境状态参数及当前动作,所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略,通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新。
所述全局价值函数为:
其中,
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,
根据
其中,x
所述轨迹优化模块204,具体包括:
轨迹优化单元,用于初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,
所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
机译: 一种基于指针的对象获取方法,用于对计算机系统的信息进行有形处理,该方法基于一种自然语言,并且该机器人或机器人的人工智能系统对该计算机系统的接收信号作出反应,该计算机系统具有相应的关联机器人或机器人的人工智能,该机器人或机器人的人工智能计算机系统的相应思想得到证实
机译: 一种通信系统和方法,包括中心远程机器人遥控操作控制数据,用于不与第一移动远程机器人之间来回无线收发数据,以及间接与第二移动机器人Mobil之间来回无线收发数据,其中,第一和第二远程机器人C Omprenden接收器或至少一个收发器。
机译: 移动机器人,终端设备,移动机器人的远程控制系统以及一种能够实时检查移动机器人的状态并允许用户在远程站点中控制移动机器人的方法