法律状态公告日
法律状态信息
法律状态
2020-01-03
未缴年费专利权终止 IPC(主分类):G05D1/02 授权公告日:20180727 终止日期:20190113 申请日:20160113
专利权的终止
2018-07-27
授权
授权
2016-07-20
实质审查的生效 IPC(主分类):G05D1/02 申请日:20160113
实质审查的生效
2016-06-22
公开
公开
技术领域
本发明涉及了一种具有自主学习能力的在线序列极限学习机方法,属于智能机器人技术领域。
背景技术
针对现有认知发育方法中主动性与收敛度不高以及BP网络学习速度慢,容易陷入局部最优等问题,本专利结合极限学习机网络随机获取输入权值与阈值的特点,加快了学习训练速度,避免陷入局部最优解,同时也提高了智能体的主动学习性能。
探索认知发育机理,构建认知发育机制,并把这些机制赋予机器人,是人工智能和机器人学、认知科学、神经生理学和发育心理学研究的重要课题。
人类可以在不同的环境下调整自己的行为来适应环境、选取最合适的动作去完成任务,并学会新的技能。而机器人自从出现以来,大部分都只用于从事复杂重复、单调或者危险的任务,例如组装机器、探险、搜救、侦查等。与此同时,机器人在面对灵活多变、难以预测的环境时,那些面向特定任务、面向特定数据、遗传算法等传统方法就不再适用了,这也限制了机器人的应用范围,所以未知环境下的自主学习能力、决策能力和任务执行能力就成了机器人研究的重点和难点。因此就产生了一个新的研究方向——认知发育机器人。人的自主心智发育属于发展神经科学以及发展心理学领域的研究。近来,来自机器人和机器智能领域的研究人员通过交叉学科研究,对心智发育机器人的研究形成了一个新的研究领域。而机器人如何根据当前环境来选取合适的潜在动作完成任务又是认知发育机器人的一个新的研究内容。
20世纪60年代末至70年代初,斯坦福研究所研制出的具有逻辑推理和行为规划能力的移动式机器人Shakey,被认为是第一个具有自主学习能力的机器人。然而,Shakey是靠单独手工编程或者制定具体任务的机器学习来实现预定功能的,其自适应能力和自主探索能力相对较弱,从某种意义上讲,他并不是一个真正的智能机器人。1997年,麻省理工学院人工智能实验室的Brook教授提出了认知机器人的概念。1998年,J.Weng最早提出了机器人自主心智发育思想。2001年,他在Science上阐述了发育机器人的思想框架和算法模型,并指出真正的智能机器人是具有自主心智发育能力的,使机器人在与环境的交互过程中,独立自主的形成和发育知识及技能,这种能力是渐进形成、发展和完善的,并贯穿于机器人一生。
专利申请号为201410101272.0的专利主要针对传统机器人学习速率较低,实时性差等问题提出了一种仿生智能控制方法,该方法可以快速有效的提高机器人的智能水平。申请号为201410055115.0的专利主要针对现有技术中存在的机器人避障导航智能化程度不高等问题,提出了一种基于Skinner操作条件反射原理的机器人避障导航方法,是机器人能够在没有导师信号的情况下,以“learning-by-doing”的试错式方式与环境交互,建立操作条件反射,完成避障导航。申请号为201210398379.7的专利主要针对现有基于视频的人体行为识别方法存在的不足,提出一种基于在线贯序极限学习机的递增式人体行为识别方法该方法基于在线序贯极限学习机分类器对人体行为进行识别,不但能够在训练样本很少的情况下,以较少的训练时间,获得较为精确的人体行为识别结果,而且具有在线学习能力,即当环境和识别对象发生变化时,无需重新训练新的分类器,只需在现有的分类器基础上继续在线学习就可以达到人体行为的准确识别。
发明内容
针对BP神经网络在移动机器人路径规划应用中存在的维度高,训练难,学习速度慢等问题,提出一种基于在线序列极限学习机的强化Q学习方法(Q-learning),并运用到移动机器人路径规划研究当中,通过外部环境对机器人动作的奖励(惩罚)值,对机器人系统进行反馈,完成自主认知学习。
具体的技术方案为:
该方法一共分为九个部分,分别为外部状态集合、外部动作集合、奖赏信号、值函数、状态转移方程、极限学习机网络隐含层输出集合、中间参数转移方程、极限学习机输出集合、极限学习机输出权值转移方程。各个部分具体含义如下:
(1)
(2)
(3)
(4)
强化Q学习结合了动态规划与动物心理学知识,从而可以实现具有回报的机器在线学习。该方法通过Markov决策过程建模,迭代出最优解。
其中,
Step1:随机初始化
Step2:观测当前状态
Step3:获得下一状态
Step4:根据(1)式更新Q值。
(5)
(6)
(7)
(8)
首先采用批量的ELM算法来完成对该批数据的训练,如式(2)
之后含有
式(3)可以简化为式(4)
网络输出矩阵可以改写成为式(5)
则新的输出权值更新为式(6)
令
于是有:
根据Sherman-Morrison矩阵求逆引理可以将式(9)化简为式(10):
由式(10)可以得出
(9)
将式(9)两边同时求逆得到式(12):
所以有式(13):
可以推导式(6),从而得到式(14):
式中
可以看出新的输出权值矩阵
本发明系统学习步骤如下:
Step1:将Q-OSELM与网络训练中所用到的各种参数进行初始化;
Step2:将移动机器人状态进行初始化;
Step3:获取当前移动机器人系统的状态信息;
Step4:将当前状态信息输入到Q-OSELM网络中进行训练,根据所输出的Q值信息选择动作决策;
Step5:执行动作决策,使移动机器人得到一个新的状态
Step6:将其反馈信号通过环境反馈到Q-OSELM中完成网络训练;
Step7:重复Step3-Step6直到训练完毕,完成自主在线学习。
研究表明,ELM存在的许多优点,可以满足Q学习的研究需求。
首先,由于ELM是一种前馈神经网络,它采取自适应的方式模仿人脑进行学习训练,网络泛化能力很强,使智能体的智能系统能够更好更快的适应环境变化。
其次,ELM具有自学习,自组织能力以及归纳能力等特点,这不但保证了Q学习算法的收敛性,而且大大增强了智能体对未知环境的识别处理能力。
最后,ELM还具有较强的容错能力,它可以根据被控对象的自身特征进行精确的模式识别。
本发明提供的具有自主学习能力的在线序列极限学习机方法,以在线序列极限学习机为框架,结合强化Q学习,提出了一种具有自主学习能力的在线序列极限学习机方法,并将该模型运用到移动机器人路径规划研究中,使机器人根据外部环境的状态与奖励,实现自主学习导航,提高机器人在未知环境中的自主学习能力。
附图说明
图1为本发明的系统学习流程图;
图2为本发明的移动机器人智能控制结构模型;
图3为本发明的基于Q-OSELM的Q学习网络框架;
图4为实施例的简单环境下机器人寻优路径;
图5为实施例的增加障碍物数量后第一次学习后的运动轨迹;
图6为实施例的增加障碍物数量后完成三次学习后的运动轨迹;
图7为实施例的增加障碍物数量后完成六次学习后的运动轨迹。
具体实施方式
下面结合附图和实施方案对本发明做出进一步说明。
本发明的学习框架图如图3所示,并且按照图1所示的流程进行训练学习。图2给出了机器人智能控制结构模型,体现出机器人是如何通过自主学习完成避碰。
智能机器人在完成一系列任务之前,首先要保证它能够实时快速的适应环境,并完成相应的任务。于是移动机器人识别场景并完成躲避障碍的运动控制称为机器人的首要任务。为了验证本发明所提出的一种具有自主学习能力的极限学习机模型的有效性与收敛性,实验以移动机器人为研究对象,研究在未知环境下机器人避碰的技能。
实验初期设置了10个障碍物与1个目标点且随机的分布在仿真环境中;实验第二阶段改变障碍物及目标位置坐标,并增加障碍物数量至14个。观察两次仿真实验机器人行走路线并记录运动所需的时间。
实验的关键之处是Q学习中强化回报的获取。由此,选取合适的强化学习回报可以提高网络的训练收敛速度。根据本文机器人所需要完成的任务,选取折扣因子
依照移动机器人与障碍物的相对运动方向所产生的强化回报
依照移动机器人与目标点的相对运动方向所产生的强化回报
由于环境中障碍物是随机分布的,因此处于初始阶段的机器人会随机选取动作,并且导致发生碰撞,得到相应的强化回报,并进行存储,之后通过OSELM网络进行函数逼近,完成训练。经过一段时间训练,机器人可以自主学习实现避开障碍物并顺利到达目标点。
实验一:简单环境下的避碰实验
机器人在无干扰的未知环境中,采用本发明提出的方法,经过一次训练就可以完全掌握环境信息,并完成避碰,表现出快速的自主学习能力,证明了该算法的有效性快速性。仿真运动轨迹如图4所示。
实验二:复杂环境下的避碰实验
简单环境下的避碰实验不能说明该方法的收敛性,于是我们增加障碍数量并完成相应的避碰任务。由于机器人对复杂环境适应的比较慢,所以在较为复杂的初期环境中发生碰撞,如图5所示;而在第三次学习完成后完成避碰并到达目标点的任务,通过路径可以看出产生了冗余点,运动轨迹不平滑,如图6所示;而通过六次学习后,机器人可以完成任务,且路径平滑,实现了快速的自主学习避障,如图7所示。通过复杂环境下从发生碰撞到完成避碰的学习过程中,说明了该方法的收敛性。
机译: 用于学习机器人系统的处理序列的机器学习装置,具有多个激光加工机器人,相关机器人系统和机器学习方法,用于学习具有多个激光加工机器人的机器人系统的处理序列
机译: 基于地形海拔回归模型的极限学习机地形参考导航的设计方法及具有该方法的计算机可读存储介质
机译: 基于Holt-Winters和极限学习机预测建筑能耗的方法和系统