法律状态公告日
法律状态信息
法律状态
2019-09-17
未缴年费专利权终止 IPC(主分类):G06N3/08 授权公告日:20180105 终止日期:20180929 申请日:20150929
专利权的终止
2018-01-05
授权
授权
2016-01-27
实质审查的生效 IPC(主分类):G06N3/08 申请日:20150929
实质审查的生效
2015-12-30
公开
公开
技术领域
本发明涉及了具有脑认知机理的发育自动机及其学习方法,属于智能机器人技术领域。
技术背景
学习与记忆是人与动物智能行为的本质,人与动物的多种技能都是在其神经系统通过自学习和自组织的过程中逐渐形成和发展起来的,学习和模拟人与动物的神经活动和自我调节机制,并将其赋予给智能机器人,是人工智能与控制科学的重要研究课题。
1996年,J.Weng最早提出了机器人自主心智发育思想,他认为智能体应该在模拟人脑的基础上,在内在发育程序的控制下通过传感器和效应器与未知环境交互来发展心智能力。Brooks等强调机器人与教师、环境进行交互学习逐渐发展其智能,并通过结合神经科学的研究理论提出模拟人与动物的脑皮层中的前额叶、下丘脑、海马等区域的计算模型来处理复杂环境中复杂问题,这也就涉及到了感觉运动系统。最初的认知发育是从感觉运动系统协调机制的形成和发育开始的,同时感觉运动系统又是在内在动机形成和发育的过程中不断协调和完善的。神经学相关文献表明,在人与动物学习的过程中,大脑皮层、基底核以及小脑会以自身特有的方法平行工作,并且在人与动物运动有关的相互关系中,小脑和基底核分布在大脑皮质到脊髓之间运动信号传递的路线的两侧,它们会参与任一行为动作的发起及控制。
相关的专利如申请号CN200910086990.4的发明专利基于自动机理论,提出了操作自动机模型,并将该模型应用到机器人的自主学习控制中。申请号为CN201310656943.5的专利则将操作条件反射原理应用于图像处理领域,有效的提高了系统处理图像的精度和速度。申请号为201410101272.0的专利主要针对传统机器人学习效率低,适应能力差等问题提出了一种仿生智能控制方法,有效的提高了机器人智能水平。申请号为201410163756.8提出了一种基于云计算的自主心智发育云机器人系统,该系统能够有效地减轻机器人执行运算密集型任务的负担,还可以实现不同机器人间知识的共享。但是,以上专利并没有涉及模拟人类脑认知机理的学习系统。
发明内容
针对上述技术问题,本发明以生物感觉运动系统为理论依据,并引入心理学中的内在动机机制来驱动学习,提供一种具有脑认知机理的发育自动机及其学习方法,提高机器人的自主发育认知能力。
具有脑认知机理的发育自动机,包括内部状态集合,系统输出集合,内部操作行为集合,状态转移方程,奖赏信号,系统评价函数,系统动作选择概率,多巴胺响应差分信号;
(1)
(2)
(3)
(4)
(5)
(6)大脑皮层中的输入信号包含两部分,分别是感觉皮质信息和运动皮质信息,作为纹状体的输入,因此:
纹状小体主要是预测生物体动作取向性好坏的评价机制,进一步说也是内在动机机制取向性好坏的评价机制,定义系统评价函数如下:
其中,
其中
(7)在基底神经节的学习过程中,纹状体中的基质主要是动作选择功能;在由内在动机机制驱动的学习过程中最重要的一个特点就是依照概率大小来选择执行动作;采用Boltzmann概率规则来实现基质的行为选择功能,从而实现学习自动机的概率选择机制;首先定义:
根据公式(4)中的定义,将纹状体基质的系统动作选择概率输出用公式(5)表示:
其中,
(8)由黑质致密部所释放的多巴胺能用来作为动作评估的指导信号,用于改善由动作导致的最大未来奖赏的行为表达,以便获得更加精确的执行动作;在
结合公式(2)和公式(6)可以得出公式(7):
这表明,在
具有脑认知机理的发育自动机的学习方法,包括以下步骤:
(1)初始化:迭代学习步数初始值
(2)感知当前状态
(3)在纹状小体中计算评价函数
(4)根据取向性好坏按照公式计算纹状体基质的行为选择概率
(5)根据状态转移方程,状态由
(6)丘脑发出即时奖赏
(7)由大脑运动皮层输出动作
(8)重复执行(2)~(7)直到
与现有技术相比,本发明提供的具有脑认知机理的发育自动机及其学习方法,以学习自动机为基础框架为系统自主发育过程提供了一种泛化能力强,适用范围广的数学模型;其次该方法将感觉运动系统与内在动机机制相结合,提高系统的自学习与自适应能力,实现真正意义上的智能。
附图说明
图1为本发明系统结构图;
图2为本发明学习流程图;
图3为实施例的两轮机器人平衡控制各状态响应曲线;
图4为实施例的两轮机器人平衡控制评价函数与误差仿真曲线;
图5为实施例的抗干扰实验仿真结果;
图6为实施例的学习方法与传统学习自动机方法评价函数曲线对比图;
图7实施例的学习方法与传统学习自动机方法误差曲线对比图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
以两轮机器人为实施例,系统结构图如图1所示,按照图2的步骤流程来进行学习。
针对非完整式两轮自平衡机器人而言,它是一个本征不稳定的系统,在实现各种运动之前,首先要保证机器人能够保持自身平衡,所以两轮机器人的姿态平衡是进行运动控制的首要条件。为了验证本发明所提出的一种具有脑认知机理的发育自动机的有效性、鲁棒性以及优越性,本实施例以两轮机器人为对象,研究了在未知环境下机器人是怎样通过自主学习最后学会运动技能的。
机器人在实验过程中有四个输出量并满足相应条件,即左右两轮角速度
实验1:平衡控制实验
机器人在没有干扰的未知环境下,采用本发明提出的方法,经过不断的学习,经过42次试探并在第43次试探中完成实验,大约需要经历220歩左右,即2.2s左右就学会了平衡控制技能,表现了其较快的自主学习能力和本发明的有效性,仿真结果中前3000步的各状态量响应曲线和评价函数与误差仿真曲线如图3和图4所示。
实验2:抗干扰实验
在系统实际的运行过程中,输入输出信号会或多或少的受到外部噪声的干扰,或检测装置的不精确,都会使状态量产生一定的误差。那么为了模拟实际环境,当机器人已经学会平衡控制后保持9800步时,将幅值为25的脉冲信号加入到各个输入状态量中,如果机器人能够经受脉冲信号的干扰并保持平衡,则认为实验成功并证明本发明具有一定的鲁棒性。图5为加入脉冲信号后各状态的输出响应,可以看出经过200步,即2s左右后,机器人重新达到平衡位置。
实验3:本实施例与传统学习自动机对比实验
由于本发明引进了内在动机机制来驱动机器人的自主学习,有利于降低系统的误差,提高算法的收敛速度。为了证明本发明的优越性,分别应用传统学习自动机算法和本发明对两轮机器人进行了平衡控制实验,并对其实验结果进行分析。实验中两种算法的参数设定相同,图6和图7为前2000步中两种算法的评价函数与误差曲线的对比图。通过图6可以看出本发明在大约220步,即2.2s,就完成了平衡控制技能的学习,而传统学习自动机方法在大约600步,即6s,才完成学习,证明本发明的收敛速度优于传统学习自动机方法。图7表明本发明的误差幅度优于传统学习自动机方法,更有利于系统的稳定。
机译: 根据脑认知类型的测试结果提供学习方法的方法,记录用于存储相同内容的介质存储程序,存储在相同介质中的计算机程序以及用于打印相同介质的包含材料的问题
机译: 使用组合物增强新生婴儿认知,脑和/或中枢神经系统发育的方法
机译: 用于脑生长和/或认知和/或心理发育的组合物