首页> 中国专利> 一种基于秀丽线虫神经网络的仿生运动控制方法

一种基于秀丽线虫神经网络的仿生运动控制方法

摘要

本发明提出一种基于秀丽线虫神经网络的仿生运动控制方法,主要涉及仿生计算、深度学习、强化学习等领域。本发明的主要目的是借鉴秀丽线虫的神经网络运动控制原理来设计仿生智能体,使其具备自主运动决策能力。同时针对秀丽线虫依靠体表感觉神经元才能感知外界环境和在躲避障碍的场景下需要反复动作调整才能完成避障的问题,提出了改进方法。主要步骤包括:首先基于机器视觉和多传感器技术构建仿生智能体的感知模块实现外界的感知;然后通过借鉴秀丽线虫运动控制原理构建仿生智能体的运动控制系统,接着构建仿真环境并实例化仿生智能体,以此实现仿真环境下对智能体的训练,最后基于强化学习理论设计仿生智能体的动作记忆空间,最终实现仿生智能体在未知环境下的运动自主控制。

著录项

  • 公开/公告号CN114897125A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 中国石油大学(华东);

    申请/专利号CN202210500927.6

  • 申请日2022-05-10

  • 分类号G06N3/00(2006.01);G06N3/08(2006.01);G06N3/04(2006.01);G06N3/06(2006.01);G06V20/56(2022.01);

  • 代理机构

  • 代理人

  • 地址 266580 山东省青岛市黄岛区长江西路66号

  • 入库时间 2023-06-19 16:22:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06N 3/00 专利申请号:2022105009276 申请日:20220510

    实质审查的生效

说明书

技术领域

本发明涉及类脑仿生计算、秀丽线虫神经网络建模、深度强化学习等领域,具体涉及到一种基于秀丽线虫神经网络的仿生运动控制方法。

背景技术

当前以深度学习为代表的人工智能发展迅速,在自动驾驶、图像设别等领域得到了广泛应用。基于深度学习的相关技术主要以监督学习为主,该类学习方法往往需要大量的数据标注,然而基于该类方法训练出的模型往往在离线的测试数据集上有较高的准确率,当模型应用在变化差异较大的场景,准确率会大大下降,同时深度学习的参数训练方式是一个不透明的黑箱训练过程。这些原因导致了基于深度学习的模型训练方法的泛化性、可解释性方面较差,然而可解释性和泛化性对于实时控制场景(自动驾驶场景、无人机控制)是至关重要的。这类场景需要一种具有极高安全性的方法来实现实时控制。

自然界中生物小到果蝇、蚂蚁都有具有高效的学习与运动控制能力,因此借鉴生物神经网络来设计一种新型的神经网络,同时融合深度学习相关理论,设计一种模仿生物运动方式的控制系统,对无人机飞行控制、自动机器人运动控制、自动驾驶等领域有重大的意义。然而生物高效的控制能力依靠的是各类感觉、中枢、运动等各类神经元的紧密配合,由于高等生物的神经元细胞多达几亿个,到目前为止,生物学家并没有破解各类生物运动神经系统的工作原理和各神经网络复杂的连接方式。目前自然界中仅有秀丽线虫的神经网络结构被全部破解,尽管秀丽线虫仅有简单的302个神经元,然而它们确拥有极佳的神经系统结构和神经信息处理机制来进行运动、运动控制和导航等基本功能。

秀丽线虫能够实现灵活的运动控制的本质是:秀丽线虫的运动神经系统在外界刺激下,相关的神经元接受的兴奋性和抑制性信号相互博弈,在相互的博弈下进行运动模块的决策选择。为了实现对秀丽线虫神经网络运动控制系统工作原理的仿生应用,因此本发明通过借鉴秀丽线虫涉及运动控制的神经网络结构,并将这些神经网络结构进行抽象建模以此设计一种运动控制系统,最后将该运动控制系统应用在设计的智能体上,以此实现智能体运动的控制。同时针对秀丽线虫需要依靠体表的感觉神经元才能感知外界环境的问题,本发明基于机器视觉和多传感器技术现构建了感知功能模块,以此实仿生智能体对外界环境的感知。针对秀丽线虫在避障场景下需要反复调整动作才能完成避障的问题,本发明基于强化学习的理论设计奖励函数,实现智能体的动作决策记忆。最终让仿生智能体实现在未知环境下的运动自主决策能力。

发明内容

为解决现有技术中的缺点和不足,本发明提出了一种基于秀丽线虫神经网络的仿生运动控制方法,通过对秀丽线虫神经网络的运动控制系统的建模,以此实现仿生智能体的运动控制。

本发明为实现上述的技术目的,采用如下的技术方案:

步骤(1)、构建仿生智能体的感知模块,使其实现对外界物体的感知。基于机器视觉和传感器模块实现对外界障碍物、导引线的识别,同时实现智能体的外界感知和外界环境信息转换输入。

步骤(2)、构建仿生智能体的运动控制系统,通过借鉴秀丽线虫的涉及运动控制的神经网络结构进行抽象建模,以此构建秀丽线虫的运动控制系统。实现秀丽线虫在不同场景下的运动方式自主动作决策。

步骤(3)、构建仿真环境和仿生智能体,其中仿真环境包括外界导引线和外界障碍物,用于完成仿生智能体的训练。仿生智能体为MCS控制网络的运动载体,实现MCS控制命令的执行。

步骤(4)、基于仿真环境实现对仿生智能体的进行训练,同时基于强化学习方法设计奖励函数并在训练,并将该奖励系统移植到仿生智能体中,进而使仿生智能能够实现特定场景下的记忆动作决策。

2、步骤(1)中,仿生体的感知模块,包括基于机器视觉的导引线识别和基于多传感器的障碍物识别。其中导引线的识别主要步骤包括:

S11、在仿生智能体上安装摄像头进行图像的拍摄,然后基于深度学习相关理论进行图像中车道线的检测,其特征在于提出一种基于LanNet和HNet的实例分割方法的车道线检测方法。

S12、在图像目标识别后,需要进行图像中参考线的识别,本发明针对上一步识别的车道线,提出了一种最近距离的参考线选择方法。

S13、针对仿生智能体按照车道线导引进行运动控制的问题,提出了一种参考线斜率参数方法,实现图像坐标与仿真环境空间的坐标转换,同时将转换的信息作为仿真智能体的神经网络的训练信息。

3、步骤(1)中,针对障碍物的识别,提出了一种多传感器融合的方法,将不同传感器的信息以及图像信息进行融合,以此实现障碍物类型、位置的识别,并将相关信息输入到仿生体的控制系统中。

4、步骤(2)中,基于秀丽线虫涉及运动的神经元进行抽象建模,以此构建仿生智能体的运动控制系统MCS,主要步骤包括。

S41、MCS神经网络模型构建,MCS有四层神经元构成包括:感知层、中间层、决策层、运动控制层,通过借鉴秀丽线虫真实的神经网络连接结构,本发明构建了由4层神经元构成的运动控制系统。

S42、MCS神经元突触连接构建,参考秀丽线虫真实的神经元连接结构分为三种类型:有突触连接的神经元、无突触连接的神经元、同层神经元循环连接。

S43、MCS神经元模型的构建,基于生物的神经元发放脉冲的工作原理,提出了一种基于仿生神经计算的神经元模型,以此实现信息的处理。

5、通过步骤(1)中仿生智能体的感知模块实现对车道、障碍物等信息的感知,并基于机器视觉和传感器技术实现数据的处理,然后将处理的数据输入到步骤(2)构建的仿生运动控制系统中进行训练。

6、步骤(4)中,提出了一种基于深度强化学习的障碍物避障方法,实现了仿生智能体在未知环境下实现运动记忆的应用的功能,主要步骤包括。

S61、动作空间的定义:借鉴秀丽线虫基本的运动方式:前向运动、后向运动、转弯运动、停止四种基本的运动方式来设计仿生智能体的动作空间。定义仿生智能体的运动方式:A1为前向直线运动、A2为后向直线运动、A3为左转弯、A4为右转弯、A5为停止运动。

S62、奖励函数的定义:将智能体的状态定义为4类,智能体到达终点、智能体撞到了障碍物、安全状态、智能体任何动作会撞到障碍物。并针对每一个状态定义相关奖励。

S63、基于深度强化学习模型训练:本发明采用基于深度强化学习进行智能体的训练,首先构建仿真环境,然后在仿真环境下进行智能体的训练。智能体会在移动的过程中产生经验参数,并将经验以(S,A,R,S

本发明的有益效果在于:一种基于秀丽线虫的仿生控制系统,通过借鉴秀丽线虫真实的神经网络连接情况,构建了仿生智能体的系统控制系统,通过训练仿生体的控制网络参数,实现仿生体的运动的自主决策。然后构造的仿生体的感知模块,基于机器视觉和传感器的数据采集实现智能体对外界环境的实时感知,同时基于深度强化学习理论构建了仿生智能体的动作记忆模块,实现了仿生智能体在未知环境下的最优动作的选择决策。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明系统的总体架构图

图2为本发明基于秀丽线虫神经网络构建的仿生智能体神经网络

图3为本发明基于深度强化学习的仿生智能体训练流程

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明为实现上述的技术目的,采用技术方案,详细步骤如下:

步骤(1)、构建仿生智能体的感知模块,使其实现对外界物体的感知。基于机器视觉和传感器模块实现对外界障碍物、导引线的识别,同时实现智能体的外界感知和外界环境信息转换输入。

步骤(2)、构建仿生智能体的运动控制系统,通过借鉴秀丽线虫的涉及运动控制的神经网络结构进行抽象建模,以此构建秀丽线虫的运动控制系统。实现秀丽线虫在不同场景下的运动方式自主动作决策。

步骤(3)、构建仿真环境和仿生智能体,其中仿真环境包括外界导引线和外界障碍物,用于完成仿生智能体的训练。仿生智能体为MCS控制网络的运动载体,实现MCS控制命令的执行。

步骤(4)、基于仿真环境实现对仿生智能体的进行训练,同时基于强化学习方法设计奖励函数并在训练,并将该奖励系统移植到仿生智能体中,进而使仿生智能能够实现特定场景下的记忆动作决策。

2、上述步骤(1)中,由于秀丽线虫只能靠体表感觉神经元对外界的感知,并不能对外界物体进行距离感知,为此,我们对设计了感知模块来代替原来的线虫的感知神经元。感知模块主要负责在环境下检测车道线和障碍物检测,其中障碍物的检查主要距离传感器完成、车道线的检查基于机器视觉理论进行识别。其中车道线的检查主要保证仿生智能体能够跟线前向运动,障碍物的感知用于保证智能体在运动过程中完成合理的转向和后退等基本动作。

S11、针对车道线的检查,主要基于机器视觉并利用深度学习相关理论进行检测,其特征在于提出一种基于实例分割方法的车道线检测方法。首先使用摄像头对仿真环境下的车道线进行时间检测,对每一帧图像进行处理,然后使用LanNet对图像进行语义分割和像素向量表示,使用聚类完成对车道线的实例分割。最后利用HNet进行车道线像素的矩阵转换,实现对于同一条车道线所有像素点进行重现建模。基于该方法实现图像中车导线的检查识别。

基于LanNet和HNet的车道线识别需要完成两个步骤。首先通过LanNet进行图像数据的处理,LanNet主要包含两个功能:语义分割和像素的特征嵌入。其中语义分割主要完成图像中背景信息和车道线的二分类,以此分离出那些像素属于车道线,那些像素属于背景信息。像素的嵌入功能主要对像素进行嵌入表示,并通过训练得到像素的特征向量用于完成向量特征的聚类,以此区分那些像素属于同一个车道线。通过LanNet处理的数据是每条车道线的像素集合,还需要把这些像素点拟合出一条车道线,为了完成这个功能,本发明通过训练HNet神经网络结构来完成信息的转换,该网络可以完成图像数据到矩阵H的转换。

针对LanNet的特征嵌入编码问题,本发明提出一种新的Loss计算方法,来实现网络的快速训练,新的Loss由方差L

公式中C表示车道线数量,Nc表示同一类车道线的像素点数量,Uc表示车道线的平均向量。

S12、针对图像中参考线的识别,由于在上一步的车道线识别过程中,图像中有很多条线路和标志位置信,本发明只选择离智能体最近的车线作为参考线。

计算离智能体最近的参考线步骤:首先进行图像坐标的转换,然后计算车导线方程,最后计算离智能体最近的车道线。其中智能体到线段的最短距离计算公式如下,P为线段在图像中的斜率,D为截距,W为图像宽度,H为高度。

通过该公式计算出智能体的距离最短的车道线。

S13、参考线斜率参数计算,选出参考线后,智能体将以参考线为导向进行运动,主要包括两种场景:沿着参考线进行前向直线运动,这种情况斜率参数定义为

3、针对步骤(1)中障碍物的识别过程,主要内容包括基于多传感器的障碍物距离以及安全区域识别。本发明中针对障碍物距离的探测主要基于声波传感器完成障碍物的距离检测,同时基于深度学习的图像识别完成对仿真环境下的各类障碍物能够进行识别,同时实现对障碍物宽度的计算,具体步骤如下。

安全区域的确定,针对单一声波传感器设备精度不高的问题,本发明提出了一种基于多个传感器进行分组轮询识别的方法,假设有m个传感器,将180度分割为m个弧度相等的区域,每个传感器可用扫描探测范围定义为Z={Z1,Z2…Zm}。通过将传感器进行数据处理,计算出障碍物到仿生智能体的距离,定义为R={S1,S2…Sm},然后分别以R的元素为半径进行画圆,得到圆区域C={C1,C2…Cm}。根据传感器原理圆区域C和探测数据Z的交集即为安全区域,以此对两个集合取交集获得A={A1,A2…Am},则安全区域为集合A的并集。障碍物类型以及宽度的识别,本发明基于深度学习进行图像识别方法,以此实现对障碍类型的识别,同时将图像中障碍物的位置距离进行空间坐标转换,并通过在特定的传感器距离下,利用图像识别结果的像素值计算公式估算出障碍物的宽度,计算公式如下。

其中O(weight)为需要计算障碍物的宽度,d为智能体中心点到障碍物的距离,W为摄像头拍摄的图像宽度,H为图像的高度。

4、步骤(2)中秀丽线虫神经网络的运动控制系统构建过程,详细描述如下。

秀丽线虫的真实神经网络连接结构包括:感知神经元、中间神经元、运动神经元。通过借鉴秀丽涉及运动控制的神经元连接结构,设计仿生智能体运动控制系统MCS,MCS运动控制神经网络构建步骤如下,详细连接图如图2所示。

S21、MCS神经网络模型构建,MCS有四层神经元构成包括:感知层、中间层、决策层、运动控制层。感知层神经元负责感知外界环境,接收由感知模块的输入,并将相关信息传递给中间神经元和决策神经元。中间层和决策层主要针对感知神经元的输入,进行综合的决策并将决策信息传递给运动控制层。运动控制层,接收决策神经元输出的信息,并将相关信息转换为具体的运动方式,运动方式包括:前向运动、后向运动、转弯运动、停止。

S22、MCS神经元突触连接构建,参考秀丽线虫真实的神经元连接结构分为三种类型:有突触连接的神经元、无突触连接的神经元、同层神经元循环连接。针对这三种连接情况,定义连接关系如下。

对于连续的两层有突出连接的神经元定义,定义这两层神经元的数量分别为源神经元N

对于连续的两层没有突出连接的神经元定义,根据突触的连接关系,使其分布情况服从伯努利概率分布(m

同层神经元的循环连接情况定义:对于决策层神经元,定义决策层神经元数量为N

S23、MCS神经元模型的构建,在构建完成仿生体的控制神经网络结构和连接情况后,需要对控制网络结构中的神经元进行建模,由于秀丽线虫神经元的工作原理是当神经元的膜电位达到临界值,则发放一个脉冲,随后进入静息状态,一个神经元的膜电位与该神经元连接的突触多少有关。为模拟该工作原理,本发明构建的单个神经元模型,并规定当前神经元的状态如公式所示:

其中

S24、MCS网络模型训练过程,由于秀丽线虫运动包括:前向运动、后向运动、转向运动、停止四种基本的运动方式。一个运动路径的组成是在这四种基本的运动方向基础上,自由组合构成一个运动序列,进而实现灵活的运动控制。一个运动序列由若干的时间段组成,线虫的控制系统会在每个时间段从四种基本的运动选择一种运动方式。在每个时间T中选择哪一种运动方式是由线虫的决策神经模块在接收外界刺激下做出的选择。为了完成网络模型的训练,本发明基于有监督的训练方式,来实现MCS网络模型的参数的学习。基本步骤是通过感知模块的信息输入,将转换的信息输入到MCS网络,MCS网络模型经过迭代训练后,最后输出当前时间段决策的运动方式。具体的训练过程,需要构造仿真环境和仿生智能体,然后在仿真环境中构造外界障碍物,在运行场景下,通过人为的标注不同场景下的运动方式,实现训练集的构建。然后在进行MCS网络模型的训练,最终将网络模型应用到仿生智能体上。

4、步骤(3)中,为实现仿真环境和仿生智能体构建过程,详细描述如下。

仿真环境的构建,为实现仿生智能体的训练,首先需要构建仿真环境,这里包括两种训练的仿真环境,基于软件模拟的仿真环境和基于真实场景的仿真环境。其中软件模拟的仿真环境,主要利用仿真软件设计训练场景,训练场景中包括路况信息和障碍物信息,其中路况信息包括具体的车道数量、车道线的类型、车道线的宽度、训练的终点和起点信息等。真实环境的训练场景构建,主要通过搭建具有导引线的车道并在车道上放置具有特定形状的障碍物,以此实现真实训练场景的模拟。

仿生智能体的构建,仿生智能体的构建方式也包括两种:基于仿真软件环境下程序实现的仿生智能体,如在webots仿真软件下,利用该软件提供的机器人基础模块实现仿生智能体,并利用该仿真软件在智能体上构建出摄像头和传感器等模块,然后将设计的秀丽线虫仿生控制系统以及训练的神经网络通过程序方式在该仿真环境下进行实现,进而实现软件仿真环境下的仿生智能体构建。基于物理环境下的仿生智能体构建,主要通过在智能小车的基础上,搭建距离传感器和摄像头模块实现外界信息的感知,然后将设计的智能控制系统移植到智能小车上,实现物理智能体的构建。

最终通过以上两种方式实现仿真环境的构建并进行仿生智能体的训练。

5、步骤(4)中,基于深度强化学习的避障方法,详细描述如下。

为了实现仿生智能体在训练过程中能够在仿真场景下,选择最优的动作方式,以此保证安全的前提下实现最优的运动序列执行,因此本发明提出了基于强化学习理论来设计奖励函数记忆训练强化学习的基本要素,并在训练过程中让仿生智能体实现最优动作的记忆知识库,以此实现仿生体的记忆功能。基于强化学习的仿生智能体训练的具体步骤如下。

S51、构建交互环境空间:其中环境空间的信息指的是为训练仿生智能体构建的外界交互空间,本发明中训练环境是一个构建的仿真的路线车道,该路线包括车道信息和障碍物信息,并在路线中设置特定的障碍物信息,仿生智能体通过感知模块实现对这些信息的感知。在仿真环境中设置若干个障碍物,借助这些障碍物实现智能体的训练。

S52、动作空间的定义:基于秀丽线虫基本的运动方式:前向运动、后向运动、转弯运动、停止四种基本的运动方式来设计仿生智能体的动作空间。由于秀丽线虫在前向和后向运动时是由运动神经元控制肌肉细胞进行协调的波动运动。而仿生智能体并不需要做这种复杂的运动,因此本发明简化了这种运动方式。并定义仿生智能体的运动方式:A1为前向直线运动、A2为后向直线运动、A3为左转弯、A4为右转弯、A5为停止运动。智能体在决策时从在5种动作空间种选择其中的一种,将该过程定义为:A={A1∪A2∪A3∪A4∪A5}。

S53、奖励函数的定义:本发明在训练仿生智能体时,将智能体的状态定义为4类,具体包括:成功状态(智能体到达终点)、失败状态(智能体撞到了障碍物)、安全状态(智能体选择任何动作都不会撞到障碍物)、不安全状态(智能体下一步动作会撞到障碍物)。仿生智能体在进行动作后达到下一状态后,定义相关奖励函数如下:

智能体顺利到达终点,奖励为1000;智能体撞到障碍物,奖励为-500;智能体在安全状态下,距离终点更近,奖励为20;智能体在安全状态下,距离终点更远,奖励为0;智能体从安全状态转入不安全状态,奖励为-10;智能体在安全状态下,距离障碍物更近,奖励为-10。

S54、基于深度强化学习模型训练:在定义好智能体的状态S、动作空间A、奖励值R后,本发明采用基于深度强化学习进行智能体的训练,首先构建仿真环境,然后在仿真环境下进行智能体的训练。智能体会在移动的过程中产生经验参数,并将经验以(S,A,R,Snext)的形式存储到知识记忆库M中。然后用知识记忆库中的数据来训练神经网络,该神经网络的输入是仿生智能体的当前状态S,输出采取每个动作的预期奖励值Q(s,a),仿生智能体会选择奖励值最大的动作进行执行。通过在仿真环境下不断迭代训练仿生智能体,直到训练获得的累积奖励值稳定后,结束训练。最后将训练的动作记忆,应用在仿生智能体真实场景下的运动控制中,以此实现仿生智能体在未知环境下的动作记忆的应用,解决秀丽线虫在真实的避障场景下,需要进行多次动作调整才能完成避障的功能,以此让仿生智能体实现未知环境下的自主动作决策。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号