公开/公告号CN112381829A
专利类型发明专利
公开/公告日2021-02-19
原文格式PDF
申请/专利权人 中国地质大学(武汉);
申请/专利号CN202011266136.9
申请日2020-11-13
分类号G06T7/10(20170101);G01C21/34(20060101);G06T5/00(20060101);G06T7/194(20170101);
代理机构42238 武汉知产时代知识产权代理有限公司;
代理人易滨
地址 430000 湖北省武汉市洪山区鲁磨路388号
入库时间 2023-06-19 09:55:50
技术领域
本发明涉及计算机视觉、信息技术技术领域,尤其涉及一种基于视觉注意机制的自主学习导航方法。
背景技术
视觉辅助导航是智能车辆导航领域的研究热点之一。系统基于对车辆周围场景的图像信息的采集和分析,产生对行驶行为的参考信息,从而消除驾驶过程中的危险驾驶因素。基于视觉的导航辅助系统已经在智能驾驶的诸如车道偏离预警(LDW)、前向碰撞预警(FCW)、车道保持辅助(LKA)和全景泊车(SVP)等具体应用中显示出强大的性能。相比于传统的超声波雷达、激光雷达、毫米波雷达等多模态导航技术,图像传感器采集到的数据可以通过稀疏化手段极大地压缩,对于车载计算机的计算资源需求很小,更加经济高效。
在传统的工作模式中,视觉导航技术通常采用深度卷积网络对采集的图像进行语义分割,分离出车道与非车道像素,然后通过控制算法对车辆行驶过程进行校正。然而,由于其训练过程需要大量标注数据,且采集到的数据难以覆盖所有驾驶环境,导致训练好的模型泛化能力较差,无自学习能力的模型影响了系统在陌生环境中的性能。同时,由于图像中背景信息的冗余,带来的噪声和干扰也会极大地降低模型的训练速度和鲁棒性。本发明提出了一种基于视觉注意机制的可自主学习导航方法用于提高视觉导航系统对背景噪声的抗干扰能力和对陌生环境的泛化能力。
为了解决传统方法的对未知环境的泛化能力和对背景噪声的抗干扰能力不足的缺点,本发明提供了一种基于视觉注意机制的可自主学习导航方法,在仅需前两个时刻的引导信息的情况下,系统可以不断的自主学习。此外,通过加入视觉注意机制,使模型拥有注意到图像关键区域的能力,有效地解决了传统方法对复杂背景图片中噪声敏感,学习效率低,学习效果差的缺点,大大提高了视觉导航的性能。
发明内容
有鉴于此,本发明目的是提供一种基于视觉注意机制的自主学习导航方法,包括以下几个步骤:
S1、获取视觉导航模型的前端输入和后端输入,其中,前端输入信息由图像传感器不断输入,后端输入信息在前两个时刻由外界输入,后续时刻由此前时刻的模型输出作为输入;
S2、前端输入经过注意机制处理,关键区域的图像被保留,其余区域的图像被抑制;
S3、经过注意机制处理的前端输入与自底向上的权重内积计算得到自底向上的部分预响应,后端输入与自顶向下的权重内积计算得到自顶向下的部分预响应,两个部分预响应叠加得到总预响应,预响应经过竞争,得到Y区域响应;
S4、Y区域响应与Z区域自底向上的权重内积计算得到Z区域响应,将Z区域响应映射到效应空间,得到最后的导航输出;
S5、视觉导航模型自主学习更新,进入下一轮步骤循环,直到不再接收到前端输入,循环终止。
本发明提供的技术方案带来的有益效果是:本发明仅需要前两个时刻的引导信息作为模型训练的监督信息,并使用发育神经网络作为核心处理算法,使模型拥有自主学习能力;为模型加入视觉注意机制,提供自顶向下的注意信息作为监督信息,从而提高模型对复杂背景干扰信息的鲁棒性。
附图说明
图1是本发明一种基于视觉注意机制的可自主学习导航方法的流程图;
图2是本发明一种基于视觉注意机制的可自主学习导航方法的时序示意图;
图3是本发明的核心导航算法模型-发育神经网络示意图;
图4是本发明的视觉注意机制示意图;
图5是本发明的视觉注意力生成机制示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,本发明提供了一种基于视觉注意机制的可自主学习导航方法,请参考图2,在时序上,该方法的运行步骤为:
S1、在该导航方法开始运行的第一时刻t1,执行以下步骤;
S11、从图像传感器获取图像,图像被预处理为38*38像素的单通道灰度图,将该灰度图展开为1*1444的一维数据,经过归一化处理后,将一维数据输入到核心算法模型的前端,即X区域,记为X
S12、将引导信息输入到核心算法模型的后端,即Z区域,引导信息的格式示意如下:
其中,导航动作引导在前两个时刻是必需的,注意位置在注意力生成阶段是必需的,其余信息是非必需的。
S13、基于Y区域神经元不同的感受野对前端输入X
S14、初始化核心算法模型。
S2、在第二时刻t2,执行以下步骤:
S21、执行步骤S11-S13,得到第二时刻的前端和后端输入信息;
S22、使用S21的两端输入计算第二时刻的响应。
S23、使用S22得到的响应对模型进行自学习更新。
S3、在第三时刻t3,执行以下步骤:
S31、执行步骤S11,得到第三时刻t3的前端输入;
S32、使用S22时刻得到的响应,通过映射到效应空间,得到第三时刻的后端输入,同时输出对第二时刻t2的导航输出。
S33、使用S21得到的输入计算第三时刻的响应。
S34、使用S33得到的响应对模型进行自学习更新。
S4、在该方法运行的后续时刻,重复S3的步骤,在得到导航输出的同时,对模型进行自学习更新。
对于本方法所述模型响应,以及自学习更新,请参考图3:
本方法的核心算法模型为发育神经网络,发育神经网络是一种仿生的,浅层的,自组织网络模型。它受神经科学中的赫布理论,即突触可塑性原理启发。发育神经网络有X,Y,Z三个区域,其中X区域是接受域,用于从外部环境中获取输入激励;Y区域是隐藏层,用于学习知识与规则;Z区域是效应区域,可以向外界输出效应,除此之外,监督信息也可以从Z区域输入到Y区域,这时候Z区域也可以作为输入区。X区域到Y区域为单向全连接,Y区域和Z区域之间为双向全连接。其学习过程为:
S1、初始化模型,包括初始化响应、权重、注意力蒙版、神经元激活信息;
S2、计算Y区域的响应值;
S21、计算Y区域自底向上的响应r
预处理后的前端输入与自底向上的权重做内积;
其中,r
S22、计算Y区域自顶向下的响应r
其中,r
S23、计算Y区域的预响应r
r
其中,k为自顶向下的响应的影响因子,(1-k)为自底向上的响应的影响因子,其和为1。
S24、Top-k竞争机制
为了模拟神经元侧抑制效应,降低神经元更新率,采用Top-k竞争机制,令r
r
其中r
S25、激活神经元的权重更新
其中,V
ω
式中,u(g
其中g
S3、Y区域响应与Z区域自底向上的权重内积计算得到Z区域响应,将Z区域响应映射到效应空间,得到最后的导航输出,具体如下;
S31、Y区域响应被传输到Z区域,计算得到Z区域的响应:
其中,Z
S32、选择Z区域的效应器,Z区域的效应器为对应导航动作,包括前进、左转、右转、轻微左转、轻微右转以及停止这6个动作状态;
argmax()为得到响应最大值的位置的函数,e等于1,表示导航输出为前进;e等于2,表示导航输出为左转;e等于3,表示导航输出为右转;e等于4,表示导航输出为轻微左转,e等于5,表示导航输出为轻微右转;e等于6,表示导航输出为停止。
对于本方法所述注意机制,请参考图4,Y区域神经元仅与其感受野内的X区域神经元有连接,每个Y区域活跃神经元(即通过最大响应Top-K竞争被激活过的神经元)拥有不同的注意力感受野,其注意力的生成机制如图5所示,当输入图像的关键区域为第i个Y区域神经元的感受野时,第i个神经元的自底向上响应r
对于本方法所述的注意机制的生成机制,请参考图5,在模型发育增长过程中,如果在输入图像后,Y区域的最大响应小于设定的阈值,表明此时的模型对该输入图像的类型信息,包括效应信息、注意信息,引导信息等不敏感,模型没有学会注意到该类型的输入,此时增加一个Y区域神经元,将它的注意力感受野设置为该类型的关键区域。在多次接收到同一类型的收入后,新的Y区域神经元与其感受野内X区域神经元之间的连接将被强化。如果Y区域对输入图像的最大响应大于阈值,说明此时的模型已经学会了语义表达。经过训练,模型将学会对所有类型的图片的关键区域进行注意,即模型得到了注意机制。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
机译: 基于视觉注意分析的视觉辅助系统和用于视觉注意分析的视觉辅助方法
机译: 一种基于视觉的消失点的自主导航机器人结构地标识别方法,当使用廉价的视觉传感器时,该导航点能够获得可靠的识别率
机译: 基于视觉基于视觉检查系统的光学分量的自主诊断验证的系统,方法和装置