首页> 中国专利> 一种基于多注意力机制的机器人视觉示教学习模型及方法

一种基于多注意力机制的机器人视觉示教学习模型及方法

摘要

本发明涉及一种基于多注意力机制的机器人视觉示教学习模型及方法,该模型包括:图像特征预处理模块:包括若干级联的卷积层,用于提取图像的底层特征;卷积头模块:包括多个级联的卷积头,用于提取得到不同层次的特征图;域自适应模块:对不同层次的特征图进行计算构造多注意力内部损失,所述的多注意力内部损失用于自适应更新模型的策略参数;机器人动作预测模块:对不同层次的特征图进行残差连接后预测输出机器人动作。与现有技术相比,本发明通过提取不同层次的神经网络信息来学习机器人视觉任务,可以有效地增强模型的认知识别能力和任务适应能力。

著录项

  • 公开/公告号CN114881240A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 复旦大学;

    申请/专利号CN202210189441.5

  • 申请日2022-02-28

  • 分类号G06N20/00(2019.01);B25J9/16(2006.01);

  • 代理机构上海科盛知识产权代理有限公司 31225;

  • 代理人丁云

  • 地址 200433 上海市杨浦区邯郸路220号

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-26

    授权

    发明专利权授予

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06N20/00 专利申请号:2022101894415 申请日:20220228

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及智能机器人技术领域,尤其是涉及一种基于多注意力机制的机器人视觉示教学习方法。

背景技术

随着人工智能技术的快速发展,如何让机器人更加智能化成为了众人关注的重点。尤其是如何结合人工智能技术,让机器人在工业流水线生产中发挥出重要作用,具有重大现实研究意义。然而,目前多数市面上的机器人产品主要偏向于传统编程,具有较低的智能化水平,缺乏快速适应新任务和灵活变通的能力。具体来说,传统工业机器人在每次的流水线生产过程中,都需要麻烦的工业标定和编程,任务可迁移性差。而在实际的生产应用中,因为业务变更而导致的生产线变化问题是常有的事情。在每次的生产线重置中,都需要大量的重新编程工作和精准标定的工作,导致需要花费大量不必要的人力物力。因此,如何通过有效视觉示教来减少这些麻烦的过程,是目前业界十分关注的难题。

针对这个难题,一种比较可能的方法则是基于元学习的视觉示教:受到人类能够以视觉学习的方式掌握新技能的启发,让机器人具备人类一样的学习能力是十分值得探索的问题。而基于模型不可知的元学习算法(MAML),则是当前一种比较有效且具有发展前景的人工智能技术。尽管MAML这些元学习算法在图像分类、图像检测以及回归问题上取得了不错的表现,其在机器人的应用上仍存在不少的问题。

目前,MAML算法是最好的元学习方法之一,它是一种简单但功能强大的元学习技术。虽然MAML等元学习算法在回归、分类、图像超分辨率和强化学习等领域都有很好的表现,但是其在应用过程中仍然存在不少问题。例如,多数元学习方法在模型较为复杂、网络较深的时候容易遗忘浅层视觉特征,从而导致模型准确率较低。而浅层视觉特征,则是机器人进行视觉学习和理解的重要依据。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多注意力机制的机器人视觉示教学习模型及方法。

本发明的目的可以通过以下技术方案来实现:

一种基于多注意力机制的机器人视觉示教学习模型,该模型包括:

图像特征预处理模块:包括若干级联的卷积层,用于提取图像的底层特征;

卷积头模块:包括多个级联的卷积头,用于提取得到不同层次的特征图;

域自适应模块:对不同层次的特征图进行计算构造多注意力内部损失,所述的多注意力内部损失用于自适应更新模型的策略参数;

机器人动作预测模块:对不同层次的特征图进行残差连接后预测输出机器人动作。

优选地,所述的域自适应模块包括:

空间归一化单元:使用空间归一化来处理特征图的位置信息,生成若干个特征点;

全连接层:将特征点进行全连接处理;

一维时间卷积:连接全连接层的输出端,所述的一维时间卷积输出相应层次特征图的注意力内部损失。

一种基于多注意力机制的机器人视觉示教学习方法,该方法包括:

构建所述的机器人视觉示教学习模型;

模型训练,包括:

将人类演示视频输入至模型输入端,图像特征预处理模块获取底层特征,卷积头模块提取得到不同层次的特征图;

域自适应模块分别对每一层次的特征图进行处理计算得到不同层次的注意力头损失,基于不同层次的注意力头损失构建对应的多注意力内部损失;

根据多注意力内部损失更新模型的策略参数;

将机器人演示视频输入至模型输入端,依次经过卷积头模块、域自适应模块和机器人动作预测模块处理后输出机器人预测动作;

基于机器人预测动作和机器人演示视频对应的实际动作计算机器人动作损失;

基于机器人动作损失再次更新模型的策略参数。

优选地,该方法还包括模型的应用,包括:

将用于示教的人类演示视频输入至训练好的机器人视觉示教学习模型,图像特征预处理模块获取底层特征,卷积头模块提取得到不同层次的特征图;

域自适应模块分别对每一层次的特征图进行处理计算得到不同层次的注意力头损失,基于不同层次的注意力头损失构建对应的多注意力内部损失;

根据多注意力内部损失更新模型的策略参数;

将当前环境下的机器人照片输入至模型输入端,依次经过卷积头模块、域自适应模块和机器人动作预测模块处理后输出机器人预测动作;

基于机器人预测动作控制机器人动作。

优选地,多注意力内部损失表示为:

其中,V

优选地,α

其中,d为衰减因子常数。

优选地,根据多注意力内部损失更新模型策略参数的方式表示为:

其中,θ'为基于内部损失更新的模型的策略参数,λ为内部学习率,

优选地,所述的计算机器人动作损失表示为:

其中,L

优选地,基于机器人动作损失再次更新模型的策略参数的方式表示为:

其中,θ″为机器人动作损失再次更新的模型的策略参数,θ'为基于内部损失更新的模型的策略参数,

优选地,模型训练时反复训练直至机器人动作损失稳定收敛至阈值。

与现有技术相比,本发明具有如下优点:

(1)本发明引入了多层次、多尺度进行元学习的概念,通过融合不同尺度、不同层次的视觉特征,可以增强模型的元学习能力和实验准确率。

(2)本发明针对于工业流水线环境易变、立足于垃圾分类的场景,结合最新的人工智能技术,提出了一种基于视觉教学来让机器人适应新环境、新任务目标的元学习方法,即使面对新的目标物体和环境,只要人类进行一次示教,机器人即可学会新的目标完成指定的垃圾分类任务,例如,当人类将物体放置到红色垃圾筐时,机器人则学会将物体放置到红色垃圾筐;而当人类将物体放置到之前模型在训练过程中从来没有见过的黄色垃圾筐时,模型也会在示教学习后快速学会将物体放置到黄色垃圾筐,所提方法通过从不同层次捕捉不同尺度的视觉信息,充分利用浅层的视觉特征来增强机器模型的视觉理解能力,通过提取不同层次的神经网络信息来学习机器人视觉任务,可以有效地增强模型的认知识别能力和任务适应能力。

附图说明

图1为本发明一种基于多注意力机制的机器人视觉示教学习模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。

实施例

如图1所示,本实施例提供一种基于多注意力机制的机器人视觉示教学习模型,该模型包括:

图像特征预处理模块:包括若干级联的卷积层,用于提取图像的底层特征;

卷积头模块:包括多个级联的卷积头,用于提取得到不同层次的特征图;

域自适应模块:对不同层次的特征图进行计算构造多注意力内部损失,多注意力内部损失用于自适应更新模型的策略参数;

机器人动作预测模块:对不同层次的特征图进行残差连接后预测输出机器人动作。

其中,卷积头模块的卷积头即为卷积层,F

域自适应模块包括:

空间归一化单元:使用空间归一化来处理特征图的位置信息,生成若干个特征点;

全连接层:将特征点进行全连接处理;

一维时间卷积:连接全连接层的输出端,一维时间卷积输出相应层次特征图的注意力内部损失。

域自适应模块使用空间归一化(spatial softmax)来处理特征图的位置信息,生成若干个特征点后再通过全连接层和一维时间卷积来生成n个注意力头输出,每一个注意力头对应一个局部注意力损失。将所有的注意力头损失进行加权,即可得到一个总的多注意内部损失,而该损失则用于更新模型的策略参数。

机器人动作预测模块将n个注意力头输出的特征图进行残差连接并进行空间归一化得到特征点,然后经过全连接层输出预测的机器人动作。

在上述基础上,本实施例还提供一种基于多注意力机制的机器人视觉示教学习方法,该方法包括:

构建机器人视觉示教学习模型,具体如图1所示;

模型训练,包括:

将人类演示视频输入至模型输入端,图像特征预处理模块获取底层特征,卷积头模块提取得到不同层次的特征图;

域自适应模块分别对每一层次的特征图进行处理计算得到不同层次的注意力头损失,基于不同层次的注意力头损失构建对应的多注意力内部损失;

根据多注意力内部损失更新模型的策略参数;

将机器人演示视频输入至模型输入端,依次经过卷积头模块、域自适应模块和机器人动作预测模块处理后输出机器人预测动作;

基于机器人预测动作和机器人演示视频对应的实际动作计算机器人动作损失;

基于机器人动作损失再次更新模型的策略参数。

该方法还包括模型的应用,包括:

将用于示教的人类演示视频输入至训练好的机器人视觉示教学习模型,图像特征预处理模块获取底层特征,卷积头模块提取得到不同层次的特征图;

域自适应模块分别对每一层次的特征图进行处理计算得到不同层次的注意力头损失,基于不同层次的注意力头损失构建对应的多注意力内部损失;

根据多注意力内部损失更新模型的策略参数;

将当前环境下的机器人照片输入至模型输入端,依次经过卷积头模块、域自适应模块和机器人动作预测模块处理后输出机器人预测动作;

基于机器人预测动作控制机器人动作。

多注意力内部损失表示为:

其中,V

α

其中,d为衰减因子常数。

根据多注意力内部损失更新模型策略参数的方式表示为:

其中,θ'为基于内部损失更新的模型的策略参数,λ为内部学习率,

计算机器人动作损失表示为:

其中,L

基于机器人动作损失再次更新模型的策略参数的方式表示为:

其中,θ″为机器人动作损失再次更新的模型的策略参数,θ'为基于内部损失更新的模型的策略参数,

模型训练时反复训练直至机器人动作损失稳定收敛至阈值。

本实施例具体训练过程为:

1)搭建实验平台:在UR5机器人工作台上配置相应的摄像头(RealSense D435和Kinect V2)用于采集机器人视觉信息,在工作台上的指定位置,放置有各自颜色的收纳筐,可以于装放各种物体。

2)收集实验数据:收集一系列人类演示视频V

3)预处理数据:归一化处理视频,可适当结合图像增强技术加入一些高斯噪声、椒盐噪声来增加数据的复杂性,从而提高模型对数据噪声的适应能力;

4)搭建模型:根据实验任务,构建对应的端到端的模型;

5)如图1所示,以人类演示视频作为网络输入,构建对应的多注意力头(AttentionHead)。其中,第k个注意力头的输出定义为AO

6)根据每个注意力输出AO

其中,V

α

其中,d越小,则更多的注意力将会放到前面的注意头,反之亦然。例如,当注意力头的数目n为3和d=0.5时,α

7)根据多注意力内部损失更新模型策略参数;

8)将机器人演示视频输入至模型输入端,依次经过卷积头模块、域自适应模块和机器人动作预测模块处理后输出机器人预测动作;

9)计算机器人动作损失;

10)基于机器人动作损失再次更新模型的策略参数;

11)反复重复训练步骤(5)~(10)一定次数(如3万次训练),直到模型的机器人动作损失L

本发明可以有效地提高机器人视觉学习能力和适应新环境的能力,其主要特点在于:所提方法通过从不同层次捕捉不同尺度的视觉信息,充分利用浅层的视觉特征来增强机器模型的视觉理解能力。通过提取不同层次的神经网络信息来学习机器人视觉任务,可以有效地增强模型的认知识别能力和任务适应能力。本发明可用于工业流水线环境易变、立足于垃圾分类的场景,即使面对新的目标物体和环境,只要人类进行一次示教,机器人即可学会新的目标完成指定的垃圾分类任务。例如,当人类将物体放置到红色垃圾筐时,机器人则学会将物体放置到红色垃圾筐;而当人类将物体放置到之前模型在训练过程中从来没有见过的黄色垃圾筐时,模型也会在示教学习后快速学会将物体放置到黄色垃圾筐。

上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号