首页> 中国专利> 一种基于transformer的指称图像分割方法

一种基于transformer的指称图像分割方法

摘要

本发明属于计算机视觉技术领域,提供了一种基于transformer的指称图像分割方法,对于输入的文本和图像,算法要根据输入的文本来对图像中指定的目标进行分割,算法主要由特征提取、跨模态特征融合、跨层级信息整合三个部分组成。本发明可以在视觉特征提取和跨模态融合阶段提取全局和局部信息,在解码器阶段也可以很好地使不同层级的信息进行有效的整合,从而可以让模型根据文本描述来生成性能更好的分割结果。

著录项

  • 公开/公告号CN114821050A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN202210382021.9

  • 发明设计人 刘芳;孔雨秋;张立和;尹宝才;

    申请日2022-04-13

  • 分类号G06V10/26(2022.01);G06V10/80(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构辽宁鸿文知识产权代理有限公司 21102;

  • 代理人隋秀文

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06V10/26 专利申请号:2022103820219 申请日:20220413

    实质审查的生效

说明书

技术领域

本发明属于计算机视觉技术领域,涉及深度学习的指称图像分割方法。

背景技术

在我们的日常生活中,我们会接触到各种各样的信息,其中最重要的就是文本和图像的信息。指称表达式则通过文本描述来表述图像中不同目标之间的关系,例如“拿着遥控器的男孩”、“左边的椅子”、“在沙发上的猫”等,使自然语言和视觉信息进行了很好的结合。

指称图像分割(ReferringImageSegmentation)是计算机视觉和自然语言处理的一个交叉领域。对于给定的图像和指称表达式,算法要能正确地定位图像中的目标并准确地分割出来。传统的图像分割算法需要预测图像中每个像素的类别,而指称图像分割任务则更具挑战性,其要求模型能正确理解语言所表达的信息,再来对图像中的目标进行分割。

目前的指称图像分割算法种类有很多,我们可以概括成两个类别:单阶段方案和多阶段方案。

(1)单阶段指称图像分割方法

对于单阶段方案的运算流程,通常是先分别用卷积神经网络(CNN)和文本编码器(LSTM)来提取图像和文本的特征,再来对它们用不同的方法进行融合,从而进一步来得到对目标进行分割的结果。这些方法的主要区别在于如何有效地对两个模态的信息进行整合。早期的一些方法主要采用级联的方式来进行融合。这种方式并不能有效地对齐两个模态的长短距离信息,加州大学的陈奕雯等人采用动态滤波器来融合它们,这里的滤波器也可以看做是卷积神经网络的卷积核,文本信息会被抽象成这里的卷积核,图像再通过对应的卷积操作来对两个模态的信息进行融合。由于融合模块主要使用了卷积操作,这种方式会让模型过度地关注局部信息。近期中国科学技术大学的惠天瑞等人则采用注意力机制来进行融合,使其可以获取更多有效的长距离信息,但这种方式并不能获取足够的局部信息。

(2)多阶段指称图像分割方法

多阶段方案需要先用传统的目标检测方法(FastR-CNN)来提取图像中每个目标对应的候选区域,再根据这些区域选择和文本描述最接近的目标作为最终结果。上海交通大学的虞立成等人提出一种模块化注意力模型,先把输入的指称表达式解析成三个部分:主语、位置和关系,再使用不同的注意力模块来得到不同种类的信息来和候选区域的匹配分数,这些匹配分数会再进行加权求和来得到最后的目标候选框,将目标框输入分割分支,则可求得对应的分割结果。中国科学技术大学的刘大庆等人则提出了树状神经网络模快,使用语义解析树来对输入的文本进行解析,树中的节点表示文本中的某个单词,树的边则表示不同单词之间的关系,每个单词都需要来和候选区域进行相似度匹配,选择一个分数最高的候选区域作为输出,这个得分最高的区域会再输入分割分支,来得到最后的分割结果。但这种多阶段方法有一个很明显的弊端,候选区域的选取是非常耗时的,很影响模型的测试速度,而单阶段算法则不需要候选框的提取,通常比多阶段算法更加高效。

发明内容

本发明针对现有方法的不足,提出了一种基于transformer的指称图像分割框架。本框架可以在特征提取和跨模态融合阶段,都可以很好地获取全局和局部信息,使模型在获取长距离依赖的同时,还可以保留必要的细节信息。整个框架的输入是图像和文本描述(指称表达式),首先会分别经过视觉和文本编码器来提取特征,图像和文本特征会在编码器阶段通过跨模态融合模块来进行融合,得到的跨模态特征再来输入跨层级信息整合模块来得到最后的分割结果。

本发明的技术方案:

一种基于transformer的指称图像分割方法,该方法共由三部分组成,步骤如下:

(1)特征提取阶段

将图像和文本分别输入视觉编码器和文本编码器来提取特征;文本编码器采用了预训练的BERT框架,文本描述中的每个单词都会被编码成一个768维的向量;视觉编码器采用了基于transformer的结构,是一个卷积和transformer 结合的视觉特征提取器,视觉特征提取器由五个阶段构成,第一个阶段是三个卷积层,第二、三个阶段对应局部transformer块,第四、五个阶段对应全局 transformer块;其中卷积层是用来引入归纳偏置,局部transformer块用来提取局部的细节特征,全局transformer块用来获取全局的高级语义信息;对于输入的图像,通过不同的线性变换来调整输入特征的维度和分辨率,从而用来获取五个不同层级的特征;对于全局transformer块,其基本结构包括正则化LN、全局自注意力GMSA和多层感知机MLP,具体的运算过程如下:

z′

z

其中,z

其中,C

在特征提取阶段,得到五个不同层级的视觉特征,即{X

(2)跨模态特征融合阶段

对于输入的文本特征S和视觉特征X

M

其中,W

A

L

其中,w

初步的多模态融合特征M

在跨模态特征融合阶段,得到三个不同层级的跨模态特征{F

(3)跨层级信息整合阶段

对于编码器阶段得到的视觉或多模态特征{X

其中,y

本发明的有益效果:相比于现有的指称图像分割方法,本方法的最大优点是可以在视觉特征提取和跨模态特征融合阶段,都可以考虑到更多有效的全局上下文和局部细节信息,使模型在能理解文本所表达的复杂语义信息外,还可以获取图像中具体目标的细节信息。在解码器阶段,本方法提出的特征整合操作,可以在不显著提升计算复杂度的条件下,来对编码器中不同层级的特征进行有效地整合。此外,本方法这种同时考虑全局和局部信息的思想对其他的计算机视觉任务也有着较大的参考价值。

附图说明

图1是整体框架的流程图。

图2是视觉特征提取框架图。

图3是跨模态特征融合模块流程图。

图4是特征整合操作流程图。

图5是不同组件效果对比图,(a)为原始输入图像;(b)为仅包含特征提取网络得到的分割结果图;(c)为在(b)的基础上增加了跨模态特征融合模块得到的分割结果图;(d)为在(b)的基础上增加了跨层级信息整合模块得到的分割结果图;(e)为整个框架得到的结果;(f)为监督信息。

具体实施方式

以下结合附图和技术方案,进一步说明本发明的具体实施方式。

为了更好的对比不同组件对于整个框架的贡献,我们根据图5来做可视化说明。(a)为原始输入图像;(b)为仅包含特征提取网络得到的分割结果图; (c)为在(b)的基础上增加了跨模态特征融合模块得到的分割结果图;(d) 为在(b)的基础上增加了跨层级信息整合模块得到的分割结果图;(e)为整个框架得到的结果;(f)为监督信息。为了方便描述,我们把(b)对应的模型称为基准网络,将原始图像(a)送入基准网络之后,通过分割结果可以看出来模型只能得到目标的大致位置,有很多相关区域都没有被包括进来;当在基准网络(b)中加入了跨模态信息整合模块之后,得到的结果明显可见对于中间区域有了显著的改善,特别是第一张图中人的头部,第二张图中摩托车的轮胎和挡风玻璃部分,但是对于边界区域的分割还是不够准确;同时,只在基准网络中加入了跨层级信息整合模块之后,从图(d)可以看出来,对于部分边缘的区域有了很好的改善,但是却没有理解图中多个对象之间的关系;紧接着在基准网络(b)中同时加入跨模态特征融合模块和跨层级特征整合模块之后,如图(e) 所示,得到的便是我们最终的效果图,这个结果图不仅在边界区域也更接近真实值,也能理解图中多个目标之间的关系。由此也能进一步印证我们各个模块对提升性能的重要性和不可或缺性。

本发明的核心在于多层级视觉特征的提取、跨模态特征融合和跨层级信息交互,接下来将结合具体实现方式对该发明作详细说明。首先是多层级视觉特征的提取,本发明设计了基于transformer的视觉特征提取器,如图2所示,不仅可以在浅层通过局部transformer块提取细节信息,还可以通过全局transformer 块提取高级的语义信息,整个视觉特征提取器使用了在ImageNet预训练的结果。对于图像和文本分别输入视觉和文本编码器得到的特征,需要先进行初步的融合,再输入跨模态特征融合网络来进一步融合。而跨模态特征融合块馍则是模仿人类的视觉系统而设计的,如图3所示,先对整个图像有一个全局的视野,再来关注某个物体的细节信息;这是通过先使用带全局交叉注意力的transformer 块提取长距离信息,再使用带局部交叉注意力的transformer块来提取短距离信息来实现的;对于交叉注意力,则是把输入的文本特征当作Q,而视觉特征当作K,V来计算自注意力实现的。对于编码器中不同层级的视觉特征和跨模态特征,要通过跨层级信息整合模块来进行结合,它是在特征金字塔池化网络的基础上进行设计的,总共加入了四次特征整合操作,可以进一步提升分割结果中边缘区域的性能。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号