首页> 中国专利> 一种基于Transformer的端到端实例分割方法

一种基于Transformer的端到端实例分割方法

摘要

一种基于Transformer的端到端实例分割方法,涉及计算机视觉中的图像检测和分割领域。1)利用卷积网络和具有特征金字塔网络将图像生成特征金字塔;2)利用RoIAlign裁剪并对齐来自金字塔的特征图,提取RoI感兴趣特征区域;3)通过具有动态注意力的Transformers编码器将图像特征和RoI特征图融合到预测头中;4)由预测头输出实例的边界框,低维掩码特征,目标类别;5)反复迭代查询框,并更新预测头输出。在端到端实例分割中使用Transformers,可预测低维掩码特征而不是高维掩码,这不仅简化训练并激发掩码二分匹配代价的设计。可并行检测并分割实例,准确性和运行性能优。

著录项

  • 公开/公告号CN113837190A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 厦门大学;

    申请/专利号CN202111005862.X

  • 发明设计人 曹刘娟;胡杰;陆瑶;

    申请日2021-08-30

  • 分类号G06K9/34(20060101);G06K9/32(20060101);G06K9/46(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构35200 厦门南强之路专利事务所(普通合伙);

  • 代理人马应森;曾权

  • 地址 361005 福建省厦门市思明区思明南路422号

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明涉及计算机视觉中的图像检测和分割领域,尤其是涉及一种基于Transformer的端到端实例分割方法。

背景技术

实例分割是一项对图像中每个实例进行检测和分割的任务。近年来计算机视觉发展的一个明显趋势是删除手工制作的组件以实现端到端的训练和推理测试,这在多项任务上得到显着改善。但是,在实例分割上仍然缺乏这种端到端范式的应用。现有方法一般是需要手动设计的称为非最大抑制(NMS)的后处理步骤来删除重复的预测(Kaiming He,Georgia Gkioxari,Piotr Dollar,and Ross Gir-′shick.Mask r-cnn.In Proceedingsof the IEEE International Conference on Computer Vision,2017;Shu Liu,Lu Qi,Haifang Qin,Jianping Shi,and Jiaya Jia.Path aggregation network for instancesegmentation.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018),或者是在小型数据集上进行早期试验但缺乏针对现代基准的评估(Mengye Ren and Richard S Zemel.End-to-end instance segmentation withrecurrent attention.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,2017.;Bernardino Romera-Paredes and Philip HilaireSean Torr.Recurrent instance segmentation.In European conference on computervision,2016)。最近的实例分割方法一般都依赖于自上而下或自下而上的框架,该框架将实例分割分解为几个相关的任务,从而导致这种实例分割方法是非端到端的。

除实例分割外,目标检测也面临着类似的挑战。近年来的研究通过引入集合预测损失(Peize Sun,Rufeng Zhang,Yi Jiang,Tao Kong,Chenfeng Xu,Wei Zhan,MasayoshiTomizuka,Lei Li,Zehuan Yuan,Changhu Wang,et al.Sparse r-cnn:End-to-end objectdetection with learnable proposals.ArXiv preprint arXiv:2011.12450,2020)以及可选使用Transformers(Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N Gomez,Lukasz Kaiser,and Illia Polosukhin.Attention is allyou need.2017)结构,实现端到端的目标检测。集合预测损失会强制对实际标签和预测之间进行双向匹配,并惩罚冗余的预测,从而可以消除NMS的推断。但是,启用端到端实例分割并非与直接添加一个掩码分支、更改损失那样简单,一方面,掩码的维度远高于类标签(80维)和框(4维)的维度。另一方面,通过二分匹配得到的提议框通常规模很小,这也带来训练样本稀疏的问题。

发明内容

本发明的目的是针对传统的实例分割模型通常是利用高维(28*28)掩码进行冗余回归等缺点,提供可有效进行回归训练,突破自上而下和自下而上实例分割框架的限制,能够同时进行检测和分割的一种基于Transformer的端到端实例分割方法。

本发明包括以下步骤:

1)将输入的图像通过特征金字塔网络(FPN)和卷积神经网络(CNN)生成金字塔特征图;

2)通过带有RoIAlign的可查询查询框裁剪并对齐金字塔特征图,从而获取RoI感兴趣特征区域,通过对特征图求和并求平均值获得图像特征;

3)通过具有动态注意力的Transformers编码器将图像特征和RoI特征图融合到预测头中;

4)由预测头输出实例的边界框、低维掩码特征、目标类别;

5)反复迭代查询框,在N个阶段中不断细化预测的框、类标签和掩码。

本发明设计一种基于Transformer的端到端实例分割模型(称为ISTR),端到端的范式可以显着提高机器学习系统的性能。本发明利用二分匹配的集合损失训练模型,从而消除实例分割中,非极大值抑制(Non-Maximum Suppression,NMS)的后处理,实现端到端的实例分割。本发明针对传统的实例分割模型通常是利用高维(28*28)掩码进行冗余回归的缺点,考虑通过将预测的低维掩码特征与实际的掩码特征进行匹配,从而获得集合损失。本发明突破自上而下和自下而上实例分割框架的限制,提供一种循环精炼策略进行的端到端实例分割模型,能够同时进行检测和分割。

与现有技术相比,本发明具有以下突出优点:

1)本发明提出一个新颖的基于Transformer的实例分割模型,首次在端到端实例分割中使用Transformers。

2)本发明模型框架的关键是预测低维掩码特征而不是高维掩码,这不仅简化训练并激发掩码二分匹配代价的设计。

3)通过反复提炼策略,ISTR可以并行检测并分割实例,与自下而上和自上而下的框架相比,ISTR为实例分割提供新的视角。

4)ISTR展示其准确性和运行性能,优于具有挑战性的COCO数据集上的最新方法。

附图说明

图1为ISTR模型的总体框架图;

图2为掩码成分分析图,按贡献度对Top100成分进行排名;

图3为ISTR在COCO val2017数据集的检测分割可视化图;阈值设置为0.4;

图4为ISTR在不同阶段的APm表现;b1使用ResNet50-FPN,b2使用ResNet101-FPN;

图5为ISTR和Mask R-CNN的可视化对比图;

图6为ISTR(使用ResNet101-FPN)在COCOtest-dev split数据集的检测分割可视化(阈值设置为0.4)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。

本发明的目的是针对每个实例直接预测一组低维特征,类标签和预测框。本发明通过回归低维特征而不是原始高纬度(28*28)的掩码来实现端到端的实例分割,从而简化少量样本的训练,并利用其与掩码匹配并促进回归。本发明基于掩码特征将二分匹配代价的定义扩展到掩码上,因此可以有效地进行回归训练。以探索端到端的实例分割机制,这不仅激发掩码匹配代价的设计并简化回归。此外,本发明ISTR通过循环精炼策略并行执行检测和分割,打破自上而下和自下而上的实例分割框架的限制,并提高检测和分割这两项任务的性能。ISTR模型框架的总体预览如图1所示,表1展示ISTR的具体算法步骤。

表1.ISTR的算法步骤

方法中每个模块的内容详解如下:

1、掩码特征

为定义有效提取掩码特征的公式,限制原始真实掩码和重构掩码之间的相互信息。

其中,

其中,r

其中,l是掩码特征的维度大小,I

2、匹配代价和预测损失

上述得到用于掩码特征的编码器和解码器后,定义二分匹配代价和端到端实例分割的设置预测损失。将实际边界框,类标签和掩码表示为Y={b

1)二分匹配代价

对于二分匹配,搜索n个非重复整数σ∈{1,2,...,k}置换,最低代价为:

将边界框的匹配代价定义为:

类标签的匹配代价为:

其中,λ表示用于平衡代价的超参数,c

其中,将掩码特征进行L2归一化,并使用两个归一化向量之间的点积来计算余弦相似度。将结果加1,然后整体除以2,以确保值在[0;1]的范围内。

2)集合预测损失

对于集合预测损失,使用匹配的预测来回归实际目标。集合预测损失定义为:

其中,

其中,

3、基于Transformer的实例分割

ISTR的框架体系结构如图1所示,其中包含四个主要组件:带有FPN的CNN骨干(Hamid Rezatofighi,Nathan Tsoi,JunYoung Gwak,Amir Sadeghian,Ian Reid,andSilvio Savarese.Generalized intersection over union:A metric and a loss forbounding box regression.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2019),用于提取每个实例的特征;具有动态注意力的Transformer编码器,用于学习目标之间的关系;一组预测头进行检测和分割,然后进行N步递归更新,从而完善预测集。

1)骨干网络

使用带有FPN的CNN骨干网络来提取特征金字塔的从P2到P5级别的特征。然后,k个可查询的查询框为

2)变压器编码器和动态注意力机制

首先通过三个可学习的权重矩阵对图像特征P和位置特征E的总和进行变换,得到的输入Q=(P+E)W

多头注意力包括多个自我注意力模块,从而封装不同特征之间的多个复杂关系,例如,原始Transformer中的8个块(Ashish Vaswani,Noam Shazeer,Niki Parmar,JakobUszkoreit,Llion Jones,Aidan N Gomez,Lukasz Kaiser,and IlliaPolosukhin.Attention is all you need.2017)。本发明添加动态注意力机制以更好地融合RoI和图像特征,该模块定义为在第i步中以RoI特征U

O

其中,fc(·)表示生成动态参数的全连接层。然后将获得的特征O

3)预测头

预测集是由预测头计算的,包括类标签头,预测框头,掩码头和固定的掩码解码器。框头预测第i步中用于更新查询框

4)循环精炼策略

查询框

具体实验结果如下:

实例分割是计算机视觉领域发展的一个重要方向,例如自动驾驶和机器人导航。实例分割的任务不是将目标单独检测或为像素分配类别标签,而是将这些任务统一在一起,因此成为计算机视觉中最具挑战性的任务之一。

本发明在COCO数据集(Tsung-Yi Lin,Michael Maire,Serge Belongie,JamesHays,Pietro Perona,Deva Ramanan,Piotr Dollar,and C Lawrence′Zitnick.Microsoftcoco:Common objects in context.In European Conference on Computer Vision,2014)上进行实验,该数据集包含具有80类实例标签的123K图像。本发明的模型在train2017分割(115K图像)上进行训练,最终结果在test-dev split中报告,该测试集没有真实的公共标签,通过线上服务器进行评估。展示标准COCO度量标准,包括框和掩码的AP值(在IoU阈值上取平均),AP50,AP75和APS,APM,APL(不同比例的AP),分别表示为APb和APm。ISTR模型在COCO test-dev split上与其他目标检测和实例分割的对比的结果如表2所示。

表2

定量分析:通过表2可以看到,ISTR表现出色,尤其是在小物体上。例如,基于ResNet101-FPN的ISTR的APmS优于基于ResNet101-FPN的SOLOv25.5点。这是因为二分匹配代价不会过滤小的目标进行训练。对应的方法MEInst在实例分割中也使用掩码特征。但是,由于掩码特征的冗余预测,MEInst的性能受到很大影响。例如,基于ResNet101-FPN的ISTRAPm优于基于ResNet101-FPN的MEInst。通过将结果与最新的端到端目标检测方法进行比较,实验还发现ISTR在检测中的性能提升。结果表明,基于ResNet101-FPN的ISTRAPb分别优于DETR和SparseR-CNN,分别达到4.1和2.0点。这证明端到端机制的优势以及与Transformer并联进行检测和分割的潜力。令人意外的是,通过PCA的次优掩码特征,ISTR可以获得如此好的结果,从图2中的PCA成分能量分布图看出贡献度在前的成分已经能很好的表示大部分掩码的信息。

定性分析:图3展示了ISTR在COCO验证数据集上的定性分析结果(使用ResNet101-FPN骨干网络),可以看出ISTR的预测框和掩码的结果表现鲁棒。从图4的不同阶段的性能分析可以表明在第6个阶段的性能结果趋于饱和。通过将ISTR与图5中的MaskR-CNN进行比较来显示一些示例。从结果来看,当NMS不删除重复的预测时,MaskR-CNN的性能将下降。图6中的更多可视化结果表明,尽管ISTR获得最优的APm,但是通过学习更精细的掩码,仍有进一步改进的空间。

公式说明在具体实施方案中均有详细的对应描述。

英文专有名词定义如下:

NMS定义为非最大抑制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号