首页> 中国专利> 一种基于多头注意力机制的抗遮挡目标检测方法及设备

一种基于多头注意力机制的抗遮挡目标检测方法及设备

摘要

本发明涉及一种基于多头注意力机制的抗遮挡目标检测方法及设备,方法包括:将所述训练样本输送至初始模型中,通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层;将各个所述特征层以特征金字塔的结构融合,通过注意力机制子网络在所述特征金字塔的每层特征层中添加多头注意力机制,以得到各层特征层的特征响应图和注意力特征图;计算出分类损失值、回归损失值和注意力损失值;计算出整体损失值,利用所述整体损失值对所述初始模型进行训练,以得到目标检测模型;利用所述目标检测模型对待检测图像进行目标检测。本发明解决了目前无法有效减少遮挡对目标检测的影响的问题。

著录项

  • 公开/公告号CN112215271A

    专利类型发明专利

  • 公开/公告日2021-01-12

    原文格式PDF

  • 申请/专利权人 武汉理工大学;

    申请/专利号CN202011034696.1

  • 发明设计人 石英;毛诗淼;谢长君;张晖;苏涛;

    申请日2020-09-27

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构42231 武汉智嘉联合知识产权代理事务所(普通合伙);

  • 代理人黄君军

  • 地址 430070 湖北省武汉市洪山区珞狮路122号

  • 入库时间 2023-06-19 09:32:16

说明书

技术领域

本发明涉及图像处理和计算机视觉技术领域,尤其涉及一种基于多头注意力机制的抗遮挡目标检测方法、设备及存储介质。

背景技术

近年来,在图像领域,卷积神经网络被广泛应用在目标检测、语义分割、行人检测等领域。自从AlexNet大幅度提升了目标检测算法的检测精度之后,Faster-RCNN又舍弃了速度较慢的Selective Search算法,设计了与CNN权值共享的RPN,真正意义上实现了端对端训练。而FCN算法则是利用全卷积的ResNet替代Faster-RCNN常用的VGGNet,将特征图像上的特征点能够与原始输入图片之间构成映射关系,能提升对小目标的检测性能。SSD算法集成了Faster-RCNN算法的检测精度和YOLO算法的检测速度,将RPN网站中的锚点代替单一的网格化分割,使用多尺度特征向量对特征区域进行回归运算。FPN算法沿袭了SSD算法对于特征金字塔的构建基础,但是又将特征金字塔进行top-down连接,使不同尺度的特征图直接相互关联,提取更丰富的特征。Focal Loss提出一种全新结构RetinaNet以解决单阶段目标检测中正负样本比例严重失衡的问题。

尽管在目标检测领域中,各种最佳算法在各个数据集中都展现了不俗的检测效果,但是目前的算法的检测精度都会随着遮挡程度的增加而降低,经常会出现的待检测目标之间相互重合或者背景遮住待检测目标的一部分的现象。在遮挡情况下,待检测目标的目标特征不完全,这使得常用的卷积神经网络会误将待检测目标识别为背景或者识别成相邻目标的一部分,从而产生漏检现象。只有解决了遮挡问题的目标检测算法,才能在众多的应用领域中减少安全风险。

目前,处理遮挡问题的方法可分为以下3类。

(1)多遮挡情形模型集成:这类方法针对不同遮挡情形各自训练模型,然后集成这些模型来检测目标。例如,在基于部分的模型基础上,对检测结果对应的部分可视概率进行建模,然后将检测结果与概率模型进行融合,获得候选框属于目标类别的概率。或者利用深度学习表达特征的能力来训练每个部分的模型,并设计了一个部分池化层来使模型适用于更多遮挡的情形。这类方法的主要缺点在于由于需要训练多个模型,训练和测试时非常耗时。

(2)多遮挡情形联合模型:也有学者针对不同的遮挡情形训练联合模型,能加快检测速度。例如设计一个集成特征提取、DPM、抗遮挡和分类能力的深度学习模型,较原来最好算法平均错误率降低了9%。或者采用多标签学习算法来联合训练针对不同遮挡情形的检测器。实验表明,该方法不仅适用于手工设计的特征,也适用于深度学习网络提取特征。这类方法的缺点在于所针对的遮挡情形的是有限的,无法包括所有遮挡情形。

(3)通用检测框架的遮挡抑制:此类方法在目标检测网络的基础上通过设计损失和改进网络结构等方式,抑制遮挡对目标检测结果的影响。例如,通过引入Grid loss层分块计算损失,提高每部分的分辨能力进而抑制部分遮挡的情形。或者在采用RepulsionLoss计算检测框的回归损失时,不仅考虑到检测框应该靠近与其IOU最大标定框,还设计了Repulsion Loss使检测框远离其他相交的标定框和其他检测框,提高了算法在密集遮挡情形下的精度。此外,还有采用Soft-NMS算法改进传统的NMS算法,将除最佳检测框之外的所有其他对象的检测分数衰减为与检测框重叠的连续函数。此种方式算法结构复杂,而且智能抑制部分遮挡。

因此,现有技术中均无法有效地减少遮挡对目标检测的影响,抗遮挡能力均不佳。

发明内容

有鉴于此,有必要提供一种基于多头注意力机制的抗遮挡目标检测方法、设备及存储介质,用以解决目前无法有效减少遮挡对目标检测的影响的问题。

第一方面,本发明提供一种基于多头注意力机制的抗遮挡目标检测方法,包括如下步骤:

获取训练样本,将所述训练样本输送至初始模型中,通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层;

将各个所述特征层以特征金字塔的结构融合,通过注意力机制子网络在所述特征金字塔的每层特征层中添加多头注意力机制,以得到各层特征层的特征响应图和注意力特征图;

分别通过分类子网络、回归子网络和注意力特征图计算出分类损失值、回归损失值和注意力损失值;

根据所述分类损失值、回归损失值和注意力损失值计算出整体损失值,利用所述整体损失值对所述初始模型进行训练,以得到目标检测模型;

利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中的被遮挡目标信息。

优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层的方法具体为:

通过具有残差结构的RetinaNet特征提取子网络对所述训练样本进行特征提取,并通过FPN的自上而下融合方式得到多个不同尺度的特征层。

优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述多头注意力机制包含三组注意力特征层,每组注意力特征层由两层包含256个滤波器的3*3卷积层组成。

优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述注意力特征图的获取方式为:

其中,P、V、A分别表示一组注意力特征层,d为所述训练集中的图像的像素宽度。

优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述分类损失值的计算方法为:

其中,l

优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述回归损失值的计算方法为:

其中,

优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述注意力损失值的计算方法为:

其中m

其中σ为阈值参数。

优选的,所述的基于多头注意力机制的抗遮挡目标检测方法中,所述整体损失值的计算方法为:

L=αL

其中,α、β和γ为损失值计算参数,用于均衡所述分类损失值、回归损失值和注意力损失值。

第二方面,本发明还提供一种基于多头注意力机制的抗遮挡目标检测设备,包括:处理器和存储器;

所述存储器上存储有可被所述处理器执行的计算机可读程序;

所述处理器执行所述计算机可读程序时实现如上所述的基于多头注意力机制的抗遮挡目标检测方法中的步骤。

第三方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的基于多头注意力机制的抗遮挡目标检测方法中的步骤。

【有益效果】

本发明提供的基于多头注意力机制的抗遮挡目标检测方法、设备及存储介质,在已有的目标检测网络基础上引入新的多头注意力机制来处理不同程度的遮挡目标检测,因而具有易于改进、容易训练的特点,提出的注意力策略兼顾性能提升和较快检测速度,且容易集成到主流目标检测器中,并且不限于特定的遮挡模式,能较好得减小遮挡对目标检测的影响,提高算法的抗遮挡目标检测能力。

附图说明

图1为本发明提供的基于多头注意力机制的抗遮挡目标检测方法的一较佳实施例的流程图;

图2为本发明提供的基于多头注意力机制的抗遮挡目标检测方法的网络架构图;

图3a为本发明在COCO数据集上注意力机制和注意力损失的消融实验结果示意图;

图3b为本发明在Cityscapes数据集上注意力机制和注意力损失的消融实验结果示意图

图4为本发明一较佳实施例中训练过程中子损失的变化曲线图;

图5a为不同注意力形式在COCO数据集上的对比实验结果示意图;

图5b为不同注意力形式在Cityscapes数据集上的对比实验结果示意图;

图6为本发明基于多头注意力机制的抗遮挡目标检测程序的较佳实施例的运行环境示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。

请参阅图1,本发明实施例提供的基于多头注意力机制的抗遮挡目标检测方法,包括如下步骤:

S100、获取训练样本,将所述训练样本输送至初始模型中,通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层。

本实施例中,所述初始模型包括特征提取子网络、注意力机制子网络、分类子网络和回归子网络。所述特征提取主网络为主网络,其中,所述通过目标提取子网络对所述训练样本中进行特征提取,以得到多个不同尺度的特征层的方法具体为:

通过具有残差结构的RetinaNet特征提取子网络对所述训练样本进行特征提取,并通过FPN的自上而下(top-down)融合方式得到多个不同尺度的特征层。

分类子网络采用四个3*3卷积层,每个卷积层有256个滤波器。接下来是带有KA个滤波器的3*3卷积层,其中K表示总的类别数目,A表示每个像素的锚点数。与原始的RetinaNet一样,该子网中的所有卷积层在所有级别的特征金字塔中共享参数。回归子网络与分类子网络大体上相同,不同之处在于它以线性激活终止于4A卷积滤波器。

S200、将各个所述特征层以特征金字塔的结构融合,通过注意力机制子网络在所述特征金字塔的每层特征层中添加多头注意力机制,以得到各层特征层的特征响应图和注意力特征图。

本实施例中,基于上述网络主体结构,引入了多头注意力机制,并重新设计特征融合策略,提取出被遮挡物体的特征,为后续的分类和回归子网络提供更多特征。针对以RetinaNet为主网络结构的多头注意力机制的引入,包含内容如下:

算法的注意力特征信息可以通过填充地面信息框而获得的。同时,注意力特征热力图与分配给当前层中锚点的实际目标,在背景中位置相关联。这些分层注意力图可以分别提取不同尺度的目标,并降低它们在特征层之间的相关性。

而对于多头注意力机制,较之于传统的注意力机制,更有效地根据相关性在各级特征层中区分不同尺度的目标,捕捉出被遮挡物体。所述多头注意力机制包含三组注意力特征层,分别命名为P,V和A,每组注意力特征层由两层包含256个滤波器的3*3卷积层组成。

具体的,所述注意力特征图的获取方式为:

其中,P、V、A分别表示一组注意力特征层,d为所述训练集中的图像的像素宽度。上述公式中,得到注意力特征图后,又引入的指数运算,以此修正补偿特征图。

具体的,请参阅图2,本发明结合注意力机制的特性,提出了4处可以采用注意力机制的位置A1、A2、A3和A4。这些位置在分类和回归子网络前,都包含较多的目标特征,是通常情况下注意力机制应用位置。

S300、分别通过分类子网络、回归子网络和注意力特征图计算出分类损失值、回归损失值和注意力损失值。

具体来说,对于本发明中多头注意力机制的损失函数,本发明采用多任务交叉损失来训练模型以实现检测出被遮挡目标,其共包含目标分类损失L

对于所述目标分类损失L

其中,l

对于所述的检测框回归损失L

其中,

对于所述的注意力损失L

其中,m

其中σ为阈值参数。

S400、根据所述分类损失值、回归损失值和注意力损失值计算出整体损失值,利用所述整体损失值对所述初始模型进行训练,以得到目标检测模型。

具体来说,基于上述三个损失值,所述整体损失值的计算方法为:

L=αL

其中,α、β和γ为损失值计算参数,用于均衡所述分类损失值、回归损失值和注意力损失值,通过探寻最优化的参数设置,使各个子损失实现最佳的平衡态。

S500、利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中的被遮挡目标信息。

换而言之,在得到了目标检测模型后,即可通过目标检测模型对待检测图像进行检测,能较好得减小所述待检测图像中的遮挡对目标检测的影响,提高算法的抗遮挡目标检测能力。

为了验证本发明的有效性,请参阅图3,采用Cityscapes和COCO两个数据集对提出模型的有效性进行验证,包括注意力机制引入的有效性实验、算法子损失均衡实验、注意力机制形式及位置对算法精度的影响实验,其结果如下:

选择retinanet作为衡量算法精度的基准,在retinanet上增添多头注意力机制以及注意力损失。默认在特征金字塔的每一层都增加多头注意力机制。通过消融实验得到如图3所示的不同情况下模型准确度。

由图3a和图3b的消融实验结果可知,使用多头注意力机制和注意力损失均能得到比基准更高的准确度。在COCO数据集下,多头注意力机制较基准能提升15.38%的平均准确率和12.08%的平均召回率;使用多头注意机制和注意力损失较基准能提升16.12%的平均准确率和12.08%的平均召回率。通过比较对小目标的检测精度,多头注意机制和注意力损失的共同作用能提升28.94%的平均准确率和19.44%的平均召回率。

在Cityscapes数据集下,多头注意力机制较基准能提升6.37%的平均准确度和7.87%的平均召回率;使用多头注意机制和注意力损失较基准能提升8.61%的平均准确度和9.55%的平均召回率。通过比较对小目标的检测精度,多头注意机制和注意力损失的共同作用能提升38.89%的平均准确度和37.50%的平均召回率。

因此,在两个数据集上的结果以及注意力特征图均能表明,多头注意力机制能提升网络的目标检测准确度,同时能有效增强网络对遮挡目标的检测能力。

在另一个具体实施例中,交通场景中的目标检测网络已经有分类和回归子损失,因此在额外增加注意力损失后,需要调整各个子任务的损失权重,以期望能实现各个子任务损失间的均衡,达到最优的检测性。如下表所示,在α=0.25、β=1.8、γ=1.0时,各个子损失直接能实现最佳的平衡态。此时得到的分类损失、回归损失和注意力损失在训练过程中的变化情况如图4所示。随着训练次数的增加,模型的子损失逐渐趋于稳定,各自在一定的范围内趋于稳定,且数值差距不大。准确度的最佳提升和子损失的数值变化均能证明此时子损失间较为均衡。

采用多头注意力机制能提升网络的检测精度和抗遮挡能力,而注意力机制也有不同的网络结构。为了验证本发明提出的多头注意力机制的形式具有最优的抗遮挡能力,针对不同形式的注意力机制进行对比实验。图5a和图5b中展示了在两种数据集下,不同注意力机制的实验结果,其中多层注意力机制的特征有两种方式:直接连接和本文提出的方式。

综合图5中的实验结果,不论是哪一种形式的注意力机制,均能提升原始网络的检测性能和抗遮挡能力。在COCO数据集下,使用注意力机制平均能提升12.70%的平均准确率和24.56%的抗遮挡能力。但是,采用直接连接方式进行注意力特征融合的多层注意力机制相比于单层注意力机制的仅仅能提升0.04的平均精准率和0.01的平均召回率。同一条件下,通过本发明进行特征融合的多头注意力机制可以实现更高的检测精度和抗遮挡能力,提升了0.16的平均准确度和0.07的平均召回率。

在Cityscapes数据集下,注意力机制能平均提升5.24%的平均准确率和48.15%的抗遮挡能力。而且与在COCO数据集中一样,本发明提出的多头注意力机制比直接连接特征层的多层注意力机制能提高更强检测能力的抗遮挡能力,相比于单层注意力,能提升6.62%的平均准确率和25%的平均召回率。

总而言之,注意力机制能提升网络的检测能力和抗遮挡能力,而多层注意力机制提高的准确率更高。但是多层注意力机制中,直接连接注意力特征的融合方式相当于是拓展了单层注意力的卷积核数量,这是数量上的变化,并没有本质的改变。而本发明提出的多头注意力机制提出的特征融合方式,能更有效地利用注意力特征层。

经过以上分析,已经能确定提出的多头注意力机制能明显地提升网络的检测准确率和抗遮挡能力。但是如果对特征金字塔的每一层特征都施加多头注意力机制,将会极大地扩大原始网络的网络结构,降低图像的检测的速度。所以这里将分别在每一层特征上施加多头注意力机制,以探索算法能均衡抗遮挡能力和网络检测速度的最优位置。

下表第一行代表采用相应的策略,ResNet-101代表基础Faster-RCNN网络,而F1、F2、F3和F4则表示在相应的特征层中引入基于注意力机制的抗遮挡策略,打“√”表示选用该策略。

根据表中数据,对比在特征层F1、F2、F3和F4上引入注意力机制的效果,在特征层F2上引入效果最好且能在COCO数据集上提升2.4%的AP和1.1%的AR;在Cityscapes数据集上能提升2.3%的AP和1.5%的AR。在特征层F1和F3上引入时,表现无功无过,并未带来精度上有较大的提升;而在特征层F4引入时,提升的精度最小,因为该层为最高层,具有的小目标特征较少,融合后反倒稀释了小目标特征,导致精度下降。总之,选择合适的特征层引入注意力机制才能提高网络性能。

如图6所示,基于上述基于多头注意力机制的抗遮挡目标检测方法,本发明还相应提供了一种基于多头注意力机制的抗遮挡目标检测设备,所述基于多头注意力机制的抗遮挡目标检测设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该基于多头注意力机制的抗遮挡目标检测设备包括处理器10、存储器20及显示器30。图6仅示出了基于多头注意力机制的抗遮挡目标检测设备的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述基于多头注意力机制的抗遮挡目标检测设备的内部存储单元,例如基于多头注意力机制的抗遮挡目标检测设备的硬盘或内存。所述存储器20在另一些实施例中也可以是所述基于多头注意力机制的抗遮挡目标检测设备的外部存储设备,例如所述基于多头注意力机制的抗遮挡目标检测设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括基于多头注意力机制的抗遮挡目标检测设备的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述基于多头注意力机制的抗遮挡目标检测设备的应用软件及各类数据,例如所述安装基于多头注意力机制的抗遮挡目标检测设备的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于多头注意力机制的抗遮挡目标检测程序40,该基于多头注意力机制的抗遮挡目标检测程序40可被处理器10所执行,从而实现本申请各实施例的基于多头注意力机制的抗遮挡目标检测方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于多头注意力机制的抗遮挡目标检测方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述基于多头注意力机制的抗遮挡目标检测设备的信息以及用于显示可视化的用户界面。所述基于多头注意力机制的抗遮挡目标检测设备的部件10-30通过系统总线相互通信。

在一实施例中,当处理器10执行所述存储器20中基于多头注意力机制的抗遮挡目标检测程序40时实现如上述实施例所述的基于多头注意力机制的抗遮挡目标检测方法,由于上文已对所述基于多头注意力机制的抗遮挡目标检测方法进行详细描述,在此不再赘述。

综上所述,本发明提供的基于多头注意力机制的抗遮挡目标检测方法、设备及存储介质,在已有的目标检测网络基础上引入新的多头注意力机制来处理不同程度的遮挡目标检测,因而具有易于改进、容易训练的特点,提出的注意力策略兼顾性能提升和较快检测速度,且容易集成到主流目标检测器中,并且不限于特定的遮挡模式,能较好得减小遮挡对目标检测的影响,提高算法的抗遮挡目标检测能力。

当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号