首页> 中国专利> 基于双注意力擦除和注意力信息聚合的弱监督目标检测方法

基于双注意力擦除和注意力信息聚合的弱监督目标检测方法

摘要

本发明公开了一种基于双注意力擦除和注意力信息聚合的弱监督目标检测方法,首先提取图像特征,同时采用选择性搜索算法对原始图像提取目标候选区域;将获取的特征送入到注意力信息聚合网络中,提取目标特征通道的全局和局部信息,并为不同的目标构建空间信息以增强特征图送入到双注意力擦除网络中,擦除其显著性局部前景注意力区域并同时擦除背景注意力区域,同时进行Sigmoid函数操作来生成增强图;将最终的特征图的卷积特征和候选区域输入到空间金字塔池化层,再输入两层串联的全连接层,输出得到每个候选框的特征向量,然后将其送入到多示例分支、优化分支和蒸馏分支中优化检测结果。本发明可解决弱监督场景下目标显著性区域突出问题,提高检测精度。

著录项

  • 公开/公告号CN114818920A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 常熟理工学院;

    申请/专利号CN202210444165.2

  • 发明设计人 龚声蓉;宋鹏鹏;应文豪;王朝晖;

    申请日2022-04-26

  • 分类号G06K9/62;G06V10/774;G06V10/82;G06V10/46;G06N3/04;G06N3/08;

  • 代理机构南京苏高专利商标事务所(普通合伙);

  • 代理人张俊范

  • 地址 215500 江苏省苏州市常熟市南三环路99号

  • 入库时间 2023-06-19 16:08:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种目标检测方法,特别是涉及一种基于双注意力擦除和注意力信息聚合的弱监督目标检测方法。

背景技术

目标检测是计算机视觉领域的热点问题之一。基于深度学习的全监督目标检测需要一个耗时耗力的过程来准备大量的完整标注数据,但是标注过程由于人为标注因素也可能会带来噪声。弱监督检测主要分为两类方法:基于多示例学习的传统检测方法和基于端到端多示例检测网络的方法,这些方法的主要过程都是首先生成大量候选区域,然后对候选区域执行多示例学习方法。虽然基于多示例学习的传统检测方法的检测速度较快,但是其多数使用手工提取特征且特征不具有鲁棒性,所以传统方法操作复杂而且检测精度无法令人满意。

受益于深度卷积神经网络强大的特征提取能力,越来越多的工作使用基于端到端的多示例检测网络,使得弱监督检测的精度显著提升且无需对特征进行手工提取,极大简化了检测流程。但是由于其基于分类网络构建,而分类网络往往提取的是目标最显著性的局部特征,使得目标特征的高响应区域也主要集中在此区域,导致在某些检测场景下模型易于陷入局部最小值状态,即倾向于稳定在最显著性的局部目标区域,如非刚性目标的头或尾部。然而在弱监督检测中,仅仅关注目标的最显著区域是不够的,如何使得模型更关注目标整体区域,进一步提高弱检测的检测精度是急需解决的关键问题。

发明内容

针对上述现有技术的缺陷,本发明提供了一种基于双注意力擦除和注意力信息聚合的弱监督目标检测方法,解决对于非刚性目标过于关注其显著性局部区域问题,其显著性局部区域问题

本发明技术方案如下:一种基于双注意力擦除和注意力信息聚合的弱监督目标检测方法,包括以下步骤:

步骤一、对输入图像进行特征提取并同时采用选择性搜索算法对输入图像提取目标候选区域;

步骤二、将步骤一获取的特征送入到注意力信息聚合网络中,提取目标特征通道的全局和局部信息,并为不同的目标构建空间信息以得到增强特征;

步骤三、将步骤二获取的增强特征送入到双注意力擦除网络中,经过平均计算后进入第一通道擦除显著性局部前景注意力区域来寻找目标整体部分并同时擦除背景注意力区域,另外进入第二通道进行Sigmoid函数操作,随机选择第一通道或者第二通道结果与步骤二获取的增强特征进行元素乘积输出;

步骤四、将步骤三得到的输出经过卷积后与步骤一得到的候选区域,输入到空间金字塔池化层,再输入两层串联的全连接层,输出得到每个候选框的特征向量,然后将特征向量送入到多示例分支、优化分支和蒸馏分支中细化得到检测结果。

进一步地,所述步骤一中进行特征提取时使用VGG16网络的前四个模块去除最后一个模块的最大池化层后进行提取。

进一步地,所述步骤四中的卷积为3×3的空洞卷积。

进一步地,所述步骤二具体包括:对输入的特征在通道维度进行全局平均池化,然后进行通道衰减生成全局通道向量f

进一步地,所述步骤三中的第一通道的操作包括设置阈值T

进一步地,T

进一步地,所述优化分支中的第一分支的监督信息来自于所述多示例分支,所述优化分支中的其余分支的监督信息来自于优化分支中的上一分支,所述蒸馏分支的监督信息为所述优化分支中的各个分支的输出的平均值。

本发明所提供的技术方案的优点在于:

对于提取的目标特征的局部显著性区域,在双注意力擦除网络中引入了注意力擦除,通过擦除最显著性的局部前景区域以及背景注意力区域来扩展目标的高响应区域从而使整体网络模型能够尽可能关注目标的整体区域,防止网络将注意力集中在背景区域,维护分类的性能精度。此外,为了更精确地生成擦除掩码,注意力信息聚合网络可以提取目标特征通道的全局和局部信息,并为不同的目标构建空间信息以增强特征图并以此来生成更加精准的注意力擦除掩码,从而进一步提高检测精度。双注意力擦除网络和注意力信息聚合网络均是即插即用的子网络,两个子网络相互协作,易于移植实现并整合到其它网络中来解决弱监督场景下目标显著性区域突出从而导致严重影响检测性能的情况。

附图说明

图1为本发明基于双注意力擦除和注意力信息聚合的弱监督目标检测方法的目标检测模型的结构示意图。

图2为注意力信息聚合网络的结构示意图。

图3为双注意力擦除网络的结构示意图。

图4为多实例学习分支、优化分支和蒸馏分支结构示意图。

图5为本发明在一些非刚性目标的高响应区域特征图的可视化图。

具体实施方式

下面结合实施例对本发明作进一步说明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本说明之后,本领域技术人员对本说明的各种等同形式的修改均落于本申请所附权利要求所限定的范围内。

本发明提出的基于双注意力擦除和注意力信息聚合的弱监督目标检测方法的包括建立目标检测模型,通过样本数据训练该目标检测模型,然后由训练后的目标检测模型对输入图像进行检测。请结合图1所示,基于双注意力擦除和注意力信息聚合的弱监督目标检测模型进行目标检测的过程如下:

对于仅有图像级标注的输入图像,其对应的类别标签为

具体步骤为:步骤一、首先将仅带有类别标签的图像输入到特征提取网络中,由特征提取网络中的前四个模块(去除第四模块的最大池化层)网络提取得到的通道数为512的特征,此外同时使用选择性搜索算法预先生成输入图像的候选区域。特征提取网络为修改过的VGG16网络的五个模块,具体修改为:前四个模块(去除第四模块的最大池化层)结构保持不变,保留第五模块的卷积层,第四模块的卷积层与第五模块的卷积层间插入依次连接的注意力信息聚合网络和双注意力擦除网络,作为优选的实施例,为了保护小尺寸物体的特征,使用扩张率为2的3x3空洞卷积层来代替第五模块的卷积层。

步骤二、将步骤一获取的特征送入到注意力信息聚合网络(AIA)中,其注意力信息聚合网络整体架构如图2所示。具体来说,输入特征

其中σ、

此外,通过构建特征的空间信息可以使网络重点关注的哪些区域位置有关键信息,这对于训练时缺乏位置标签的弱监督检测非常有帮助。所以为了进一步提高物体区域的定位性能,本发明对输入特征图构建目标空间维度的信息。通道平均池化(CAP)和通道最大池化(CMP)同时对输入特征进行操作,然后将其输出在通道维度中进行拼接。随后将拼接的结果通过一个7×7卷积层,然后通过Sigmoid函数获取空间信息M

步骤三、将步骤二获取的增强特征送入到双注意力擦除网络(DAE)中。双注意力擦除网络的整体结构如图3所示。

双注意力擦除网络中引入了两个阈值,即前景阈值λ

其中

此外,双注意力擦除网络中还引入了另一个分支,通过对M

步骤四、最后将步骤三得到的输出特征图再送入到特征提取网络的第五模块的卷积层(即扩张率为2的3x3空洞卷积层)得到卷积特征,卷积特征和步骤一得到的候选区域输入到空间金字塔池化层,之后为2个通道数为4096的两个全连接层,从而得到通道数为4096的候选区域特征向量,然后将其候选区域特征向量送入到多示例分支、优化分支和蒸馏分支中进一步优化检测结果,如图4所示。从第二个全连接层生成的候选区域特征向量同时进入多示例学习分支、具有K个优化分支和蒸馏分支。所有的分支在结构上是相同的,但在训练中使用的监督信息是不同的。

具体来说,在多示例学习分支中候选区域特征向量需要经过多示例检测网络的分类和检测流两个分支,分别生成矩阵

多实例分支的输出通过引入优化分支和蒸馏分支进行优化。

在优化分支中,将同时考虑背景的标签信息,因此将每个优化分支的输出结果都表示为

其中,

对于蒸馏分支,其伪标签是通过对优化分支中K个优化分支的输出进行平均而得到的。蒸馏分支的损失函数L

本发明在两个广泛使用并具有挑战性的数据集上进行实验PASCAL VOC 2007和VOC 2012,两者都包含20个目标类别,对弱监督目标检测的结果进行了测试,验证本发明方法有有效性。对于VOC 2007,其包含了24640个标记的对象和9963张图像(其中5011张图像属于训练验证集trainval,4952张图像属于测试集test)。对于VOC 2012,其包含了22531张图像(其中11540张图像属于训练验证集,10991张图像属于测试集)。对于每一个数据集,实验都在训练验证集进行训练,并在测试集进行评估检测结果。

实验中使用两个指标进行评估,即平均精度(mean Average Precision,mAP)和正确定位(Correct Localization,CorLoc)。mAP用于衡量检测器在目标检测中的检测精度,同时CorLoc表示正确定位的图像数量占总图像数量的百分比,用于衡量定位精度。根据PASCAL标准,在评估中只有当一个预测框与真值框的IoU大于50%时才认为其是正确的。为了进行公平的比较,本发明方法在测试集上评估mAP并在验证训练集上评价CorLoc。

实验硬件环境:Ubuntu 16.04,Tesla P100显卡,显存16G。代码运行环境:python3.6,Pytorch 1.4。本发明方法的整体网络在基准模型为Boosted-OICR的基础上建立,其骨干网络是在ImageNet数据集上预先训练的VGG16。为了公平起见,所有的设置都与基准模型的相同。实验中使用Selective Search为每个图像生成初始候选区域。在训练阶段,实验设置K=3来优化实例分类器。对于双注意力擦除网络,依据基准网络模型将λ

本发明分析了本方法与Boosted-OICR相比在一些非刚性目标的高响应区域特征图的情况,可视化情况如图5所示。本发明提取了主干网络VGG16的conv5-3层的特征图,并将显著性的特征进行可视化。可以发现,Boosted-OICR方法的高响应区域主要集中在非刚性物体的最显著性的区域,导致最终检测结果不完整。本发明方法可以有效扩展最显著性的区域并激活其他显著性较低的区域以尽可能地定位目标整体。其中在图5中:(a)原始图像;(b)Boosted-OICR的可视化结果;(c)本发明方法的可视化结果。

此外在数据集VOC 2007和VOC2012上将本发明方法与其他最近的弱监督目标检测方法进行了实验比较,在数据集VOC 2007上的mAP和CorLoc以下所示。

从表中可以发现,本发明方法在mAP上达到了50.5%,在CorLoc上达到66.6%。特别地,对于一些非刚性目标如″cat″,”dog″,”horse″和″people″,本发明方法在mAP上分别比Boosted-OICR提高了19.6%、5.5%、3.6%和11.3%,这也充分证明本发明方法可以有效地扩展目标的显著性局部区域从而感知目标的整体。另外,在数据集VOC2012的检测结果如下表所示。本发明方法在mAP上取得了47.4%的检测结果,在CorLoc上取得了67.3%的检测结果,此外本发明方法与其他最近的弱监督检测方法相比也显示出有竞争力的结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号