首页> 中国专利> 一种基于改进YOLO算法的伪装目标检测方法

一种基于改进YOLO算法的伪装目标检测方法

摘要

本发明公开了一种基于改进YOLO算法的伪装目标检测方法,所述方法包括:获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;利用非对称卷积融合网络对提取到的特征图进行融合,融合得到伪装目标的增强特征图;对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。本发明能够有效、快速地检测伪装目标。

著录项

说明书

技术领域

本发明涉及一种基于改进YOLO算法的伪装目标检测方法,属于计算机视觉及机器学习技术领域。

背景技术

目标发现与定位是战场指挥作战的重要依据。实现对战场上伪装目标的可靠检测与定位,是复杂战场环境下进行决策的重要依据。目前,一般采用热成像技术作为伪装目标的首选检测手段,其成本高昂。相比于热成像,可见光伪装目标检测技术的实现成本有较大优势。

伪装目标具有与周围环境高度近似的特点,且目标的视觉尺寸相对较小,所以伪装目标的检测较一般检测任务更具挑战性。

现有的一些算法将目标上伪装纹理看作一类物体,对其纹理进行检测;或是根据图像的统计信息区分是否存在伪装物体。随着深度学习的兴起,目标检测算法获得了显著的发展。深度学习将目标检测任务建模为对目标候选区域进行分类与回归两个问题。使用CNN提取目标特征,提出了双阶段检测算法Faster R-CNN,在第一阶段利用基于锚框(Anchor)机制的RPN(Region Proposal Network)在提取网络输出的特征图上生成目标候选区域。之后对提取出的候选区域进行回归,并对包含的目标分类,完成检测。其衍生算法Cascade R-CNN、Libra R-CNN等对Faster R-CNN的精度与速度进行了改进。单阶段算法针对双阶段算法检测速度慢的问题,摒弃了使用RPN生成候选区域的步骤,通过滑动窗口的方式在特征图上放置Anchor,对其进行回归与分类。典型的算法有SSD、YOLO v2、YOLO v3、RetinaNet、YOLO v5等。这些使用了Anchor机制的算法被统称为Anchor-Based算法。

之后相继出现了在检测性能上可与Anchor-Based算法媲美的Anchor-Free算法。这类算法将检测目标划分为确定目标关键点和对目标位置进行回归两个问题。代表性的算法有FCOS、RepPoints、CenterNet等。

对于伪装目标的检测任务来说,这两类算法均有一定的缺陷。Anchor-Free算法利用关键点确定目标,但检测的关键点(如目标中心点)通常覆有迷彩伪装纹理,这与算法出发点相违背,且此类算法对目标位置的回归效果欠佳。

由于加入了Anchor这一先验信息,Anchor-Based算法对目标位置的回归性能有所提升,随之面临Anchor尺寸和比例的设置、计算量骤升等问题。为减轻计算量,一般在尺寸较低的特征图(如最大尺寸为输入的1/8)上生成Anchor。经过多次下采样,伪装目标的特征信息大量丢失,背景与伪装纹理间的差异性进一步降低。同时,普通卷积对伪装纹理这一特定信息的提取效果并不出众,背景与伪装纹理间差异性的降低和特征图尺寸的减小加剧了这一现象。

发明内容

本发明的目的在于克服现有技术中的不足,提供一种基于改进YOLO算法的伪装目标检测方法,能够有效、快速地检测伪装目标。为达到上述目的,本发明是采用下述技术方案实现的:

第一方面,本发明提供了一种基于改进YOLO算法的伪装目标检测方法,所述方法包括如下步骤:

获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;

利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;

对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。

结合第一方面,进一步地,预设的提取网络提取原始图像的特征图中伪装目标的特征包括如下步骤:

根据预设的提取网络输出特征图的尺度,将预设的提取网络分为5个模块,同一模块中不同层输出的特征图尺度相同;

原始图像的特征图依次经过5个模块,包括:

第1个模块的输入为原始图像的特征图,依次经过1个卷积层、1个SE层和2个卷积层处理后,输出特征图,将其作为第2个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/2;

第2个模块的输入为第1个模块输出的特征图,依次经过2个卷积层、2个SE层、1个TA层和1个卷积层处理后,输出特征图,将其第3个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/4;

第3个模块的输入为第2个模块的输出特征图,依次经过2个卷积层、3个SE层、1个TA层和1个卷积层处理后,输出特征图,将其第4个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/8;

第4个模块的输入为第3个模块的输出特征图,依次经过2个卷积层、4个SE层和2个卷积层处理后,输出特征图,将其第5个模块的输入,其中输出特征图的尺度为原始图像的特征图尺度的1/16;

第5个模块的输入为第4个模块的输出特征图,依次经过3个卷积层、5个SE层和1个卷积层处理后,输出特征图,该输出特征图为包含原始图像中更多的伪装目标的特征图,其中输出特征图的尺度为原始图像的特征图尺度的1/32。

结合第一方面,优选地,所述TA层表示三维注意力层。

结合第一方面,进一步地,所述TA层是通过如下步骤计算得到的:

初始化一个尺度为H*W*C特征图X,分别从H、W和C的3个维度上对特征图X进行转置,得到特征图X

将3个特征图输入处理模块,输出不同的特征图;

将输出的不同特征图进行转置,转置后3个特征图的尺度均为H*W*C;

转置后的特征图均乘以系数1/3,该运算过程表示为:

公式(1)中,y表示TA层的输出结果,

结合第一方面,进一步地,所述处理模块包括Z-Pool和卷积-标准化-Sigmod激活层,其中Z-Pool的表达式为:

Z-Pool(X)=Concat[MaxPool

公式(2)中,Pool

结合第一方面,进一步地,所述利用非对称卷积融合网络对提取得到的特征图进行融合,包括:

初始化提取得到的特征图的尺度为原始图像的特征图分辨率的1/4、1/8、1/16和1/32;

非对称卷积融合网络包含3个非对称卷积模块,每个模块包含两路输入,将提取得到的特征图依次输入各模块,包括:

第1个非对称卷积模块的输入分别为分辨率1/32和1/16两个特征图,尺度较小的特征图经过非对称卷积模块的处理后作为第2个非对称卷积模块的一路输入;

第2个非对称卷积模块的输入分别为第1个非对称卷积模块处理后输出的特征图和分辨率1/8的特征图,尺度较小的特征图经过非对称卷积模块的处理后作为第3个非对称卷积模块的一路输入;

第3个非对称卷积模块的输入分别为第2个非对称卷积模块处理后输出的特征图和分辨率1/4的特征图,输出为伪装目标的增强特征图。

结合第一方面,进一步地,非对称卷积模块的处理,包括如下步骤:

输入特征图经过1×3和3×1两组卷积-标准化-ReLU激活层后的结果与输入特征图相加后,输入1×1卷积降低通道数;1×1卷积输出的结果经2倍上采样后与另一路的输入特征图相加,作为下一非对称卷积模块的输入。

第二方面,本发明提供了一种基于改进YOLO算法的伪装目标检测系统,包括:

特征提取模块:用于获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;

特征融合模块:用于利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;

目标检测模块:用于对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。

第三方面,本发明提供了一种基于改进YOLO算法的伪装目标检测装置,包括处理器及存储介质;

所述存储介质用于存储指令;

所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。

第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。

与现有技术相比,本发明实施例所提供的一种基于改进YOLO算法的伪装目标检测方法所达到的有益效果包括:

本发明获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;能够有效提取伪装目标的特征图,更好的分辨伪装目标的区域与背景区域;

本发明利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;能够有效融合输入特征图不同通道间的信息,提升对通道信息的敏感性,增强对伪装目标特征的获取能力;

对融合得到的伪装目标的增强特征图进行检测,能够准确得到伪装目标在原始图像中的位置信息。

附图说明

图1是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的流程图;

图2是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的网络结构;

图3是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的预设的提取网络的参数图;

图4是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的SE层和TA层的结构图;

图5是本发明实施例一提供的一种基于改进YOLO算法的伪装目标检测方法的非对称卷积融合网络的结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

实施例一:

如图1、图2所示,本发明实施例提供了一种基于改进YOLO算法的伪装目标检测方法,包括:

获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;

利用非对称卷积融合网络对提取得到的特征图进行融合,融合得到伪装目标的增强特征图;

对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。

具体步骤如下:

步骤1:提取特征。

构建由SE层、卷积层和TA层组成的提取网络。将输入数据的尺度约定为P,则P/2代表数据的长、宽为输入尺度的1/2,以此类推。特征提取网络输出尺度包含P、P/2、P/4、P/8、P/16和P/32共6种。将特征图在三种维度的大小称为尺寸,如算法原始输入尺寸为512×512×3。

提取网络的具体结构如下:

(1)对于通道数为3的输入数据,经过卷积核大小为3的卷积层,输出尺度不变,通道数增至24。

(2)通道数为24的特征图经过4层网络(卷积×2、SE层、卷积层)得到特征图,各层输出尺度为P/2,通道数为48。

(3)通道数为48的特征图经过6层网络(卷积×2、SE层×2、TA层、卷积层)得到特征图,各层输出尺度为P/4,通道数为256。

(4)通道数为256的特征图经过7层网络(卷积×2、SE层×3、TA层、卷积层)得到特征图,各层输出尺度为P/8,通道数为512。

(5)通道数为512的特征图经过7层网络(卷积×2、SE层×4、卷积层)得到特征图,各层输出尺度为P/16,通道数为1024。

(6)通道数为512的特征图经过10层网络(卷积×3、SE层×5、卷积层)得到特征图,各层输出尺度为P/16,通道数为1024。

如图3所示为提取网络的参数图。如P/4-256-2,表示该层输出尺度为P/4,通道数256,卷积步长为2。若无标注步长,则该卷积层的卷积步长为1。卷积-标准化-ReLU激活层包含卷积操作层、标准化操作层和ReLU激活操作层。提取网络使用到的卷积核大小均为3×3。

如图4所示为SE层和TA层的结构图。

具体地,SE层为在普通残差卷积的短接结构中加入SE结构。对于输入尺寸为H×W×C的特征图,经平均池化层处理后输出尺寸为1×1×C的张量。张量依次经过全连接层、ReLU激活层、全连接层和Sigmod激活层后输出1×1×C的张量。其中在第一个全连接层后输出张量的尺度变为1×1×C/r,r为C的整除数。

具体地,TA层共3路分支,分别计算H与W、H与C和W与C间的联系。以一路分支为例,输入X的尺寸为C×H×W,经过转置后得到的特征图X

Z-Pool(X)=Concat[MaxPool

公式(1)中,Pool

TA层是的运算过程表示为:

公式(2)中,y表示TA层的输出结果,

步骤2:特征融合。

利用非对称卷积融合网络对步骤1提取到的特征图进行融合,融合得到伪装目标的增强特征图。步骤1中提取到的特征图的尺度分别为P/2、P/4、P/8、P/16和P/32。

如图5所示,非对称卷积融合网络包含上采样与下采样两个方向。在上采样操作中,分别提取大小为输入1/32、1/16、1/8、1/4和1/2的特征层。所选特征层为轻量化网络输出的所有相同大小特征图中的最后一层输出。低尺度特征图经双线性插值完成2倍上采样后,与下一尺度的特征图相加,之后使用卷积核尺寸为3×3的卷积对其进行运算。

上采样操作输出结果分为两路:一路重复前述低尺度特征图进行过的操作,进行下一阶段上采样;侧路送入双向金字塔结构的下采样方向。上采样阶段得到的特征图尺度为输入尺度的1/16、1/8、1/4和1/2,将得到的4种尺度特征图进行下采样操作。在下采样操作中,依次对1/2、1/4、1/8和1/16的特征图进行2倍下采样,所得特征图与侧路输入的特征图相加,之后使用卷积核尺寸为3×3的卷积对其进行运算。最终得到尺度为输入尺度1/4、1/8和1/16的特征图。在上采样与下采样过程中,3×3卷积所得特征图的通道数与其对应下一阶段的特征图通道数相同。同时,本发明算法中特征尺度相同的特征图对应通道数也相同。

步骤3:目标检测。

步骤3.1:模型训练时,将原始图像调整为512×512×3。设置批处理大小为32,训练迭代次数为200轮,初始学习率设置为0.01,衰减系数设置为0.0005。

步骤3.2:定义损失函数。YOLO算法将特征图分为S×S个网格,若目标的中心点位于某一网格,则由该网格负责对目标进行检测。对于每一个网格,在其上预测B个锚框(Anchor Box)。具体而言,对于每一个锚框,预测(5+C)个值。前5个值用于锚框的位置与尺寸并判定框内是否存在目标,它们分别是:框中心坐标距网格左上坐标的距离t

公式(3)中,a

c是目标类别,Classes是类别的集合,若框内含有目标,则对提取出的目标进行分类。损失函数表达式Loss为:

Loss=l

公式(4)中,l

实施例二:

本实施例将本发明提供的一种基于改进YOLO算法的伪装目标检测方法与采用Cascade R-CNN、Faster R-CNN、RetinaNet、RepPoints、SSD300、CenterNet和YOLO v5算法在同一数据集上进行比较,验证本发明对伪装目标检测性能的效果。

实验数据集为公开数据集:CPD(Fang Z.,et al.Camouflage people detectionvia strong semantic dilation network[C].The ACM Turing CelebrationConference-China,2019)是一个迷彩伪装单兵数据集,包含了2600副迷彩伪装单兵图像。模型训练与测试按照0.6、0.4的比例分割数据集获得训练数据与测试数据。

本发明使用目标检测任务中常用的mAP(mean Average Precision)评价不同模型的检测性能。对于检测出的结果,可以有四种情况,分别是真阳性(True Positive,TP)、假阳性(False Positive,FP)、真阴性(True Negative,TN)和假阴性(False Negative,FN)。其定义如下:

表1 检测结果定义

对于类别c,其在单一图像上准确率为图像上检测出的正确样本数与该类别样本总数之比,计算公式为:

在多张图像上,类别c的准确率为:

对于整个数据集而言,存在多个类别,mAP即为所有类别的准确率的平均值:

实验结果如表2所示。

表2 不同算法的mAP比较

从表2能够看出,本发明提供的一种基于改进YOLO算法的伪装目标检测方法能够准确得到伪装目标在原始图像中的位置信息。

实施例三:

本发明实施例提供了一种基于改进YOLO算法的伪装目标检测系统,包括:

特征提取模块:用于获取原始图像的特征图,将获取的特征图输入预设的提取网络,提取得到原始图像中伪装目标的特征图;

特征融合模块:用于利用非对称卷积融合网络对提取到的特征图进行融合,融合得到伪装目标的增强特征图;

目标检测模块:用于对融合得到的伪装目标的增强特征图进行检测,得到伪装目标在原始图像中的位置信息。

实施例四:

本发明实施例提供一种基于改进YOLO算法的伪装目标检测装置,包括处理器及存储介质;

所述存储介质用于存储指令;

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

实施例五:

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述方法的步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号