技术领域
本发明涉及遥感图像目标检测技术,特别是一种旋转等变的空间局部注意力遥感图像目标检测方法。
背景技术
目标检测旨在获得图像中预定义类别目标的定位和类别,是计算机视觉领域最基本、最重要的任务之一。针对遥感图像的目标检测任务对于地理信息系统测绘、农业、交通规划和导航等各种民用应用具有重要意义。由于遥感图像的空间覆盖范围广,图像中的物体通常具有大纵横比、分布密集和方向任意的问题。上述因素使得在光学遥感图像中准确识别和定位目标物体成为一项具有挑战性的任务。
随着深度学习的快速发展,许多基于深度学习的遥感图像目标检测方法已经被提出。光学遥感图像与通常从水平视角拍摄的自然图像不同,遥感图像通常是鸟瞰图,这意味着图像中的物体总是任意定向的,高度复杂的背景和多变的外观进一步增加了检测物体的难度。Ma等人[Ma J,Shao W,Ye H,et al.Arbitrary-oriented scene text detectionvia rotation proposals[J].IEEE Transactions on Multimedia,2018,20(11):3111-3122.]通过预先设计大量的具有不同角度、尺度和纵横比的锚框来最终生成方向任意的检测框,并在检测稀疏分布的目标方面表现出较好的效果。然而,由于遥感图像中目标的方向高度多样化且分布密集,通过使用有限方向的检测框与遥感图像中的所有目标配对通常是很困难的,这类方法会显著增加计算复杂度。为了解决这一不足,Ding等人[Ding J,Xue N,Long Y,et al.Learning roi transformer for oriented object detection in aerialimages[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:2849-2858.]提出了ROI Transformer,将区域建议网络生成的水平候选框转换为旋转候选框,从而避免了设计大量旋转的锚框,取得了较好的效果。然而,传统的卷积神经网络框架对平移等变特征具有良好的泛化能力,但在旋转等变特征和尺度变化方面表现不佳。上述方法并未考虑到特征张量增强模块存在的缺陷,使得经过特征张量增强模块提取得到的特征图不具备旋转等变性,从而对后续识别和定位目标物体的过程造成影响。王等人[王道累,杜文斌等.一种基于密集连接与特征增强的遥感图像目标检测方法:中国,10079059.4[P].2021-05-18.]通过引入带有空洞卷积的特征增强模块和特征金字塔模块,提取多尺度特征张量,主要应对遥感图像分辨率低、目标尺度小等问题。该方法实现了较好的检测结果,但是空洞卷积扩大了感受野范围的同时,对于密集分布的目标不具备注意力机制,同时,特征金字塔模块采用最近邻插值的方式对特征张量进行上采样,上采样结果不具备自适应性。
发明内容
本发明公开了一种旋转等变的空间局部注意力遥感图像目标检测方法,该方法充分考虑了目标的尺度和旋转对检测任务的影响,上采样注意力机制和非极大值抑制机制提高了多尺度目标的检测精度和检测速度,能够有效处理大纵横比、分布密集和方向任意的目标检测问题,且网络轻量化,小样本学习能力强。
实现本发明目的的技术解决方案为:一种旋转等变的空间局部注意力遥感图像目标检测方法,包括以下步骤:
第一步,采取多方向旋转卷积,构造旋转等变卷积模块,该模块包含多个方向旋转卷积层并级联特征张量拼接操作;
第二步,级联旋转等变残差子模块,构造特征张量增强模块,即利用第一步旋转等变卷积构造旋转等变残差子模块,相互级联构成特征张量增强模块,提取旋转等变特征张量;
第三步,采取邻域权重自适应上采样,构建注意力上采样单元,采样时通过卷积预测采样权重,预测像素值来自局部空间像素点的组合而非最邻近像素点;
第四步,采取金字塔注意力模块提取多尺度特征张量,即利用第三步的注意力上采样方法,构建金字塔注意力模块,提取多尺度特征张量;
第五步,采取可学习的非极大值抑制损失重构损失函数训练网络,指导区域建议网络生成候选区域,即在非极大值抑制过程中增加拉损失和推损失,拉损失用于抑制同类低分候选区域的生成,推损失阻碍抑制不同类高分候选区域的生成;
第六步,对候选区域进行特征提取并实现目标的分类和定位,即通过池化操作将候选区域池化为固定尺寸的特征张量,并级联全连接层及Softmax分类器进行定位和分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述旋转等变的空间局部注意力遥感图像目标检测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述旋转等变的空间局部注意力遥感图像目标检测方法的步骤。
本发明与现有技术相比,其显著特点在于:(1)采取旋转等变卷积构造旋转等变残差子模块,相互级联构成旋转等变特征张量增强模块,提取旋转等变特征张量;(2)注意力上采样单元能够在大的感受野内聚合上下文信息,利用该模块构建金字塔注意力模块,提取的多尺度特征张量更为准确;(3)采取可学习的非极大值抑制损失重构损失函数训练网络,指导区域建议网络生成候选区域,可以避免误检和漏检;(4)通过构建端到端检测模型,能够有效处理大纵横比、分布密集和方向任意的目标检测问题,且网络轻量化,小样本学习能力强。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明的方法流程示意图。
图2是旋转等变残差单元的结构图。
图3是注意力上采样单元的结构图。
图4是本发明方法对HRSC 2016数据集的检测结果图。
图5是本发明方法对DOTA-v1.0数据集的检测结果图。
具体实施方式
相较于现有方法,本发明应用旋转等变卷积构造旋转等变残差子模块,相互级联构成特征张量增强模块,使得经过特征张量增强模块得到的特征张量具备旋转等变性;应用邻域权重自适应的注意力上采样,构建注意力上采样单元,预测像素值来自局部空间像素点的组合而非最邻近像素点;利用注意力上采样方法,构建金字塔注意力模块,能够得到更加精确的多尺度特征张量;通过设计可学习的非极大值抑制损失函数训练网络,指导区域建议网络生成候选区域,在一定程度上能够避免目标物体的误检和漏检。
结合图1,下面详细说明本发明的实施过程,步骤如下:
第一步,采取多方向旋转卷积,构造旋转等变卷积模块,该模块包含多个方向旋转卷积层并级联特征张量拼接操作,具体过程为:
(1)对原始卷积核分别进行8次不同方向的旋转变换,得到8个对不同方向敏感的卷积核。即通过原始卷积核围绕中心点逆时针旋转α
其中,
(2)将输入特征张量分别通过8个方向旋转卷积层,得到8个对不同方向敏感的特征张量,记为f
(3)将这8个f
第二步,级联旋转等变残差子模块,构造特征张量增强模块,即利用第一步旋转等变卷积构造旋转等变残差子模块,相互级联构成特征张量增强模块,提取旋转等变特征张量;
每个残差子模块由不同规模的旋转等变残差单元构成,残差子模块S
(1)输入特征张量f依次经过1×1卷积层、3×3旋转等变卷积层和1×1卷积层,得到特征张量f′。
(2)f′与f经过1×1卷积层得到的特征张量f″对应像素值进行加运算,所得特征张量即为旋转等变残差单元的输出。
将旋转等变残差子模块S
其中,I为特征张量增强模块的输入,T
第三步,采取邻域权重自适应上采样,构建注意力上采样单元,如图3所示,采样时通过卷积预测采样权重,预测像素值来自局部空间像素点的组合而非最邻近像素点,具体过程为:
(1)通过3×3卷积层将输入特征张量的通道数转化为
(2)通过亚像素卷积层将每个像素的δ
(3)对每个像素点对应的k
(4)通过一个1×1卷积层计算得到256×δ×H×δ×W大小的上采样率为δ的特征张量。
第四步,采取金字塔注意力模块提取多尺度特征张量,即利用第三步的注意力上采样方法,构建金字塔注意力模块,提取多尺度特征张量,其过程为:
(1)特征张量增强模块中旋转等变残差子模块S
(2)空间尺度较小的3个特征张量F′
(3)通过3×3卷积层分别对融合特征张量和F′
第五步,采取可学习的非极大值抑制损失重构损失函数训练网络,指导区域建议网络生成候选区域,即在非极大值抑制过程中增加拉损失和推损失,拉损失用于抑制同类低分候选框的生成以避免误检,推损失阻碍抑制不同类高分候选框的生成以避免漏检,非极大值抑制损失可定义为:
L
其中,L
(1)通过锚框生成层对金字塔注意力模块输出的特征张量分配候选框,为每个像素点分别设置像素面积为32
(2)选取当前得分最高的候选框作为当前候选框,判断该候选框对应的真实标签是否与已有候选框索引,若是,则计算当前候选框与已有候选框的拉损失,否则,计算当前候选框索引到其对应的真实标签值。拉损失定义为:
其中,ln(.)表示对数运算,
其中,area(·)表示集合的面积计算算子,b
(3)将当前候选框存入最终保留列表,计算其余候选框与当前候选框的IOU,当二者IOU大于固定阈值M时,判断二者对应的真实标签值是否相同:相同则删除与当前候选框做比较的候选框,不同则计算这两个候选框的推损失并保留此比较候选框。推损失定义为:
其中,b
(4)在得分列表中删除当前候选框,重复执行步骤(2)和步骤(3),不断添加符合要求的候选框至最终保留列表直到得分列表为空,最终保留列表即为区域建议网络最终获取的候选区域。
第六步,对候选区域进行特征提取并实现目标的分类和定位,通过池化操作将候选区域池化为固定尺寸的特征张量,并级联全连接层及Softmax分类器进行定位和分类。池化操作具体实现过程为:
(1)将不同尺度的候选区域分割为7×7个均等大小的单元。
(2)对每个单元进行4等分,4个区域的中心位置即为该单元像素值的采样点,利用双线性插值的方法计算这4个采样点的像素值。
(3)对每个单元进行最大值池化操作,即选取4个采样点像素值中的最大值作为该单元的像素值,最终得到7×7大小的候选区域。
经过池化操作得到固定空间尺寸的候选区域特征张量通过一个全连接层和Softmax分类器进行分类,以获得目标的分类结果。同时,通过一个全连接层用于回归包括候选区域中心点坐标、宽、高以及逆时针方向旋转角度的偏移值,以获得目标的准确定位结果。
本发明的效果可通过以下仿真实验进一步说明:
仿真条件
仿真实验采用两组光学遥感图像数据:HRSC 2016数据集和DOTA-v1.0数据集。HRSC 2016数据集的所有图像均来自谷歌地球,训练集、验证集和测试集分别包含436、181和444张图像,共包含2976个目标,图像大小范围为300×300到1500×900像素。DOTA-v1.0数据集的所有图像均来自谷歌地球、GF-2和JL-1卫星,以及CycloMedia Technology B.V.提供的航拍图像,训练集、验证集和测试集分别包含1411、458和937张图像,共包含403318个目标,图像大小范围为800×800到20000×20000像素。两组数据集均采用定向包围框的注释格式。实验中,将HRSC 2016数据集的所有图像都调整为800×512大小;将DOTA-v1.0数据集中的所以图像裁剪为1024×1024大小的图像块,步长设为824。将原训练集和原验证集作为训练集,原测试集作为测试集。两组实验以类内平均检测精度(Average Precision,AP)和类间平均检测精度(mean Average Precision,mAP)作为评价指标。此外,对比方法包括:感兴趣区域转换器(RoI Transformer,RoI Trans.)方法、动态细化网络(DynamicRefinement Network,DRN)方法、中心概率图(Center Probability Map,CenterMap)方法、细化旋转网络(Refined Rotation RetinaNet,R
实验中网络优化器采用SGD优化器,初始学习率为0.01,每衰减一次学习率除以10,动量和权重衰减分别为0.9和0.0001。此外,网络在DOTA-v1.0的前12个时期和HRSC2016的前36个时期内训练模型,其他网络超参数配置总结在表1中。仿真实验均在Linux操作系统下采用Python3.8+pytorch1.8+cuda11.2完成。
表1网络超参数配置
仿真实验结果分析
表2-3为本发明方法对HRSC 2016与DOTA-v1.0数据集进行仿真实验的检测精度(%)。
表2不同方法对HRSC 2016数据集的检测结果
表3不同方法对DOTA-v1.0数据集的检测结果
从实验结果来看,我们可以发现,通过使用本发明方法可以明显提升两个数据集的检测精度。在HRSC 2016数据集上,本发明方法的平均精度为90.58%,通过本发明方法获得的检测图如图4所示。相比于其他方法,本发明方法能够得到更好的检测结果,主要得益于提出的旋转等变特征张量增强模块能够更准确地提取目标的方向信息。在DOTA-v1.0数据集上,本发明方法的平均检测精度为74.56%,通过本发明方法获得的检测图如图5所示。相比于其他方法,本发明方法对篮球场和地面田径场这两个尺度变化较大的类具有较好的检测效果,这得益于本发明提出的注意力金字塔模块,该模块能够更加准确地提取多尺度特征信息;对船舶和车辆这两个纵横比较大的类具有较好的检测效果,主要得益于本发明提出的非极大值抑制损失函数,能够删除冗余检测框的同时使检测框的定位更加准确。上述结果充分表明了本发明方法能够有效地学习遥感图像的特征信息,具有较高的检测性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
机译: 使用空间局部化的分析物对样品中一种或多种目标分析物进行检测和定量
机译: 使用空间局部化的分析物对样品中一种或多种目标分析物进行检测和定量
机译: 使用空间局部化的分析物对样品中一种或多种目标分析物进行检测和定量