首页> 中国专利> 用于云联邦的图像中的目标物识别方法及装置

用于云联邦的图像中的目标物识别方法及装置

摘要

本发明提供了一种用于云联邦的图像中的目标物识别方法及装置,该方法包括以下步骤:对原始图像进行Random‑Batch images处理,并与原始图像融合后输入ResNet网络,进行特征提取,获得特征图;将特征图输入到双向特征图金字塔网络中进行深层特征图融合,获得语义表达能力更强的特征图,并输入到区域生成网络中,生成多个候选框,将特征框输入ROIAlign网络层筛选出感兴趣区域,感兴趣区域映射到特征图得到感兴趣区域的特征信息;根据特征信息通过全连接层对感兴趣区域进行分类、框回归及掩码网络处理,获得原始图像的语义分类结果,以识别目标物。本发明在训练过程中对模型的改进使之能对图像中的目标细粒度检测和识别有更好的效果。

著录项

  • 公开/公告号CN112733686A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 武汉兴图新科电子股份有限公司;

    申请/专利号CN202011641087.2

  • 发明设计人 程家明;孔繁东;周志祥;彭杨;

    申请日2020-12-31

  • 分类号G06K9/00(20060101);G06K9/32(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构42238 武汉知产时代知识产权代理有限公司;

  • 代理人张毅

  • 地址 430000 湖北省武汉市东湖新技术开发区关山大道1号软件产业三期A3栋8层

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明涉及图像识别技术领域,具体涉及一种用于云联邦的图像中的目标物识别方法及装置。

背景技术

相较于普通的目标检测任务,航拍图像中的军事码头目标检测有难度更大。首先,由于距离太远,像素不是很高,图像本身模糊不清;另外,在图像中既有像素超过100×100的桥梁、操场,也有像素小于50×50各种集装箱、船只,而且船只目标较为密集,还有些相互交叠的部分,还有介于其间的飞机、码头,图像复杂程度更高,因此要求目标识别方法对多尺度和精度需求比较高。

为了对军事码头航拍图像中的各个目标进行识别,首先,要进行语义分割,先识别出不同类别的的实体,其次,需要对同类别的实体进行实例分割,最终检测出各个目标的属性。

在语义分割层面,目前主要有RCNN、fast-RCNN、faster-RCNN等,其中RCNN网络先提取图像中的Proposal(候选框),然后将Proposal(候选框)输入CNN(卷积神经网络)提取特征,使用SVM(支持向量机)分类,最后做Bbox reg(框回归),在语义分割方面,效果较好,但是其速度较慢,原因是在提取图像的proposal的时候计算机进行大量重复计算。

为了解决RCNN速度较慢的问题,目前提出一种Fast-RCNN算法。在Fast-RCNN中,将输入变为一整张图像,通过ROI再进行特征选择。并且将Bbox reg(框回归)和区域分类都加入网络变成了multi-task,Fast-RCNN将RCNN每一个框都要单独进CNN入这一大缺点改进,提升了速度。但是尽管Fast-RCNN极大地提高了速度,但是筛选特征框还是需要花费大量的时间。

为了进一步提高选择Proposal(候选框)的速度,一种基于Fast-RCNN的改进算法Faster-RCNN被提出,Faster-RCNN在Fast-RCNN进行改进,首次提出了一种快速提取Proposal(候选框)的算法—RPN(Region Proposal Network,区域生成网络),RPN很好的整合到Fast-RCNN中。在语义分割方面,Fast-RCNN以及Faster-RCNN等,取得了非常好的效果,但是Faster-RCNN无法进行实例分割,无法达到目标识别的要求。

为了更好的对目标进行识别,在Faster-RCNN基础上,一种改进的实例分割算法Mask-RCNN被提出。首先Mask-RCNN对Faster-RCNN中的ROI(Region Of Interest,感兴趣区域)进行了改进,由原本的ROI Pooling改进为ROI Align,极大的减小了Proposal(候选框)过程中的误差;其次,Mask-RCNN中的FPN(特征金字塔网络)是对该主干网络的扩展,可以在多个尺度上更好地表征目标。此外,Mask-RCNN中最关键的是在其已有的用于边界框识别的分支上添加了一个并行的用于预测目标掩码的Mask(掩码网络)分支,实现了实例分割。

但是针对码头遥感图像细粒度的目标识别,Mask-RCNN的鲁棒性依然存在不足,在细粒度目标识别的准确率不是很高。因此Mask-RCNN的鲁棒性不足、对细粒度目标识别的准确率不高是亟待解决的技术问题。

发明内容

本发明提供了一种用于云联邦的图像中的目标物识别方法及装置,旨在解决传统的Mask-RCNN鲁棒性不足、对细粒度目标识别的准确率不高的技术问题。

为了实现上述目的,本发明提供了一种用于云联邦的图像中的目标物识别方法,所述用于云联邦的图像中的目标物识别方法包括以下步骤:

对原始图像进行Random-Batch images处理,获得处理后图像;

将所述处理后图像与所述原始图像融合后输入ResNet网络,进行特征提取,获得特征图;

将所述特征图输入到双向特征图金字塔网络中进行深层特征图融合,获得语义表达能力更强的特征图;

将所述语义表达能力更强的特征图输入到区域生成网络中,生成多个候选框;

将所述多个候选框输入到ROI Align网络层,筛选出感兴趣区域;

将所述感兴趣区域映射到所述语义表达能力更强的特征图上,获得感兴趣区域的特征;

全连接层根据所述感兴趣区域的特征对所述感兴趣区域进行分类、框回归及掩码网络处理,获得所述原始图像的语义分类结果,以识别所述原始图像中的目标物。

优选地,所述对原始图像进行Random-Batch images处理,获得处理后图像,包括:

对所述待每张输入的图像,用640×640的截图框随机对1280×1280的原始图像中的目标物进行截取,每张图像就可以获得一个640×640的截图;

对多个所述截图每次随机选择4张,进行随机拼接,获得组合后的图像;

将组合后的图像与原始图像混合,作为后续的输入。

优选地,在所述全连接层根据所述感兴趣区域的特征对所述感兴趣区域进行分类、框回归及掩码网络处理,获得所述原始图像的语义分类结果,以识别所述原始图像中的目标物的步骤之前,还包括:

对全连接层中的掩码网络加入了通道注意力机制,通道注意力机制的加入,可以对需要但不易被识别出的目标提高注意力,提高了模型识别的准确率。

优选地,所述全连接层根据所述感兴趣区域的特征对所述感兴趣区域进行分类、框回归及掩码网络处理,获得所述原始图像的语义分类结果,以识别所述原始图像中的目标物,包括:

将所述感兴趣区域输入到全连接层,根据所述感兴趣区域的特征对所述感兴趣区域进行分类,得到两个输出;

通过其中一个输出对每个感兴趣区域所表示的目标物进行预测,以便对不同的目标进行分类,获得目标物预测结果;

通过另一个输出对每个感兴趣区域所表示的目标物进行框回归,获得匹配目标物的大小与位置的候选框,使得模型能更准确地识别出目标物;

根据所述目标物预测结果和所述候选框,并利用所述掩码网络处理,获得所述原始图像的语义分类结果,以识别所述原始图像中的目标物。

优选地,在所述全连接层根据所述感兴趣区域的特征对所述感兴趣区域进行分类、框回归及掩码网络处理,获得所述原始图像的语义分类结果,以识别所述原始图像中的目标物的步骤之后,还包括:

基于所述语义分类结果的准确率对ResNet网络的超参数进行微调,其中,所述超参数包括:学习率、激活函数和优化器中的至少一种,不同的网络在不同的激活函数,学习率,优化器不同的情况下,下过有很大的区别,经过反复的调试,找到最合适的超参数,最终在测试集上输出所述原始图像的最优语义分类结果。

此外,为了实现上述目的,本发明还提供了一种用于云联邦的图像中的目标物识别设备,所述用于云联邦的图像中的目标物识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用于云联邦的图像中的目标物识别程序,所述用于云联邦的图像中的目标物识别程序被所述处理器执行时实现所述的用于云联邦的图像中的目标物识别方法的步骤。

此外,为了实现上述目的,本发明还提供了一种存储介质,所述存储介质上存储有用于云联邦的图像中的目标物识别程序,所述用于云联邦的图像中的目标物识别程序被处理器执行时实现所述的用于云联邦的图像中的目标物识别方法的步骤。

此外,为了实现上述目的,本发明还提供一种用于云联邦的图像中的目标物识别装置,所述用于云联邦的图像中的目标物识别装置包括:

图像处理模块,用于对原始图像进行Random-Batch images处理,获得处理后图像;

特征提取模块,将所述处理后图像与所述原始图像融合后输入Resnet网络,进行特征提取,获得特征图;

特征融合模块,用于将所述特征图输入到双向特征图金字塔网络中进行深层特征图融合,获得语义表达能力更强的特征图;

感兴趣区域选取模块,用于将所述语义表达能力更强的特征图输入到区域生成网络中,生成多个候选框,并将所述多个候选框输入到ROI Align网络层,筛选出感兴趣区域;

关联建立模块,用于将所述感兴趣区域映射到所述语义表达能力更强的特征图上,获得感兴趣区域的特征,建立所述感兴趣区域和对应的特征之间的关联信息;

分类模块,用于根据所述关联信息通过全连接层对所述感兴趣区域进行分类、框回归及掩码网络处理,获得所述原始图像的语义分类结果,以识别所述原始图像中的目标物。

本发明的有益效果:

(1)在原始图像的输入前加入了创新性的Random-Batch images处理,获得拼接后的图像并与原始图像混合作为输入,进行后续的训练,提高了对单个小目标的识别性能,也在一定程度上提高的模型的准确性。

(2)改传统的FPN为Bi-FPN,对图像特征进行复杂双向融合,获得更能表达语义特征的特征图,在进行细粒度的特征提取时,有更好的效果。

(3)加入了通道注意力机制,通道注意力机制可以计算各个通道与重要特征的相关性,相关性越高的通道,我们对其增加更多的关注度,增加了像素点分类的准确性。

附图说明

图1为本发明具体实施例用于云联邦的航拍图像的军事目标识别方法流程图;

图2为本发明具体实施例Random-Batchimages处理流程图;

图3为本发明具体实施例Bi-FPN结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。

请参考图1,图1为本发明具体实施例用于云联邦的航拍图像的军事目标识别方法流程图,本发明具体实施例提供了一种用于云联邦的航拍图像的军事目标识别方法,所述方法包括以下步骤:

S1、对原始航拍图像进行Random-Batch images处理,获得处理后图像;

S2、将所述处理后图像与所述原始航拍图像融合后输入ResNet50/101网络,进行特征提取,获得特征图;

S3、将所述特征图输入到双向特征图金字塔网络(Bi-FPN)中进行深层特征图融合,获得语义表达能力更强的特征图(Feature Map);

S4、将所述语义表达能力更强的特征图输入到区域生成网络中,生成多个候选框(Proposals),并从所述候选框中选取感兴趣区域(ROI);

S4、将所述语义表达能力更强的特征图输入到区域生成网络(RPN)中,生成多个候选框(Proposals),将所述多个候选框输入到ROI Align网络层,筛选出感兴趣区域(ROI);

S5、将所述感兴趣区域(ROI)映射到所述语义表达能力更强的特征图上,获得感兴趣区域(ROI)的特征,建立所述感兴趣区域(ROI)和对应的特征之间的关联信息;

S6、全连接层根据所述关联信息对所述感兴趣区域进行分类预测(Cls_prob)、框回归(Bbox Reg)及掩码网络(Mask)处理,获得所述原始航拍图像的语义分类结果,以识别所述原始图像中的军事目标物;

S6的具体步骤为:将所述感兴趣区域输入到全连接层,根据所述感兴趣区域对应的特征对所述感兴趣区域(ROI)进行分类,得到两个输出;

通过其中一个输出对每个感兴趣区域所表示的目标物进行归一化(Softmax),分类预测(Cls_prob),以便对不同的目标进行分类,获得目标物预测结果;

通过另一个输出对每个感兴趣区域所表示的目标物进行框回归(Bbox Reg),获得匹配目标物的大小与位置的候选框,使得模型能更准确地识别出目标物;

根据所述目标物预测结果和所述候选框,并利用所述掩码网络处理,其中对全连接层中的掩码网络加入了通道注意力机制(Attention),通道注意力机制的加入,可以对需要但不易被识别出的目标提高注意力,提高了模型识别的准确率,最终获得所述原始图像的语义分类结果,以识别所述原始图像中的目标物。

S7、基于所述语义分类结果的准确率对ResNet网络的超参数进行微调,其中,所述超参数包括:学习率、激活函数和优化器中的至少一种,所述超参数经过反复的调试,找到最合适的超参数,最终在测试集上输出所述原始图像的最优语义分类结果。

在军事码头的航拍图像中,相较于大型船只、桥梁、操场等,有很多小目标,例如集装箱,小型船只等,对于这些小目标传统的Mask-RCNN算法很难识别出来,因此在输入图像的过程对数据集加入了创新性的Random-Batch images。

请参考图2,图2为本发明具体实施例Random-Batchimages处理流程图。对原始图像进行Random-Batch images处理,具体包括:

对所述待每张输入的航拍图像,用640×640的截图框随机对1280×1280的原始航拍图像中的目标物进行截取,每张图像就可以获得一个640×640的截图;对多个所述截图每次随机选择4张,进行随机拼接,获得组合后的完整图像;将组合后的完整图像与原始航拍图像混合,作为后续的输入,通过将混合图像输入ResNet50/101网络进行训练,提高了对单个小目标的识别性能,也在一定程度上提高了模型的准确性。

为了对更细粒度的小目标进行识别,在生成候选框(Proposal)的过程中,Mask-RCNN网络使用的是FPN(金字塔网络),但是这对细粒度的特征识别还存在不足,因此本发明使用了Bi-FPN(双向金字塔特征网络)。

请参考图3,图3为本发明具体实施例Bi-FPN结构图。Bi-FPN是在FPN基础上的一种复杂双向融合,由于所述特征图中包含图片的浅层和深层信息,FPN(特征金字塔网络)只是将每一层的信息简单的输出,而Bi-FPN(双向特征图金字塔网络)将不同层的信息通过不同卷积核的卷积神经网络进行融合,而且为了强化各层信息的融合效果,Bi-FPN网络将Repeated Block(重复单元)进行了3次叠加。这样,对于每一层的输出,都融合了图片不同层的信息,获得了语义表达能力更强的特征图词。因此,在进行细粒度的特征提取时,有更好的效果。

此外,对全连接层中的掩码网络加入了通道注意力机制,通道注意力机制的加入,可以对需要识别但不易被识别出的目标提高注意力,提高了模型识别的准确率。

本发明主要是基于AI火箭军比赛项目中的航拍军事码头细粒度目标检测,一般情况下的检测目标比较明显,尺寸较大,目标数量相对较少,因此,Mask-RCNN模型能取得很好的效果,但是对于的码头遥感图片中,图像不是很清晰,目标较模糊,尺寸大小不一,需要检测的目标较多,因此传统的Mask-RCNN识别效果不佳,经过本发明改进后的Mask-RCNN模型,码头遥感图像的细粒度目标检测任务中,其准确率得到了明显的提升。如表1所示,对于传统的Mask-RCNN模型,在比赛项目中的测试数据上得到的mAP只有54.765,加入Random-Batchimages后,mAP值达到58.652,进一步改FPN为Bi-FPN后,mAP值达到64.157,进一步加入通道注意力机制,最终的mAP值达到了68.227,在比赛中的所有队伍中取得了前20%的好成绩。

此外,本发明具体实施例还提供了一种用于云联邦的航拍图像的军事目标识别设备,所述用于云联邦的航拍图像的军事目标识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用于云联邦的航拍图像的军事目标识别程序,所述用于云联邦的航拍图像的军事目标识别程序被所述处理器执行时实现所述的用于云联邦的航拍图像的军事目标识别方法的步骤。

此外,本发明具体实施例还提供了一种存储介质,所述存储介质上存储有用于云联邦的航拍图像的军事目标识别方法程序,所述用于云联邦的航拍图像的军事目标识别程序被处理器执行时实现所述的用于云联邦的航拍图像的军事目标识别方法的步骤。

此外,本发明具体实施例还提供一种用于云联邦的航拍图像的军事目标识别装置,所述用于云联邦的航拍图像的军事目标识别装置包括:

图像处理模块,用于对原始图像进行Random-Batch images处理,获得处理后图像;

特征提取模块,将所述处理后图像与所述原始图像融合后输入Resnet网络,进行特征提取,获得特征图;

特征融合模块,用于将所述特征图输入到双向特征图金字塔网络中进行深层特征图融合,获得语义表达能力更强的特征图;

感兴趣区域选取模块,用于将所述语义表达能力更强的特征图输入到区域生成网络中,生成多个候选框,并将所述多个候选框输入到ROI Align网络层,筛选出感兴趣区域;

关联建立模块,用于将所述感兴趣区域映射到所述语义表达能力更强的特征图上,获得感兴趣区域的特征,建立所述感兴趣区域和对应的特征之间的关联信息;

分类模块,用于根据所述关联信息通过全连接层对所述感兴趣区域进行分类、框回归及掩码网络处理,获得所述原始图像的语义分类结果,以识别所述原始图像中的目标物。

本发明具体实施例带来的有益效果是:

(1)在原始航拍图像的输入前加入了创新性的Random-Batch images处理,获得拼接后的图像并与原始图像混合作为输入,进行后续的训练,提高了对单个小目标的识别性能,也在一定程度上提高的模型的准确性。

(2)改传统的FPN为Bi-FPN,对图像特征进行复杂双向融合,获得更能表达语义特征的特征图,在进行细粒度的特征提取时,有更好的效果。

(3)加入了通道注意力机制,通道注意力机制可以计算各个通道与重要特征的相关性,相关性越高的通道,我们对其增加更多的关注度,增加了像素点分类的准确性。

表1多种模型识别效果对比

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号