首页> 中国专利> 一种联合通道空间注意力的全局自注意力目标检测方法

一种联合通道空间注意力的全局自注意力目标检测方法

摘要

本发明涉及一种联合通道空间注意力的全局自注意力目标检测方法,包括下列步骤:提取特征图像F;设计联合通道空间注意力的全局自注意力模块,利用Key,Query,Value这三条支路进一步提取特征,设输入联合通道空间注意力的全局自注意力模块的特征图像F,将联合通道空间注意力的全局自注意力模块分为三条支路;将Key支路和Query支路做矩阵乘法操作后利用softmax进行归一化操作获取协方差矩阵,将获得的协方差矩阵和Value支路做矩阵乘法操作得到增强后的特征图像F’,来实现全局相关信息对输入特征图像的增强,同时将特征图像F和增强后的特征图像F’相加作为残差结构来避免网络退化,由此得到最终生成的通道空间自注意力特征。

著录项

  • 公开/公告号CN114519807A

    专利类型发明专利

  • 公开/公告日2022-05-20

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN202210045872.4

  • 发明设计人 吕卫;陈冬鸽;褚晶辉;

    申请日2022-01-17

  • 分类号G06V10/80;G06K9/62;G06N3/04;G06N3/08;

  • 代理机构天津市北洋有限责任专利代理事务所;

  • 代理人程毓英

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-06-19 15:22:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-20

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种联合通道空间注意力的全局自注意力目标检测算法,适用于计算机视觉领域。

背景技术

目标检测是计算机视觉中的一个重要问题,传统的目标检测模型采用手工提取特征,其具有鲁棒性差、计算复杂度高等问题,难以满足目标检测实时性和准确性的要求。随着深度学习在图像分类任务上取得巨大的进展,基于深度学习的目标检测算法也逐渐成为主流,卷积神经网络的应用,大大提升了目标检测的预测精度和训练速度。

目前基于深度学习的目标检测技术主要有two-stage的和one-stage两种,two-stage是指检测算法需要分两步完成,首先采用卷积神经网络对目标进行特征提取获取候选区域随后进行检测分类,常见的算法有Faster-RCNN

注意力模型是借鉴了人类视觉的注意力机制,人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。

深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。SENet

参考文献:

[1]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2017,39(6):1137-1149.

[2]Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C].Proceedingsof the IEEE conference on computer vision and pattern recognition.2018:7132-7141.

[3]Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block attentionmodule[C].Proceedings of the European conference on computer vision(ECCV).2018:3-19

[4]Zhu Z,Liang D,Zhang S,et al.Traffic-sign detection andclassification in the wild[C].Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2016:2110-2118.

[5]Yu F,Wang D,Shelhamer E,et al.Deep Layer Aggregation[C]Proceedingsof the IEEE conference on computer vision and pattern recognition.2018:2403-2412

发明内容

针对目标检测网络DLA34高层部分特征提取能力不足的问题,同时针对现有的通道空间注意力机制存在利用全连接层降维的方式导致部分细节信息的损失,对检测任务的性能造成一定的负面影响的问题,本发明提出一种联合通道空间注意力的全局自注意力目标检测方法。技术方案如下:

一种联合通道空间注意力的全局自注意力目标检测方法,包括下列步骤:

第一步,提取特征图像F;

第二步,设计联合通道空间注意力的全局自注意力模块,利用Key,Query,Value这三条支路进一步提取特征,设输入联合通道空间注意力的全局自注意力模块的特征图像F大小为C×W×H,其中C为特征图的通道数量,W和H表示特征图的尺寸,将联合通道空间注意力的全局自注意力模块分为三条支路,其中:

(1)Key支路为通道注意力机制,即将特征图像F取全局平均池化使其变成大小为C×1×1的张量,对张量使用一维卷积操作进行局部通道的信息交互,利用sigmoid将交互结果转化为通道权重,由此得到大小为C×1的通道注意力权重向量Key;

(2)Query支路为空间注意力机制,即将特征图像F分别进行全局最大池化和全局平均池化,得到两个H×W×1的特征图,再将所得到的两个H×W×1的特征图做通道拼接操作并且利用卷积层进行降维,利用sigmoid将降维后的结果转化为空间权重,最后将空间权重和特征图像F做乘法得到空间注意力特征;

(3)Value支路为特征图像F;

(4)将Key支路和Query支路做矩阵乘法操作后利用softmax进行归一化操作获取协方差矩阵,将获得的协方差矩阵和Value支路做矩阵乘法操作得到增强后的特征图像F’,来实现全局相关信息对输入特征图像的增强,同时将特征图像F和增强后的特征图像F’相加作为残差结构来避免网络退化,由此得到最终生成的通道空间自注意力特征。

第三步,利用数据集对带有联合通道空间注意力的全局自注意力模块的网络进行训练,通过正向传播得到预测的候选框,采用L2范数作为损失函数计算预测候选框与目标候选框的误差并进行反向传播,利用ADAM优化器不断优化直至误差不再减小,从而得到训练好的网络参数模型。

进一步地,经过骨干网络深度融合特征网络DLA提取特征图像F。

本发明的有益效果如下:

1、模块中的通道注意力和空间注意力机制分别对特征图像的通道信息和空间信息进行特征加强,而且在通道注意力中使用权值共享的一维卷积很好的解决了由于直接下采样引起的细节信息丢失的问题并得到相应特征图像的通道权重。

2、将通道和空间注意力融合到自注意力机制中,在骨干网络的深层部分采用基于协方差矩阵的自注意力机制原理来耦合图像全局像素点之间的相关性信息,通过利用通道注意力和空间注意力获取协方差矩阵,再利用协方差矩阵与输入图像特征点乘来实现对原输入图像特征的全局特征增强。

3、提出的联合通道空间注意力的全局自注意力模块输入输出通道维度一致,可任意组装到卷积神经网络中,具有较高的泛化性和可拓展性。

附图说明

图1为所本发明所设计的联合通道空间注意力的全局自注意力模块结构图。

具体实施方式

本发明提出一种联合通道空间注意力的全局自注意力目标检测算法,其使用改进后的通道空间联合注意力网络获取耦合通道和空间信息的增强特征;并构建全局自注意力网络,其借助增强特征与原始特征之间的协方差信息有效捕获像素点之间的全局相关性,克服传统卷积仅局限于相邻像素点的问题,并在目标检测任务中取得较优的效果。

下面将结合附图中的网络对实施方案进一步的详细描述:

(1)数据准备:

划分数据集,本方法采用的是交通标志数据集TT100K

(2)网络的搭建:本发明的网络结构主要为在骨干网络的深层网络层加入通道空间自注意力模块,提高网络的在通道空间方面的特征提取能力,以此来提高目标检测的精度,下面将结合附图1,对发明搭建的网络结构进行详细的介绍说明。

(a)每次迭代,将输入的训练集图像经过骨干网络深度融合特征网络DLA(DeepLayer Aggregation)

(b)将上一步得到的特征图像F输入联合通道空间注意力的全局自注意力模块,联合通道空间注意力的全局自注意力模块具体算法如下:

为了建立图像上有一定距离的像素之间的联系,需要考虑所有位置特征的加权,即空间、通道等。对特征图像F分别进行不同的处理得到Key,Query,Value这三条支路的输出,特征图像F大小为C×W×H,其中C为特征图的通道数量,W和H表示特征图的尺寸。

Key支路为通道注意力机制,即将特征图像F取全局平均池化使其变成大小为C×1×1的张量,对张量使用一维卷积操作进行局部通道的信息交互,利用sigmoid将交互结果转化为通道权重,以此来对特征图像F进行通道重要程度的标定,这样便可以得到大小为C×1的通道注意力权重向量Key,即:

Key={β

=sigmoid(conv1(AvgPool(F))),c∈[0,C) (1)

其中conv1为一维卷积操作,AvgPool为全局平均池化运算,经过运算后得到通道注意力权重向量B,其中β

Query支路为空间注意力机制,即将特征图像F分别进行全局最大池化和全局平均池化,得到两个H×W×1的特征图,再将得到的两个特征图做通道拼接操作并利用卷积层进行降维,利用sigmoid将降维后的结果转化为空间权重,最后将空间权重和特征图像F做乘法得到空间注意力特征。

Query=sigmoid(conv2(cat[AvgPool(F);MaxPool(F)]))*F (2)

其中cat为通道拼接运算,MaxPool为全局最大池化运算,conv2为二维卷积操作。

Value支路即为输入的特征图像F,将Key支路和Query支路做矩阵乘法操作后利用softmax进行归一化操作获取协方差矩阵,将获得的协方差矩阵和Value支路做矩阵乘法操作得到增强后的特征图像F’,来实现全局相关信息对输入特征图像的增强,将特征图像F和增强后的特征图像F’相加作为残差结构来避免网络退化,由此得到最终生成的联合通道空间注意力的全局自注意力特征y。

F′=softmax(Key·Query)·Value (3)

y=F′+F (4)

(c)将测试集图像输入到加载训练后参数的网络模型中,输出测试集图像的检测结果。

(3)模型训练:本发明的学习率设置为0.00025,总共训练270000次,采用L2范数作为损失函数采用Adam优化方法,学习率为0.01。

(4)评价指标:本发明实验采用平均精确度(mean Average Precision)衡量算法效果。

(5)实验使用所提出的联合通道空间注意力的全局自注意力目标检测算法,在加入该注意力机制模块之后,网络的检测结果mAP(平均精确度)=74.7%,相比原网络的检测结果mAP=75.9%,检测精度提升了1.2%。

本发明基于通道注意力机制对通道的权重选择和空间注意力机制对空间特征的增强这两种策略,设计了一种联合通道空间注意力的全局自注意力模块,创新点主要有:

(1)为了建立图像上有一定距离的像素之间的联系,该模块考虑所有位置特征的加权,即空间、通道等,设计了Key,Query,Value这三条支路来联合通道和空间注意力提高特征信息的提取。

(2)Key支路为通道注意力机制,为减少全连接层降维引起的细节信息的损失,利用权值共享的一维卷积来替代原始通道空间注意力机制中的全连接层,从而实现了对部分细节信息的保留并得到相应特征图像的通道权重。

(3)Query支路为空间注意力机制,通过空间注意力机制将特征图像中的空间信息对应的空间变换来对特征图的每层通道的像素点赋予不同的权重,从而将关键的空间特征信息提取出来。

(4)Value支路为输入的特征图像,采用基于协方差矩阵的自注意力机制原理提高对输入特征图的全局特征信息的提取,利用Key,Query两支路获取协方差矩阵,再利用协方差矩阵与Value支路进行像素级的点乘来耦合图像全局像素点之间的相关性信息,该策略能有效全面的提升目标检测任务中的特征提取能力。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号