首页> 中国专利> 基于重结构化类脑卷积的无人机视角下的车辆检测方法

基于重结构化类脑卷积的无人机视角下的车辆检测方法

摘要

本发明公开了一种基于重结构化类脑卷积的无人机视角下的车辆检测方法,先将标注好的无人机视角车辆检测数据集划分为训练集和测试集,并进行预处理;然后利用加入了重结构化类脑卷积模块的深度卷积神经网络实现对输入数据的高速特征提取及自适应语义信息加强,抑制通道噪声,并构建特征金字塔;接着使用单阶段检测头FCOS在修正后的特征金字塔上进行目标类别与位置信息预测,并进行位置信息的解码,得到训练结果;最后对神经网络进行重结构化,将重结构化卷积结构中的并行分支压缩至单一分支,提升模型运行速度。这种检测方法采用的网络结构设计合理,针对无人机视角下的车辆目标的检测效果良好且算法能够满足对无人机平台上进行实时处理的需求。

著录项

  • 公开/公告号CN113111719A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 苏州海宸威视智能科技有限公司;

    申请/专利号CN202110280989.6

  • 发明设计人 李旭亮;张弘;李亚伟;李璐;

    申请日2021-03-16

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06N5/04(20060101);

  • 代理机构

  • 代理人

  • 地址 215316 江苏省苏州市昆山市玉山镇祖冲之南路1699号研发楼3层

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明涉及视频图像处理领域,尤其涉及一种基于重结构化类脑卷积的无人机视角下的车辆检测方法。

背景技术

相较于传统的固定视角监控视频,无人机视频具有视角灵活、时效性强、监视范围广等优点,使得无人机监控市场在近些年得到迅猛发展。如何有效利用无人机视频的优点,成为智能监控的重要环节。其中,无人机视频中车辆检测作为智能监控的基础,同时也是计算机视觉的热点方向之一,被国内外研究者所关注。

目前,无人机视频目标检测算法大致可以分为两类,一类是单帧无人机图像目标检测,该类方法使用通用目标检测网络对无人机视频中的每一帧进行特定目标的检测;另一类是视频目标检测,该类方法利用视频帧间的运动和时序信息,对视频中的特定目标进行检测。

在单帧无人机图像目标检测方法的研究中,现有目标检测模型可分为传统模型和深度学习模型两大类;其中,深度学习模型相较于传统模型,检测结果更精确、检测速度更快、检测效果更好。Faster-Rcnn的使用大幅度提升了无人机图像中车辆检测的精度。通过改进SSD,并结合Focal loss来实现无人机图像中目标的快速检测。通过使用Yolov3的变体来实现无人机图像中目标的快速检测。这一类方法在单帧无人机图像中优势明显,但是当目标存在遮挡时容易漏检。目前现有的检测方法需求算力大,所需计算设备难以搭载在嵌入式设备上进行实时检测,给无人机检测应用带了很大困难。而现有嵌入式上检测算法难以应对无人机视角下的车辆检测任务,精度差。

发明内容

本发明所要解决的技术问题是,提供一种基于重结构化类脑卷积的无人机视角下的车辆检测方法,能够克服现有检测方法算力需求高以及设备要求复杂的特点。

为了解决上述技术问题,本发明是通过以下技术方案实现的:一种基于重结构化类脑卷积的无人机视角下的车辆检测方法,包括以下步骤:

(1)将标注好的无人机视角车辆检测数据集划分为训练集和测试集,并对训练集和测试集进行预处理;

(2)利用加入了重结构化类脑卷积模块的深度卷积神经网络实现对输入数据的高速特征提取及自适应语义信息加强,抑制通道噪声,并在此基础上构建特征金字塔;

(3)使用单阶段检测头FCOS在修正后的特征金字塔上进行目标类别与位置信息的预测,然后进行位置信息的解码,得到训练结果;

(4)对神经网络进行重结构化,将重结构化卷积结构中的并行分支压缩至单一分支,提升模型运行速度。

进一步地,所述步骤(2)中使用的深度卷积神经网络具有4个阶段:

阶段1包含2个重结构化卷积瓶颈结构,瓶颈结构卷积层步长为1,2,输出特征图的通道数依次为16、36,中间层扩增倍率为1,3,激活函数为Relu函数;

阶段2包含2个重结构化卷积瓶颈结构,瓶颈结构卷积层步长为1,2,输出特征图的通道数依次为36,60,中间层扩增倍率为3,3,激活函数为Relu函数;

阶段3包含2个重结构化卷积瓶颈结构,瓶颈结构卷积层步长为1,2,输出特征图的通道数依次为60、120,中间层扩增倍率为3,6,激活函数为Relu函数;

阶段4包含4个重结构化卷积瓶颈结构,瓶颈结构卷积层步长为1,1,1,2,输出特征图的通道数依次为120、192、228、120,中间层扩增倍率为2.5,6,6,6,激活函数为Relu函数;

所述特征金字塔包含最上层、中间层及底层三个层次:尺寸最小的最上层是通过对阶段4的输出进行一次卷积后得到的;将特征金字塔的最上层上采样到和阶段3的输出同样的尺寸,将上采样后的结果与阶段3的输出在通道维拼接到一起后再经过一次重结构化卷积得到特征金字塔的中间层;将中间层上采样到与阶段2输出的尺寸后与阶段2的输出在通道维进行拼接,再经过一次重结构化卷积后得到特征金字塔的底层;构造特征金字塔的过程中,使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数为36,60,120,120。

进一步地,所述步骤(2)中使用的重结构化卷积结构如下:重结构化卷积瓶颈结构的参数有输出通道数O、步长S、中间层扩增倍率R以及激活函数F;重结构化卷积结构由主干部分与旁支部分组成。

进一步地,所述主干部分包含2个1x1卷积、6个3x3分组卷积、2个1x1分组卷积、2个激活函数;第1个1x1卷积通道数为

进一步地,所述步长大于1时,则额外包含一个3x3分组卷积,为中间层卷积,其卷积通道数为M,步长为S,中间层通道数为M=O×R。

进一步地,所述步骤(3)中包含两个卷积分支:分支一包含四个卷积核为1*1的两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含四个卷积核为1*1的两个卷积层,用于预测包围框的相关参数,其输出张量的维度为5。

进一步地,所述卷积操作的步长均为1。

与现有技术相比,本发明的有益之处在于:这种基于重结构化类脑卷积的无人机视角下的车辆检测方法采用的网络结构设计合理,针对无人机视角下的车辆目标的检测效果良好且算法能够满足对无人机平台上进行实时处理的需求,其具有以下优点:

(1)本发明提出了一种新型神经网络模块,在重结构化后,能够在不影响推理速度的同时较大程度的提升模型特征提取能力,使得网络在算力不足条件下也能有效对目标进行检测,在检测精度与运行速度上实现了平衡;同时有效利用了光学遥感图像丰富的纹理和色彩信息;并且在网络结构中加入注意力机制模块,有利于对输入数据的通道优选,快速筛选出对目标检测有益的通道,通过通道注意力的方式实现对大数据量的视频数据的快速有效处理。

(2)本发明在神经网络的模型大小进行了细致的设计,充分考虑了各个网络结构的作用并细致的设计了每个模块的通道数和中间层扩增倍率,有利于在保证网络运行速度的前提下提升模型检测精度,应对现有网络模型难以搭载在无人机平台上进行实时处理的问题。

(3)本发明在对位置信息及类别信息进行预测时采用了直接预测的方式,相较于两阶段的检测网络,能够显著提升检测网络的运算速度,适宜于对高速无人机视频流进行处理的场景,并在边界框回归的过程中采用感受野指导预设的边界框大小,能够提高检测精度,应对小目标在热点图中难以挖掘的问题。

附图说明

图1是本发明一种基于重结构化类脑卷积的无人机视角下的车辆检测方法的整体流程图;

图2是重结构化类脑卷积结构的详细结构图;

图3是主干网路部分的详细结构图;

图4是本发明实施时输入的原始图像案例;

图5是采用本发明方法获得的检测结果。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细描述。

一种基于重结构化类脑卷积的无人机视角下的车辆检测方法,包括以下步骤:

(1)将标注好的无人机视角车辆检测数据集划分为训练集和测试集,并对训练集和测试集进行预处理;

(2)利用加入了重结构化类脑卷积模块的深度卷积神经网络实现对输入数据的高速特征提取及自适应语义信息加强,抑制通道噪声,并在此基础上构建特征金字塔;

所述重结构化卷积结构如下:

重结构化卷积瓶颈结构的参数有输出通道数O、步长S、中间层扩增倍率R以及激活函数F;重结构化卷积结构由主干部分与旁支部分组成;所述主干部分包含2个1x1卷积、6个3x3分组卷积、2个1x1分组卷积、2个激活函数;所述步长大于1时,则额外包含一个3x3分组卷积,为中间层卷积,其卷积通道数为M,步长为S,中间层通道数为M=O×R;第1个1x1卷积通道数为

所述深度卷积神经网络具有4个阶段:

阶段1包含2个重结构化卷积瓶颈结构,瓶颈结构卷积层步长为1,2,输出特征图的通道数依次为16、36,中间层扩增倍率为1,3,激活函数为Relu函数;

阶段2包含2个重结构化卷积瓶颈结构,瓶颈结构卷积层步长为1,2,输出特征图的通道数依次为36,60,中间层扩增倍率为3,3,激活函数为Relu函数;

阶段3包含2个重结构化卷积瓶颈结构,瓶颈结构卷积层步长为1,2,输出特征图的通道数依次为60、120,中间层扩增倍率为3,6,激活函数为Relu函数;

阶段4包含4个重结构化卷积瓶颈结构,瓶颈结构卷积层步长为1,1,1,2,输出特征图的通道数依次为120、192、228、120,中间层扩增倍率为2.5,6,6,6,激活函数为Relu函数;

所述特征金字塔包含最上层、中间层及底层三个层次:尺寸最小的最上层是通过对阶段4的输出进行一次卷积后得到的;将特征金字塔的最上层上采样到和阶段3的输出同样的尺寸,将上采样后的结果与阶段3的输出在通道维拼接到一起后再经过一次重结构化卷积得到特征金字塔的中间层;将中间层上采样到与阶段2输出的尺寸后与阶段2的输出在通道维进行拼接,再经过一次重结构化卷积后得到特征金字塔的底层;构造特征金字塔的过程中,使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数为36,60,120,120。

(3)使用单阶段检测头FCOS在修正后的特征金字塔上进行目标类别与位置信息的预测,然后进行位置信息的解码,得到训练结果;该步骤中包含两个卷积分支:分支一包含四个卷积核为1*1的两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含四个卷积核为1*1的两个卷积层,用于预测包围框的相关参数,其输出张量的维度为5,该步骤中所述卷积操作的步长均为1。

(4)对神经网络进行重结构化,将重结构化卷积结构中的并行分支压缩至单一分支,提升模型运行速度。

实验环境配置如下,以GPU(型号为GTX2080)作为计算平台,采用GPU并行计算框架,选取Mxnet作为卷积网络框架进行训练,并在TX2与RK3399上进行模型速率验证,本发明具体步骤概括为:

(1)标注无人机车辆检测数据,并将标注好的数据拆分为训练集和测试集;

(2)依照说明书附图1中的网络架构图和附图2中对主干网络各个阶段的说明,构建卷积神经网络架构,网络整体可被分为主干网络、特征金字塔、检测头三个模块;

(3)利用训练集和测试集,通过自适应学习率调整算法、利用Mxnet框架中的自动求导机制对网络整体进行训练,得到训练好的模型参数并保存网络模型;

(4)对保存的网络模型进行重结构化,并生成新的网络模型与参数;

(5)调用新的网络模型对实际的多测试集中数据进行推理计算,得到对应的置信度预测结果、中心点偏移量、包围框参数,然后通过参数解码及NMS得到最终应当保留的检测框,计算出模型计算精度;

(6)在TX2与RK3399上部署模型并测试模型速度,在TX2上使用TensorRT作为部署框架,在RK3399上使用TNN作为部署框架。

结合上述步骤,本发明的具体技术细节如下:

(1)重结构化

根据卷积的可加性,每个重结构化卷积模块中的并行分支可以合并为一个3x3卷积。首先将卷积层和其后的批归一化层可以等价转换为一个带偏置的卷积层。数学公式如下:

对并行分支中的每一个分支分别进行合并操作后之后,将其中的1x1卷积核用0扩展为3x3。之后将不同分支得到的卷积核和偏置分别相加即可。这样,每个重结构化卷积转换前后的输出完全相同,因而训练好的重结构化卷积可以等价转换为只有3x3卷积的单路卷积。

(2)检测模块loss的计算方法

在检测过程中,使用一个4维的向量[t,r,b,I,p]来表征物体的包围框。其中t,r,b,l均为向量,表示四个边界的中点相较于检测框中心点的偏移向量;P为置信度预测结果,如图3所示。基于此,检测模块的损失函数包含以下几个部分:

1、分类损失

其中

2、位置回归损失

位置回归loss主要包括包围框中心点的偏移损失、包围框形状参数的偏移损失、包围框偏转角度的偏移损失,它们的定义依次为:

其中

这种基于重结构化类脑卷积的无人机视角下的车辆检测方法通过在神经网络模型中加入重结构化类脑卷积模块,实现对无人机视场下的高速特征提取,以实现对图像数据的快速检测,如说明书附图4和附图5所示;同时,在训练过程中加入注意力机制模块,通过自适应通道信息理解模块实现对高级语义特征的加强,降低噪声对弱特征目标检测的影响,实现虚警抑制的目的;采用的网络结构设计合理,针对无人机视角下的车辆目标的检测效果良好且算法能够满足对无人机平台上进行实时处理的需求,其具有以下优点:

(1)本发明提出了一种新型神经网络模块,在重结构化后,能够在不影响推理速度的同时较大程度的提升模型特征提取能力,使得网络在算力不足条件下也能有效对目标进行检测,在检测精度与运行速度上实现了平衡;同时有效利用了光学遥感图像丰富的纹理和色彩信息;并且在网络结构中加入注意力机制模块,有利于对输入数据的通道优选,快速筛选出对目标检测有益的通道,通过通道注意力的方式实现对大数据量的视频数据的快速有效处理。

(2)本发明在神经网络的模型大小进行了细致的设计,充分考虑了各个网络结构的作用并细致的设计了每个模块的通道数和中间层扩增倍率,有利于在保证网络运行速度的前提下提升模型检测精度,应对现有网络模型难以搭载在无人机平台上进行实时处理的问题。

(3)本发明在对位置信息及类别信息进行预测时采用了直接预测的方式,相较于两阶段的检测网络,能够显著提升检测网络的运算速度,适宜于对高速无人机视频流进行处理的场景,并在边界框回归的过程中采用感受野指导预设的边界框大小,能够提高检测精度,应对小目标在热点图中难以挖掘的问题。

需要强调的是:以上仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号