公开/公告号CN112287998A
专利类型发明专利
公开/公告日2021-01-29
原文格式PDF
申请/专利号CN202011166797.4
申请日2020-10-27
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构44416 广州科沃园专利代理有限公司;
代理人马盼
地址 528200 广东省佛山市南海高新区佛高科技智库中心A座4楼
入库时间 2023-06-19 09:43:16
技术领域
本发明涉及图像处理的技术领域,具体涉及一种低光照条件下进行目标检测的方法。
背景技术
近年来,由于卷积神经网络(简称CNN)以及深度学习的广泛的发展和应用,许多计算机视觉领域的任务得到了较大的发展,其中目标检测是计算机视觉中的一项重要的任务。目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。因此,目标检测也就成为了近年来理论和应用的研究热点,它是图像处理和计算机视觉学科的重要分支,也是智能监控系统的核心部分,同时目标检测也是泛身份识别领域的一个基础性的算法,对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。在计算机视觉领域中,图片是输入来源,但是现实中获取得到的图片样本往往都是不尽完美的。对于在弱光条件下进行检测往往是一个很困难的视觉任务。短曝光图像没有足够的特征进行视觉上的处理。而且,即使通过后处理对图像的亮度增强,往往会产生噪声,从而影响视觉任务。由于运动模糊长时间曝光的图像也包含噪声,进而影响视觉任务。
在之前的研究中,人们处理弱光的照片,往往会采用相关额外数据集,比如让数据集中尽可能的包含多种曝光下的照片,但是要制作这种数据集往往是费时费钱,而且得到的模型也不一定效果好。因此本发明基于前人所做的研究,着手解决在低光照条件下的目标检测问题。
发明内容
一种低光照条件下进行目标检测的方法,包括以下步骤:
S1、选取和划分数据集;
进一步,所述步骤S1具体包括:
S11、数据集选用COCO目标检测类别数据集和SID数据集;
S12、将COCO目标检测类别数据集划分为训练集、验证集、测试集,测试集对应的是COCO trainval35k set,验证集对应的是COCO minival set,测试集对应的是test-devset。
S2、构建低光照条件下目标检测的原始网络结构,所述原始网络结构由三部分组成,包括编码器网络、粘合层以及YOLO网络。
进一步,所述步骤S2中编码器网络采用SID网络的编码器部分。
S3、预训练编码器网络和YOLO网络得到预训练编码器模型和预训练YOLO模型,通过所述粘合层把预训练编码器模型和预训练YOLO模型进行结合,得出生成模型Ⅰ;
进一步,所述步骤S3中所述预训练的具体方法包括:
S31、采用COCO目标检测类别数据集来预训练YOLO网络;
S32、采用SID数据集来预训练编码器网络。
步骤S31和S32并无先后顺序。
进一步,所述步骤S3中所述结合的具体方法包括:
分别根据预训练编码器模型和预训练YOLO模型输出的潜在特征通过知识蒸馏的方法来生成一个所述生成模型Ⅰ。
S4、通过所述生成模型Ⅰ对粘合层进行迭代训练,训练出最优粘合层,得出低光照条件下目标检测的最优网络结构;
进一步,所述步骤S4中所述迭代训练的具体方法包括:
对所述生成模型Ⅰ的损失函数进行整合微调得出生成模型Ⅱ,然后根据生成模型Ⅱ训练出所述最优粘合层。
进一步,所述步骤S4还包括:
采用测试集来对所述最优网络结构在低光照条件下进行目标检测的速度及准确率进行性能测试。
S5、采用所述最优网络结构在低光照条件下进行目标检测。
本发明的有益效果在于:
本发明提供了一种低光照条件下进行目标检测的方法,通过把用于低光条件下的图像处理的SID网络和用于目标检测性能优秀的YOLO网络以通过知识蒸馏的方式生成一个生成模型Ⅰ,以此输出潜在特征来训练出最优粘合层,让两个预训练好的网络模型进行结合,使得最优网络结构具有域自适应性,能够完成无监督的域自适应学习,能够很好地把来自不同网络的模型合并融合;相比现有技术中低光照条件下的目光检测方法,本发明能够避免构建弱光照图片数据集,达到省时省力的目的,并且本发明对原网络结构做出了改进和摒弃,形成的最优网络结构不但没有增加计算资源的耗费,反而降低了资源的损耗,提升了低光照条件下目标检测的速度及性能。
附图说明
附图1为本发明的低光照下目标检测方法的流程图;
附图2为本发明参考的SID网络结构图;
附图3为本发明参考的YOLO网络结构图;
附图4为整个网络的结构图;
附图5为本发明的采用的知识蒸馏方法。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,附图仅用于示例性说明,不能理解为对本专利的限制;所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本发明的保护范围。
参照图1到图4,一种低光照条件下进行目标检测的方法包括以下步骤:
S1、选取和划分数据集。
进一步,S1步骤包括:
S11、数据集选用COCO目标检测类别数据集;
S12、将COCO目标检测类别数据集划分为训练集、验证集、测试集。测试集对应的是COCO trainval35k set,含11.5万张图片;验证集对应的是COCO minival set,含5千张图片;测试集对应的是test-dev set,含2万张图片。
S2、构建低光照条件下目标检测的原始网络结构,原始网络结构由三部分组成,包括编码器网络、粘合层以及YOLO网络,如图4所示。
本发明编码器网络采用的是SID网络的编码器部分。
SID网络,粘合层以及YOLO网络这三部分分别肩负着不同的任务:
第一部分SID网络的编码器部分,其实就是对暗光图片的一个图像处理,通过前人的研究发现该网络结构是基于U-Net网络,对图片的噪声抑制以及亮度提升的方面有一定的效果,并且它能有效地去提升图像的质量,能够对低曝光或者高曝光的弱光照图片进行一定效果的优化处理,是一个很不错的图像处理网络。因而本发明采取了该网络的编码器部分来得到其潜在特征。
第二部分粘合层相当于是把两个不同的网络模型自适应地融合起来,根据预训练好的模型输出的潜在特征,采用知识蒸馏的方法,产生一个生成模型Ⅰ,然后通过对生成模型Ⅰ的损失函数的微调,以此来训练出最优粘合层。
第三部分YOLO网络就是对SID网络的编码器部分和粘合层连接后的模型输出的潜在特征进行定位和分类的任务。
SID网络,粘合层以及YOLO网络这三部分的组成结构:
对于SID网络,输入数据X,经过编码器和解码器部分,得到数据Ya并且输出潜在特征A,如图2所示。由于SID网络是U-Net结构即编码器-解码器的中间通过一些捷径对不同层级下的特征图与上采样后的特征图相连。本发明采用了SID网络的前半部分,即编码器的部分,然后通过捷径跟粘合层的相对应的特征图层相连。这部分主要是通过把RAW的数据集进行处理,输出潜在特征。它由四个卷积块组成,它的结构类似于U-Net的编码器部分。每个卷积块采用的结构都是由两个(3×3Conv2d+ReLU)的卷积层,卷积层后面都皆有ReLU激活函数,每两个块之间通过一个(2×2MaxPool),stride=2)的最大池化层进行下采样,池化层充当空间频率的低通滤波的作用,因此每个池化层的结果是特征包含不同的频率信息。SID编码器具有四个层次的特征,分别对应于池比例1/1、1/2、1/4和1/8。值得注意的是,每一个卷积块中最后的一个卷积层都会进行特征的复制并且跟下一个粘合层部分相对应的层联接,输出不同层次的潜在特征通过知识蒸馏来产生生成模型Ⅰ。
对于粘合层部分,它由三个卷积块组成。每个卷积块都与编码器部分的相应特征图层用捷径来实现拼接。对于第一个卷积块,它接收来自编码器中第一、二个卷积块的潜在特征通过捷径进行拼接,编码器的第三个卷积块粘合层的第二个卷积块通过捷径相连,粘合层的第三个卷积块和编码器的第四个卷积块通过捷径相连。每个卷积块采用的结构都是由两个(3×3Conv2d+ReLU)的卷积层,卷积层后面都皆有ReLU激活函数,每两个块之间通过一个(2×2MaxPool)的最大池化层进行下采样,粘合层的三个层次的特征对应着的池化比例是1/1,1/2,1/4。对于YOLO网络部分,输入数据Yb,输出数据Z并且得到潜在特征B,如图3所示。相当于对经过前面两部分处理后的暗光图片进行定位和分类,沿用了YOLO的结构和损失函数。它包含了四个卷积块和两个全连接层。对于第一个卷积块,采用的是(1×1Conv2d)、(3×3Conv2d)、(1×1Conv2d)、(3×3Conv2d)、跟着一个(2×2Maxpool,stirde=2)。第二个卷积层采用的是4组(1×1Conv2d)、(3×3Conv2d)、(1×1Conv2d)的卷积层以及(1×1Conv2d)、(3×3Conv2d),跟着一个(2×2Maxpool,stirde=2)。第三个卷积层采用2组(1×1Conv2d)、(3×3Conv2d)的卷积层,跟着(3×3Conv2d)和(3×3Conv2d,stride=2)的卷积层。第四个卷积块采用两个(3×3Conv2d)的卷积层。每个卷积层后都有跟ReLU激活函数。第四个卷积块后两个都是全连接层。
S3、预训练编码器网络和YOLO网络得到预训练编码器模型和预训练YOLO模型,通过所述粘合层把预训练编码器模型和预训练YOLO模型进行结合,得出生成模型Ⅰ。
进一步,步骤S3中预训练的具体方法包括:
S31、采用COCO目标检测类别数据集来预训练YOLO网络;
S32、采用SID模型中用到的SID数据集来预训练编码器网络。
步骤S31和S32可以进行互换,其顺序并不会影响本发明方法的实施。
进一步,步骤S3中所述结合的具体方法包括:
分别根据预训练编码器模型和预训练YOLO模型输出的潜在特征通过知识蒸馏的方法来生成一个生成模型Ⅰ。
因为SID网络在弱光图像上表现良好,目标检测网络YOLO网络在检测领域表现也很好,所以为了应对弱光条件下的检测问题,我们把这两个网络的模型结合起来。通过预训练不同网络生成预训练网络模型,分别根据这些预训练网络模型输出的潜在特征通过知识蒸馏的方法来生成一个生成模型Ⅰ,对生成模型Ⅰ的损失函数进行整合微调,然后根据这个调成后的生成模型Ⅱ去训练本文的最优粘合层。如图5所示知识蒸馏的方法,其中要训练的目标是编码器G
其中,图中RGB数据(Ya)和通过G
L
来自G
i表示每个编码器(G
粘合层通过总的损失函数迭代训练得到最优,总的损失函数定义为:
L
S4、通过生成模型Ⅰ对粘合层进行迭代训练,对生成模型Ⅰ的损失函数进行整合微调得出生成模型Ⅱ,然后根据生成模型Ⅱ训练出所述最优粘合层,得出低光照条件下目标检测的最优网络结构。根据S3中的知识蒸馏方法,SID模型是编码器——解码器结构。因此生成模型Ⅰ是解码器的逆函数。进而,我们对G
为了训练出最优粘合层,要用损失函数不断地迭代优化超参数。采用的其中一个损失函数为YOLO中所用的损失函数记为L
L
L
L
通过迭代训练得到的最优网络结构能够有效的对低光条件下的图像进行目标检测,比起那些只对图像进行数据增强、提高亮度等操作,本发明性能有明显的优势。
采用测试集对选出的最优网络结构进行测试,评估模型性能。将本模型的实验结果,在弱光的条件下和SOTA的一些模型进行准确率和速度的比较,权衡下来得到本发明的最优网络结构能够在性能上有很不错的效果。对于原来的YOLO模型,对于一些弱光下低曝光的图片,几乎很难以检测得到。
S5、采用所述最优网络结构在低光照条件下进行目标检测。
通过实验可以得到,本发明的网络模型可以处理小于1lux的照明场景。
以上所述为本发明的较佳实施例而已,但本发明不应局限于该实施例和附图所公开的内容,所以凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
机译: 一种学习方法和学习设备,用于将另一辆自动驾驶汽车的空间检测结果与通过V2V通信获取的自己的自动驾驶汽车的空间检测结果进行积分,以及一种使用该学习方法和学习设备的测试方法和测试设备。将通过V2V通信从其他自治车辆获取的目标检测信息与当前自主车辆生成的目标检测信息集成在一起的装置,测试方法和测试装置,使用相同的方法
机译: 2.低聚方法,包括与α-烯烃单体C4至C20和催化剂体系接触,包括催化剂体系:冶金方法以及在低聚条件下形成低聚产物的第一和第二催化剂。一种生产多阿尔法精油的方法;和聚酰胺的位置。
机译: 适当的条件下,在水乳液中,与4至6个碳原子和/或氯丁二烯共混并与低权重的至少一种具有不多于14个碳原子的共聚二烯基巴伦单体的混合物进行聚合的方法