首页> 中国专利> 一种车辆后拍图像品牌训练方法

一种车辆后拍图像品牌训练方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提出一种新的基于三元损失函数与对抗噪声融合的车辆后拍图像的品牌训练方法，该方法在进行车辆特征提取时，考虑到了相同类别与不同类别间车辆类别表征在度量空间中距离上的关系，训练学习得到车辆的表征，再通过对抗噪声融合技术将噪声与提取到的车辆表征相结合，训练识别模型的分类器，以此得到鲁棒的车辆后拍图像的品牌识别模型。

著录项

公开/公告号CN113076840A

专利类型发明专利
公开/公告日2021-07-06

原文格式PDF
申请/专利权人高新兴科技集团股份有限公司;
展开▼

申请/专利号CN202110322535.0
发明设计人陈利军;傅慧源;林焕凯;董常青;马华东;王川铭;洪曙光;王祥雪;刘双广;
展开▼

申请日2021-03-25
分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06T3/40(20060101);G06T5/00(20060101);
代理机构44511 广州国鹏知识产权代理事务所(普通合伙);
代理人葛红
地址 510530 广东省广州市黄埔区科学城开创大道2819号六楼
入库时间 2023-06-19 11:44:10

说明书

技术领域

本发明属于图像识别技术领域，具体地说，涉及一种车辆后拍图像品牌训练方法。

背景技术

车辆作为一种重要的交通工具，与人们的生活息息相关。随着现代汽车生产技术的发展，越来越多的汽车出现在人们的日常生活中。在智慧交通的构建中，监控摄像机往往只能拍摄到车辆的前拍或后拍图像。而相比与前拍图像，车辆后拍图像在道路监控摄像机中出现的更多。但是，车辆的后拍图像往往相似度更高，不同类别之间的差异更小，不同类型的车辆只在车灯等的位置上有细微的差异。因此，经常需要相关领域的专家来识别车辆的细粒度。但是通过专家辨认全部车辆的品牌是耗时且不可实现的，因此亟需一种自动化的针对车辆后拍图像的品牌识别方法，这不仅是满足现代智能化交通的构建需要，同时也能推动智慧城市的发展。由于实际的需求，如何设计一种自动的汽车微粒分类方法一直是研究者的研究方向。这是一个非常具有挑战性的问题，因为识别模型需要捕获类别或实例之间的细微视觉差异，而这些差异很容易被其他因素(例如视点，照明或场景)掩盖。近年来，随着研究的深入、大型公共图像数据集的发布以及高性能计算系统的出现，训练具有大量参数的深度神经网络成为可能，而卷积神经网络(CNN)由于其优秀的特征提取能力，成为视觉领域经典方法之一，在许多视觉任务上已经取得了突破性进展，因此如何使用CNN解决根据车辆后拍图像判定车辆细粒度类别成为当前研究的热点。

现有的车辆细粒度分类的方法流程图如图1所示：

车辆的细粒度分类是指，从包含车辆的输入图像能够正确识别出车辆的品牌，车系及设计年限等信息。高性能的车辆细粒度识别方法能够通过图片上车辆某部分的微小特征进行正确的识别，而不需要领域专家的协助，在城市交通建设，公共安全防护等领域起到重要作用。

现有的细粒度车辆分类方法通常基于深度学习，而基于深度学习的方法由两部分组成：训练阶段和测试阶段。

1、对于训练阶段，基本流程可以概括为：

基本特征提取：将需要分类的图片通常先通过CNNs进行基本特征提取，获得输入图片数据的特征图。

分类器分类：将提取到的特征输入到分类器中，分类器输出图片中包含的车辆的细粒度类别

计算损失函数：将分类器的输出的类别与图像中包含车辆的正确类别进行对比，通过预先设定的损失函数计算出损失(loss)

反向传播：反向传播算法，将loss传递到模型中的每个参数，计算出每个参数的梯度，再通过梯度下降的方法对参数进行优化

对于测试阶段(推理阶段)，只需要进行训练阶段的1)基本特征提取；和2)分类器分类即可，不需要损失函数的计算和反向传播。

现有技术缺点：

1、没有考虑到对提取到的特征进行监督。传统的车辆识别方法，只在分类器上直接添加监督信息，没有考虑到对提取到的特征进行监督信息的添加，这样就造成卷积神经网络提取到的特征并不能完全关注于车辆本身，还有可能关注于背景信息，这就导致了提取到的特征并不完善，不能作为车辆的类别表征。

2、提取到的特征只适用于训练过的类别。传统方法只添加了类别监督信息，造成了提取的特征只对训练过的类别有效，对于没有训练过的类别效果会变差，但是车辆会不断的出现新的品牌，这就造成现有的方法不能很好的适用于新的车辆品牌。

发明内容

本发明针对上述现有技术中存在的问题，提出了一种车辆后拍图像品牌训练方法。

本发明通过以下技术方案实现：

一种车辆后拍图像品牌训练方法，包括步骤：

S1，卷积神经网络特征提取模型训练；

具体的步骤S1包括：S1.1、获取多张图像组成输入元素，选取三元组；

S1.2、通过卷积神经网络模型分别提取第一输入图像的基本特征，获得基本表征；

S1.3、根据三元损失函数计算出相应的损失；

S1.4、通过反向传播算法，更新所述卷积神经网络模型中的参数，得到最终的卷积神经网络特征提取模型；

S2，分类器训练；

S2.1、利用所述最终的特征提取模型提取第二输入图像的特征；

S2.2、根据对抗噪声生成器生成对应的噪声数据，通过融合策略与步骤S2.1中提取的特征进行融合；

S2.3、将融合后的特征输入到分类器中，获得分类结果；

S2.4、将分类结果与预设正确类别进行损失计算；

S2.5、将步骤S2.4计算的损失通过反向传播算法传递到分类器的参数中，再通过梯度下降的方法优化分类器的参数，得到最终的识别模型。

进一步地，所述三元组由锚点数据x

进一步地，在所述步骤S1.2中，提取所述基本特征包括，将所述图像的大小通过线性插值的方法调整到256*256，然后输入到卷积神经网络模型中，将该模型的输出经过一层卷积网络层进行特征聚合，将该层的输出作为提取到的图像表征，该表征是一个有256个元素的一维向量。

进一步地，在所述步骤S1.3中，所述三元损失函数的计算公式为：

其中f()表示卷积神经网络进行特征提取，

进一步地，在所述步骤S2.2中，所述根据对抗噪声生成器生成对应的噪声数据，通过融合策略与步骤S2.1中提取的特征进行融合，包括步骤：

S2.2.1、基于高斯函数，生成均值为0，方差为1的噪声数据；

S2.2.2、使用基于ImageNet训练的Autoaugment图像增强方法来对图像进行变换；

S63、将上述噪声数据与步骤S5中提取的特征进行线性加权融合。

进一步地，在所述步骤S2.2.2中，所述变换包括旋转、通道改变或者亮度调整。

进一步地，在所述步骤S2.3中，所述融合后的特征是一个大小为[C,H,W]的特征向量，将其通过一个空间池化层，该池化层将[H,W]维度的特征进行平均，特征图由此聚合为一个具有C个值的特征向量，将该特征向量表示输入到一层全联接层中进行分类，得到最后的分类结果。

进一步地，在所述步骤S2.5中，选用随机梯度下降(StochasticGradientDescent，SGD)作为优化器，其参数更新可以表示为：

其中θ为需要更新的参数，α表示学习率。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的车辆后拍图像品牌训练方法的步骤。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现车辆后拍图像品牌训练方法的步骤。

本发明提出了一种新的基于三元组损失和对抗噪声融合的车辆后拍图像的品牌训练方法，通过三元组损失，将属于同一个品牌的车辆的表征拉近，而推远不同品牌车辆的表征。同时对抗噪声的融合在训练阶段随机添加噪声干扰，使得特征提取能够更加关注于本质特点而非背景信息等因素。相比于现有的车辆细粒度分类方法，该方法考虑到了类内与类间的不同关联关系，同时对抗噪声的添加使得该方法具有更强的鲁棒性，因此能够提取到更加完善的车辆的品牌表征，以此达到更好的细粒度识别效果。

本发明相对于现有技术的有益效果：由于池化层与非线性映射层的存在，卷积神经网络特征提取能力较强，因此针对图片输入添加的高斯噪声很容易被忽略掉，而在分类器之前添加高斯噪声，导致输入分类器的图像表征具有多样性，使得分类器不断扩展类别子空间的边界，具有更好的鲁棒性，因此即使测试数据通过卷积神经网络提取的表征可能与训练数据不一致，分类器也能正确的进行分类，提升了分类的准确率。

附图说明

以下将结合附图对本发明做进一步详细说明；

图1是传统车辆训练方法的基本流程，其中，图(a)为训练阶段；图(b)为测试阶段；

图2是本发明的训练方法训练阶段流程图，其中，图(a)为卷积神经网络训练；图(b)为分类器训练；

图3是本方面在推理阶段的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明涉及一种车辆后拍图像品牌训练方法，其训练阶段流程图如图2所示，相比于传统方法，本发明提出方法的训练阶段由两部分组成：卷积神经网络特征提取模型训练阶段与分类器训练阶段。对于卷积神经网络特征提取模型训练阶段，主要流程是：

1、三元组选取：三元组损失是一种被广泛采用的进行度量学习的工具，它一般有三个输入，分别是锚点数据(anchor sample)、正例数据(positivesample)和反例数据(negative sample)，它通过将锚点数据和正例数据之间的度量距离相拉近以及将锚点数据与反例数据之间的度量距离相拉远的操作，使得相同类别的特征在特征空间中具有聚合的特性，以此达到特征学习的目的。三元损失需要有三个输入，分别是锚点数据、正例数据和反例数据，因此需要由多张图像组成输入元素，这就需要对训练数据进行筛选，选取三元组；

2、基本特征提取：通过经典的卷积神经网络架构分别提取输入图片数据的基本特征，获得基本表征；

3、三元损失计算：根据提出的三元损失函数计算出相应的损失；

4、反向传播：通过反向传播算法，优化模型中的参数，得到最终的特征提取模型。

对于分类器训练部分，主要流程是：

1、将卷积神经网络训练中得到的卷积神经网络作为特征提取器，提取输入图像的特征

2、根据对抗噪声生成器生成对应的噪声数据，通过融合策略与卷积神经网络提取到的特征进行融合

3、将融合后的特征输入到分类器中，获得分类结果

4、将分类结果与正确类别进行损失计算

5、将损失通过反向传播算法传递到分类器的参数中，再通过梯度下降的方法优化分类器的参数，得到最终的识别模型。

实施例1:三元组选取

对于一个三元组，由锚点数据x

实施例2:基本特征提取

对于一张包含车辆后拍的图像，将图像的大小通过线性插值的方法调整到256*256，然后输入到卷积神经网络中(采用ResNet50作为基础特征提取网络)，将该模型的输出经过一层卷积网络层进行特征聚合，将该层的输出作为提取到的图像表征。该表征是一个有256个元素的一维向量。

实施例3:三元损失函数

为了使同样类别的图像之间的表征在度量空间中距离最小，而不同类别的图像之间的表征在度量空间中距离尽量的大，设计了一种三元损失函数：

其中f()表示卷积神经网络进行特征提取，

的目的。

实施例4:对抗噪声生成

因为视角变幻，车辆姿势的变换等因素，即使是同样类别的车辆后拍图像，仍有着很大的区别，为了针对这种由于输入图像本身变化带来的影响，提出了一种对抗噪声生成的策略。首先，通过高斯函数，生成均值为0，方差为1的噪声数据。其次，使用基于ImageNet训练的Autoaugment图像增强方法来对图像进行变换(例如旋转、通道改变、亮度调整等)，

最后，将该噪声数据与卷积神经网络提取得到的图像表征进行线性加权融合，将融合得到的结果再输入分类器中进行分类，依次来训练获得更加鲁棒的分类器。

实施例5:分类器分类

最后得到的车辆特征是一个大小为[C,H,W]的特征向量，将其通过一个空间池化层，该池化层将[H,W]维度的特征进行平均，特征图由此聚合为一个具有C个值的特征向量，之后将该特征向量表示输入到一层全联接层中进行分类，得到最后的分类结果。

实施例6:网络参数训练

对于卷积神经网络中的参数以及上述实施中的参数，通过反向传播与梯度下降的方法进行学习得到。

在训练阶段，将图像归一化到256x256的大小，输入本提案的方法中，将卷积神经网络获得的图像特征输入到三元损失函数中，得到三元损失，之后将损失通过反向传播的方法反传到各个需要学习参数的位置，根据得到的梯度进行参数的修改。在卷积神经网络训练完成后，再将训练数据输入到卷积神经网络中，获得图像的表征，以此来训练分类器。

在训练分类器过程中，使用交叉熵损失计算预测结果与给定标准结果之间的损失：

其中N为图像的总数量，M是类别数量，pic表示当前预测结果为类别c时的概率，yic表示预测结果类别与给定类别是否相同，相同时为1，不同时为0.

选用随机梯度下降(Stochastic Gradient Descent，SGD)作为优化器，其参数更新可以表示为：

其中θ为需要更新的参数，α表示学习率。

该方案的提升效果如下表所示：

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现车辆后拍图像品牌训练方法的步骤。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现车辆后拍图像品牌训练方法的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。在不脱离本发明之精神和范围内，所做的任何修改、等同替换、改进等，同样属于本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种车辆后拍图像品牌训练方法 [P] . 中国专利： CN113076840A . 2021-07-06
2. 基于车前灯图像特征的车辆品牌识别方法和系统 [P] . 中国专利： CN105574490B . 2019.04.09
3. A system and method for automatically displaying personalised, third party branded videos and photo images to participants at mass participation events and a method for recording, measuring and display electronic interactions with these videos and photo images after the event on the world wide web [P] . AU2016100877A4 . 2016-08-25

机译：一种在群众参与活动中向参与者自动显示个性化的第三方品牌视频和照片图像的系统和方法，以及在事件发生后在万维网上记录，测量和显示与这些视频和照片图像的电子交互的方法
4. Method for operating emergency device for passenger car, involves activating detection unit to detect images of surrounding of vehicle after accident of vehicle, and outputting images of surrounding in inner area of vehicle by display unit [P] . 德国专利： DE102012015994A1 . 2013-03-14

机译：一种乘用车应急装置的操作方法，包括：激活检测单元，以在车辆发生事故后检测车辆周围的图像;通过显示单元输出车辆内部区域的周围图像。
5. METHOD FOR TRAINING AT LEAST ONE ALGORITHM FOR A CONTROL DEVICE OF A MOTOR VEHICLE, COMPUTER PROGRAM PRODUCT, AND MOTOR VEHICLE [P] . 世界知识产权组织专利： WO2020114674A1 . 2020-06-11

机译：车辆，计算机程序产品和车辆的控制装置的至少一种算法的训练方法