公开/公告号CN115620245A
专利类型发明专利
公开/公告日2023-01-17
原文格式PDF
申请/专利权人 江苏大学;
申请/专利号CN202211318210.6
申请日2022-10-26
分类号G06V20/54(2022.01);G06V20/58(2022.01);G06V20/70(2022.01);G06V10/80(2022.01);G06V10/82(2022.01);
代理机构南京智造力知识产权代理有限公司 32382;
代理人王军丽
地址 212013 江苏省镇江市京口区学府路301号
入库时间 2023-06-19 18:21:03
法律状态公告日
法律状态信息
法律状态
2023-02-10
实质审查的生效 IPC(主分类):G06V20/54 专利申请号:2022113182106 申请日:20221026
实质审查的生效
2023-01-17
公开
发明专利申请公布
技术领域
本发明属于智能网联汽车技术领域,特别设计了一种基于实车场景下的车路协同重识别模型、数据集及模型训练方法。
背景技术
车路协同是车辆和基础设施相协做,利用基础设施为车辆提供远超当前视野的全局视角和覆盖盲区等信息,从而完成目标检测、识别、跟踪等任务,以确保后续正确、安全的控制决策。车路协同合作感知技术旨在通过车辆和基础设施间的信息交互,弥补单车感知中范围有限、频繁遮挡等不足,实现对道路目标信息的全局感知。但目前对于车路协同合作感知研究才刚刚起步,存在很大的研究空间。Kim等人首次提出了一种多模式的协同感知系统,实现了前方碰撞预警、自动隐藏避障等协同驾驶。最近,Li等人提出了一个新型的蒸馏协作图来构建一种可训练的自适应协作,试图更好的提高多设备感知的性能和带宽。
车辆重识别(Re-ID)旨在将不同摄像头采集到的相同车辆身份的图片寻找出来。随着技术的不断发展,其在智能交通系统中具有广阔的应用场景,目前已成为实现自动驾驶必不可少的一项技术。对于车辆重识别任务而言,全面、可靠、公平的数据集有助于客观评价一个车辆重识别算法的性能优越程度,是整个任务的关键之一。对于现有的车辆重识别研究,主要从两个方面解决重识别问题:细节捕捉和特征融合。细节捕捉方面大多利用大量的额外标注(如颜色、视角、车牌等)关注车辆上具有区别的特征,这些方法虽然能够更好关注于车辆的微小区别,但这不仅需要大量的人工标注,而且需要引入第二个计算网络,使得计算繁琐、效率较低。而特征融合方面大多对最终得到高阶语义进行一些创新性的后处理。该方法结构简单、计算方便,但往往忽视了细节的重要性,不准确的高阶语义很可能会导致特征融合出现严重的错误。
随着计算视觉领域的发展,已经涌现了大量的车辆重识别数据集,如Veri-wild、VehicleID、VeRi776等,这些数据集的存在为车辆重识别任务带来了很多优秀的算法。但是美中不足的是,这些数据集难以有效适应于自动驾驶领域,其根源在于现有重识别数据集以安防为目的,这就使得其往往采用固定摄像头作为数据获取的途径。
发明内容
针对上述问题,本发明提出了一个新的车辆重识别数据集DAID-V2XReid。本数据集以清华大学提出的实车场景下的车路协同DAID-V2X数据集为基础制作而成,利用车辆摄像头和路端摄像头共同采集的数据,完成车辆重识别任务。DAID-V2XReid数据集具有以下优点:(1)利用车端摄像头作为移动端,路端摄像头作为固定端,车端摄像头可以弥补固定摄像头的不足,使得采集的同一辆车视角更加全面。(2)由于两个装置摄像头存在高度不一致的特点,这样采集到的同一车辆即使在同一视角下,也能够具有微小的不同,使得数据集样本具有多样性。(3)该数据集在真实场景下获得,由两个设备共同采集,可以获得多变的背景,增加了背景多样性。
该数据集通过以下方法制作得到:
完成路端采集装置和车端采集装置的数据匹配,框选出满足匹配的车辆;截取车辆图片;分别对车辆ID和相机ID进行赋值;具体过程:
在路口部署4对高分辨率摄像头,作为路端采集装置,同时在车辆上配置一个向前的高质量摄像头,作为车端采集装置,共同完成数据采集;
将两个采集装置的数据中具有相同车辆的图片人工挑选出来,进行相同车辆标签赋值,同时还对数据进行摄像头ID的标注,设置车辆摄像头ID为0,路端摄像头ID为1,最终获得205组匹配的车辆,每组至少有2张照片,共2556张。
将数据集车辆样本按2:1划分为train、gallery两个子数据集,并将gallery数据集中每个相机ID下的图片随机选出一张,以生成query数据集;train数据集用于训练,gallery与query数据集用于测试。
同时本发明还提出了用于车辆重识别的新型网络模型:跨镜头特征聚合网络,该网络主要包含三个模块,不需要任何的额外标注。首先,本发明为了应对不同相机下的视角问题,利用数据集中自带的相机标签,提出了相机嵌入模块,将相机信息嵌入到骨干网中,实现了不同相机的简单分组。然后,为了避免高阶语义局部信息的泄露,提出跨阶段特征融合模块,将高阶语义与低阶语义融合,实现了背景和车辆的区分。最后,提出了多方向注意力模块,对特征进行空间位置上的注意力特征获取,进行进一步细化,用于最终的重识别任务。各模块具体如下:
所述相机嵌入模块:假设有N个相机,记为ID
对于某一相机ID
其中V
进一步,所述跨阶段特征融合模块:获取低阶语义V
首先将两种特征映射到同一空间中,随后将其进行融合;对于低阶语义,先将高度、宽度两个维度相乘,通过线性变换改变相乘之后的维度,记为V
V′
其中C代表串联操作;
在拼接完成之后,将V′
V
进一步,所述多方向注意力模块:将全局池化层进行分解,获得沿着水平方向、竖直方向的位置编码以及整体特征的全局编码。然后,在水平、垂直以及偏差方向上对空间信息进行编码,表达式为:
其中,V
将上述三种编码分别沿着水平、竖直以及信息偏差量三个方向进行特征聚合,得到三个感知特征图,使得特征可以沿着各自的注意力方向进行精确的空间信息编码,实现三维模型位置信息点的获取;
在完成空间信息编码后,使用注意力机制以实现对象特征在通道维度上的聚集;首先,为了降低模型复杂度,将特征进行降维,以获得更具有区别性的通道,具体地,
先将空间编码特征进行拼接以得到一个多特征融合的表征向量,随后使用一组1×1的卷积以实现标准向量的降维,计算过程如下所示:
其中,式中C是一个串联操作,代表分别沿着h、w、I空间维度方向进行串联,
随后,该模块沿着得到的空间维度方向将f分割成三个单独的张量
其中,σ表示sigmoid函数,
最后,为了充分利用特征中添加的空间编码,使最终特征具有更正确的定位,获得注意力特征定位,将三个张量进行融合得到输出V,完成最终的特征提取:
V=(g
特征V经过线性变换,传入损失函数中,计算损失。
本发明还提出了上述一种新的实车场景下的车路协同重识别模型的测试方法,采用上述的数据集进行训练和测试,,将输入图片随机裁剪到256×256,采用随机擦除、水平翻转等方法进行数据增强,batch size设置为48,采用交叉熵损失函数和三元损失函数进行80个epochs训练网络,使用SGD优化器,设置优化器的动量为0.9,权重衰减为1e-4,在前20个epochs学习速率从7.7e-5到1e-2,原始resnet50 backbone在训练阶段被冻结,1e-2学习率一直保持到第60个,其余时间采用余弦退火算法,使学习率慢慢下降到7.7e-5。
进一步,所述训练和测试是基于Pytorch1.8深度学习框架构建并在NVIDIARTX2080Ti GPU上实验,训练20分钟。
进一步,还包括测试结果的可视化处理。
本发明的有益效果:
1、为了应对数据集缺少的问题,本发明建立了一个实车场景下的车路协同的车辆重识别数据集—DAIR-V2XReID。
2、为了解决车辆重识别问题,本发明设计了一个跨镜头特征聚合网络,解决了跨镜头场景下车辆视角变换大等问题,通过相机嵌入模块、跨阶段特征融合模块、多方向注意力模块的合作,带来了更好的车辆特征匹配效果。
3、为了证明该模型的性能,将DAIR-V2XReID数据集放到跨镜头特征聚合网络中进行实验,性能达到了最大值,mAP为58.47%。同时,为了验证模型的泛化性,还在VeRi776数据集上进行了实验,同样取得了很好的精度,达到了80.67%的精度。
附图说明
图1.本发明的算法流程图
图2.本发明的跨阶段特征融合模块架构图
图3.本发明的多方位注意力模块架构图
图4.本发明的模型制作流程图
图5.本发明在数据集上的热力图可视化结果
图6本发明前rank5对比图
图7本发明匹配示意图
具体实施方式
本发明提出了一种新的实车场景下的车路协同重识别模型、数据集及模型训练方法,以实车场景下的车路协同DAID-V2X数据集为基础,本发明建立了一种新的实车场景下的车路协同的车辆重识别数据集—DAIR-V2XReID。为了解决车辆重识别问题,本发明设计了一个跨镜头特征聚合网络模型,解决了跨镜头场景下车辆视角变换大等问题,通过相机嵌入模块、跨阶段特征融合模块、多方向注意力模块的合作,带来了更好的车辆特征匹配效果。此外,为了证明本发明模型的性能,将DAIR-V2XReID数据集放到跨镜头特征聚合网络中进行实验,性能达到了最好。同时,为了验证模型的泛化性,还在VeRi776数据集上进行了实验,同样取得了很好的精度,达到了53.99%的精度。
下面结合附图对本发明作进一步说明。
如图1所示的本发明算法的总体运行流程。首先,将相机嵌入模块添加到原始resnet50 backbone中,用于特征提取。其次,保存原始resnet50 backbone的一个低阶特征,与得到的全局特征融合,共同完成跨阶段的特征融合。最后,将得到的特征进行多方向注意力特征获取。
本发明首先对相关名词做出解释:
ResNet-50是一种基于残差结构构建的通用深度学习网络,该网络通过跳跃连接的方式解决了常见的线性堆叠导致的梯度爆炸/消失的问题,提升了网络对于特征的提取能力。
本发明的具体实施过程包括如下:
步骤1:制作数据集
DAIR-V2XReid数据集制作过程:(a)完成两个设备采取的数据匹配,框选出满足匹配的车辆。(b)进行车辆图片截取。(c)分别对车辆ID和相机ID进行赋值。其中橙色框代表车辆摄像头,绿色框代表路端摄像头,具体步骤如附图2所示。
数据集是在北京高级自动驾驶示范区选择28个路口进行采集,且每个路口都部署了4对高分辨率摄像头,作为路端装置。同时在车辆上还配置了一个向前看的高质量摄像头,作为车端装置,共同完成采集。
该数据集首先将两个装置数据中具有相同车辆的图片人工挑选出来,进行相同车辆标签赋值,同时还对数据进行摄像头ID的标注,设置车辆摄像头ID为0,路端摄像头ID为1。最终,该模型获得205组匹配的车辆,每组至少有2张照片,共2556张。随后遵守现有车辆重识别数据集的样本分布惯例,将车辆样本按2:1划分为train、gallery两个子数据集,并将gallery数据集中每个相机ID下的图片随机选出一张,以生成query数据集。其中,train数据集用于训练,gallery与query数据集用于测试。
整个数据集在公布之前对所有可能涉嫌侵犯隐私的信息进行了遮挡,包括车牌、人脸、路标等,以最大程度上保护公众隐私。
步骤2:设计相机嵌入模块
数据集中共有N个相机,记为ID
因此,对于某一相机ID
其中V
步骤3:设计跨阶段特征融合模块
理论而言,背景特征与前景特征有显著性的区别,从而使得在样本稀疏的情况下模型应当具有较好的拟合能力。但在实际使用中,高级语义虽然具有特征清晰的优势,但会导致环境信息的混合和车辆信息的丢失,从而导致最终得到的目标特征定位不准确。而低阶语义虽然语义特征不够清晰,但其包含大量的位置信息与背景特征,与高阶语义正好相反。因此本发明提出了跨阶段特征融合模块实现将低级语义与高级语义的特征融合,背景与目标车辆的明显区分,解决高级语义陷入非关键区域的可能并提高了模型的抗干扰能力,具体的融合流程如附图3所示:
该模块先获取模型中的低阶语义V
V′
其中,C代表串联操作。
由经验得到,在高阶语义中,虽然对细节的感知能力不够,但其所获得的特征噪音更少、特点更明确,所以该模块在融合时选择以高阶特征为主,保证高阶语义的优势。在拼接完成之后,模块将V′
V
此时,跨阶段特征融合模块完成,当前的特征既融合了低阶语义的背景信息,同时又没有丢失高阶语义的特征清晰,将背景与场景信息相结合。
步骤4:设计多方向注意力模块
在最终的特征提取中,通常用全局池化层的方法进行全局编码,捕获全局信息,但这样会忽视特征的位置信息。对于车辆重识别任务而言,重识别的车辆是一个三维模型,而空间信息在获取三维结构起到关键作用,所以该模块需要添加必要的空间信息,从而可以获取更加准确的车辆外观特征。该模块的具体流程如附图4所示:
首先,该模块将全局池化层进行分解,分别对特征图中的水平方向、竖直方向以及信息偏差量进行计算,获得沿着水平方向、竖直方向的位置编码以及整体特征的全局编码。然后,在水平、垂直以及偏差方向上对空间信息进行编码,表达式为:
其中,V
将上述三种编码分别沿着水平、竖直以及信息偏差量三个方向进行特征聚合,得到三个感知特征图。这样,特征可以沿着各自的注意力方向进行精确的空间信息编码,有助于定位更感兴趣的特征,实现三维模型位置信息点的获取。
在完成空间信息编码后,使用注意力机制以实现对象特征在通道维度上的聚集。首先,为了降低模型复杂度,将特征进行降维,以获得更具有区别性的通道。具体来说,先将空间编码特征进行拼接以得到一个多特征融合的表征向量,随后使用一组1×1的卷积以实现标准向量的降维。相关的计算过程如下所示:
其中,式中C是一个串联操作,代表分别沿着水平维度方向h、竖直维度方向w以及信息偏差量维度方向I空间维度方向进行串联,
随后,该模块沿着得到的空间维度方向将f分割成三个单独的张量
其中,σ表示sigmoid函数,conv为卷积变化,f
最后,为了充分利用特征中添加的空间编码,使最终特征具有更正确的定位,获得注意力特征定位,将三个张量进行融合,输出V可以写成:
V=(g
此时,该方法完成了最终的特征提取,将特征V经过线性变换,传入损失函数中,计算损失。
步骤5:将DAIR-V2XReid数据集传入本发明网络模型中进行训练和测试验证。
本发明将输入图片随机裁剪到256×256,采用随机擦除、水平翻转等方法进行数据增强。batch size设置为48,采用交叉熵损失函数和三元损失函数进行80个epochs训练网络。使用SGD优化器,设置优化器的动量为0.9,权重衰减为1e-4。在前20个epochs学习速率从7.7e-5到1e-2,原始resnet50 backbone在训练阶段被冻结。1e-2学习率一直保持到第60个,其余时间采用余弦退火算法,使学习率慢慢下降到7.7e-5。
本发明基于Pytorch1.8深度学习框架构建并在NVIDIA RTX 2080Ti GPU上实验。使用1个GPU训练DAIR-V2XReid数据集,训练所需20分钟。
步骤6:可视化处理
模块性能可视化。为了直观的理解该方法的学习,在VeRi776和DAIR-V2XReid两个数据集上进行了可视化。如附图5可见,结果分别展示了原始图像、基线热力图和该方法的热力图。结果表明,该方法可以更好的集中在车辆上,避免背景信息的干扰,鼓励模块关注车辆更具有鉴别性(如车灯、车窗等)的信息,而又不丢失整体信息的探索。
检索结果可视化。为了验证该方法的有效性,在附图6中可视化了不同方法对样本的检索结果。如图可以看出,在基线中,外观相似的车辆该模型很难区分出来。而由于本发明方法让其更好的关注局部信息,所以可以更好地提取出鉴别性信息,对于外观相似的车辆同样能够判断出来。
步骤7:测试阶段
为了验证该方法的有效性,先将其与基线中进行对比。将其放到基线中得到的mAP为51.44%,rank-1为48.12%。而在该方法中,得到的mAP为58.47%%,rank-1为59.40%,可见本发明的有效性。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。
机译: 用于训练声学场景识别模型的方法和装置以及用于使用声学场景识别模型识别声学场景的方法和装置
机译: 声学模型训练方法,语音识别方法,声学模型训练装置,语音识别装置,声学模型训练节目和语音识别程序
机译: 声学模型训练方法,语音识别方法,声学模型训练装置,语音识别装置,声学模型训练节目和语音识别程序