技术领域
本发明涉及图像处理领域,尤其是涉及可用于智能视频监控、行人追踪和行为分析、智能安防等的基于自模仿互蒸馏的跨模态行人重识别方法。
背景技术
跨模态行人重识别因为其应用前景以及实际应用价值,近年来受到广泛的关注,并涌现出了许多优秀的算法。这些算法大致可以分为三大类:基于特征配准的跨模态行人重识别算法、基于图像生成的跨模态行人重识别算法和基于度量学习的跨模态行人重识别算法。相比其他两类算法,基于特征配准的跨模态行人重识别算法受到的关注度较高。它通过将可见光图像和红外图像映射到同一个特征空间,通过注意力图配准,引入额外模块进行图像级别或者像素级别配准等方式,实现减小跨模态差异的目标。这类方法除了增加模型复杂度的同时,忽略了模态内的冗余信息对跨模态行人检索精度的影响,仅是通过直接进行一个阶段的特征配准,不能有效缓解模态间差异对性能提升的阻碍。
知识蒸馏被广泛的用于模型压缩和迁移学习当中,其中自蒸馏和互蒸馏是知识蒸馏领域中两个很重要的分支。自蒸馏是一种模仿模型自身在不同训练阶段输出的一种学习策略,而互蒸馏是指采用多个网络(2个或更多)同时进行训练,每个网络在训练过程中不仅接受来自真值标记的监督,还参考同伴网络的学习经验来进一步提升泛化能力。在整个过程中,两个网络之间不断分享学习经验,实现互相学习共同进步。本发明根据自蒸馏的核心思想,通过学习模仿先前模型学习到的原型特征,减少高阶语义特征的冗余信息,使得学习到的特征更具有代表性。利用互蒸馏的思想,来自不同模态相同ID的样本,通过互相拟合彼此的特征分布,使得模态间的特征差异大大减小。
中国专利CN112016401A公开一种基于跨模态行人重识别方法,所述方法包括:通过将带有身份标识的行人图像输入跨模态特征提取模型中,确定带有身份标识的行人图像的跨模态泛化特征、红外单模态泛化特征和可见光单模态泛化特征,并计算待进行跨模态行人重识别的图像特征,与跨模态泛化特征、红外单模态泛化特征和可见光单模态泛化特征的相似度,进行行人重识别。
发明内容
本发明的目的在于提供可实现可见光图像和红外图像的跨模态行人重识别,在减少模态内冗余信息的同时,缩小不同模态间的分布差异,得到强判别性特征的基于自模仿互蒸馏的跨模态行人重识别方法。
本发明包括以下步骤:
1)对跨模态数据集进行采样,所述跨模态数据集包含可见光图像集和红外图像集,每个批次中每个模态选取不同ID的行人图片,每种ID分别选取若干张可见光图像和红外图像作为当前批次的网络输入;
2)对输入图片进行归一化,随机裁剪至指定大小并进行数据增强;
3)将可见光图像输入到一个参数不共享的卷积模块,得到的特征图作为共享主干网络的输入,再经过一个全局平均池化,将可见光图像映射到一个共享的特征空间,对于每一张可见光图像,得到对应的2048维度的特征向量;
4)将红外图像输入到另一个参数不共享的卷积模块,得到的特征图作为共享主干网络的输入,再经过一个全局平均池化,将红外图像映射到一个共享的特征空间,对于每一张红外图像,得到对应的2048维度的特征向量;通过对特征空间中的特征向量施加约束进行优化,增强特征的判别性,从而提高跨模态行人充实别的性能;
5)对于模型的整个训练过程中,使用常用的交叉熵损失和三元组对比损失对模型提取的特征进行判别性约束。
6)对于模态内差异,借助每个类的原型特征具有特征代表性的特点,再结合自模仿的核心思想,进而对共享特征空间中所有样本进行第一阶段的特征配准;
7)利用互蒸馏的思想进行第二阶段的特征配准:来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,从而减小模态间的特征差异;
8)在测试阶段,利用模型编码后的特征进行跨模态检索,即计算特征之间的相似度矩阵;
在步骤8)中,所述利用模型编码后的特征进行跨模态检索是用红外图像去检索匹配同ID 的可见光图像,或可见光图像去检索匹配同ID红外图像。
9)根据计算得到的相似度矩阵,根据行人重识别的评价指标算得Top-K(K=1,10,20) 和平均检索精度(mAP)。
在步骤1)中,所述可见光图像集
在步骤2)中,所述进行数据增强可采用随机翻转操作进行数据增强。
在步骤6)中,所述第一阶段的特征配准主要包括以下三个步骤:i.获取上一次迭代中每个ID的原型特征;ii.在当前迭代中,拉近每个ID的所有样本与之对应原型特征的距离;iii. 随着网络的每一次训练迭代结束之后,对每个ID的原型特征进行更新。
在步骤6)中,所述对共享特征空间中所有样本进行第一阶段的特征配准的具体步骤可为:
(6.1)对于行人ID为p的所有可见光图像和红外图像,经过步骤3)和4)之后得到对应的特征,
(6.2)固定第t-1(t>1)次迭代产生的原型特征
(6.3)第t次迭代结束后,利用步骤(6.1)中计算当前每个ID的原型特征
在步骤7)中,所述利用互蒸馏的思想进行第二阶段的特征配准的具体步骤可为:
(7.1)度量当前模型相同ID不同模态的所有样本的分布差异,在此使用最大均值差异 (Maximum Mean Discrepancy)来衡量两个不同但相关的分布的距离,Maximum MeanDiscrepancy(MMD)的具体计算公式如下:
其中,
(7.2)在每个批次的训练过程中,随机采样n对可见光图像和红外图像,分别表示为
通过优化互蒸馏损失,可以拉近不同模态相同ID的样本分布,从而有效减小模态间的特征差异。
本发明针对现有的一阶段特征配准方法忽略了模态内和模态间的特征分布差异的不足,通过设计两阶段特征配准方法,提升跨模态行人重识别的性能。本发明两阶段的特征配准包括:1)模态内的特征配准:以一种自模拟的学习方式获取每个行人类别的原型特征,通过提高该类别所有样本与原型特征的相似度来实现模态内的特征配准;2)模态间的特征配准:经过第一阶段模态内的特征配准后,采用互蒸馏的学习方法,减小同类别不同模态的样本分布的差异。
与现有技术相比,本发明具有以下突出优点:
1.本发明首先提出两阶段的特征配准方法。考虑到模态内存在冗余信息,先通过第一阶段的模态内特征配准方法,使得特征空间中相同模态相同ID的特征更具有相似性;接着进行第二阶段的模态间特征配准,使得特征空间中不同模态相同ID的特征分布差异大大减小。
2.巧妙利用自蒸馏的核心思想,通过模仿早期学习到的每个类的原型特征,来提升特征的判别性。
3.结合互蒸馏的方法,使得来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,从而减小模态间的特征差异。
4.本发明可用于智能视频监控、行人追踪和行为分析,智能安防等。
附图说明
图1是本发明的基于自模仿互蒸馏的跨模态行人重识别方法框架。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明实施例包括以下步骤:
(1)跨模态数据集包含可见光图像集
(2)对输入图片进行归一化,随机裁剪至指定大小(288*144),采用随机翻转进行数据增强;
(3)将可见光图像输入到一个参数不共享的卷积模块(Head1),得到的特征图作为共享主干网络(Backbone)的输入,再经过一个全局平均池化,将可见光图像映射到一个共享的特征空间,对于每一张可见光图像,得到对应的2048维度的特征向量;
(4)将红外图像输入到一个参数不共享的卷积模块(Head2),得到的特征图作为共享主干网络(Backbone)的输入,再经过一个全局平均池化,将红外图像映射到一个共享的特征空间,对于每一张红外图像,得到对应的2048维度的特征向量。将不同模态强行映射到同一个特征空间会不可避免的导致巨大模态内差异和模态间差异,接下来通过对特征空间中的特征向量施加约束进行优化,增强特征的判别性,从而提高跨模态行人充实别的性能;
(5)对于模型的整个训练过程中,使用常用的交叉熵损失L
(6)对于模态内差异,借助每个类的原型特征具有特征代表性的特点,再结合自模仿的核心思想,进而对共享特征空间中所有样本进行第一阶段的特征配准。第一阶段的特征配准主要包括以下三个主要步骤:i.获取上一次迭代中每个ID的原型特征;ii.在当前迭代中,拉近每个ID的所有样本与之对应原型特征的距离;iii.随着网络的每一次训练迭代结束之后,对每个ID的原型特征进行更新。
(7)第一阶段训练迭代T
(8)经过两阶段的特征配准后,模型对不同模态图片的特征表达能力大大提升,在测试阶段,利用模型编码后的特征进行跨模态检索(用红外图像去检索匹配同ID的可见光图像,或可见光图像去检索匹配同ID红外图像),即计算特征之间的相似度矩阵;
(9)根据计算得到的相似度矩阵,根据行人重识别的评价指标算得Top-K(K=1,10,20) 和平均检索精度(mAP)。
在步骤(6)中,所述利用自模仿的核心思想进行第一阶段的特征配准:
(6.1)对于行人ID为p的所有可见光图像和红外图像,经过要求1中的步骤(3)(4)之后得到对应的特征,
(6.2)固定第t-1(t>1)次迭代产生的原型特征
(6.3)第t次迭代结束后,利用步骤(6.1)中计算当前每个ID的原型特征
在步骤(7)中,所述利用互蒸馏的思想进行第二阶段的特征配准:
(7.1)度量当前模型相同ID不同模态的所有样本的分布差异,在此使用最大均值差异 (Maximum Mean Discrepancy)来衡量两个不同但相关的分布的距离,Maximum MeanDiscrepancy(MMD)的具体计算公式如下所示:
其中
(7.2)在每个批次的训练过程中,随机采样n对可见光图像和红外图像,分别表示为
通过优化互蒸馏损失,可以拉近不同模态相同ID的样本分布,从而有效减小模态间的特征差异。
如图1,本发明实施例的方法框架如下:
步骤1,获取模型的输入图像。
对数据集进行采样,每个批次中每个模态选取八种不同ID的行人图片,每种ID分别选取四张可见光图像和四张红外图像作为当前批次的网络输入。
对输入图片进行归一化,随机裁剪至指定大小(288*144),采用随机翻转进行数据增强。
步骤2,得到模型输出的特征向量。
(2a)将可见光图像输入一个参数不共享的卷积模块(Head1),得到的特征图作为共享主干网络(Backbone)的输入,再经过一个全局平均池化,将可见光图像映射到一个共享的特征空间,对于每一张可见光图像,得到对应的2048维度的特征向量;
(2b)将红外图像输入一个参数不共享的卷积模块(Head2),得到的特征图作为共享主干网络(Backbone)的输入,再经过一个全局平均池化,将红外图像映射到一个共享的特征空间,对于每一张红外图像,得到对应的2048维度的特征向量;
步骤3,对图像特征进行约束,进行两阶段训练。
(3a)使用常用的交叉熵损失L
(3b)第一阶段的特征配准主要包括以下三个主要步骤:i.获取上一次迭代中每个ID的原型特征;ii.在当前迭代中,拉近每个ID的所有样本与之对应原型特征的距离;iii.随着网络的每一次训练迭代结束之后,对每个ID的原型特征进行更新;
(3c)第二阶段的特征配准主要利用互蒸馏的思想,使来自两个不同模态,同一ID的所有样本互相学习彼此的特征分布,从而减小模态间的特征差异。
实验结果以及结果分析:
实验1,用本发明在SYSU-MM01数据集上进行跨模态行人重识别。
为了验证算法的有效性,在SYSU-MM01的测试集上,进行消融实验,表1为实验结果。其中,‘SM’表示自模仿损失L
实验2,用本发明在RegDB数据集上进行跨模态行人重识别。
为了验证算法的有效性,在RegDB的数据集上进行两种模式的测试:用红外图像去检索匹配同ID的可见光图像(Visible2thermal)以及用可见光图像去检索匹配同ID红外图像 (Thermal2visible)。表2为实验结果,从结果可以发现,本发明提出的基于自模仿互蒸馏的跨模态行人重识别方法在RegDB数据集上同样获得了卓越的性能提升。
表1
表2
本发明通过设计两阶段特征配准方法,提升跨模态行人重识别的性能。其两阶段的特征配准包括:1)模态内的特征配准:以一种自模拟的学习方式获取每个行人类别的原型特征,通过提高该类别所有样本与原型特征的相似度来实现模态内的特征配准;2)模态间的特征配准:经过第一阶段模态内的特征配准后,采用互蒸馏的学习方法,减小同类别不同模态的样本分布的差异。
实验表明,本发明在现有的两个跨模态行人重识别数据集上都有显著的性能优势,超越了当前学术领域的最高水平,验证本发明提出的两阶段特征配准方法的有效性。
机译: 跨街过境和多模态多级车站以及以行人为导向的换乘
机译: 跨模态序列蒸馏
机译: 跨模态感官分析系统,呈现信息确定系统,信息呈现系统,跨模态感官分析程序,呈现信息确定程序和信息呈现程序