首页> 中国专利> 基于反事实注意力学习的行人再识别方法、系统、介质

基于反事实注意力学习的行人再识别方法、系统、介质

摘要

本发明公开了一种基于反事实注意力学习的行人再识别方法和系统、计算机存储介质。其中行人再识别方法通过比较事实,即学习的注意力,和反事实,即虚假的注意力,对最终预测的影响来量化注意力的质量。并通过最大化差异以促进网络学习更有效的视觉注意力并减少有偏训练集的影响,以此来增强目标域行人图像的判别性特征学习解决目标域行人图像存在遮挡和背景杂波问题。

著录项

  • 公开/公告号CN114882534A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 合肥工业大学;

    申请/专利号CN202210606376.1

  • 申请日2022-05-31

  • 分类号G06V40/10(2022.01);G06V10/40(2022.01);G06V10/764(2022.01);G06V10/762(2022.01);G06V10/82(2022.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构南京苏高专利商标事务所(普通合伙) 32204;

  • 代理人常虹

  • 地址 230000 安徽省合肥市包河区屯溪路193号

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06V40/10 专利申请号:2022106063761 申请日:20220531

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明属于计算机视觉技术领域,具体涉及一种基于反事实注意力学习的行人再识别方法、系统和计算机存储介质。

背景技术

近年来,无监督域自适应(Unsupervised Domain Adaptive,UDA)是深度学习领域的一个研究热点,该任务是将在有标签的源域数据集上训练的模型应用到另一个任务相关但特征分布不同且无标签的目标域数据集。现有的无监督域自适应行人再识别方法通常包括三个步骤:使用有标签的源域数据进行特征预训练,针对目标域数据进行基于聚类的伪标签预测,以及特征表示学习和伪标签微调。

然而由于源域数据和目标域数据之间的差异/域间隙以及聚类算法的不完善性质,通过聚类分配的伪标签通常包含不正确的标签。这种嘈杂的标签会误导特征学习并损害域适应性能。因此,缓解噪声伪标签样本的负面影响及解决目标域数据行人图像存在背景杂波和遮挡问题对提高域自适应模型检索的性能十分重要。为了解决上述噪声标签问题,现有一些域自适应算法通过在线修正不正确的样本来帮助模型学习更具鲁棒性的特征表示。尽管这些域自适应算法已经取得了显著的进步,但是相对于有监督行人再识别其识别准确率依旧不尽人意。另外传统方法大多通过监督最终预测来优化注意力,并将整个网络视为黑匣子,忽略了学习的注意力图是如何影响预测的。造成基于聚类框架下伪标签微调过程中容易出现噪声伪标签的负面影响。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种基于反事实注意力学习的行人再识别方法,该方法能够有效提高行人再识别的准确度。

技术方案:本发明一方面公开了一种基于反事实注意力学习的行人再识别方法,包括步骤:

S1、建立教师模型和学生模型,所述教师模型和学生模型的结构相同;所述教师模型的输入为行人图像,结构包括主干网络和分类器,其中主干网络用于提取行人图像的特征,分类器用于根据行人图像的特征获取行人图像的类别概率;

采用源域数据集对教师模型进行预训练,所述预训练的目标为最小化分类损失函数,所述分类损失函数

其中p(y

将学生模型的参数初始化为预训练后教师模型的参数;

S2、将目标域数据集中的图像输入教师模型,所述教师模型主干网络输出目标域图像的特征;对目标域图像的特征进行聚类,根据聚类后的类别生成目标域图像的伪标签,每个聚类中心的特征向量拼接为目标域聚类中心矩阵

S3、将源域数据集中的图像输入教师模型,所述教师模型主干网络输出源域图像的特征;依照源域图像的真实身份标签,对提取到的属于同一身份的源域图像特征向量取平均得到该行人身份的类中心向量,每个类中心的特征向量拼接为源域类中心矩阵

R

S4、令教师模型的参数保持不变,采用迭代训练优化学生模型的参数;迭代训练优化的目标为最小化损失函数,具体的训练中每个批次的样本包括N

S4.1A、计算目标分类损失L

其中

S4.2A、计算源域图像z

将z

利用空间注意力模块提取f

F

其中attention(·)表示空间注意力模块提取注意力特征图运算,F

利用F

将局部注意力组合起来并归一化,得到源域图像z

Z

其中normalize表示归一化运算;

将全局特征Z

Y

生成反注意力特征图

采用反注意力特征图

注意力对预测的影响值为:

S4.3A、计算注意力度量损失:

y

S5、对教师模型的参数进行加权平均更新;

迭代训练优化结束后,根据学生模型的参数对教师模型的参数进行加权平均更新;将目标域图像输入更新后的教师模型,分类器输出类别概率,选择类别概率最大值对应的类别作为输入图像的识别结果。

进一步地,所述教师模型的主干网络包括依次连接的第一卷积模块、第一池化模块、第一注意力模块、第二卷积模块、第二注意力模块、第三卷积模块、第三注意力模块、第四卷积模块、第四注意力模块、第五卷积模块、第五注意力模块、第二池化模块。

进一步地,所述第一注意力模块、第二注意力模块、第三注意力模块、第四注意力模块、第五注意力模块的结构相同,包括级联的2D卷积层和激活单元。

进一步地,通过计算教师模型和学生模型输出差异来计算不确定性,从而得到目标域图像伪标签的可信度或可靠性,并利用该可信度或可靠性对损失函数进行加权,具体地,所述加权后的目标分类损失计算步骤为:

S4.1B、计算目标域图像x

将x

计算第一特征f

将x

计算第二特征

基于KL散度计算x

其中L

S4.2B、计算目标域图像x

S4.3B、计算加权后的目标域分类损失L

其中

进一步地,所述损失函数还包括三重态损失,计算步骤包括:

S4.4B、根据目标域图像构建三元组:从N

计算每个三元组中anchor样本、正样本、负样本的不确定性

计算正样本对anchor样本的可靠性

其中:

S4.5B、计算可靠性加权的三重态损失:

其中

进一步地,所述损失函数还包括对比损失,计算步骤为:

S4.6B、根据训练样本建立memory bank;将目标域图像x

其中

另一方面,本发明还公开了一种基于反事实注意力学习的行人再识别系统,所述系统为根据上述方法得到的教师模型。

本发明还公开了一种计算机存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述行人再识别方法。

有益效果:与现有技术相比,本发明公开的基于反事实注意力学习的行人再识别方法和系统具有如下优点:

1、本发明针对数据集中行人图像存在背景杂波和遮挡问题,提出了反注意力学习机制。大多数现有方法以弱监督的方式学习视觉注意,即注意模块仅由最终损失函数监督,而没有强大的监督信号来指导训练过程。这种基于可能性的方法仅明确监督最终预测,但忽略了预测和注意之间的因果关系。本发明提出了一个新的基于因果推理的反事实注意力学习方法来增强目标域行人图像的判别性特征学习解决目标域行人图像存在遮挡和背景杂波问题。其基本思想是通过比较事实(即学习的注意力)和反事实(即虚假的注意力)对最终预测的影响来量化注意力的质量。并最大化差异以促进网络学习更有效的视觉注意力并减少有偏训练集的影响。

2、针对噪声标签问题,现有一些域自适应算法通过在线修正不正确的样本来帮助模型学习更具鲁棒性的特征表示。尽管这些域自适应算法已经取得了显著的进步,但是相对于无监督行人再识别其识别准确率依旧不尽人意。本发明通过测量两个模型(基于平均教师方法的学生模型和教师模型)的输出特征的不一致性水平,作为目标域样本的不确定性分布。通过估计和利用样本的不确定性来减轻噪声伪标签的负面影响,从而实现更加有效的域自适应算法。

附图说明

图1为实施例1中的训练框架图;

图2为反事实注意力学习模块的结构示意图;

图3为实施例2中的训练框架图。

具体实施方式

下面结合附图和具体实施方式,进一步阐明本发明。

实施例1:

本发明公开了一种基于反事实注意力学习的行人再识别方法,包括步骤:

S1、建立教师模型和学生模型,所述教师模型和学生模型的结构相同;所述教师模型的输入为行人图像,结构包括主干网络和分类器,其中主干网络用于提取行人图像的特征,分类器用于根据行人图像的特征获取行人图像的类别概率;所述主干网络包括依次连接的第一卷积模块、第一池化模块、第一注意力模块、第二卷积模块、第二注意力模块、第三卷积模块、第三注意力模块、第四卷积模块、第四注意力模块、第五卷积模块、第五注意力模块、第二池化模块。本实施例中,教师模型和学生模型基于ResNet50网络,对该网络增加5个注意力模块,具体网络如表1所示。

表1给出了本实施例中第一卷积模块Conv_1、第一池化模块MaxPool_1、第一注意力模块Att_1、第二卷积模块Conv_2x、第二注意力模块Att_2、第三卷积模块Conv_3x、第三注意力模块Att_3、第四卷积模块Conv_4x、第四注意力模块Att_4、第五卷积模块Conv_5x、第五注意力模块Att_5、第二池化模块MaxPool_2和分类器Classifier的结构参数。其中第一注意力模块Att_1、第二注意力模块Att_2、第三注意力模块Att_3、第四注意力模块Att_4、第五注意力模块Att_5的结构相同,均为包括级联的2D卷积层和激活单元,但其中卷积层的输出通道数不同。

表1网络结构参数

采用源域数据集对教师模型进行预训练,所述预训练的目标为最小化分类损失函数,所述分类损失函数

其中p(y

将学生模型的参数初始化为预训练后教师模型的参数;

S2、将目标域数据集中的图像输入教师模型,所述教师模型主干网络输出目标域图像的特征;对目标域图像的特征进行聚类,根据聚类后的类别生成目标域图像的伪标签,每个聚类中心的特征向量拼接为目标域聚类中心矩阵

S3、将源域数据集中的图像输入教师模型,所述教师模型主干网络输出源域图像的特征;依照源域图像的真实身份标签,对提取到的属于同一身份的源域图像特征向量取平均得到该行人身份的类中心向量,每个类中心的特征向量拼接为源域类中心矩阵

R

S4、令教师模型的参数保持不变,采用迭代训练优化学生模型的参数;迭代训练优化的目标为最小化损失函数,具体的训练中每个批次的样本包括N

其中λ

注意力模块是行人再识别框架中指导网络提取行人图像最具判别力特征的重要组成部分。为了学习到更好的注意力权重,本发明引入了一种反事实注意力机制,通过衡量网络学习到的注意力特征图和随机生成的反事实注意力特征图对分类结果的影响,从而使网络学习更好的注意力权重。训练框架如图1所示,图中实线为源域图像的流向,虚线为目标域图像的流向,具体步骤为:

S4.1A、计算目标分类损失L

其中

S4.2A、计算源域图像z

将z

利用空间注意力模块提取f

F

其中attention(·)表示空间注意力模块提取注意力特征图运算,F

利用F

将局部注意力组合起来并归一化,得到源域图像z

Z

其中normalize表示归一化运算;

将全局特征Z

Y

生成反注意力特征图

采用反注意力特征图

注意力对预测的影响值为:

S4.3A、计算注意力度量损失:

y

S5、对教师模型的参数进行加权平均更新;

迭代训练优化结束后,根据学生模型的参数对教师模型的参数进行加权平均更新。本实施例采用文献:Tarvainen A,Valpola H.Mean teachers are better rolemodels:Weight-averaged consistency targets improve semi-supervised deeplearning results[J].2017.中的方法对学生模型参数进行优化,并对教师模型的参数进行加权平均更新。

将目标域图像输入更新后的教师模型,分类器输出类别概率,选择类别概率最大值对应的类别作为输入图像的识别结果。

实施例2:

本实施例与实施例1的区别是采用可信度权重对目标分类损失函数中的部分进行了加权。

不正确的伪标签会在训练中误导特征学习,影响域自适应模型的性能。本实施例中,通过评估教师模型和学生模型输出差异来估计不确定性分布,从而评估目标域图像的伪标签的可信度或可靠性,并利用该可信度或可靠性对损失函数进行加权,以此抑制错误伪标签样本对训练的负面影响,提高模型的域自适应性能。迭代训练优化的目标为最小化损失函数,损失函数除了注意力度量损失外,还可以包括分类损失、三重态损失、对比损失中的一种或多种,本实施例中,损失函数为注意力度量损失和上述三种损失之和,训练框架如图3所示,具体地,一个训练批次包括步骤:

S4.1B、计算目标域图像x

将x

计算第一特征f

将x

计算第二特征

本发明使用KL散度来测量教师模型和学生模型所提取特征向量概率分布之间的差异,即:

基于KL散度计算x

其中L

S4.2B、计算目标域图像x

S4.3B、根据不确定性的计算式可知,教师模型和学生模型对同一图像输出的差异越大,则不确定性越高,相应地,可信度权重就越低;由此得到使用可信度权重加权后的目标分类损失L

其中

S4.4B、根据目标域图像构建三元组:从N

根据步骤S4.1B计算每个三元组中anchor样本

计算正样本对anchor样本的可靠性

本实施例采用正样本和anchor样本可信度的均值作为正样本对anchor样本的可靠性,即:

同理,

S4.5B、计算可靠性加权的三重态损失:

其中

S4.6B、根据训练样本建立memory bank;

基于记忆库(memory bank)的方法已广泛用于无监督表示学习,这有助于为一般任务引入对比损失,它是在训练开始之前存储训练集数据通过主干网络提取的特征表示,以利用样本和全局memory bank的样本之间的相似性更好的优化网络。本发明采用文献:Wang X,Zhang H,Huang W,et al.Cross-Batch Memory for Embedding Learning[J].2019.中的方法建立与维护memory bank;

将目标域图像x

其中

综上,本实施例中迭代训练优化的目标为最小化损失函数L

L

其中λ

本实施例在Market-1501和DukeMTMC-ReID数据集上进行了对比实验,结果如表2所示。

表2:在Market-1501、DukeMTMC-ReID数据集上测试结果

表2中,方法BUC是采用文献:Lin Y,X Dong,Zheng L,et al.A Bottom-UpClustering Approach to Unsupervised Person Re-Identification[J].Proceedingsof the AAAI Conference on Artificial Intelligence,2019,33:8738-8745中的方法进行识别;方法ECN是采用文献:Zhong Z,Zheng L,Luo Z,et al.Invariance Matters:Exemplar Memory for Domain Adaptive Person Re-identification[J].IEEE,2019.中的方法进行识别;MAR是采用文献:Yu H X,Zheng W S,Wu A,et al.Unsupervised PersonRe-Identification by Soft Multilabel Learning[C]//2019IEEE/CVF Conference onComputer Vision and Pattern Recognition(CVPR).IEEE,2019.中的方法进行识别;PDA-Net是采用文献:Li Y J,Lin C S,Lin Y B,et al.Cross-Dataset Person Re-Identification via Unsupervised Pose Disentanglement and Adaptation[J].IEEE,2019.中的方法进行识别;PCB是采用文献:Zhang X,Cao J,Shen C,et al.Self-trainingwith progressive augmentation for unsupervised cross-domain person re-identification[J].IEEE,2019.中的方法进行识别;SSG是采用文献:Fu Y,Wei Y,Wang G,et al.Self-similarity Grouping:A Simple Unsupervised Cross Domain AdaptationApproach for Person Re-identification[J].2018.中的方法进行识别;MPLP是采用文献:Wang D,Zhang S.Unsupervised Person Re-identification via Multi-labelClassification[J].IEEE,2020.中的方法进行识别;AD-Cluster是采用文献:Zhai Y,LuS,Ye Q,et al.AD-Cluster:Augmented Discriminative Clustering for DomainAdaptive Person Re-Identification[J].IEEE,2020.中的方法进行识别;MMT是采用文献:Liu J,Zha Z J,D Chen,et al.Adaptive Transfer Network for Cross-DomainPerson Re-Identification[C]//2019IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2019.中的方法进行识别;NRMT是采用文献:Zhao F,Liao S,Xie G S,et al.Unsupervised Domain Adaptation with Noise ResistibleMutual-Training for Person Re-identification[C]//European Conference onComputer Vision.Springer,Cham,2020.中的方法进行识别;UNRN是采用文献:Zheng K,Lan C,Zeng W,et al.Exploiting Sample Uncertainty for Domain Adaptive PersonRe-Identification[J].2020.中的方法进行识别;GLT是采用文献:Zheng K,Liu W,He L,et al.Group-aware Label Transfer for Domain Adaptive Person Re-identification[J].2021.中的方法进行识别;Ours是本实施例中的方法进行识别。

由表2可以看出,本发明的Rank-1、Rank-5、Rank-10和mAP指标均在一定程度上优于当时先进方法,在两个数据集上进行的跨域实验也证明了本方法在各种数据集上均具有良好的泛化性能。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号