首页> 中国专利> 基于模态特定记忆网络的跨模态行人重识别方法

基于模态特定记忆网络的跨模态行人重识别方法

摘要

本发明提供了一种基于模态特定记忆网络的跨模态行人重识别方法,包括:获取待重识别的行人图像和重识别类型;根据重识别类型,利用基于模态特定记忆网络的跨模态行人重识别模型处理待重识别的行人图像,得到重识别结果。本发明同时还提供了用于实现基于模态特定记忆网络的跨模态行人重识别方法的电子设备、存储介质以及计算机程序产品。

著录项

  • 公开/公告号CN114882525A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 中国科学技术大学;

    申请/专利号CN202210426984.4

  • 申请日2022-04-21

  • 分类号G06V40/10(2022.01);G06V20/52(2022.01);G06V10/143(2022.01);G06V10/80(2022.01);G06V10/74(2022.01);G06V10/774(2022.01);G06V10/82(2022.01);G06N3/04(2006.01);G06K9/62(2022.01);

  • 代理机构中科专利商标代理有限责任公司 11021;

  • 代理人鄢功军

  • 地址 230026 安徽省合肥市包河区金寨路96号

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06V40/10 专利申请号:2022104269844 申请日:20220421

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及计算机视觉领域,特别涉及一种基于模态特定记忆网络的跨模态行人重识别方法、重识别装置、电子设备以及存储介质。

背景技术

行人重识别是一项匹配不同相机视角下的行人图像的技术。行人重识别技术可以与行人检测、行人跟踪技术相结合,在视频监控、智能安防、刑事侦查等方面有着广泛应用。

然而,现有技术中关于行人重识别的方法存在无法充分利用行人的跨模态信息进行识别、或跨模态识别方法存在识别准确率不高、识别效果差等问题。

发明内容

鉴于上述问题,本发明提供了一种基于模态特定记忆网络的跨模态的模型的训练方法、电子设备、存储介质以及计算机程序产品,以期至少能解决上述问题之一。

根据本发明实施例,提供了一种基于模态特定记忆网络的跨模态行人重识别方法,包括:

获取待重识别的行人图像和重识别类型;

根据重识别类型,利用基于模态特定记忆网络的跨模态的模型处理待重识别的行人图像,得到重识别结果,其中,基于模态特定记忆网络的跨模态的模型如下方法训练得到:

利用特征提取模块分别处理行人的可见光图像和红外图像,得到可见光图像特征图和红外图像特征图;

将可见光图像特征图中的每个分割部分进行平均池化,得到可见光特征,将红外图像特征图中的每个分割部分进行平均池化,得到红外特征;

利用模态特定记忆网络模块重构行人的可见光特征和红外特征,得到行人的可见光重构特征和红外重构特征,其中,模态特定记忆网络模块用于存储和传输行人的可见光重构特征和红外重构特征;

利用统一特征对齐模块处理行人的可见光特征、红外特征、可见光重构特征和红外重构特征,得到行人的多模态统一表征,其中,多模态统一表征包括可见光统一表征和红外统一表征;

利用行人的可见光特征、红外特征、可见光重构特征、红外重构特征和多模态统一表征,根据预设的损失函数优化跨模态的模型,直到预设的损失函数的值满足预设条件,获得训练完成的基于模态特定记忆网络的跨模态的模型。

根据本发明实施例,上述利用模态特定记忆网络模块重构行人的可见光特征和红外特征,得到行人的可见光重构特征和红外重构特征包括:

利用模态特定记忆网络分别处理可见光特征和红外特征,得到可见光记忆项和红外记忆项;

计算可见光特征和可见光记忆项的余弦相似度,得到可见光余弦相似度;

对可见光余弦相似度进行归一化处理,得到可见光归一化向量;

根据红外记忆项和可见光归一化向量,获得红外重构特征;

计算红外特征和红外记忆项的余弦相似度,得到红外余弦相似度;

对红外余弦相似度进行归一化处理,得到红外归一化向量;

根据可见光记忆项和红外归一化向量,获得可见光重构特征。

根据本发明实施例,上述可见光余弦相似度由公式(1)确定:

其中,

其中,红外重构特征由公式(2)确定:

其中,

其中,τ表示可见光温度系数。

根据本发明实施例,上述红外余弦相似度由公式(4)确定:

其中,

其中,可见光重构特征由公式(5)确定:

其中,

其中,τ表示红外温度系数。

根据本发明实施例,上述利用统一特征对齐模块处理行人的可见光特征、红外特征、行人的可见光重构特征和红外重构特征,得到行人的多模态统一表征包括:

利用统一特征对齐模块将可见光特征和红外重构特征进行融合,得到可见光统一表征;

利用统一特征对齐模块将红外特征和可见光重构特征进行融合,得到红外统一表征。

根据本发明实施例,上述预设的损失函数由公式(7)确定:

其中,

根据本发明实施例,上述模态统一表征分类损失函数由公式(8)确定:

其中,模态特征分类损失函数由公式(9)确定:

其中,重构一致损失函数由公式(10)确定:

其中,重构损失函数由公式(11)确定:

其中,模态特定记忆项损失函数由公式(12)确定:

其中,模态特定记忆项判别损失函数由公式(13)确定:

其中,y

根据本发明实施例,提供了一种电子设备,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述一种基于模态特定记忆网络的跨模态行人重识别方法。

根据本发明实施例,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述一种基于模态特定记忆网络的跨模态行人重识别方法。

根据本发明实施例,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述一种基于模态特定记忆网络的跨模态行人重识别方法。

本发明提供的跨模态行人重识别方法基于模态特定记忆网络,通过预先训练完成的基于模态特定记忆网络的跨模态行人重识别模型,处理行人的跨模态特征,从而建立起行人的可见光模态特征和红外模态特征之间的对应关系,进行实现具有较高识别准确率和良好识别效率的跨模态行人重识别。

附图说明

图1是根据本发明实施例的基于模态特定记忆网络的跨模态行人重识别方法的流程图;

图2是根据本发明实施例的基于模态特定记忆网络的跨模态的模型的训练方法的流程图;

图3是根据本发明实施例获取行人多模态重构特征的流程图;

图4是根据本发明实施例的获取行人的多模态统一表征的流程图;

图5是根据本发明实施例的基于模态特定记忆网络的跨模态的模型的训练框架图;

图6示意性示出了根据本发明实施例的适于基于模态特定记忆网络的跨模态行人重识别方法和基于模态特定记忆网络的跨模态的模型的训练方法的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。

现有的行人重识别方法主要专注于白天场景下,由普通相机所拍摄的可见光行人图像间的检索,可以将其看作为单模态图像匹配的问题。但是,在夜间等光照条件较差的环境下,普通相机很难捕捉到行人有效的外观信息。为了克服这个限制,在光照条件变化时,一些监控摄像机可以在可见光与红外模式之间自由切换。因此,设计有效的模型去实现可见光—红外图像间的行人检索,即跨模态行人重实别问题是十分必要的。

目前的跨模态行人重识别方法可以大体归为两类:模态共享特征学习类方法和模态信息补全类方法。模态共享特征学习类方法试图将不同模态的图像嵌入到共享的特征空间中。然而,由于可见光和红外图像的外观差异很大,如何将不同形态的图像直接嵌入到一个共享的特征空间中仍然是一个难题。此外,由于可见光图像的颜色等模态信息被这类方法视为冗余信息,模态共享特征学习类方法的特征表示的判别性受到限制。为了解决这一问题,模态信息补全类的方法被提出,其目标是利用输入模态的信息补全另一个的模态信息。然而,由于模型仅采用单一的模态输入,很难填补缺失的模态信息以解决模态差异问题。

有鉴于此,本申请提供了一种基于模态特定记忆网络的跨模态的模型的训练方法、行人重识别方法以及电子设备。上述行人重识别方法,通过基于模态特定记忆网络的跨模态的模型的训练方法得到基于模态特定记忆网络的跨模态的模型,来实现缺失模态信息补全,从而解决跨模态行人重实别中的模态差异问题,进而判断不同模态的行人图像是否属于同一行人。

在本发明的技术方案中,所涉及的行人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。

图1是根据本发明实施例的基于模态特定记忆网络的跨模态行人重识别方法的流程图。

如图1所示,上述行人重识别方法包括操作S110~操作S120。

在操作S110,获取待重识别的行人图像和重识别类型;

在操作S120,根据重识别类型,利用基于模态特定记忆网络的跨模态的模型处理待重识别的行人图像,得到重识别结果。

图2是根据本发明实施例的获取基于模态特定记忆网络的跨模态的模型的训练方法的流程图。

如图2所示,上述基于模态特定记忆网络的跨模态的模型的训练方法包括操作S210~操作S250。

在操作S210,利用特征提取模块分别处理行人的可见光图像和红外图像,得到可见光图像特征图和红外图像特征图。

上述特征提取模块优选地采用双流卷积神经网络,上述卷积神经网络的前两个卷积块是模态特有的(例如专门用于处理可见光的卷积块),以捕获特定于模态的低层特征(低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多)模式,而深度卷积块的参数是两种模态共享的(可见光和红外共有)。

在操作S220,将可见光图像特征图中的每个分割部分进行平均池化,得到可见光特征,将红外图像特征图中的每个分割部分进行平均池化,得到红外特征。

在操作S230,利用模态特定记忆网络模块重构行人的可见光特征和红外特征,得到行人的可见光重构特征和红外重构特征。

上述模态特定记忆网络模块用于保存每个模态(可见光或红外)的原型特征,同时上述模态特定记忆网络模块可用于存储和传输所述行人的所述可见光重构特征和所述红外重构特征

在操作S240,利用统一特征对齐模块处理行人的可见光特征、红外特征、可见光重构特征和红外重构特征,得到行人的多模态统一表征。

在操作S250,利用行人的可见光特征、红外特征、可见光重构特征、红外重构特征和多模态统一表征,根据预设的损失函数优化跨模态的模型,直到预设的损失函数的值满足预设条件,获得基于模态特定记忆网络的跨模态的模型。

上述基于模态特定记忆网络的跨模态的模型的训练方法通过处理行人的可见光图像和红外图像,获取行人的可见光图像特征和红外图像特征,并利用模态特定记忆网络重构上述可见光图像特征和红外图像特征,从而获得行人的可见光和红外重构特征,同时利用统一对齐模块处理上述重构特征,获得行人的可见光和红外统一表征,然后利用多模态特征和预设的损失函数训练优化基于模态特定记忆网络的跨模态的模型;通过迭代训练优化上述模型,获得具有较高识别准确率和良好识别效果的基于模态特定记忆网络的跨模态的模型。

本发明提供的跨模态行人重识别方法基于模态特定记忆网络,通过预先训练完成的基于模态特定记忆网络的跨模态行人重识别模型,处理行人的跨模态特征,从而建立起行人的可见光模态特征和红外模态特征之间的对应关系,进行实现具有较高识别准确率和良好识别效率的跨模态行人重识别。

下面结合具体实施方式,对上述获取行人的可见光特征和红外特征进行详细地说明。

对于给定的图像(如行人的可见光图像或行人的红外图像),可以提取可见光图像特征图

图3是根据本发明实施例获取行人多模态重构特征的流程图。

如图3所示,利用模态特定记忆网络模块处理行人的多模态特征,得到行人的多模态重构特征包括操作S310~操作S370。

在操作S310,利用模态特定记忆网络分别处理可见光特征和红外特征,得到可见光记忆项和红外记忆项。

上述记忆项就是模态特定记忆网络中的每一项,具体是把一些具有代表性的样本存储在记忆网络中。

在操作S320,计算可见光特征和可见光记忆项的余弦相似度,得到可见光余弦相似度。

在操作S330,对可见光余弦相似度进行归一化处理,得到可见光归一化向量。

上述可见光归一化向量由公式

在操作S340,根据红外记忆项和可见光归一化向量,获得红外重构特征。

在操作S350,计算红外特征和红外记忆项的余弦相似度,得到红外余弦相似度。

在操作S360,对红外余弦相似度进行归一化处理,得到红外归一化向量。

上述红外归一化向量由公式

在操作S370,根据可见光记忆项和红外归一化向量,获得可见光重构特征。

下面结合具体实施方式,对上述获得行人的多模态重构特征作进一步详细地说明。

上述模态特定记忆网络模块用于在可见光模态和红外模态之间准确地存储和传播信息,并获得统一的特征表示。给定一张输入图像(例如可见光图像或红外图像),可以从记忆网络中进行读取,以重建其丢失的模态特征。例如,给定一张可见光图像,可以重建它的红外特征。为了实现这一目标,引入了模态特定的记忆项

根据本发明实施例,上述可见光余弦相似度由公式(1)确定:

其中,

其中,红外重构特征由公式(2)确定:

其中,

其中,τ表示可见光温度系数。

根据本发明实施例,上述红外余弦相似度由公式(4)确定:

其中,

其中,可见光重构特征由公式(5)确定:

其中,

其中,τ表示红外温度系数。

通过公式(1)-(6)可以分别计算出行人的可见光重构特征和红外重构特征,根据上述公式计算处理的多模态重构特征,能够在跨模态识别过程中,发挥互相映射比对的作用,提升跨模态识别效率。

图4是根据本发明实施例的获取行人的多模态统一表征的流程图。

如图4所示,上述利用统一特征对齐模块处理行人的多模态特征和行人的多模态重构特征,得到行人的多模态统一表征包括操作S410~操作S420。

在操作S410,利用统一特征对齐模块将可见光特征和红外重构特征进行融合,得到可见光统一表征。

在操作S420,利用统一特征对齐模块将红外特征和可见光重构特征进行融合,得到红外统一表征。

在获得行人的重构的缺失模态特征后,将重构的缺失模态特征加入到输入特征中,得到统一的特征表示:

根据本发明实施例,上述预设的损失函数由公式(7)确定:

其中,

通过上述各类损失函数,可以提升基于模态特定记忆网络的跨模态的模型的优化效率和优化效果。

根据本发明实施例,上述模态统一表征分类损失函数由公式(8)确定:

上述模态统一表征分类损失函数用于预测行人的身份。

其中,模态特征分类损失函数由公式(9)确定:

上述模态特征分类损失函数用于使来自两种模态(可见光和红外)的局部特征具有判别性。

其中,重构一致损失函数由公式(10)确定:

上述重构一致损失函数用于使记忆网络重构的特征与骨干网提取的特征具有一致性,并利用两个模态鉴别器

其中,重构损失函数由公式(11)确定:

上述重构损失函数用于确保可以用来自相同模态的记忆项重构输入特征。首先得到重构的输入特征:

其中,模态特定记忆项损失函数由公式(12)确定:

上述模态特定记忆项损失函数用于对齐可见光和红外模态的记忆项之间对应关系,其中,D

其中,模态特定记忆项判别损失函数由公式(13)确定:

由于记忆项存储了每个模态的原型特征,它们应该有足够的识别力来代表行人图像的各种模式。上述模态特定记忆项判别损失函数用于使多模态的记忆项具有可分辨性。

其中,y

图5是根据本发明实施例的基于模态特定记忆网络的跨模态的模型的训练框架图。

下面结合图5对上述模型的训练过程作进一步详细地说明。

如图5所示,上述模型的输入是行人的可见光图像和红外图像。首先,模型的特征提取模块分别处理可见光图像和红外图像,用于获取行人的可见光特征和红外特征,在此过程中,相关的损失函数(例如判别器D

上述行人重识别方法,通过基于模态特定记忆网络的跨模态的模型的训练方法获得训练完成的基于模态特定记忆网络的跨模态的模型,并利用训练完成的基于模态特定记忆网络的跨模态的模型对行人进行重识别,能够根据输入的单模态行人图像,补全其缺失的模态信息,进而判断不同模态的行人图像是否属于同一行人,提高了行人重识别的准确率,同时,该方法可以广泛应用于安防系统、智慧城市等场景,也可以以软件的方式安装于前端设备上,提供实时可见光—近红外行人图像匹配或部署于公司的后台服务器,提供大批量可见光—近红外行人图像检索与匹配结果。

图6示意性示出了根据本发明实施例的适于基于模态特定记忆网络的跨模态行人重识别方法和基于模态特定记忆网络的跨模态的模型的训练方法的电子设备的方框图。

如图6所示,根据本发明实施例的电子设备600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 603中,存储有电子设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例,电子设备600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。

根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。

本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本发明实施例所提供的基于模态特定记忆网络的跨模态行人重识别方法和基于模态特定记忆网络的跨模态的模型的训练方法。

在该计算机程序被处理器601执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分609被下载和安装,和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

以上的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号