首页> 中国专利> 面向携带新类别的增量数据的快速跨模态检索方法及系统

面向携带新类别的增量数据的快速跨模态检索方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提出了面向携带新类别的增量数据的快速跨模态检索方法及系统，包括：增量哈希学习步骤：从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示，然后根据已有类别标签与未知类别标签的相似性关系，获取未知类别标签的二值表示，用来监督增量类别数据库中增量数据的哈希码的生成；哈希函数学习步骤：在哈希函数的学习过程中，从已知类别数据库及增量类别数据库中通过抽样获取锚点集，基于该锚点集采用非对称策略更新深度网络的参数，进行哈希函数的学习，获得所需模型。可以在保持原有数据的哈希码不变的情况下直接学习未知增量类数据的哈希码，从而可以满足快速训练的模式要求。

著录项

公开/公告号CN113326289A

专利类型发明专利
公开/公告日2021-08-31

原文格式PDF
申请/专利权人山东大学;
展开▼

申请/专利号CN202110878050.X
发明设计人罗昕;孙钰;詹雨薇;许信顺;
展开▼

申请日2021-08-02
分类号G06F16/2453(20190101);G06N3/04(20060101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人李圣梅
地址 250061 山东省济南市历下区经十路17923号
入库时间 2023-06-19 12:24:27

说明书

技术领域

本发明属于跨模态检索、深度学习技术领域，尤其涉及面向携带新类别的增量数据的快速跨模态检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着互联网的发展，由各种智能终端设备和网站产生的图像、文本、视频、音频等多媒体数据呈现爆炸式增长趋势。面对这些丰富的海量多媒体数据，如何在庞大的数据库中根据用户需求在多模态数据之间进行快速准确的检索，是多媒体信息检索研究的热点。因此，跨模态检索应运而生，其主要目的是使用一种模态的查询数据去检索数据库中与之相似的另一种模态的数据，例如可以使用图片检索文本信息。其中，基于哈希的跨模态检索方法凭借其较小的存储消耗和快速的查询速度可以解决大规模数据检索所面临的问题，它可以将原始空间中的海量高维多媒体数据映射为海明空间中紧凑的二进制哈希码，同时保持数据之间的相似性，即原始空间中相似的样本在海明空间中依然相似。使用二值哈希码表示高维数据不仅有益于压缩存储空间，还可以便于计算机通过简单的异或操作来计算得到两个样本之间的距离，提高检索效率。

通常来说，跨模态哈希方法根据是否使用监督信息可以分为无监督跨模态哈希和有监督跨模态哈希。无监督跨模态哈希方法不使用监督信息，只利用原始数据的结构信息来训练模型；而有监督跨模态哈希方法则通过挖掘人工标注的标签中的语义信息来构建数据之间的相似性，从而具有更好的表现力。此外，随着深度网络的应用和发展，基于深度学习的跨模态哈希方法相继被提出。相较于将特征提取与哈希学习分离的非深度跨模态哈希来说，基于深度网络的跨模态哈希方法利用强大的神经网络将特征学习和非线性哈希函数学习融合到一个端到端的框架中，可以进一步提高模型的性能。

但是，现有的深度跨模态哈希方法不能很好的解决增量学习的问题。也就是说大多数深度跨模态哈希方法不能及时适配新出现的未知类别标签的增量数据，需要将其与原有数据同时喂入网络重新训练模型。这种模式存在以下缺点：首先，将所有数据重新训练意味着完全忽略通过之前训练得到的原有数据的哈希码，浪费了计算资源和训练时间；此外，随着越来越多的未知类别标签的增量数据的产生，将原有数据和增量数据同时喂入网络会提高模型的计算复杂性，违背了大规模多媒体数据下快速精确检索的需求；并且当前存在的增量哈希学习方法不能处理跨模态检索问题。

发明内容

为克服上述现有技术的不足，本发明提供了面向携带新类别的增量数据的快速跨模态检索方法，充分利用已有数据的哈希码，避免重复学习导致的训练时间和计算资源的浪费。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了面向携带新类别的增量数据的快速跨模态检索方法，包括：

增量哈希学习步骤：从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示，然后根据已有类别标签与未知类别标签的相似性关系，获取未知类别标签的二值表示，用来监督增量类别数据库中增量数据的哈希码的生成；

哈希函数学习步骤：在哈希函数的学习过程中，从已知类别数据库及增量类别数据库中通过抽样获取锚点集，基于该锚点集采用非对称策略更新深度网络的参数，进行哈希函数的学习，获得所需模型；

检索步骤：基于该模型进行生成查询样本的哈希码，然后与存储的哈希码进行比较，寻找海明距离最近的多个样本并将其输出为检索结果。

进一步的技术方案，获取未知类别标签的二值表示之后，通过增量数据的标签矩阵与未知类别标签表示直接学习获取增量数据的哈希码。

进一步的技术方案，从已知类别数据库及增量类别数据库中通过抽样获取锚点集之后，将锚点集中的图像和文本模态分别喂入CNN网络和MLP网络来提取对应的模态特征，经过网络的哈希层得到锚点集合的哈希表示。

进一步的技术方案，采用深度跨模态哈希方法作为基模型获取哈希码。

进一步的技术方案，在增量哈希学习过程中，保持已有的哈希码的不变性，根据哈希码与其标注的标签的二值类别标签表示的相似性，从以下公式中学到已有类别标签的二值表示；

其中，已有哈希码

进一步的技术方案，在学得已有类别标签的二值表示和增量类别标签的二值表示后，根据目标函数获取新来的增量数据的哈希码，该目标函数是利用增量数据的哈希码与二值类别标签表示的相似性关系得到的。

进一步的技术方案，目标函数定义为：

其中

进一步的技术方案，哈希函数学习的过程中，使用CNN-F模型和MLP模型分别作为图像网络ImgNet和文本网络TxtNet的骨干，构建用于解决增量哈希学习问题的端到端的框架。

进一步的技术方案，将CNN-F模型中最后一个全连接层替换为哈希层，用于将倒数第二层多维的输出映射为

进一步的技术方案，哈希函数学习的过程中，针对学习哈希函数的损失进行优化，在优化的过程中，在每一步中都是固定其他变量而优化其中一个变量。

第二方面，公开了面向携带新类别的增量数据的快速跨模态检索方法，包括：

增量哈希学习模块，被配置为：从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示，然后根据已有类别标签与未知类别标签的相似性关系，获取未知类别标签的二值表示，用来监督增量类别数据库中增量数据的哈希码的生成；

哈希函数学习模块，被配置为：在哈希函数的学习过程中，从已知类别数据库及增量类别数据库中通过抽样获取锚点集，基于该锚点集采用非对称策略更新深度网络的参数，进行哈希函数的学习，获得所需模型；

检索模块，被配置为：基于该模型进行生成查询样本的哈希码，然后与存储的哈希码进行比较，寻找海明距离最近的多个样本并将其输出为检索结果。

以上一个或多个技术方案存在以下有益效果：

基于用于增量学习的基于深度学习的跨模态哈希方法，可以在保持原有数据的哈希码不变的情况下直接学习未知增量类数据的哈希码，从而可以满足快速训练的模式要求。

本发明使用端到端的框架在深度学习的基础上去解决增量学习的问题，端到端的模式可以充分发挥特征学习和哈希码学习的相互促进作用，提高模型的性能。

本发明所训练模型可以为增量类别标签空间建模，从而能够监督生成未知类别的哈希码，通过实验可以发现本发明设计模型可以基本达到基模型效果，基模型是将原有数据和未知增量类数据重新进行训练的），验证了模型的有效性。

本发明模型具有较高的效率，具体来说，本发明提出的模型只需要大概11分钟就可以达到较好的效果，而对比方法则需要超过4小时才能得到这样的结果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例设计的模型的工作流程；

图2为本发明实施例整体方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了面向携带新类别的增量数据的快速跨模态检索方法，主要包括两个方面：

1）如何在保持原有哈希码不变的情况下，从已有数据的哈希码中提取不同类别标签的信息来对增量类别标签空间建模，然后使用未知类别标签的表示监督生成增量数据的哈希码，从而避免重复训练，提高模型效率。

2）如何在保证哈希码质量的情况下，进一步缩短模型训练时间。

整体构思为：首先从已知哈希码中提取已知类别标签的二值表示，然后根据已有类别标签与未知类别标签的相似性关系，获取未知类别标签的二值表示用来监督增量数据的哈希码的生成；在哈希函数的学习过程中，模型采用非对称策略更新深度网络的参数，进行哈希函数的学习。

本发明实施例子是以图像和文本模态为例来阐述模型的工作流程，需要说明的是，本发明的方案可以很容易地扩展到其他多媒体模态。

具体的，如图1所示，本发明设计的模型主要由增量哈希学习和高效哈希函数学习两个模块组成。

在增量哈希学习阶段，模型首先提取原始数据库（original database）的已知哈希码

在高效哈希函数学习阶段，为了在保证哈希码质量的前提下提高训练速度，模型首先从原始数据库和增量数据库中抽样获取锚点集（anchor set）

以下将从五个方面详细介绍本发明设计的模型的工作流程。

1）原有哈希码学习

在使用本发明的模型之前，需要获取原有数据库中多媒体数据的原有哈希码

2）增量哈希学习

本发明的主要目的是在保持已有数据库中哈希码

由于在增量哈希学习过程，希望保持已有的哈希码

在学得已有类别标签的二值表示

其中，

综合公式(1)(2)(3)的优化函数，本发明的目标函数定义为：

其中

3）高效哈希函数学习

由于端到端的深度网络框架可以使特征学习和哈希码学习之间起到相互促进的作用，提高模型的效果，因此，本发明使用CNN-F模型和MLP模型分别作为图像网络ImgNet和文本网络TxtNet的骨干，构建了一个用于解决增量哈希学习问题的端到端的框架。CNN-F模型：是一个卷积神经网络，用于生成图片的深度特征表示，MLP模型：是一个全连接网络，用于生成文本的深度特征表示。网络的具体实现如下：

①ImgNet：初始的CNN-F网络由五个卷积层和三个全连接层组成，为了适配哈希学习的需求，在本发明设计的模型中，将CNN-F网络中最后一个全连接层替换为哈希层，用于将倒数第二层4096维的输出映射为r维的输出。定义用于图像模态的哈希函数为：

其中，

②TxtNet:本发明采用的MLP模型包含两个全连接层，第一层包含8192个神经元，第二层包含

其中，

为了提高网络训练的效率，本发明实施例子采用了非对称策略来更新网络。首先，先随机从原始数据库和增量数据库中抽取样本组成大小为

公式7用于学习哈希函数，更新网络的参数

另外，由于

此外，本发明提出的模型还增加了位平衡约束：

4）最终总体目标损失：

其中，

5）损失函数优化过程

本发明设计的模型采用的是迭代优化的策略来优化参数

①优化

本发明使用随机梯度下降（SGD）通过反向传播（BP）算法来更新

其中，符号

②优化

与更新

③优化

当其他变量固定，只优化

将上式展开并且省略常数项可得：

其中

因此，优化公式(14)等价于在每次迭代中优化

以上损失函数存在以下封闭解：

④优化

当其他变量固定，只优化

优化

其中

⑤优化

当其他变量固定，只优化

其中，

因此，优化

同理，以上目标函数可以由DCC优化策略求解，更新

其中

在更为具体的实施例子中，参见附图2所示，包括训练阶段以及测试阶段：

1）训练阶段：

①根据已知类别数据库的哈希码

③然后从已知类别数据库与增量类别数据库中抽取锚点集，将原始图片和文本的BOW向量信息分别喂入CNN网络和MLP，根据已经获取的增量数据的哈希码

在训练的过程中，两个反馈

③固定模型参数，使用模型得到所有样本对应的哈希码，存入数据库以备使用。

2）测试阶段

将查询集的图像信息和文本的BOW向量分别喂入训练好的CNN网络和MLP，生成查询样本的哈希码，然后与数据库中存储的哈希码进行比较，寻找海明距离最近的

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供面向携带新类别的增量数据的快速跨模态检索方法，包括：

检索模块，被配置为：基于该模型进行生成查询样本的哈希码，然后与存储的哈希码进行比较，寻找海明距离最近的多个样本并将其输出为检索结果。

以上实施例的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 面向携带新类别的增量数据的快速跨模态检索方法及系统 [P] . 中国专利： CN113326289B . 2021.11.02
2. 面向携带新类别的增量数据的快速跨模态检索方法及系统 [P] . 中国专利： CN113326289A . 2021-08-31
3. CROSS-MODAL RETRIEVAL METHOD AND SYSTEM [P] . 世界知识产权组织专利： WO2020042597A1 . 2020-03-05

机译：跨模态检索方法和系统
4. CONVERSION OF A CLASS ORIENTED DATA FLOW PROGRAM TO A STRUCTURE ORIENTED DATA FLOW PROGRAM WITH DYNAMIC INTERPRETATION OF DATA TYPES [P] . 美国专利： US2010275194A1 . 2010-10-28

机译：通过数据类型的动态解释将面向类别的数据流程序转换为面向结构的数据流程序
5. Cross-modal sensory analysis system, presentation information determination system, information presentation system, cross-modal sensory analysis program, presentation information determination program, and information presentation program [P] . 日本专利： JP6656570B2 . 2020-03-04

机译：跨模态感官分析系统，呈现信息确定系统，信息呈现系统，跨模态感官分析程序，呈现信息确定程序和信息呈现程序