首页> 中国专利> 一种基于知识增强的视频-文本检索方法

一种基于知识增强的视频-文本检索方法

摘要

本发明公开了一种基于知识增强的视频‑文本检索方法,通过对视频‑文本深度学习预训练模型即CLIP模型对视频‑文本进行编码,将图文关联知识迁移,以便获取良好的视频‑文本表征。通过引入域外常识性知识图谱Conceptnet对视频‑文本编码进行知识增强,首先经过图卷积神经网络获取知识图谱的图嵌入向量,再使用Cross‑attention模块对文本编码进行知识增强;知识增强后的文本编码通过Xpool操作辅助视频帧的时间特征汇聚,并增强视频全局表征;经过知识增强的视频‑文本表征进行对比学习,提升视频‑文本检索性能;经过多组实验证明,本发明显著提高了视频‑文本检索的召回率。

著录项

  • 公开/公告号CN116628262A

    专利类型发明专利

  • 公开/公告日2023-08-22

    原文格式PDF

  • 申请/专利权人 中国传媒大学;

    申请/专利号CN202310618967.5

  • 发明设计人 杨盈昀;寇宏微;花妍;

    申请日2023-05-30

  • 分类号G06F16/783(2019.01);G06N5/02(2023.01);G06N3/0464(2023.01);G06N3/08(2023.01);G06F16/36(2019.01);G06F16/903(2019.01);G06F40/289(2020.01);G06N3/042(2023.01);

  • 代理机构北京思海天达知识产权代理有限公司 11203;

  • 代理人王兆波

  • 地址 100024 北京市朝阳区定福庄东街1号

  • 入库时间 2024-01-17 01:23:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-08

    实质审查的生效 IPC(主分类):G06F16/783 专利申请号:2023106189675 申请日:20230530

    实质审查的生效

  • 2023-08-22

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种基于知识增强的视频-文本检索方法,属于计算机视觉、多模态技术领域。

背景技术

随着通讯技术和互联网技术的飞速发展,网络带宽的提升,视频信息在互联网上的传播变得更加便利,各大短视频平台的兴起带动了视频时代的到来,人们观看、发布视频的需求也迅速增加,与此同时所带来的便是信息的碎片化、泛滥化,如何在海量的视频中筛选、检索出有价值的、自身所感兴趣的视频变得尤为重要。视频-文本检索技术需要考虑两种不同模态信号的处理,由于不同模态之间存在异质性,视频-文本检索需要解决的技术要点在于实现不同模态的对齐,跨越语义鸿沟。随着深度学习发展以来,视频-文本检索技术也得到了质的飞跃,通过训练复杂的神经网络,将不同模态的信号映射到同一语义空间,使得模态之间的对齐更为可行。

现有的视频-文本检索方法通常是基于深度学习和神经网络,训练不同模态的编码器和模态交互模块实现映射。输入一组视频-文本数据,分别通过对应的视频编码器与文本编码器,抽取视频特征与文本特征,同时降低向量维度,使信息更为稠密地集中在特征向量中。再通过模态交互模块将两种向量映射到同一空间,并在这个空间中使需要对齐的视频-文本向量更加接近,从而达到计算二者距离完成检索的目的。

一般的深度学习方法都采用标注了视频-文本对的数据集进行有监督训练,存在着一定问题。在一个视频和其对应的描述文本中,视频内容通常包含更多的细节信息,需要结合一定的知识才能够完全理解;而文本内容则是更为凝练,往往只覆盖了一小段的视频内容。仅仅通过数据集中的域内知识训练的视频-文本表征缺乏额外信息的填充,对不同模态表征之间的对齐造成困难,视频-文本检索的召回率有待提高。

发明内容

本发明的主要目的是提供一种基于知识增强的视频-文本检索方法。不同于视频检索领域通常所使用的依赖训练集域内知识的视频-文本检索方法,本发明的具体创新点在于采用了域外知识,包括视频-文本数据集中的知识,以及常识性知识,对文本编码向量和视频编码向量进行增强。由于文本内容的精炼性和视频内容的丰富性,在一些视频-文本对中,文本往往只能涵盖到视频的部分内容;而文本中单词存在的长尾分布的特性,使得仅仅利用域内知识难以对这部分内容进行视频-文本的关联。通过域外知识的增强能够辅助进行视频-文本的对齐,提升检索性能。

本发明的技术方案为一种基于知识增强的视频-文本检索方法,具体来说,主要步骤包括如下技术内容:

步骤1、使用对比视频-文本对的预训练模型即CLIP(Contrastive Language-Image Pre-Training)模型对视频-文本初步编码,获得文本编码向量和视频编码向量;所述CLIP模型由CLIP文本编码器与CLIP图像编码器组成;

步骤2、获取常识性知识图谱Conceptnet的知识图谱图嵌入embedding。具体获取方式为,使用图卷积神经网络对常识性知识图谱Conceptnet进行知识汇聚,得到知识汇聚后的知识图谱图嵌入embedding。

步骤3、基于步骤2的知识图谱图嵌入embedding对步骤1中得到的文本编码向量进行增强。具体增强方式为:首先根据步骤1中文本编码向量的文本分词在Conceptnet知识图谱中通过字符串匹配的方式检索相关节点,再在步骤2中的知识图谱图嵌入embedding中选取所检索出节点的embedding,与步骤1中的文本编码向量进行跨模态注意力交互,得到知识增强后的文本特征向量。

步骤4、对步骤1中得到的视频编码向量进行增强。将步骤3中得到的知识增强后的文本特征向量与视频帧编码向量进行跨模态注意力交互,交互方式为,通过计算与文本特征向量的相似度为不同的视频帧编码向量分配注意力值,与文本特征向量更相关的视频帧获取到更大的注意力值。将注意力值经过Softmax函数转化为归一化权值,所有视频帧编码向量加权求和得到知识增强后的视频特征向量。

步骤5、CLIP模型训练阶段中,对步骤4获取的知识增强后的视频特征向量与步骤3中获取的知识增强后的文本特征向量进行对比学习,使得属于同一视频-文本对的视频特征向量与文本特征向量在投影空间中有更近的距离,即更大的相似度。推理阶段,将视频-文本通过步骤1到步骤4获得的文本特征向量与视频特征向量投影到共同的语义空间,通过计算视频特征向量和文本特征向量之间的余弦距离作为视频-文本相似度,根据相似度大小由大到小重排序即实现视频-文本检索。

进一步地,步骤1中,所述CLIP模型具体编码方式为:

对于文本,首先将文本分词为离散的单词,然后在文本起始处加上起始符号[SOS],在文本结尾处加上终止符号[EOS],一起送入CLIP文本编码器中编码;每个单词及符号的CLIP文本编码器输出均为固定长度的向量,最后取[EOS]的编码输出作为文本的全局编码向量,其视作汇聚了整个句子的信息。

对于视频,由于CLIP模型是针对图像进行编码,在输入视频时首先需要将视频均匀下采样为固定数量的视频帧,再将所有视频帧裁剪为固定尺寸,然后使用CLIP图像编码器对所有视频帧进行编码,得到视频帧编码向量,向量长度与文本编码向量一致。所有视频帧编码向量统称为视频编码向量。

进一步地,步骤4中,采用域外知识对视频-文本编码进行增强,包括CLIP模型中的视频-文本关联知识与常识性知识库中的知识。使用CLIP模型中的视频-文本关联知识对文本编码向量进行知识性增强,包括CLIP模型和后续的视频-文本相似度计算模块,通过CLIP模型对文本编码,再对文本编码向量进行训练和微调,将CLIP模型中的图文关联知识迁移到文本编码向量中。使用常识性知识图谱ConceptNet对文本编码向量做进一步的知识增强,首先由图卷积神经网络提取Conceptnet知识图谱的图嵌入embedding,并用Transformer中的cross-attention方法与文本编码向量进行交互,得到知识增强的文本特征向量。

进一步地,视频编码向量的知识增强方法,采用域外知识对视频-文本编码进行增强,域外知识包括CLIP模型中的视频-文本关联知识与常识性知识库中的知识。使用CLIP模型中的视频-文本关联知识对视频编码向量进行知识增强;通过CLIP模型对视频采样帧编码,对视频编码向量进行训练和微调,将CLIP模型中的视频-文本关联知识迁移到视频编码向量中。使用常识性知识库对视频编码向量做知识增强;采用所述的知识增强的文本特征向量与视频编码向量进行交互,根据与知识增强的文本特征向量的关联性为不同的视频帧编码向量分配不同的注意力权重,再加权求和得到知识增强的视频特征向量,实现对视频编码向量的知识增强。

与现有的技术相比,本发明有以下优点:

不同于通常的视频-文本检索方法,本发明的创新点在于引入了域外知识,结合CLIP模型中的图文关联知识与域外知识图谱中的常识性知识,对视频-文本表征进行增强。由于视频中信息丰富,通常需要结合额外的知识才能够充分理解,而文本的内容往往只覆盖了视频的较少部分内容,使得仅仅学习训练数据集的域内知识难以有效地实现视频-文本表征的跨模态对齐。通过图卷积神经网络提取汇聚了结构性和邻接点信息的知识图谱表征,与文本编码经过cross-attention交互增强,再用知识增强的文本特征与视频帧编码做基于注意力的X-pooling,汇聚时间特征,增强视频表征,使得跨模态对齐能够更有效地进行。经过多组实验证明,本发明显著提高了视频-文本检索的召回率。

附图说明

图1为本发明具体流程图。

图2为本发明所提出的检索框架图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

本发明的流程图如图1所示,为具体流程图,实施流程如下:

步骤1、使用CLIP模型对视频-文本进行编码。首先准备CLIP-VIT-Base-32Patch版本的CLIP模型,导入到基于python语言编写的程序中。然后将文本、视频输入CLIP模型,需要注意的是,其中文本和视频在输入之前都需要进行预处理:对于文本,需要使用CLIP-VIT-Base-32Patch模型中的分词器进行分词,得到离散的单词,并在文本首部加入起始符号[SOS],在文本尾部加入结束符号[EOS],经过CLIP文本编码器编码后,得到初始的文本编码向量,每个单词和符号输出的编码向量长度相同,其中[EOS]位置对应输出的编码向量被视为文本的全局编码向量,记录了文本整体的信息;对于视频,使用python的第三方库Opencv4.6.0对视频进行均匀采样,每个视频采样12帧。对于采样的视频帧,还需进行以下处理:将每一帧裁剪为224像素x224像素固定的尺寸,并作标准化处理,目的是让神经网络更多地关注不同图像之间的差异性,而非图像像素的绝对值大小。标准化公式如下:

(1)式中frame(i)为视频帧中第i个像素的值,μ与σ分别为在视频数据集中随机采样得到的某一帧的像素平均值和方差。将处理好的视频帧用CLIP图像编码器编码,得到初始的视频帧编码向量,长度与文本编码向量相同,所有的视频帧编码向量统称为视频编码向量。

步骤2、获取常识性知识图谱Conceptnet的图嵌入embedding。

常识性知识图谱中包含了大量与生活场景、常用名词的相关知识。CLIP模型中所包含的视频-文本关联知识,往往为图像中物体和场景间、文本的不同单词之间的共现知识,而对于视频中所蕴含的丰富内容,通常需要结合域外知识才能够充分理解。常识性知识作为对域内知识的补充,能够辅助提升视频-文本检索的性能。ConceptNet起源于众包项目OpenMindCommonSense,是一个免费提供的常识性知识图谱,旨在帮助计算机理解人们使用的词语的含义。知识图谱的本质是三元组<起始节点,关系标签,结束节点>的集合,但这样的结构不能直接输入,需要转化为相应的图嵌入embedding才能够进一步处理。本方法采用图卷积神经网络对知识图谱Conceptnet做图嵌入操作,具体步骤如下:

(1)对于一份知识图谱G(N,V),N表示节点集合,V表示关系集合,其中e

(2)使用图卷积神经网络对节点向量进一步编码,以汇聚邻接节点和关系的信息。图卷积神经网络第l层节点

式(1)中,J

(3)第l层的关系向量

(4)经过L层的基于邻节点和关系权重的信息汇聚与信息迭代更新,最后一层的输出结果

步骤3、对初始的文本编码向量进行知识增强。设文本的初始编码向量为

Q

(4)、(5)、(6)、(7)式中的W

Gate_score=sigwioid(W

式(10)中W

步骤4、对初始的视频编码向量进行知识增强,如图2中所示。设经过知识增强后的文本特征向量为

K

V

r

在式(11)、(12)、(13)、(15)中W

步骤5、训练CLIP模型,训练策略为:知识增强后的视频特征向量与文本特征向量之间进行跨模态对比学习。跨模态的对比学习策略是指在训练的一个mini-batch中,将来自同一个的视频-文本对的视频与文本视作正样本对,mini-batch中来自不同视频-文本对的其它视频或文本视作负样本对,通过最优化目标函数,在共同的语义空间中拉近正样本对之间的距离,同时拉远负样本对的之间的距离,从而使得在计算相似度时,匹配的视频-文本对能够获得更大的相似度分数,达到视频检索的目的。在训练中所使用的目标函数为InfoNCE,具体公式如下:

L

式(17)、(18)中,L

z

z

s(t,v)=z

式(20)、(21)中,||·||

本发明中,CLIP模型训练超参数设置为:CLIP模型学习率为1e-6,非CLIP模块学习率为1e-5,训练优化器为AdamW,权重衰减为0.2,学习率衰减策略为余弦退火,batch-size大小为32,训练轮数为5个epoch。CLIP模型经过视频-文本数据集在目标函数上训练损失收敛后,停止参数的梯度更新,便能够对训练数据集之外的视频-文本对进行推理检索。具体的推理检索过程为:输入视频或文本作为检索的query,在完成训练的CLIP模型中,经过步骤1进行编码,与检索库gallery中的文本或视频进行步骤2、步骤3中所提出的方法进行知识增强与交互,最后得到知识增强的视频特征向量与文本特征向量,通过计算二者之间余弦距离得到相似度,根据相似度大小重排后取相似度最大的K个样本作为检索结果。

实施例

本发明的最大视差获取方法基本流程具体包括以下步骤:

1)使用CLIP模型对文本、视频初步编码:首先将下载的CLIP-VIT-Base-32Patch版本的CLIP模型,载入到python语言编写的程序中,使用的深度学习框架为pytorch1.8.0。在输入CLIP模型之前对视频-文本数据进行预处理:对文本进行分词,并在文本首尾加上起始标签与结束标签;对于视频数据,需要进行均匀采样、裁剪为固定尺寸和归一化。再将预处理后的视频-文本数据输入模型中进行初步编码,得到文本编码向量与视频编码向量。

2)获取常识性知识图谱Conceptnet的图嵌入embedding,作为知识增强所使用的域外知识。Conceptnet的图嵌入embedding使用图卷积神经网络的方法进行提取,它的具体计算公式如下:

对于知识图谱中的节点,首先用Glove词嵌入方法将节点初始编码为

3)使用2)中得到的Conceptnet知识图谱embedding对初始的文本编码向量进行增强。首先使用文本分词在Conceptnet知识图谱中进行检索得到对应的节点,从知识图谱图嵌入embedding取出对应节点的embedding,对于检索为空的结果则使用相同维度的零向量进行填充。具体增强方式为Transformer中所提出的cross-attention模块,即在做注意力计算时,将文本embedding投影为Q(query),将知识图谱embedding投影为K(key)和V(value),计算出注意力分数,具体计算公式如下:

Q

多层cross-attention知识交互后的文本特征向量经过平均池化后与初始编码的文本全局编码向量进行残差连接,得到知识增强的文本特征向量,考虑到对于不同的文本,所需要用到的知识量也不同,本方法还设计门控机制来控制知识增强的程度,公式如下:

Gate_score=sigmoid(W

在本方法中设置初始文本编码向量的维度为512,Conceptnet知识图谱图嵌入embedding的维度为300,交互之前,需要通过可学习的线性层将知识图谱embedding投影到文本编码向量所在的共同向量空间,并统一映射维度为512。

4)使用3)中得到的知识增强的文本特征向量对视频编码向量进行增强,采用X-pool的方式对视频编码进行时间特征的汇聚,即用每一帧的编码向量与增强后的文本特征向量进行交互计算得到注意力权重,再加权求和得到增强后的视频编码向量。在做注意力计算时,将文本特征向量经过Layernorm归一化后再投影为Q(query),将视频帧编码向量经过Layernorm归一化后投影为K(key)和V(value),计算出注意力分数,具体计算公式如下:

K

V

r

本发明中设置初始的视频编码向量维度为512,并将增强网络中的权重参数初始化为单位矩阵,偏置参数初始化为0。

5)训练模型,训练策略为3)、4)中得到的视频特征向量与文本特征向量之间进行对比学习。在训练的一个mini-batch中,将来自同一个的视频-文本对的视频与文本视作正样本对,mini-batch中来自不同视频-文本对的其它视频或文本视作负样本对,通过优化目标函数在共同的语义空间中拉近正样本对之间的距离,同时拉远负样本对的之间的距离,从而使得在计算相似度时,匹配的视频-文本对能够获得更大的相似度分数,达到视频检索的目的。在训练中所使用的目标函数为InfoNCE,具体公式如下:

L

其中s为相似度计算函数,计算公式如下。

z

z

s(t,v)=z

对于检索推理阶段,将视频-文本数据输入模型,得到知识增强的视频特征向量和文本特征向量,经过相似度计算函数计算二者的相似度,根据相似度大小重排后,所得到的便为检索结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号