公开/公告号CN114896438A
专利类型发明专利
公开/公告日2022-08-12
原文格式PDF
申请/专利权人 西安电子科技大学;
申请/专利号CN202210504224.0
申请日2022-05-10
分类号G06F16/532(2019.01);G06F16/583(2019.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06V10/40(2022.01);G06V10/74(2022.01);G06V10/82(2022.01);
代理机构西安嘉思特知识产权代理事务所(普通合伙) 61230;
代理人勾慧敏
地址 710071 陕西省西安市太白南路2号
入库时间 2023-06-19 16:22:17
法律状态公告日
法律状态信息
法律状态
2022-08-30
实质审查的生效 IPC(主分类):G06F16/532 专利申请号:2022105042240 申请日:20220510
实质审查的生效
技术领域
本发明属于数据挖掘技术领域,涉及一种基于分层对齐和广义池化图注意力机制的图文检索方法。
背景技术
近年来,随着互联网的快速发展,人们每天都能接收到大量数据,如何能从海量信息中准确检索到需要的信息引起了研究者的关注。图文检索的提出为上述问题提供了一种解决方式。
图文检索的本质是对图像和文本这两个模态的样本分别进行编码得到其语义表示特征,同时设计相应的相似度计算方法来计算图像特征和文本特征之间的相似度。通过图文检索模型,用户能够在给定文本描述的情况下快速找到对应描述的图像,也可以在给定图像的情况下迅速得到对应的文字描述内容。现有的分层对齐方式仅考虑图像整体和句子整体之间的语义对齐以及图像区域与单词之间的语义对齐,忽略了全局背景信息等非对象元素。这样的语义对齐方式容易受到具有类似对象实体但背景略有不同的负样本的影响。同时,传统的特征聚合方法采用最大池化或是平均池化的方式,忽略了多模态特征全局-局部特征的协同关系的重要性。
因此,如何改善语义对齐问题以及如何增强多模态特征全局-局部特征的协同关系,成为了亟待解决的问题。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于分层对齐和广义池化图注意力机制的图文检索方法。本发明要解决的技术问题通过以下技术方案实现:
本发明实施例提供了一种基于分层对齐和广义池化图注意力机制的图文检索方法,所述图文检索方法包括:
步骤1、分别提取预设图像的初始图像特征向量和预设文本的初始文本特征向量,所述初始图像特征向量通过级联全局特征向量和局部特征向量得到;
步骤2、根据所述初始图像特征向量和所述初始文本特征向量中不同节点的级联关系,对应得到图像特征图和文本特征图;
步骤3、分别将所述图像特征图和所述文本特征图输入至图注意力和广义池化联合模块,以得到最终的图像特征向量和文本特征向量;
步骤4、基于所述全局特征向量和所述初始文本特征向量的第一相似度、所述局部特征向量和所述初始文本特征向量的第二相似度、最终的图像特征向量和最终的文本特征向量的第三相似度,得到所述预设图像和所述预设文本之间的综合相似度,用综合相似度计算损失函数,将损失函数反向传播更新网络参数,网络参数分别位于图像特征向量提取部分、文本特征向量提取部分、图注意力和广义池化联合模块;
步骤5、利用更新网络参数后的模型输出的最终的所述综合相似度得到检索匹配结果。
在本发明的一个实施例中,所述步骤1包括:
步骤1.1、提取所述预设图像的全局特征向量V
步骤1.2、级联所述全局特征向量V
步骤1.3、提取所述预设文本的初始文本特征向量T
在本发明的一个实施例中,所述全局特征向量V
V
其中,V
所述局部特征向量V
V
其中,V
所述初始图像特征向量为:
V
其中,V
所述初始文本特征向量为:
T
其中,T
在本发明的一个实施例中,所述步骤2包括:
步骤2.1、从所述初始图像特征向量中提取第i节点的第一图像特征向量
步骤2.2、对所述第一图像特征向量
步骤2.3、根据所述初始图像特征向量和所述第一关系E
步骤2.4、从所述初始文本特征向量中提取第i1节点的第一文本特征向量
步骤2.5、对所述第一文本特征向量
步骤2.6、根据所述初始文本特征向量和所述第二关系E
在本发明的一个实施例中,所述第一关系E
其中,|表示点积操作;
所述图像特征图为:
G
其中,G
所述第二关系E
所述文本特征图为:
G
其中,G
在本发明的一个实施例中,所述步骤3包括:
步骤3.1、将所述图像特征图输入图注意力网络模块中,通过多头图注意力机制算法对所述初始图像特征向量进行传播,以得到更新后的图像特征向量;
步骤3.2、将所述文本特征图输入图注意力网络模块中,通过多头图注意力机制算法对所述初始文本特征向量进行传播,以得到更新后的文本特征向量;
步骤3.3、将更新后的图像特征向量输入广义池化模块,得到最终的图像特征向量;
步骤3.4、将更新后的文本特征向量输入广义池化模块,得到最终的文本特征向量。
在本发明的一个实施例中,所述步骤3.1包括:
步骤3.11、将所述初始图像特征向量同时输入所述图注意力网络模块中的每一平行层,通过计算权值矩阵与输入特征的向量点积,得到第h层节点的第一特征量化结果;
步骤3.12、对所述第一特征量化结果进行正则化,得到第一多头注意力权重矩阵;
步骤3.13、将所述第一多头注意力权重矩阵、可学习的权重矩阵与所述初始图像特征向量相乘,得到每一层的第一输出特征;
步骤3.14、将同一个图像的所有第一输出特征进行拼接,得到拼接后的图像特征;
步骤3.15、拼接后的图像特征通过正则化网络得到更新后的图像特征向量;
所述步骤3.2包括:
步骤3.21、将所述初始文本特征向量同时输入所述图注意力网络模块中的每一平行层,通过计算权值矩阵与输入特征的向量点积,得到第h层节点的第二特征量化结果;
步骤3.22、对所述第二特征量化结果进行正则化,得到第二多头注意力权重矩阵;
步骤3.23、将所述第二多头注意力权重矩阵、可学习的权重矩阵与所述初始文本特征向量相乘,得到每一层的第二输出特征;
步骤3.24、将同一个文本的所有第二输出特征进行拼接,得到拼接后的文本特征;
步骤3.25、拼接后的文本特征通过正则化网络得到更新后的文本特征向量。
在本发明的一个实施例中,所述步骤3.3包括:
步骤3.31、更新后的图像特征向量经三角位置编码策略对位置指标进行矢量化,得到第一位置编码;
步骤3.32、将所述第一位置编码转换为向量表示后,采用基于双向门控循环单元的序列模型生成第一池化系数;
步骤3.33、基于所述第一池化系数,根据更新后的图像特征向量得到最终的图像特征向量,最终的图像特征向量为:
其中,
所述步骤3.4包括:
步骤3.41、更新后的文本特征向量经三角位置编码策略对位置指标进行矢量化,得到第二位置编码;
步骤3.42、将所述第二位置编码转换为向量表示后,采用基于双向门控循环单元的序列模型生成第二池化系数;
步骤3.43、基于所述第二池化系数,根据更新后的文本特征向量得到最终的文本特征向量,最终的文本特征向量为:
其中,
在本发明的一个实施例中,所述步骤4包括:
步骤4.1、对所述局部特征向量和所述初始文本特征向量进行余弦相似度计算,得到所述第一相似度;
步骤4.2、对所述初始图像特征向量和所述初始文本特征向量进行余弦相似度计算,得到所述第二相似度;
步骤4.3、对最终的图像特征向量和最终的文本特征向量进行余弦相似度计算,得到所述第三相似度;
步骤4.4、根据所述第一相似度、所述第二相似度和所述第三相似度之和得到所述预设图像和所述预设文本之间的综合相似度;
步骤4.5、利用综合相似度计算损失函数,将损失函数反向传播更新网络参数,网络参数分别位于图像特征向量提取部分、文本特征向量提取部分、图注意力和广义池化联合模块。
在本发明的一个实施例中,所述第一相似度为:
其中,S
所述第二相似度为:
其中,S
其中,
所述综合相似度为:
其中,S(I,T)表示所述综合相似度,I表示输入的待匹配图像,T表示输入的待匹配文本;
所述损失函数计算方式如下:
L=[d+S(I′,T)-S(I,T)]
其中,L表示损失函数,d表示差额参数,[x]
与现有技术相比,本发明的有益效果:
1、本发明的基于分层对齐和广义池化图注意力机制的图文检索方法,将分层相似度综合计算方式引入到模态内和模态间语义对齐之中,利用不同情况下抽取的图像特征向量和文本描述特征向量之间的相似度计算语义对齐方式,丰富了模态内和模态间交互信息的学习,改善了检索任务“对齐难”的问题,进一步提高了检索的准确度。
2、本发明的基于分层对齐和广义池化图注意力机制的图文检索方法,利用广义池化方式取代传统的最大池化以及平均池化等方式,并将所属池化方式融入到图注意力机制中,抽取特征向量中的最大值,与现有技术相比,增强了图像和文本的局部对象语义关系和全局上下文信息,可以得到更完备的、更能表征图像文本匹配关系的图像特征向量和文本特征向量,以提升检索的准确性。
通过以下参考附图的详细说明,本发明的其它方面和特征变得明显。但是应当知道,该附图仅仅为解释的目的设计,而不是作为本发明的范围的限定,这是因为其应当参考附加的权利要求。还应当知道,除非另外指出,不必要依比例绘制附图,它们仅仅力图概念地说明此处描述的结构和流程。
附图说明
图1为本发明实施例提供的一种基于分层对齐和广义池化图注意力机制的图文检索方法的流程示意图;
图2为本发明实施例提供的一种特征向量图示意图;
图3为本发明实施例提供的一种图注意力机制和广义池化联合模块示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
请参见图1,图1为本发明实施例提供的一种基于分层对齐和广义池化图注意力机制的图文检索方法的流程示意图,本发明提供一种基于分层对齐和广义池化图注意力机制的图文检索方法,该基于分层对齐和广义池化图注意力机制的图文检索方法包括步骤1-步骤5,其中:
步骤1、请参见图2,分别提取预设图像的初始图像特征向量和预设文本的初始文本特征向量,初始图像特征向量通过级联全局特征向量和局部特征向量得到。
具体地,预设图像为需要和文本进行匹配的图像,预设文本为需要和图像进行匹配的文本,如预设图像为1张,初始文本为5个,则需要将预设图像与5个初始文本均进行检索,得到相似度最高的文本,作为匹配结果,文本用于描述图像的内容。
在一个具体实施例中,步骤1可以具体包括:
步骤1.1、提取预设图像的全局特征向量V
在本实施例中,全局特征向量V
V
其中,V
在本实施例中,局部特征向量V
V
其中,V
步骤1.2、级联全局特征向量V
V
其中,V
步骤1.3、提取预设文本的初始文本特征向量T
T
其中,T
可选地,全局特征向量抽取过程可以选用中ResNet152编码器模块,该模块是在ImageNet数据集上进行预训练得到,用于准确提取图像的像素级特征。局部特征向量抽取过程可以选用Faster-RCNN模块作为编码器,该模块是在Visual Genome数据集上进行预训练得到。图像特征向量维度为2048,由全局特征与局部特征共享。文本特征向量提取部分选用BERT预训练模型,包含12层、12个头、768个隐藏单元、110M参数,最终得到的文本特征向量的维度为768。
步骤2、根据初始图像特征向量和初始文本特征向量中不同节点的级联关系,对应得到图像特征图和文本特征图。
在一个具体实施例中,步骤2可以具体包括:
步骤2.1、从初始图像特征向量中提取第i节点的第一图像特征向量
步骤2.2、对第一图像特征向量
其中,⊙表示点积操作。
步骤2.3、根据初始图像特征向量和第一关系E
G
其中,G
步骤2.4、从初始文本特征向量中提取第i1节点的第一文本特征向量
步骤2.5、对第一文本特征向量
步骤2.6、根据初始文本特征向量和第二关系E
G
其中,G
步骤3、分别将图像特征图和文本特征图输入至图注意力和广义池化联合模块,以得到最终的图像特征向量和文本特征向量。
具体地,设计图注意力和广义池化联合模块,将图像特征图和文本特征图分别同时输入图注意力和广义池化联合模块,迭代更新图像特征向量和文本特征向量;请结合参考图3,图3是本发明实施例提供的图注意力机制和广义池化联合模块示意图。如图所示,在本实施例中,通过构建的图注意力机制和广义池化操作更新和聚合图像特征向量和文本特征向量。多个图注意力和广义池化联合模块的堆叠能够更好地实现向量的更新。
在一个具体实施例中,步骤3可以具体包括步骤3.1-步骤3.4,其中:
步骤3.1、将图像特征图输入图注意力网络模块中,通过多头图注意力机制算法对初始图像特征向量进行传播,以得到更新后的图像特征向量。
具体地,步骤3.1具体可以包括步骤3.11-步骤3.15,其中:
步骤3.11、将初始图像特征向量同时输入图注意力网络模块中的每一平行层,通过计算权值矩阵与输入特征的向量点积,得到第h层节点的第一特征量化结果。
具体地,由步骤1得到图像的初始图像特征向量V
其中,
步骤3.12、对第一特征量化结果进行正则化,得到第一多头注意力权重矩阵。
具体地,对第一特征量化结果进行正则化以方便节点之间参数的比较,从而得到第一多头注意力权重矩阵α
其中,softmax表示归一化函数,Ν
步骤3.13、将第一多头注意力权重矩阵、可学习的权重矩阵与初始图像特征向量相乘,得到每一层的第一输出特征,第一输出特征为:
其中,head
步骤3.14、将同一个图像的所有第一输出特征进行拼接(向量首尾相连),得到拼接后的图像特征,拼接后的图像特征为:
其中,
步骤3.15、拼接后的图像特征通过正则化网络得到更新后的图像特征向量。
具体地,拼接后的图像特征通过正则化网络得到最终的输出表示,即通过图注意力机制后细化更新后的图像特征向量
其中,激活函数选用ReLU,同时使用BN层使得让每一层神经网络的输入保持相同分布。
步骤3.2、将文本特征图输入图注意力网络模块中,通过多头图注意力机制算法对所述初始文本特征向量进行传播,以得到更新后的文本特征向量。
具体地,步骤3.2具体可以包括步骤3.21-步骤3.25,其中:
步骤3.21、将初始文本特征向量同时输入图注意力网络模块中的每一平行层,通过计算权值矩阵与输入特征的向量点积,得到第h层节点的第二特征量化结果。
具体地,由步骤1得到图像的初始文本特征向量T
其中,
步骤3.22、对第二特征量化结果进行正则化,得到第二多头注意力权重矩阵。
具体地,对第二特征量化结果进行正则化以方便节点之间参数的比较,从而得到第二多头注意力权重矩阵α
其中,Ν
步骤3.23、将第二多头注意力权重矩阵、可学习的权重矩阵与初始文本特征向量相乘,得到每一层的第二输出特征,第二输出特征为:
其中,head 1
步骤3.24、将同一个文本的所有第二输出特征进行拼接(向量首尾相连),得到拼接后的文本特征,拼接后的文本特征为:
其中,
步骤3.25、拼接后的文本特征通过正则化网络得到更新后的文本特征向量。
具体地,拼接后的文本特征通过正则化网络得到最终的输出表示,即通过图注意力机制后细化更新后的文本特征向量。更新后的文本特征向量的第i1特征
步骤3.3、将更新后的图像特征向量输入广义池化模块,得到最终的图像特征向量。
具体地,步骤3.3具体可以包括步骤3.31-步骤3.33,其中:
步骤3.31、更新后的图像特征向量经三角位置编码策略对位置指标进行矢量化,得到第一位置编码。
具体地,广义池化模块由三角位置编码策略和基于双向门控循环单元的序列模型两部分组成。首先,更新后的图像特征向量经三角位置编码策略对位置指标进行矢量化,具体计算方式如下:
其中,p
步骤3.32、将第一位置编码转换为向量表示后,采用基于双向门控循环单元的序列模型生成第一池化系数,具体计算方式如下:
其中,
步骤3.33、基于第一池化系数,根据更新后的图像特征向量得到最终的图像特征向量。
具体地,通过广义池化模块时,广义池化模块对向量进行排序操作,学习每个向量的池化系数,然后对向量进行加权和,最终输出图像的节点特征向量
θ
将所有图像节点聚合,得到最终的图像特征向量
其中,
步骤3.4、将更新后的文本特征向量输入广义池化模块,得到最终的文本特征向量。
具体地,步骤3.4具体可以包括步骤3.41-步骤3.43,其中:
步骤3.41、更新后的文本特征向量经三角位置编码策略对位置指标进行矢量化,得到第二位置编码。
具体地,更新后的文本特征向量经三角位置编码策略对位置指标进行矢量化,具体计算方式如下:
其中,p
步骤3.42、将第二位置编码转换为向量表示后,采用基于双向门控循环单元的序列模型生成第二池化系数,具体计算方式如下:
其中,
步骤3.43、基于第二池化系数,根据更新后的文本特征向量得到最终的文本特征向量。
具体地,通过广义池化模块时,广义池化模块对向量进行排序操作,学习每个向量的池化系数,然后对向量进行加权和,最终输出图像的节点特征向量
θ
将所有文本节点聚合,得到最终的文本特征向量
其中,
步骤4、基于全局特征向量和初始文本特征向量的第一相似度、局部特征向量和初始文本特征向量的第二相似度、最终的图像特征向量和最终的文本特征向量的第三相似度,得到预设图像和预设文本之间的综合相似度,用综合相似度计算损失函数,将损失函数反向传播更新网络参数。
在一个具体实施例中,步骤4包括:
步骤4.1、对局部特征向量和初始文本特征向量进行余弦相似度计算,得到第一相似度,第一相似度为:
其中,S
步骤4.2、对初始图像特征向量和初始文本特征向量进行余弦相似度计算,得到第二相似度,第二相似度为:
其中,S
步骤4.3、对最终的图像特征向量和最终的文本特征向量进行余弦相似度计算,得到第三相似度,第三相似度为:
其中,
步骤4.4、根据第一相似度、第二相似度和第三相似度之和得到预设图像和预设文本之间的综合相似度,综合相似度为:
其中,S(I,T)表示所述综合相似度,I表示输入的待匹配图像,T表示输入的待匹配文本;
步骤4.5、利用综合相似度计算损失函数,将损失函数反向传播更新网络参数,网络参数分别位于图像特征向量提取部分、文本特征向量提取部分、图注意力和广义池化联合模块。
具体地,引入损失函数训练模型,使匹配的图像-文本对具有比不匹配的图像-文本对更高的相似度得分,具体计算方法如下:
L=[d+S(I′,T)-S(I,T)]
其中,L表示损失函数,d表示差额参数,[x]
步骤5、利用更新网络参数后的模型输出的最终的综合相似度得到检索匹配结果,该模型为包括图像特征向量提取部分、文本特征向量提取部分、图注意力和广义池化联合模块的模型。
具体地,如果是在图像检索文本任务中,对于待匹配的预设图像,根据步骤4得到的综合相似度对待匹配的多个预设文本进行排名,从而得到对应预设图像的文本检索匹配结果,即综合相似度中分数最高的预设文本作为最终的检索匹配结果;同样的,在文本检索图像任务中,对于待匹配的预设文本,根据更新网络参数后的模型输出的最终的综合相似度对待匹配的多个预设图像进行排名,从而得到对应预设文本的图像检索匹配结果,即综合相似度中分数最高的预设图像作为最终的检索匹配结果。
本实施例的基于分层对齐和广义池化图注意力机制的图文检索方法,利用分层相似度综合计算方式,抽取不同情况下的图像特征向量和文本特征向量进行模态之间的语义对齐,与现有技术对应的检索模型相比,丰富了模态内和模态间交互信息的学习,改善了检索任务“对齐难”的问题,进一步提高了检索的准确度。利用广义池化方式取代传统的最大池化以及平均池化等方式,并将所属池化方式融入到图注意力机制中,抽取特征向量中的最大值,与现有技术相比,增强了图像和文本的局部对象语义关系和全局上下文信息,可以得到更完备的、更能表征图像文本匹配关系的图像特征向量和文本特征向量,以提升检索的准确性。
实施例二
本实施例对实施例一的基于分层对齐和广义池化图注意力机制的图文检索方法,进行仿真实验,并与现有图像-文本检索方法对比进一步说明本发明的效果。
1.仿真实验条件:
操作系统:ubuntu 16.04,python3.6
实验平台:pytorch-1.7.1
处理器:Intel Xeon Gold 6226R CPU,64GB RAM,1T SSD
显卡:NVIDIA Tesla A100 GPU
内存:64GB
2.仿真实验内容:
仿真实验一:图像检索文本任务和文本检索图像任务的准确率实验
需要说明的是,以下实验均在相同的实验环境中进行。数据集1和数据集2均是图文检索任务经典数据集,基准方法和本发明提出的基于分层对齐和广义池化图注意力机制的图文检索方法都属于多种语义对齐方式的图文检索算法。
表1数据集1下基线方法和本发明提出的方法召回率对比
表2数据集2下基线方法和本发明提出的方法召回率对比
从表1、表2可以看出,在不同数据集下,本发明提出的方法在图像检索文本任务和文本检索图像任务上均有不错的成绩,尤其是在R@1和Rsum指标上,均超出基线方法。在数据集1上进行的实验结果分别可以达到81.1,67.4和533.2,与现有检索方法(图中基线方法1)相比分别实现了2.3%,0.8%和3.8%的提升;在数据集2上进行的实验结果中,R@1指标对应的结果与现有检索方法(图中基线方法2)相比分别实现了2.3%和2%的提升。以上实验结果表明将广义池化方法引入图文检索任务中以及利用特征向量的相似度指导其自身的更新可以大幅提升检索的精准度。
仿真实验二:图注意力机制和广义池化操作联合模块在模型中的重要性对比可视化实验
需要说明的是,以下实验均在相同的实验环境中进行。去掉模块的替代方法没有使用本发明提出来的图注意力机制和广义池化操作联合模块,而是用传统的图注意力机制与最大池化方式组成模型参与实验研究。
表3图注意力机制和广义池化操作联合模块在模型中的重要性对比可视化实验
从表3可以看出,对于同一图像,本发明提出的方法所检索到的前五个文本描述对应的都是正确的文本,而替代方式的前五个检索结果中,第三个结果是错误的。以上实验结果表明将广义池化方法引入图文检索任务中以及利用特征向量的相似度指导其自身的更新可以大幅提升检索的精准度。
在发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特征数据点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特征数据点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
机译: 基于注意力机制和相关设备的路图象目标检测方法
机译: 使用广义图参数执行基于图的变换的方法和装置
机译: 使用广义图参数执行基于图的变换的方法和装置