法律状态公告日
法律状态信息
法律状态
2019-08-09
授权
授权
2017-08-08
实质审查的生效 IPC(主分类):G06F17/30 申请日:20170317
实质审查的生效
2017-07-14
公开
公开
技术领域
本发明属于计算机检索技术领域,具体涉及一种多标签核化典型相关分析检索方法。
背景技术
跨模态信息检索是一个具有挑战性的研究课题,查询和结果属于不同的模态,跨模态信息检索即多模态信息之间的相互检索,例如图像检索文本,文本检索图像。由于“语义鸿沟”的存在,不能直接对其进行比较。因此,此任务中的关键问题是如何测量多个模态之间的距离或相似性。现有技术中通过学习一个共享子空间来对齐这两个特征空间,以便不同的模态之间可以比较。在现有方法中,典型相关分析(Canonical CorrelationAnalysis,简称CCA)[1]显示出了其简单性和效率,其通过最大化两个模态投影之间的相关性来学习共享子空间。CCA已经成为许多跨模态检索方法的主力。已经提出了CCA的许多扩展用于近年来的交叉模式检索的任务。
虽然CCA由于其简单性和效率而受欢迎,但它具有若干缺点。CCA依赖于模态之间的一一对应的配对关系,并未利用多媒体文档中存在的高层语义标签信息,这导致其不能得到更好地适合于跨模态检索任务子空间。最近,已经提出了使用标签信息的一些CCA的扩展方法。然而,大多数这些工作只适用于单个标签注释多媒体文档中。通常情况下,一张图像可以属于多个类,因此假设数据用单个标签注释是不合理的,并且导致标签信息未被最大程度的利用。因此,更接近真实情况的是考虑多标签信息以挖掘来自不同模态的数据之间的相关性。
典型相关分析,首先由Hotelling提出,是一种用于发现多个数据空间的子空间的数据分析方法。然而,经典CCA忽略了限制其性能的附加高级语义信息。Rasiwasia et al为单标签数据集提出了cluster-CCA[1]。Viresh Ranjan et al在文献[2]提出了考虑多标签信息的多标签典型相关分析(multi-label Canonical Correlation Analysis,简称ml-CCA)。作为CCA的拓展方法,ml-CCA胜过大多数CCA的其它拓展方法受益于考虑多标记信息。然而ml-CCA是线性方法而不同模态的数据之间的相关性往往并非线性关系,这就限制了ml-CCA的性能。
通常情况下,图像可以属于多个类,即一个图像通常对应多个标签,考虑多标签信息的情况更符合现实;同时,多模态之间的相关性并非简单地线性关系。然而,现有的方法或者不利用多标签信息形式的高级语义信息,或者不能挖掘模态间的非线性关系。参考文献如下:
[1]Vijay Mahadevan,“Cluster canonical correlation analysis,”Aistats,2014.
[2]V.Ranjan,N.Rasiwasia,and C.V.Jawahar,“Multilabel cross-modalretrieval,”in 2015IEEE International Conference on Computer Vision(ICCV),Dec2015,pp.4094–4102.
发明内容
本发明基于核化典型相关分析与多标签信息,提出了一个新的跨模态检索的框架--多标签核化典型相关分析(multi-label kernel Canonical Correlation Analysis,简称ml-KCCA)检索方法。在描述本发明技术方案之前,先对核化典型相关分析进行介绍。KCCA是CCA的核化版本。给定数据的两个视图,我们能够通过核化CCA构建它们的共同表示。正式地,给定文本和视觉图像的配对数据{(t1,p1),...,(tN,pN)}样本,其中t∈Rt,p∈Rp分别表示样本在文本和视觉模态的特征向量,给定两个特征空间的核函数(本方法中为高斯核函数),分别为kt(ti,tj)=φt(ti)Tφt(tj),kp(pi,pj)=φp(pi)Tφp(pj),其中ti,tj,pi,pj为数据空间中的样本点,φt、φp数据空间到特征空间的映射函数,i=1,2,…,N,j=1,2,…,N,T表示转置符号;
核化形式的目标函数可以被扩展和验证为公式(1)的形式,以确定投影向量α,β∈RN来最大化典型相关性:
其中ρ*为相关系数,Kt=(kt(ti,tj))N×N和Kp=(kp(pi,pj))N×N表示N对样本的N×N核矩阵。该问题可以转化为特征值问题进行求解,[αβ]T为特征向量,根据值最大的D个特征值可以求出对应的一系列的(α1,β1),(α2,β2),...,(αD,βD),用于计算新输入文本t或视觉图像p的D维投影。max表示求最大值。在其原始形式中,KCCA不能利用标签信息。因此,α,β不能利用标签信息,并且不足以很好的解决跨模态检索任务。
多标签信息形式的高层语义信息被ml-KCCA用于学习更适合于跨模态检索任务的不同模态的更具有区分性的共享子空间,通过核函数方法挖掘不同模态之间的非线性关系。同时,将不完全Cholesky分解用于ml-KCCA加速解决KCCA的特征值求解问题。具体技术方案如下:
一种多标签核化典型相关分析检索方法,包括以下步骤:
(S1)选择文本和视觉图像,构建文本、视觉图像和标签的配对数据,并选择配对数据的样本;
配对数据的样本表示为{(t1,p1,z1),...,(ti,pi,zi),...,(tN,pN,zN)},其中zi是配对数据的第i个样本的标签向量,i=1,2,…,N,Tw=[t1,t2,...,tN]∈Rdt×N,其中Tw是文本样本的矩阵表示,dt文本样本的维度,P=[p1,p2,...,pN]∈Rdp×N,其中P是视觉图像样本的矩阵表示,dp表示视觉图像样本的维度。Z=[z1,z2,...,zN]∈RC×N,其中Z表示标签矩阵,Z中每一列中的多个元素可能为非零,即同时存在多个标签,C为标签的维度,N为配对数据的样本数,N取整数。
(S2)计算标签的语义相似性矩阵;令f(·)是计算任意两个标签向量之间的相似性的函数,则语义相似性矩阵S:
(S3)将语义相似性矩阵应用于核化典型相关分析来求取多模态共享子空间;
为获取学习共同的多模态共享子空间,将ml-KCCA公式化为:
其中ρ为相关系数,
根据
B-1Aw=λw(4)
其中,λ为特征值,
求出(α1,β1),...,(αD,βD)之后,文本和视觉图像特征的在多模态共享子空间中的表示即可得到,通过评估输入和N个采样点之间的加权核函数,将新的文本输入tx投影到α指定的单个文本输入上:
其中αi表示向量α的第i个元素,ti代表N个样本数据中的第i个样本。
(S4)分别求取视觉图像与文本在多模态共享子空间的投影表示;
新的文本tx到D维公共子空间的最终投影M为:
其中,
类似的,新视觉图像px到D维公共子空间的最终投影Q为:
其中,
(S5)进行检索,获取跨模态子空间的检索结果:进行图像检索文本时,则通过将新视觉图像通过Q映射到子空间,进而进行相似性检索;进行文本检索视觉图像时,则将新的文本通过M映射到子空间,进而进行相似性检索。
进一步地,所述计算相似性的函数f(·)为基于点乘的相似性度量函数:
其中<·>表示点乘,||·||表示求模运算,i=1,2,…,N,j=1,2,…,N,zj是配对数据的第j个样本的标签向量。
进一步地,所述计算相似性的函数f(·)为基于指数平方的相似性度量
函数:
其中,σ是常数因子,||·||2表示2-范数。
采用本发明获得的有益效果:本发明通过对多媒体文档中多标签形式的高层语义信息加以利用同时应用KCCA来挖掘不同模态之间非线性的相关关系,学习到了更适合于跨模态检索任务的不同模态的更具有区分性的公共子空间,在学习到的子空间中得到了很好的检索效果,较现有的方法有了很大改进。
附图说明
图1为本发明方法流程图;
图2为本发明ml-KCCA检索方法示意图;
图3为参数η和σ对ml-KCCA模型的影响,采用的评价指标是Precision@10(图中表示为P@10),Precision@10表示返回结果的前十个样本中与查询相关的文件所占比例。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示,为本发明流程图,主要步骤为:
(S1)选择文本和视觉图像,构建文本、视觉图像和标签的配对数据,并选择配对数据的样本;
(S2)计算标签的语义相似性矩阵;
(S3)将语义相似性矩阵应用于核化典型相关分析来求取多模态共享子空间;
(S4)分别求取视觉图像与文本在多模态共享子空间投影表示;
(S5)进行检索,获取跨模态子空间的检索结果:进行图像检索文本时,则通过将新视觉图像通过Q映射到子空间,进而进行相似性检索;进行文本检索视觉图像时,则将文本通过M映射到子空间,进而进行相似性检索。
如图2所示,为本发明ml-KCCA检索方法示意图;图中三角形和正方形表示视觉图像和文本模态中的数据点,符号“+”、“-”、“x”、“÷”表示不同的类标签。图(a)为文本和视觉图像实例从它们各自的特征空间到使用ml-KCCA学习的公共子空间。图(b)为成对的距离具有类似标记的实例在由ml-KCCA学习的公共子空间中更靠近。图(c)为双向的跨模态检索例子:在文本和图像都映射到学习的子空间之后,文本查询可以更精确地检索图像,反之亦然。
如图3所示为参数η和σ对模型影响的实验结果。从实验结果来看,除了在两个极端情况下,ml-KCCA的表现都是优于KCCA的。
ml-KCCA与其他基于CCA的方法在Pascal数据集上的表现如表1所示,可以看出,本发明方法在大部分情况下都是表现最好的方法。表1为CCA及其它检索方法在Pascal数据集上的表现对比。采用了MAP(平均正确率均值)评价指标。表1中图像标注(Imageannotation)为图像检索文本,图像检索(Image retrieval)为文本检索图像。
表1本发明方法与现有技术方法检索情况对比统计表
以上所述仅为本发明的一种实施方式,本发明并不局限于上述实施方式,在实施过程中可能存在局部微小的改动,如果对本发明的各种改动或变型不脱离本发明的精神和范围,且属于本发明的权利要求和等同技术范围之内。
机译: 标签显示类型文档检索设备,标签显示类型文档检索方法,计算机程序执行标签显示类型文档检索方法和计算机可读记录介质存储计算机程序
机译: 标签显示型文档检索装置,标签显示型文档检索方法,用于执行标签显示型文档检索方法的计算机程序和计算机可读记录介质存储计算机程序
机译: 群体稀疏非负监督典型相关分析(GNCCA)