技术领域
本发明属于哈希码检索领域,具体涉及一种基于语义约束矩阵分解哈希的跨模态检索方法及其系统。
背景技术
随着文本、图像、音频、视频等多媒体数据的大量增长,跨模态检索引起了广泛的关注。以文本和图像模态为例,跨模态检索的任务是给定一个查询的模态,然后在其他不同模态下查询并返回其相似结果。它在计算机视觉、文本挖掘和信息检索中得到了广泛的研究和应用,如何有效地进行跨模态检索已成为研究的热点。
近年来,基于哈希的跨模态检索方法因其存储成本低、查询速度快等优点得到了广泛的研究。现有的跨模态哈希方法主要是将多模态数据投影到一个公共语义空间中,并利用统一的哈希码来表示异构数据点。在是否利用标签信息方面,我们可以将现有的跨模态哈希方法大致分为三类,即无监督方法、半监督方法和监督方法。一般来说,虽然有些标签可能存在损坏或不准确,但标签信息对于学习更多的有判别性特征是有用的。因此,监督的跨模态哈希方法通常可以获得更好的检索性能。
矩阵分解有着悠久的历史,奇异值分解、LU分解、QR分解和特征分解等许多著名的技术在计算机视觉中得到了广泛的应用。近年来,矩阵分解在跨模态哈希中也发挥了重要作用,并且从图像/文本中挖掘语义概念或潜在主题方面取得了显著的成就。现有的一些方法简单地建立了一个公共的潜在语义空间。例如丁贵广等人首先将协同矩阵分解引入到跨模态检索中,提出了协同矩阵分解哈希算法(CMFH),它利用协同矩阵分解来学习不同模态下的统一哈希码;姚涛等人提出了一种高效的离散监督哈希算法(EDSH),该算法将异构特征的协同矩阵分解和类标签的语义嵌入无缝地集成到哈希码中;高等人提出了一种基于超图的离散矩阵分解哈希算法(HDMFH),它结合超图学习来捕捉每种模态下样本之间的高阶关系;王等人提出了一种标签一致矩阵分解哈希算法(LCMFH),它直接使用语义标签来指导哈希学习过程。而另一些方法则利用相关矩阵或正交旋转变换去对齐潜在语义空间。例如王等人提出了一种联合和个别矩阵分解散列(JIMFH),它联合学习多模态数据的统一哈希码和单个哈希码的最佳组合;熊等人提出了一种基于对齐的特定模态矩阵分解哈希算法(MsMFH),它学习每个模态的特定于模态的语义表示,然后通过相关信息对表示进行对齐。然而,公共的潜在语义表示方法会失去个体和有用的特定模态特征,不能充分利用每个模态的内在信息,相关矩阵或正交旋转变换也不能很好地约束潜在语义表示。
发明内容
本发明的目的是在于提供一种基于语义约束矩阵分解哈希的跨模态检索方法,该方法利用语义相似矩阵来很好地约束潜在语义表示,能够充分利用每个模态的内在信息和有用的特定模态信息,使得图像和文本检索更精确,可应用于监督跨模态检索中。
为了实现上述目标,本发明采用如下技术方案:
一种基于语义约束矩阵分解哈希的跨模态检索方法,包括输入不同模态的原始特征矩阵,先根据建立的个体矩阵模型分解每种模态获得潜在语义矩阵,再利用语义相似矩阵约束两个模态潜在语义矩阵,以及根据潜在语义矩阵和正交旋转矩阵生成哈希码,最后利用潜在语音矩阵从所述哈希码中获取类标签。
为了保留每种模态的特定属性和多模态数据的共享属性,本发明同时分别分解两种模态,个体矩阵分解(IMF)的目标函数如下:
其中,i=1,2,
采用不同模态之间的相关性,所述利用语义相似矩阵去约束个体的潜在语义矩阵的具体实现过程如下:
首先为图像模态和文本模态之间的标签一致性建模,然后给不同模态定义两个数据
其中,a
然后为了对不同模态之间的联系进行建模,利用语义相似矩阵来约束来自不同模态的特定于模态的表示形式,通过解决以下问题,
其中,
所述从潜在语义矩阵中引入正交旋转矩阵R来生成哈希码,所述哈希码矩阵为:
其中,
所述通过潜在语义矩阵从哈希码中获取类标签,即:
其中
本发明还一种基于语义约束矩阵分解哈希的跨模态检索模型,所述检索模型:
其中,
本发明又提供了一种基于语义约束矩阵分解哈希的跨模态检索系统,包括个体矩阵分解模块、标签约束模块、学习哈希函数模块、标签保存模块和学习哈希码模块;
所述个体矩阵分解模块用于分解图片和文本模态得到潜在语义矩阵;
所述标签约束模块用于利用语义相似矩阵拘束所述潜在语义矩阵,加强不同模态潜在语义矩阵之间的一致性;
所述学习哈希函数模块用于图片和文本模态的原始特征矩阵线性投影至所述潜在语义矩阵中生成所述哈希码矩阵;
所述标签保存模块用于从哈希码矩阵获取不同模态的类标签。
相较于现有技术,本发明方法通过使用语义相似矩阵来约束每个模态的模态特定表示,检索效果优于现有的矩阵分解方法,同时在三个数据集上的大量实验表明,本发明具有更好的检索性能。
附图说明
图1为本发明方法的流程图。
图2为本发明方法提出的算法架构图。
图3为EDSH、MsMFH和本发明方法在Wikipedia数据集上的前10个检索结果。
具体实施方式
如图1所示,本发明提供了一种基于语义约束矩阵分解哈希的跨模态检索方法,并根据该方法设计了对应的系统:所述检测系统包括个体矩阵分解模块、标签约束模块、学习哈希函数模块、标签保存模块和学习哈希码模块。
本实施例所述的基于语义约束矩阵分解哈希的跨模态检索方法包括输入不同模态的原始特征矩阵,先根据建立的个体矩阵模型分解每种模态获得潜在语义矩阵,再利用语义相似矩阵约束两个模态潜在语义矩阵,以及根据潜在语义矩阵和正交旋转矩阵生成哈希码,最后利用潜在语音矩阵从所述哈希码中获取类标签。
所述个体矩阵分解模块用于分解图片和文本模态得到潜在语义矩阵;为了保留每种模态的特定属性和多模态数据的共享属性,本实施例同时分别分解每种模态,个体矩阵分解的目标函数如下,
其中,i=1,2,
所述标签约束模块用于利用语义相似矩阵拘束所述潜在语义矩阵,加强不同模态潜在语义矩阵之间的一致性。
为图像模态和文本模态之间的标签一致性建模,给不同模态定义两个数据
其中,a
为了对不同模态之间的联系进行建模,使用语义相似矩阵来约束来自不同模态的特定于模态的表示形式,通过以下模型解决:
其中,
所述学习哈希码模块用于图片和文本模态的原始特征矩阵线性投影至所述潜在语义矩阵中生成所述哈希码矩阵;为了处理样本外的实例,本实施例分别通过两个线性投影将图像和文本原始特征矩阵映射到潜在语义矩阵中生成哈希码,所述哈希码函数模型为:
其中,
再通过从潜在语义矩阵引入正交旋转矩阵R来生成哈希码,
其中,
所述标签保存模块用于从哈希码矩阵获取不同模态的类标签;为了充分利用标签信息,进一步假设可以从哈希码中获得标签,利用潜在语音矩阵从所述哈希码B中获取类标签Y,即将B映射到类标签Y中,具体模型如下;
其中
最后个体矩阵分解模块、标签约束模块、学习哈希函数模块、标签保存模块和学习哈希码模块相结合,得到检索模型如下:
其中,
为了验证本实施例方法在跨模态检索上的优越性,选择3个公开的数据集上进行实验,其中包括Wikipedia数据集,Mirflickr25k数据集和NUS-WIDE数据集;跨模态检索评价采用mAP,并且还显示了在Wikipedia数据集上的Top-10检索结果;实验中,本实施例方法训练均运行10次,取其平均值作为最终结果,参数设置为:α
表1:在Wikipedia数据集上的mAP@100分数比较
表2:在Mirflickr25k数据集上的mAP@100分数比较
表3:在NUS-WIDE数据集上的mAP@100分数比较
(1)mAP值在三个公开数据集上的结果分析
本实施例方法与现有的9种跨模态检索方法进行比较,即CCA、IMH、STMH、CMFH、SMFH、SCRATCH-o、SCM-orth、EDSH、MsMFH。所有的方法在三个数据集上进行了对比实验,如以上3个表所示,本实施例方法的mAP值均高于其他对比实验方法,表明其语义相似矩阵约束潜在语义表示的效果好于其他的方法。
(2)Top-10检索结果的对比分析
如图3所示,MsMFH和EDSH方法有相同的故障案例,与我们的方法相比,该方法在文本查询图像任务中也有一次不成功,但检索结果与查询结果具有直观的语义相关性。
以上所述仅是本发明优选的实施方式,但本发明的保护范围并不局限于此,任何基于本发明所提供的技术方案和发明构思进行的改造和替换都应涵盖在本发明的保护范围内。
机译: 基于深度语义空间的跨媒检索方法
机译: 跨模态检索方法和系统
机译: 基于书本内容和索引的基于语义知识结构的学习者信息检索方法及其系统