法律状态公告日
法律状态信息
法律状态
2019-08-09
授权
授权
2017-06-06
实质审查的生效 IPC(主分类):G06F17/30 申请日:20161221
实质审查的生效
2017-05-10
公开
公开
技术领域
本发明涉及跨媒体检索技术领域,特指一种基于局部敏感哈希算法和神经网络的跨媒体检索方法。
背景技术
在跨媒体大数据时代,无时无刻不在产生的海量多模态信息带来了巨大的跨媒体检索需求,如用文本来搜索图像或视频,反之亦然。例如,维基百科上的一个词条通常包含文本描述和示例图像,这些信息的检索需要构建跨媒体索引与学习方法。与传统的单一媒体检索相比,跨媒体检索的核心问题是如何挖掘不同媒体表示的相同或相关语义对象之间的关联。
目前在世界范围内,针对该跨媒体检索的核心问题提出了众多的解决方法。已有的跨媒体检索方法主要分为两类,一类是基于主题的方法:文献[1]通过主题比例分析对不同模态的数据之间的相关性进行建模;文献[2]通过CORR-LDA挖掘图像与文本标注之间在主题层次的关系;文献[3]将马尔可夫随机域与传统LDA方法结合,提出了用简短的文字检索图像的有向和无向概率图的组合模型(MDRF);文献[4]提出一种用以利用多个媒体类型的微博信息来进行获得社会事件的可视化总结的多媒体社会事件自动摘要框架。另一类是基于子空间的方法:这一类的方法的核心是寻求使不同模态数据相关性最大化的子空间[5]。Sharma等人提出了一种通用的多模态特征提取框架技术,称为广义的多视角分析GMA[6]。文献[7]提出的T-V CCA模型中引入语义的观点,以提高子空间中不同类别的多模态数据分类准确率。文献[8]提出了一种Bi-CMSRM方法,从优化双向列表排序问题的角度构建了适用于跨媒体检索的计算模型。
[1]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].theJournal of machine Learning research,2003,3:993-1022.
[2]Blei D M,Jordan M I.Modeling annotated data[C]//Proceedings of the26th annual international ACM SIGIR conference on Research and developme ntin
information retrieval.ACM,2003:127-134.
[3]Jia Y,Salzmann M,Darrell T.Learning cross modality similarity formultinomial data[C]//Computer Vision(ICCV),2011IEEE International Conferenceon.
IEEE,2011:2407-2414.
[4]Bian J,Yang Y,Zhang H,et al.Multimedia Summarization for SocialEvents in Microblog Stream[J].IEEE Transactions on Multimedia,2015,17(2):216-228.
[5]Hardoon D R,Szedmak S,ShaweTaylor J.Canonical correlationanalysis:An overview with application to learning methods[J].Neuralcomputation,2004,16(12):2639-2664.
[6]Abhishek Sharma,Abhishek Kumar,H Daume,andDavidWJacobs.2012.Generalized multi-view analysis:A discriminative latentspace.In IEEE Conference on Computer Vision and Pattern Recognition.2160–2167.
[7]Yunchao Gong,Qifa Ke,Michael Isard,and Svetlana Lazebnik.2013.AMulti-View Embedding Space for Modeling Internet Images,Tags,and TheirSemantics.International Journal of Computer Vision(2013),1–24.
Wu F,Lu X,Zhang Z,et al.Cross-media semantic representation via bi-directional learning to rank[C]//Proceedings of the 21st ACM internationalconference on Multimedia.ACM,2013:877-886.
现有的跨媒体检索方法均存在同样的技术缺陷,即仅仅只考虑了跨媒体检索方法本身而忽略了对文档集的一些可行的优化处理,由于文档集中存在大量与查询不相关的文档,因此在进行精确查询之前对文档集进行预处理,提高文档集中相关文档所占比例对提高检索效率来说具有重要意义。
发明内容
针对现有的跨媒体检索方法所存在的技术问题,本发明提出一种能够提高检索的精确性的基于局部敏感哈希算法与神经网络的跨媒体检索方法。
本发明的具体技术方案是:
一种基于局部敏感哈希算法与神经网络的跨媒体检索方法,所述跨媒体检索方法包括以下步骤:
1)建立FCMR(Fast Cross-Media Retrieval,FCMR)模型,所述FCMR模型的训练过程包括局部敏感哈希阶段和哈希函数学习阶段;
2)利用局部敏感哈希函数与神经网络学习到的哈希函数将所有文本与图像映射到汉明空间建立索引;
3)进行跨媒体检索查询,包括文本查询和图像查询。
作为本发明的优选技术方案,本发明所述步骤1)中,所述局部敏感哈希阶段包括采用局部敏感哈希算法将图像数据映射到哈希桶,具体包括通过局部敏感哈希算法将图像数据映射到m个哈希表G=[g1,g2,...,gm]∈Rk×m的哈希桶内,其中G为m个哈希表的集合,gj表示第j个哈希表,k是哈希桶对应哈希码的长度。
作为本发明的优选技术方案,本发明所述步骤1)中,所述哈希函数学习阶段包括采用神经网络算法学习将文本数据映射到哈希桶的哈希函数Ht,具体包括通过神经网络算法学习将文本数据分别映射到m个哈希表内其对应的哈希桶内的哈希函数Ht=(Ht(1),Ht(2),...,Ht(m)),Ht(j),(1≤j≤m)表示学习到的对应于第j个哈希表的哈希函数。
作为本发明的优选技术方案,本发明所述步骤3)中,
所述文本查询为给定一个查询文本,通过哈希函数Ht(j)将该查询文本映射到m个哈希表中的哈希桶内,则这些哈希桶内存储的图像文件就组成了该查询文本的最近邻,将与查询文本落在相同的哈希桶中的图像样本作为候选结果集,进而在该查询文本的最近邻范围内进行精确地检索,计算查询文本与候选结果集中的图像之间的距离并进行精确的检索排名;
所述图像查询为给定一个查询图像,通过局部敏感哈希函数将该查询图像映射到m个哈希表中的哈希桶内,则这些哈希桶内存储的文本文件就组成了该查询图像的最近邻,进而在该查询图像的最近邻范围里进行精确检索。
作为本发明的优选技术方案,本发明所述局部敏感哈希函数定义如下:
其中,超平面向量
定义一系列哈希函数h1,h2,...,hn随机选取其中的k个函数组成函数g(x),设选的是h1到hk,则g(x)=(h1(x),h2(x),...,hk(x)),选取m个g(x)函数:g1(x),g2(x),...,gm(x),则每个g(x)函数对应一个哈希表;通过m个g(x)函数将图像空间中的每一个图像样本pi分别映射到m个哈希表中,这样每个图像样本pi都会在m个哈希表的某个哈希桶中出现;那么pi在第j个哈希表里对应的哈希桶可以表示为:
gj(pi)=<h1(pi),h2(pi)...,hk(pi)>,(0<j≤m,0<i≤n)(2)
作为本发明的优选技术方案,本发明FCMR模型中使用到的m个神经网络NN(j),(j∈1,2,...,m)具有相同的结构;每一个神经网络NN(j)有L层,其中输入层有dt个神经元对应于文本特征的维度,输出层有k个神经元对应于哈希码的k位,除了输入层与输出层外的剩余的L-2层用于学习哈希函数;将每一个ti∈T作为NN(j)的输入,可以得到神经网络各个层的输出
其中
神经网络学习到的哈希函数Ht(j)以ti为输入并输出长度为k的哈希码:
其中,
对于训练样本
基于最小方差定义损失函数为:
其中,
从局部敏感哈希阶段得到训练神经网络所需的训练样本
作为本发明的优选技术方案,本发明神经网络的训练分为预训练和参数调整,具体包括:
(1)将栈式自编码器(Stacked AutoEncoder,SAE)应用于FCMR模型以顺序地训练神经网络NN(j)中的每一层以初始化网络参数;
(2)基于所述损失函数式(5),通过BP算法来训练神经网络以调整网络参数;
(3)基于所有文本样本的方差和SSE设计了整体的损失函数如式(6)所示:
与现有技术相比,本发明的有益效果是:
本发明基于局部敏感哈希算法与神经网络,通过消除大量与查询无关的文档内容并获得一组查询的最近邻,最终在查询文档的最近邻范围内更高效地进行检索任务。
附图说明
图1为本发明的FCMR框架示意图。
图2为本发明的FCMR检索示意图。
具体实施方式
现结合说明书附图对本发明做详细说明。
本发明具体实施例提供的一种基于局部敏感哈希算法与神经网络的跨媒体检索方法(Fast Cross-Media Retrieval,FCMR),所述跨媒体检索方法主要包括如下步骤:
1)建立FCMR(Fast Cross-Media Retrieval,FCMR)模型,所述FCMR模型的训练过程包括局部敏感哈希阶段和哈希函数学习阶段;
2)利用局部敏感哈希函数与神经网络学习到的哈希函数将所有文本与图像映射到汉明空间建立索引;
3)进行跨媒体检索查询,包括文本查询和图像查询。
其中,为了使符号和算法表述更加简洁,下面以文本和图像两个模态为例描述提出的FCMR模型,模型可以很容易的扩展到其他模态,所述FCMR模型包括局部敏感哈希和哈希函数学习两个阶段。
在局部敏感哈希阶段,采用局部敏感哈希算法将图像数据映射到哈希桶,具体包括通过局部敏感哈希算法将图像数据映射到m个哈希表G=[g1,g2,...,gm]∈Rk×m的哈希桶内,其中R表示实数域,G为m个哈希表的集合,gj表示第j个哈希表,k是哈希桶对应哈希码的长度;
在哈希函数学习阶段,采用神经网络算法学习将文本数据映射到哈希桶的哈希函数Ht,具体包括通过神经网络算法学习将文本数据分别映射到m个哈希表内文本数据所对应的哈希桶内的哈希函数Ht=(Ht(1),Ht(2),...,Ht(m)),Ht(j),(1≤j≤m)表示学习到的对应于第j个哈希表的哈希函数。
文本数据的矩阵描述为:T=[t1,t2,...,tnt]∈Rdt×nt,其中T是文本数据的矩阵描述。相应的,P=[p1,p2,...,pnp]∈Rdp×np,其中P是图像数据的矩阵描述。其中,ti与pi一一对应,图像文本对的个数为n,即nt=np=n,在下面的内容里用n代替nt和np。
如果用局部敏感哈希算法获得了m个哈希表,那么需要设计m个与哈希表对应的神经网络以将文本数据映射到m个哈希表中这些文本数据所对应的哈希桶内。基于神经网络学习到的哈希函数与局部敏感哈希阶段使用的局部敏感哈希函数,可以对多模态数据建立索引,从而进行高效的跨媒体检索任务。
在建立索引之后,给定一个查询文本,通过哈希函数Ht(j)将该查询文本映射到m个哈希表中的哈希桶内,则这些哈希桶内存储的图像文件就组成了该查询文本的最近邻,进而在该查询文本的最近邻范围内进行精确地检索;给定一个查询图像,通过局部敏感哈希函数将该查询图像映射到m个哈希表中的哈希桶内,则这些哈希桶内存储的文本文件就组成了该查询图像的最近邻,进而在该查询图像的最近邻范围里进行精确检索。
下面详细说明本发明具体实施例中的局部敏感哈希算法,所述局部敏感哈希算法主要用来解决高维空间中点的近似最近邻搜索问题,局部敏感哈希函数定义如下:
其中,超平面向量
定义一系列哈希函数h1,h2,...,hn随机选取其中的k个函数组成函数g(x),设选的是h1到hk,则g(x)=(h1(x),h2(x),...,hk(x)),选取m个g(x)函数:g1(x),g2(x),...,gm(x),则每个g(x)函数对应一个哈希表。通过m个g(x)函数将图像空间中的每一个图像样本pi分别映射到m个哈希表中,这样每个图像样本pi都会在m个哈希表的某个哈希桶中出现。
那么pi在第j个哈希表里对应的哈希桶可以表示为:
gj(pi)=<h1(pi),h2(pi)...,hk(pi)>,(0<j≤m,0<i≤n)(2)
查询时,给定查询文本,利用Ht(j)函数查询文本进行映射,将与查询文本落在相同的哈希桶中的图像样本作为候选结果集,计算查询文本与候选结果集中的图像之间的距离并进行精确的检索排名。
通过局部敏感哈希算法,图像空间的样本pi,(0<i≤n)被映射到m个哈希表中,且每个pi,(0<i≤n)都会和与其相似的样本一起出现在m个哈希表的某个哈希桶。这样,每一个图像样本pi都与第j(0<j≤m)个哈希表的某个哈希桶建立了联系。同时上面提到过,在模型中由于pi和ti是同一语义不同模态的描述,图像样本与文本样本是一一对应的,因此,每一个文本样本ti也与第j(0<j≤m)个哈希表的某个哈希桶建立了联系。至此,得到了用于训练神经网络学习中将文本样本ti映射到第j(0<j≤m)个哈希表中文本样本ti对应哈希桶的函数的训练样本:
下面详细说明本发明具体实施例中的局部敏感哈希算法,如图1所示,图1给出了哈希函数学习阶段神经网络结构,图1模型中使用到的m个神经网络NN(j),(j∈1,2,...,m)具有相同的结构;每一个神经网络NN(j)有L层,其中输入层有dt个神经元对应于文本特征的维度,输出层有k个神经元对应于哈希码的k位,剩余的L-2层用于学习哈希函数。将每一个ti∈T作为NN(j)的输入,可以得到神经网络各个层的输出
其中
神经网络学习到的哈希函数Ht(j)以ti为输入并输出长度为k的哈希码:
其中,
由于符号函数不可微,很难优化,因此在用神经网络学习哈希函数的阶段除去了符号函数,并在测试阶段重新加上。
对于训练样本
基于最小方差定义损失函数为:
其中,
根据局部敏感哈希阶段得到训练神经网络所需的训练样本
神经网络的训练分为预训练和参数调整,预训练可以更好地初始化网络参数并防止网络陷入局部最优解,神经网络的训练具体包括以下步骤:
(1)将栈式自编码器(Stacked AutoEncoder,SAE)应用于FCMR模型来顺序地训练神经网络NN(j)中的每一层以初始化网络参数。
(2)基于损失函数式(5),通过BP算法(反向传播算法)来训练网络调整网络参数;
(3)基于所有文本样本的方差和SSE设计了整体的损失函数如式(6)所示:
为了使得神经网络NN(j)学习到的函数Ht(j)可以很好地将文本样本数据映射到j个哈希表中其对应的哈希桶内,本发明实施例采用传统的反向传播算法来训练神经网络NN(j),在测试阶段最终通过式(4)获得最终的哈希函数Ht(j)。
其中,本实施例的FCMR的算法过程具体如下:
图2示出了只有一个哈希表时,FCMR进行检索的示意图,多个哈希表只需用所有神经网络学习到的哈希函数将文本映射到汉明空间即可。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
机译: 基于神经网络算法的对象控制系统及基于神经网络算法的评价方法
机译: 基于与神经网络算法关联的元数据在神经突触基质上实现神经网络算法
机译: 基于与神经网络算法关联的元数据在神经突触基质上实现神经网络算法