首页> 中国专利> 基于隐空间学习和双向排序学习的跨媒体排序方法

基于隐空间学习和双向排序学习的跨媒体排序方法

摘要

本发明公开了一种基于隐空间学习和双向排序学习的跨媒体排序方法。包括如下步骤:1)将文本检索图像的排序样本和图像检索文本的排序样本统一构建为训练样本;2)对构建得到的训练样本进行基于隐空间学习和双向排序学习的跨媒体排序学习,得到多媒体语义空间以及跨媒体排序模型;3)使用学习得到的跨媒体排序模型进行跨媒体排序。本发明不仅可以应用于文本检索图像以及图像检索文本,而且由于同时对两个检索方向进行建模,得到的检索模型的语义理解能力更强,检索精度较于仅考虑单向排序学习的方法更好。

著录项

  • 公开/公告号CN103559191A

    专利类型发明专利

  • 公开/公告日2014-02-05

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201310410565.2

  • 申请日2013-09-10

  • 分类号G06F17/30(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人张法高

  • 地址 310027 浙江省杭州市西湖区浙大路38号

  • 入库时间 2024-02-19 22:18:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-27

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20160914 终止日期:20180910 申请日:20130910

    专利权的终止

  • 2016-09-14

    授权

    授权

  • 2014-03-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130910

    实质审查的生效

  • 2014-02-05

    公开

    公开

说明书

技术领域

本发明设计跨媒体检索,尤其涉及一种基于隐空间学习和双向排序学习的跨媒体排序方法。

背景技术

图像是当前非常常见的文件类型,它具有一定的语义。一般来说,图像由一个个的像素点组成,计算机并不能直接理解图像所蕴含的语义信息。随着多媒体技术和网络技术的发展,越来越多的图像涌现出来。检索技术可以帮助用户在海量的数据中快速查找到自己感兴趣的内容,成为计算机应用技术中越来越重要的领域。传统的检索技术,无论是基于关键词的检索还是基于内容的检索,都不能很好地满足用户希望用文本检索图像或者图像检索文本的需求。基于关键词的检索系统中,需要事先对图像进行标注。但是由于目前存在的图像数量巨大,因此标注过程工程量浩繁,而由于标注内容不可避免地会受到标注者主观因素的影响,针对同一个图像,不同的标注者可能会标注不同的关键词,因此关键词往往不能客观反映图像所蕴含的全部语义。基于内容的检索系统则不需要对图像进行标注,用户提交一个检索样例对图像进行检索,但是传统的基于内容的检索技术存在两个弱点:一是用户只能检索与查询例子相同模态的媒体对象,只能通过图像检索图像;二是图像的底层特征和高层语义存在语义鸿沟因此检索性能受到限制。为了跨越不同模态数据间的语义鸿沟,更好地理解多媒体语义,同时为了满足用户跨媒体查询的需求,寻求一种基于语义的跨媒体排序方法颇有意义。

发明内容

本发明的目的是克服现有技术的不足,提供一种基于隐空间学习和双向排序学习的跨媒体排序方法。

基于隐空间学习和双向排序学习的跨媒体排序方法,包括如下步骤:

1)将文本检索图像的排序样本和图像检索文本的排序样本统一构建为训练样本;

2)对构建得到的训练样本进行基于隐空间学习和双向排序学习的跨媒体排序学习,得到多媒体语义空间以及跨媒体排序模型;

3)使用学习得到的跨媒体排序模型进行跨媒体排序:用户提交查询例子后,首先找到该查询例子在多媒体语义空间的坐标,然后根据跨媒体对象在多媒体语义空间内的坐标,计算查询例子与其他所有跨媒体对象在多媒体语义空间的相似度,并根据该相似度,对所有跨媒体对象进行排序。

所述的步骤1)包括:

1)对训练样本里的所有文本文档利用词袋模型进行特征表达,并利用TF-IDF方法对每个单词进行加权,文本最终被表示为t∈Rm,其中m为文本空间的维数;

2)对训练样本里的所有图像文档提取SIFT局部特征点,并对这些局部特征点进行K-Means聚类,用聚类中心构建码本以及视觉单词。然后对每张图片,通过欧氏距离最近邻计算该图片的每个局部特征点应该属于码本里的哪一个视觉单词,最后和对文本文档的处理一样,利用词袋模型和TF-IDF方法进行特征表达,图像最终被表示为p∈Rn,其中n为图像空间的维数;

3)对文本检索图像方向而言,对每一个查询文本,构建一个图像的排序列表,其中列表中的图像被标记为查询语义相关或者语义不相关,因此每个文本检索图像的训练样本被表示为三元组其中N为训练样本个数,ti为检索文本,pi为图像集合,是图像集合上的排序,y表示整个排序空间;

4)对图像检索文本方向而言,对每一个查询图像,构建一个文本文档的排序列表,其中列表中的文本文档被标记为查询语义相关或者语义不相关,每个图像检索文本的训练样本被表示为三元组M为训练样本个数,pi为检索图像,tj是文本文档集合,是文本文档集合上的排序;

5)将两个方向上的查询列表合并起来得到统一的训练样本。

所述的步骤2)包括:

1)使用结构支持向量机构建一个优化问题,其目标函数是使得映射函数在结构风险和经验风险之间取得折中:

>minU,V,ξ1,ξ2λ2||U||F2+λ2||V||F2+1NΣi=1Nξ1,i+1MΣj=N+1N+Mξ2,js.t.i{1,...,N},yy:δF(ti,pi,y)Δ(yi*,y)-ξ1,ij{N+1,...,N+M},yy:δF(pj,tj,y)Δ(yj*,y)-ξ2,j.---(1)>

其中,是将文本映射到隐空间的映射矩阵,是将图像映射到隐空间的映射矩阵,k是隐空间的维数,ξ1,i和ξ2,j是松弛变量。定义的函数F如下:

>F(t,p,y)=Σip+Σjp-yij(Ut)TV(pi-pj)|p+|·|p-|---(2)>

>δF(ti,pi,y)=F(ti,pi,yi*)-F(ti,pi,y)---(3)>

>F(p,t,y)=Σit+Σjt-yij(Vp)TU(ti-tj)|t+|·|t-|---(4)>

>δF(pj,tj,y)=F(pj,tj,yj*)-F(pj,tj,y)---(5)>

其中,p+和p-分别表示与查询文本t相关的图像集合和与查询文本t不相关的图像集合,t+和t-分别表示与查询图像p相关的文本集合,与查询图像p不相关的文本集合。yij的值根据排序y来决定:如果文档i比文档j的排序靠前,则yij=1,否则yij=-1。此外,定义损失函数为Δ(y*,y)=1-MAP(y*,y),MAP是Mean Average Precision,一种信息检索里常用的性能测量标准,MAP值越大,排序性能越好,损失函数的值就越小;

2)输入双向的排序样本作为优化问题的训练样本,求解得到参数U和V。

所述的步骤3)包括:

1)对输入为文本查询样本t的情况下,对所有图像pi根据以下公式计算其与查询样本的相似度:f(t,pi)=(Ut)TVpi,然后按相似度从大到小对图像进行排序;

2)对输入为图像查询样本p的情况下,对所有文本文档ti根据以下公式计算其与查询样本的相似度:f(ti,p)=(Uti)TVp,然后按相似度从大到小对文本文档进行排序。

本发明与背景技术相比,具有的有益的效果是:

本发明针对双向排序训练样本提出了一套新的基于语义内容的检索方法。由于该方法融合了隐空间学习和双向排序学习两种机制,充分利用了双向排序训练样本,同时针对排序性能进行直接优化,因此具有更好的排序性能。

附图说明

图1是基于隐空间学习和双向排序学习的跨媒体排序方法示意图;

图2是本发明的查询结果的实例。

具体实施方式

本发明通过融合隐空间学习和双向排序学习对多媒体文档进行语义理解,将所有的多媒体文档(文本文档、图像)映射到一个统一的多媒体语义隐空间中,从而实现跨媒体排序检索。

基于隐空间学习和双向排序学习的跨媒体排序方法,包括如下步骤:

1)将文本检索图像的排序样本和图像检索文本的排序样本统一构建为训练样本;

2)对构建得到的训练样本进行基于隐空间学习和双向排序学习的跨媒体排序学习,得到多媒体语义空间以及跨媒体排序模型;

3)使用学习得到的跨媒体排序模型进行跨媒体排序:用户提交查询例子后,首先找到该查询例子在多媒体语义空间的坐标,然后根据跨媒体对象在多媒体语义空间内的坐标,计算查询例子与其他所有跨媒体对象在多媒体语义空间的相似度,并根据该相似度,对所有跨媒体对象进行排序。

所述的步骤1)包括:

1)对训练样本里的所有文本文档利用词袋模型进行特征表达,并利用TF-IDF方法对每个单词进行加权,文本最终被表示为t∈Rm,其中m为文本空间的维数;

2)对训练样本里的所有图像文档提取SIFT局部特征点,并对这些局部特征点进行K-Means聚类,用聚类中心构建码本以及视觉单词。然后对每张图片,通过欧氏距离最近邻计算该图片的每个局部特征点应该属于码本里的哪一个视觉单词,最后和对文本文档的处理一样,利用词袋模型和TF-IDF方法进行特征表达,图像最终被表示为p∈Rn,其中n为图像空间的维数;

3)对文本检索图像方向而言,对每一个查询文本,构建一个图像的排序列表,其中列表中的图像被标记为查询语义相关或者语义不相关,因此每个文本检索图像的训练样本被表示为三元组其中N为训练样本个数,ti为检索文本,pi为图像集合,是图像集合上的排序,y表示整个排序空间;

4)对图像检索文本方向而言,对每一个查询图像,构建一个文本文档的排序列表,其中列表中的文本文档被标记为查询语义相关或者语义不相关,每个图像检索文本的训练样本被表示为三元组M为训练样本个数,pj为检索图像,tj是文本文档集合,是文本文档集合上的排序;

5)将两个方向上的查询列表合并起来得到统一的训练样本。

所述的步骤2)包括:

1)使用结构支持向量机构建一个优化问题,其目标函数是使得映射函数在结构风险和经验风险之间取得折中:

>minU,V,ξ1,ξ2λ2||U||F2+λ2||V||F2+1NΣi=1Nξ1,i+1MΣj=N+1N+Mξ2,js.t.i{1,...,N},yy:δF(ti,pi,y)Δ(yi*,y)-ξ1,ij{N+1,...,N+M},yy:δF(pj,tj,y)Δ(yj*,y)-ξ2,j.---(6)>

其中,是将文本映射到隐空间的映射矩阵,是将图像映射到隐空间的映射矩阵,k是隐空间的维数,ξ1,i和ξ2,j是松弛变量。定义的函数F如下:

>F(t,p,y)=Σip+Σjp-yij(Ut)TV(pi-pj)|p+|·|p-|---(7)>

>δF(ti,pi,y)=F(ti,pi,yi*)-F(ti,pi,y)---(8)>

>F(p,t,y)=Σit+Σjt-yij(Vp)TU(ti-tj)|t+|·|t-|---(9)>

>δF(pj,tj,y)=F(pj,tj,yj*)-F(pj,tj,y)---(10)>

其中,p+和p-分别表示与查询文本t相关的图像集合和与查询文本t不相关的图像集合,t+和t-分别表示与查询图像p相关的文本集合,与查询图像p不相关的文本集合。yij的值根据排序y来决定:如果文档i比文档j的排序靠前,则yij=1,否则yij=-1。此外,定义损失函数为Δ(y*,y)=1-MAP(y*,y),MAP是Mean Average Precision,一种信息检索里常用的性能测量标准,MAP值越大,排序性能越好,损失函数的值就越小;

2)输入双向的排序样本作为优化问题的训练样本,求解得到参数U和V。具体求解算法如下:

对步骤3和步骤5中的寻找最优y,可以使用SVMMAP方法进行求解。最后求解得到的U和V即分别为文本空间到隐空间的线性映射函数和图像空间到隐空间的线性映射函数。

所述的步骤3)包括:

1)对输入为文本查询样本t的情况下,对所有图像pi根据以下公式计算其与查询样本的相似度:f(t,pi)=(ut)TVpi,然后按相似度从大到小对图像进行排序;

2)对输入为图像查询样本p的情况下,对所有文本文档ti根据以下公式计算其与查询样本的相似度:f(ti,p)=(Uti)TVp,然后按相似度从大到小对文本文档进行排序。

实施例

为了验证本发明的效果,从“维基百科-每日一图”的网页上抓取约2900个网页,分为10个大类,每个网页包含了一张图像以及几段相关的描述文本,以此作为数据集进行实验。如果图像和文本都归属于10大类中的一类,则认为图像和文本相关,否则不相关。将数据集划分为训练集和测试集,本发明在训练集上进行训练,然后在测试集上进行独立评价。对于特征提取按照本发明所说步骤进行,其中去除常见词和生僻词后文本空间设定为5000维,图像空间设定为1000维。为了客观地评价本发明的算法的性能,发明者使用平均准确率(Mean Average Precision,MAP)对本发明进行评价。MAP的结果如表1所示:

MAP50MAPall文本查询图像0.39810.2123图像查询文本0.25990.2528

表1

其中MAP50是前50个返回结果计算得到的MAP值,MAPall是所有返回结果计算得到的MAP值。

为了更好地展现本发明在跨媒体检索上的结果,在图2中呈现了一些查询结果的实例。图2是本发明的两次检索结果,分别为文本检索图像和图像检索文本。其中在展示图像检索文本时,返回的文本使用了其对应的图像作为展示。从呈现的结果可以看到,无论是以图像查询文本,还是以文本查询图像,本发明的方法都具有较好的效果,能返回传统的单一模态的检索所不能实现的语义上相近的结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号