首页> 中国专利> 基于软约束无监督型跨模态哈希的图像检索方法

基于软约束无监督型跨模态哈希的图像检索方法

摘要

本发明公开了基于软约束无监督型跨模态哈希的图像检索方法,包括依次进行的以下步骤:建立图片及其对应文本数据的数据集,得到图像特征数据矩阵和文本特征数据矩阵;构造图像相似度矩阵和文本相似度矩阵,并根据图像相似度矩阵和文本相似度矩阵分配哈希码,从而得到引导哈希码;采用引导哈希码来优化最终哈希码和相应的投影矩阵;计算该哈希码与所述检索库中的样本的哈希码之间的汉明距离,进而根据所述汉明距离的大小顺序,由小到大依次输出检索结果。本发明应用时能降低哈希码的量化损失和缩小语义鸿沟,并能得到离散解,进而能提升图片和文本交叉检索的准确度和效率。

著录项

  • 公开/公告号CN107766555A

    专利类型发明专利

  • 公开/公告日2018-03-06

    原文格式PDF

  • 申请/专利权人 电子科技大学;

    申请/专利号CN201711066020.9

  • 申请日2017-11-02

  • 分类号G06F17/30(20060101);

  • 代理机构51220 成都行之专利代理事务所(普通合伙);

  • 代理人郭受刚

  • 地址 610000 四川省成都市高新西区西源大道2006号

  • 入库时间 2023-06-19 04:42:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-21

    授权

    授权

  • 2018-03-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20171102

    实质审查的生效

  • 2018-03-06

    公开

    公开

说明书

技术领域

本发明涉及图像检索技术,具体是基于软约束无监督型跨模态哈希的图像检索方法。

背景技术

近些年,伴随着图片和文本为代表的数据数量的急剧增长,跨模态数据的数量也随之增加。加之从单一模态获得的数据可能存在错误或者不准确的情况,以及以图搜文、以文搜图等实际需要的出现,跨模态学习也因此得到广泛的应用。现有跨模态学习方法的主要思想是利用矩阵映射和矩阵分解,进而得到一个放松约束条件的解再进行二值化求得哈希码,其应用时所产生的哈希码会不可避免的存在量化损失。为了解决这个问题,由谱旋转为代表的基于矩阵旋转的方法得以提出,并一定程度上解决了量化损失(减小语义鸿沟)的问题。但是,基于矩阵旋转的方法既没有给出哈希码的离散解,也没有真正挖掘这些样本点间的内在联系,这会对图片和文本交叉检索的准确度和效率产生影响。

发明内容

本发明的目的在于克服现有技术的不足,提供了一种基于软约束无监督型跨模态哈希的图像检索方法,其应用时能降低哈希码的量化损失和缩小语义鸿沟,并能得到离散解,进而能提升图片和文本交叉检索的准确度和效率。

本发明的目的主要通过以下技术方案实现:基于软约束无监督型跨模态哈希的图像检索方法,包括依次进行的以下步骤:

S1、建立图片及其对应文本数据的数据集,提取所述数据集中每一张图片和文本对应的特征数据并处理,以得到图像特征数据矩阵和文本特征数据矩阵;

S2、构造图像相似度矩阵和文本相似度矩阵,并根据图像相似度矩阵和文本相似度矩阵分配哈希码,从而得到引导哈希码;

S3、采用引导哈希码来优化最终哈希码和相应的投影矩阵;具体方式为:迭代地更新哈希码和投影矩阵,直到哈希码和投影矩阵不再变化时输出最终二进制哈希码和投影矩阵;

S4、从所述训练编码矩阵和测试哈希码矩阵中选取预设数量张图片和文本数据对应的训练好的哈希码构成检索库,从所述测试编码矩阵中选取图片或语义标签左乘对应的投影矩阵并二值化成哈希码形式,并计算该哈希码与所述检索库中的样本的哈希码之间的汉明距离,进而根据所述汉明距离的大小顺序,由小到大依次输出检索结果。

进一步的,所述步骤S2中构造的图像相似度矩阵为φ(X(1),X(1)),其中,X(1)为图像特征向量构成的矩阵,图片特征向量X(1)∈Ra,且n为数据集中的实例个数;

所述步骤S2中构造的文本相似度矩阵为φ(X(2),X(2)),其中,X(2)为文本特征向量构成的矩阵,文本特征向量X(2)∈Rb,且n为数据集中的实例个数。

进一步的,所述步骤S2中构造图像相似度矩阵和文本相似度矩阵的具体操作步骤为:

根据作为引导哈希码,以及B=[b1>2…bn]∈{-1,1}q×n作为最终哈希码,将X(1)和X(2)转换成最终的哈希码B,其中q表示哈希码的长度,P1=Rq×a和P2=Rq×b是投影矩阵,对这些矩阵进行随机初始化构建相似度矩阵φ(X(1),X(1))和φ(X(2),X(2))。

进一步的,所述步骤S3包括以下操作步骤:

优化下述方程:

上述公式可等效于以下公式:

进一步的,所述步骤S3中迭代地更新哈希码的公式如下:

B=Sign(BG1P1X12P2X2)。

进一步的,所述步骤S3中计算引导训练最终哈希码的公式如下:

以上公式为非凸函数,如果保持B值与P2值不变,并且更新P1,即可视为一个凸优化问题,并获得最终结果;上式优化为:

求解得到P1的数值解;之后运用同样的方法得到P2的数值解。

综上所述,本发明具有以下有益效果:本发明在图片检索过程中极力降低哈希码的量化损失,较好的利用了样本点之间的关系,并通过相似度矩阵一定程度上解决了语义鸿沟的问题。除此之外,为了解决过拟合问题,在提出的模型中构建了一个统一架构,综合相似度矩阵和矩阵映射两种方法的优势来分配哈希码,并给出了它的离散解,使得本发明可用离散的方法对哈希进行了求解;本发明通过设置软约束项,可以综合两种哈希分配方法的优势,进而减少了哈希码中存在的噪声。本发明通过引入BG来协助改良哈希码B的质量,能提升图片和文本交叉检索的准确度和效率。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明一个具体实施例的流程图;

图2为本发明一个具体实施例中软约束哈希算法实现框图;

图3为有无软约束条件在LabelMe和MIR-Flickr数据集上的数据比对;

图4为本发明一个具体实施例在LabelMe和MIR-Flickr的仿真结果与经典方法的结果比对。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例:

如图1所示,基于软约束无监督型跨模态哈希的图像检索方法,包括依次进行的以下步骤:S1、建立图片及其对应文本数据的数据集,提取所述数据集中每一张图片和文本对应的特征数据并处理,以得到图像特征数据矩阵和文本特征数据矩阵;S2、构造图像相似度矩阵和文本相似度矩阵,并根据图像相似度矩阵和文本相似度矩阵分配哈希码,从而得到引导哈希码;S3、采用引导哈希码来优化最终哈希码和相应的投影矩阵;具体方式为:迭代地更新哈希码和投影矩阵,直到哈希码和投影矩阵不再变化时输出最终二进制哈希码和投影矩阵;S4、从所述训练编码矩阵和测试哈希码矩阵中选取预设数量张图片和文本数据对应的训练好的哈希码构成检索库,从所述测试编码矩阵中选取图片或语义标签左乘对应的投影矩阵并二值化成哈希码形式,并计算该哈希码与所述检索库中的样本的哈希码之间的汉明距离,进而根据所述汉明距离的大小顺序,由小到大依次输出检索结果。

本实施例步骤S2中构造的图像相似度矩阵为φ(X(1),X(1)),其中,X(1)为图像特征向量构成的矩阵,图片特征向量X(1)∈Ra,且n为数据集中的实例个数。步骤S2中构造的文本相似度矩阵为φ(X(2),X(2)),其中,X(2)为文本特征向量构成的矩阵,文本特征向量X(2)∈Rb,且n为数据集中的实例个数。Ra表示定义域为实数域的a维向量,Rb表示定义域为实数域的b维向量。本实施例通过优化公式:找到可以使该函数取最小值的BG,即得到了引导哈希。为实现上述操作,具体BG的解法在Kang>

本实施例的步骤S2在具体构造图像相似度矩阵和文本相似度矩阵时,将引导哈希码作为“隧道”的一边,用以优化最终哈希码和相应的投影矩阵,便于样本扩展。正如图2.软约束哈希算法实现框图所示,根据作为引导哈希码,以及B=[b1>2…bn]∈{-1>q×n作为最终哈希码,其中q表示哈希码的长度,P1∈Rq×a和P2∈Rq×b是投影矩阵,对这些矩阵进行随机初始化构建相似度矩阵φ(X(1),X(1))和φ(X(2),X(2)),它可以将X(1)和X(2)转换成最终的哈希码B。

本实施例中所述的隧道是一个比喻,指的是:这个公式中这一部分。BG就是引导哈希码,式子用以优化B,P1,P2。这里的P1和P2就是映射矩阵。映射矩阵可以用来实现样本扩展,实现的方式是:将待检测的图片特征向量左乘以P1后取符号函数sign变为1和-1或者将待检测的文本特征左乘以P2后取符号函数sign。之后用这个1=和-1构成的向量去和数据库中的已有样本的哈希码(即1与-1构成的向量)做汉明距离的比对来进行检索。

本实施例应用时如果没有BG这一项,也就是这一项,仅凭后面这几项组合成的目标函数生成的哈希码不能很好的解决语义鸿沟问题,也不能很好的表达样本点间的空间关系,通过添加这一项,即引入BG,可以改善产生的哈希码用于检索时的效果(mAP和precision)。上述公式中参数均为超参数,即根据训练过程中的map和precision的值进行调整并最后依据调试情况确定的一组参数,也就是说,它们不是计算得来的,而是根据反馈结果调试得到的。

本实施例的步骤S3在具体实施时,定义一个内核函数,即因此,定义相似度矩阵φ(X(m),X(n)),令(例如X(1)∈Ra×n,X(2)∈Rb×n并且φ(X(1),X(2))∈Ra×b)。其中,公式中的φ(X(1),X(1))和φ(X(2),X(2))就是依据步骤S3的具体实施得到的。

在多媒体研究领域,语义差距是一个长期存在的问题,令研究人员困扰良久。旨在减少这一差距的一个有效方法是建立一个旋转矩阵,使差距可以被缩小。在旋转过程之后,每个实例的数值都有具体的变化,但这些实例之间的距离是不变的。根据这个结论,在这里使用相似度矩阵模型来实现引导哈希BG的分配过程。

优化下述方程:

建立一个相似度矩阵,使差距可以被缩小。根据以上公式可以得到(根据矩阵F范数性质得到的一个等价变换):

该公式可以用Kang W C,Li W J,Zhou Z H.Column Sampling Based DiscreteSupervised Hashing[C]//AAAI.2016:1230-1236.中提出的方法求解。其中参数alpha是超参数,即需要在调试过程中才能确定。

本实施例的步骤S3在具体实施时,运用函数迭代地更新哈希码B和投影矩阵P1和P2。在这个步骤中,首先令B=BG,之后将软约束方程应用引导哈希码来得出的二进制码。其具体操作步骤为:针对调用SLEP工具包,求解P1,再针对进行同样的操作,求解P2。判断不在变化的标准是的值基本不再变化(如两次迭代的差值小于0.001)。其中,SLEP为一个开源工具包。

由于标准稀疏编码仅使用几个活动矢量描述每个样本,则它对于图像表示至少有两个优点:首先,自然图像通常可以以少量的结构基元来描述,稀疏约束允许捕捉突出结构;其次,完善的词典为低级功能提供了很好的描述力。基于以上,使用稀疏编码在软约束哈希Soft Constraint Hashing(SCH),即本实施例所述方法里来捕获其中的显著结构。

先前生成的哈希码利用相似度矩阵成功地弥合语义差距,但是,通过这种方法制定的哈希码对其样本之间的联系过分依赖,并忽略了可能的过拟合问题。为了解决这个问题,对其进行软约束,这可以有效地优化最终的哈希码。则最终哈希码公式为:

以上公式为非凸性函数。如果保持B值与P2值不变,并且更新P1,即可视为一个凸优化问题,并获得P1的结果。待优化公式为:

最后,通过使用“SLEP包(Sparse Learning with Ecient Projec)”来解决上述优化问题。

更新B常见的方法是尝试寻找一个放松约束条件的哈希码,尽管很难得到一个离散的哈希码。这里提出的求解方法在(监督离散哈希(SDH))中离散地更新B。公式如下:

B=Sign(BG1P1X12P2X2)。

反复优化哈希码B,直到哈希码B和投影矩阵P1和P2不再变化时输出最终二进制哈希码B和投影矩阵P1和P2

本实施例的训练编码矩阵就是B,测试编码矩阵的生成方式是将待检测的图片特征向量构成的矩阵左乘以P1后取符号函数sign变为1和-1或者将待检测的文本特征左乘以P2后取符号函数sign。之后用这个1和-1构成的矩阵(即测试编码矩阵)去和数据库中的已有样本的哈希码做汉明距离的比对来进行检索。

本实施例运用LabelMe以及MIR-Flickr两个跨模态数据集衡量本实施例跨模态检索方法的具体效果。并且,比较“对比方法”与本实施例软约束哈希方法在跨模态检索精度方面的表现。最后,对有无软约束的模型进行比较,并选择平均精度(mAP)和精度(precision)作为评估指标,实验结果如图3,图4所示。

本实施例的实验效果论证具体说明:

LabelMe数据集由MIT计算机科学与人工智能实验室制作,由2688张图像组成。每个图像是由表示该图像中的对象的多个标签注释,例如海和海滩。标签出现在少于3个图像中则被丢弃,剩下245个唯一标签。该数据集分为8个独特的户外场景,如海岸,森林,高速公路,每幅图像属于一个场景。每个图像都被表示通过512维GIST功能,每个文本由所选标签索引向量表示。如果他们共享相同的场景标签,图像文本则被认为是相似的。

MIR-Flickr是一个真实的数据集,最初由25,000个从Flickr网站收集的实例组成,每个都是与其关联的文字标签。每个实例都使用24个标签中的至少一个进行手动注释。删除出现小于20次的标签或文本标签的实例。最后,剩下16,738个实例。对于每个实例,其图像是由150D边缘直方图表示,其文本作为500维在其索引标记向量上从PCA生成的特征向量。这里占5%数据集作为查询集,其余作为训练集和检索数据库。

LabelMe数据集和MIR-Flickr数据集本身是两个纯粹的图片数据集,前者采用150维的SIFT来提取特征,后者采用GIST技术(计算机视觉领域基础技术)提取出图片特征向量,所有被用于训练的图片的向量排列成矩阵形式构成特征数据矩阵。前这两种都是常规处理方法。本实施例所述的方法适用于各种主流的图像及文本的特征提取方法(如图像用GoogLenet,VGGnet,caffe等,文本用哈希以及基于RNN的word2vec等),这里仅仅以这两种数据集以及对应的特征提取方法(SIFT,GIST,word2vec)为例并展示了实验效果。

在无监督的跨模态哈希中选择几种代表性的区域作为“对比方法”,包括协同矩阵分解哈希(CMFH),跨模态相似度敏感哈希(CMSSH)和流形诱导哈希(IMH)。对于所有“对比方法”,源码均由他们的作者提供。

对所提出的模型进行有无软约束条件的比较,旨在记录软约束哈希码实验效果。LabelMe的比较结果如Tab.1中所示,MIR-Flicker的比较结果如Tab.2中所示。

根据Tab.1和Tab.2,通过添加软约束项,总体来说,mAP和精度的表现都明显改善。

从Tab.2可以看出,无软约束的检索方法性能相对较差(尤其是精度)。此结果表明使用引导哈希码实际上可以帮助生成质量更好的哈希码,并随之提高了跨模态检索的性能。

从图4可以看出,在LabelMe和MIR-Flickr上使用不同长度的二进制码,即16,32,64和128位。可以看出,SCH基本上优于所有的跨模态检索方法。不论是使用文本作为查询来搜索类似的图像,还是使用图像作为查询进行搜索数据库中的相似文本。本实施例继承COSDISH和软约束的优点,SCH优于现有的所有方法。尤其是与CMFH,SCH相比,在MIR-Flickr中mAP绝对增长值达到-2.23%/-1.69%,0.10%/0.72%,0.91%/0,62%,117%/1.31%(图像转文字/文字转图像)。在LabelMe中mAP提升值为0.1422/0.1352,0.2080/0.1502,0.2731/0.1677,0.33625/0.4578。对于短码,CMFH性能较好,然而,随着码长度的增加,由于过拟合问题,其检索性能衰减。随着多媒体的繁荣,社交网站的数据显示,由于存储容量低,短码使用量将大大下降。相比之下,相对较长的码可以更好地满足大规模数据检索任务的要求。对于长码,本实施例可以长时间得到高质量的检索结果,这些结果验证了SCH能够实现高质量有效的跨模态检索。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号