法律状态公告日
法律状态信息
法律状态
2020-06-26
授权
授权
2019-12-24
实质审查的生效 IPC(主分类):G06F16/58 申请日:20190812
实质审查的生效
2019-11-29
公开
公开
技术领域
本公开涉及多媒体信息检索领域,具体涉及一种基于语义迁移的弱监督深度哈希社交图像检索方法和系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着互联网技术的快速发展,每天都有数以亿计的社交图像被上传到各种社交网站,社交图像呈现出爆炸式的增长趋势,如何对海量的社交图像进行快速高效的检索已成为信息检索领域中一个重要且亟需解决的问题,哈希方法检索速度快,存储开销小,在该问题上获得越来越广泛的关注和应用。
现有的哈希检索方法可以分为两大类:有监督哈希和无监督哈希。有监督哈希需要使用显式的语义标签获取哈希码,然而,在实际的社交图像检索环境下,获取高质量的图像语义标签将耗费巨大的人力、物力和财力,此外,过分依赖图像语义标签会影响检索系统的可扩展性。无监督哈希利用图像的视觉特征获取哈希码,不依赖于任何监督标签,具有更理想的可扩展性,但是,图像视觉特征仅包含有限的语义信息,由于汉明空间的嵌入,基于图像视觉特征生成的哈希码所包含的语义信息将变得更加有限,语义信息的不足将直接降低社交图像检索的精度。
社交图片通常附有用户提供的标签信息,这些用户标签在语义上与图像内容相关,可以作为一个重要的语义源来提高哈希码的识别能力。根据社交图像的这一特性,语义感知哈希(SAH)在学习哈希码的过程中考虑保存用户标签所包含的语义关联信息。弱监督多模态哈希(WMH)同时考虑用户标签所包含的语义关联信息和视觉图像的局部判别结构与几何结构。虽然这些研究工作对社交图像哈希进行了先行探索,但仍存在以下问题:特征表示和哈希函数学习被分成两个相互独立的过程,使得视觉特征与后续编码过程不能最佳兼容;使用线性哈希函数,学习到的哈希码表达能力有限;直接利用用户标签进行哈希学习,标签中的噪音会影响检索性能;另外,采用“松弛+量化”两步优化策略求解哈希码,求解过程存在信息损失,不能有效保存图像语义结构。基于用户标签的弱监督哈希提出了一种由弱监督训练阶段和监督微调阶段组成的深度哈希框架,在监督微调阶段,该方法使用有标签的数据来辅助哈希码的学习,所以它具有与有监督哈希相同的有限的可扩展性。
虽然已经有以上哈希社交图像检索方法被提出,但仍然存在前面提到的几个缺点,方法有待改进。提高方法性能的关键在于:将特征表示和哈希函数学习整合到一个统一的深度框架中,去除用户标签中存在的噪音,更好保存原始数据之间的语义相关性。同时,使用离散优化策略直接求解哈希码,降低信息损失,从而获取更具判别性的哈希码。
发明内容
为了解决现有技术的不足,本公开提出基于语义迁移的弱监督深度哈希社交图像检索方法和系统。通过锚点图哈希实现图像视觉相似性保存,利用社交图像所附有的用户标签,基于两个层次的语义迁移,学习语义增强的哈希码,将特征表示和哈希函数学习整合到一个统一的深度框架中,在这个框架中,图像视觉相似性保存和两个层次的语义迁移可以指导特征表示和哈希函数的学习。
为了实现上述目的,本公开采用如下技术方案:
本公开第一目的是提供一种基于语义迁移的弱监督深度哈希社交图像检索方法,包括如下步骤:
获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集;
构建深度哈希模型并进行网络参数初始化;
将训练集输入到所构建的深度哈希网络中,获取图像特征
根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数;
求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数;
利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
进一步的,所述直接语义迁移的损失函数为:
引入语义迁移矩阵P=[p1,…,pr]∈Rc×r,用于将哈希码与图像标签进行关联,通过最小化哈希码与图像标签的映射向量之间的差异学习语义迁移矩阵P:
其中,Z=[z1,…,zn]∈Rr×n是哈希码,r是哈希码的长度,n是训练集样本点的个数,zi表示第i个样本xi的哈希码,Y=[y1,…,yn]∈Rc×n是标签矩阵,每个样本xi有c个图像标签,表示为yi∈Rc,如果xi与标签j关联,则yji=1,否则yji=0,pk∈Rc×1表示第k位哈希码的语义相关向量。
进一步的,所述图像视觉相似性保存的损失函数为:
其中,In为n×n的单位矩阵,V∈Rn×m是锚点图矩阵,表示训练集中的n个样本跟m个锚点之间的视觉相似性,Λ=diag(VT1)∈Rm×m,diag(·)用于构建对角矩阵,1表示元素全为1的矩阵。
进一步的,所述间接语义迁移的损失函数为:
构造图像-概念超图间接传递图像的语义关联,将图像标签中的语义迁移到哈希码中。合并特征矩阵X=[x1,…,xn]∈Rd×n和标签矩阵Y=[y1,…,yn]∈Rc×n,利用迭代求解的聚类分析算法对合并后的矩阵进行概念探测,将图像定义为顶点,将概念定义为超边,构建图像-概念超图,属于相同超边的图像对应哈希码之间的最小汉明距离为:
其中,LH表示图像-概念超图H对应的拉普拉斯矩阵,
其中,d是图像视觉特征的维度,H∈Rn×a是图像-概念超图矩阵,a表示探测到的概念的个数,Dv,Dw,De分别是超图H中顶点的度、超边的度和超边权重所对应的对角矩阵。
进一步的,所述深度哈希网络的量化损失函数为:
进一步的,所述整合得到的整体目标函数为:
其中,α,β和γ是各项的权重参数,用于调节各项在统一学习框架中的重要性。
进一步的,所述求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数,具体为:
基于增广拉格朗日乘数法的高效离散优化算法,引入辅助变量A=Z-PTY,B=Z,采用迭代优化方法进行求解,求得辅助变量A、B、语义迁移矩阵P和哈希码Z,将哈希码Z带入整体的目标函数中,利用反向传播和随机梯度下降算法更新网络参数。
本公开第二目的是提供一种基于语义迁移的弱监督深度哈希社交图像检索系统,包括:
图像预处理模块,获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集;
网络模型构建模块,构建深度哈希模型并进行网络参数初始化;
特征获取模块,将训练集输入到所构建的深度哈希网络中,获取图像特征
目标函数构建模块,根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数;
哈希函数学习模块,求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数;
检索模块,利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
与现有技术相比,本公开的有益效果为:
本公开将特征表示和哈希函数学习整合到一个统一的深度框架中,首先,通过锚点图哈希实现图像视觉相似性保存,其次,利用社交图像所附有的用户标签,通过两个层次的语义迁移,学习语义增强的哈希码。在这个框架中,图像视觉相似性保存和两个层次的语义迁移可以指导特征表示和哈希函数的学习,改进后的深度表示和哈希模型有利于视觉相似性保存和语义的迁移,两者相互促进。
另外,本公开提出了基于增广拉格朗日乘数法的离散哈希优化方法,在没有量化损失的前提下,通过快速的哈希码求解操作直接求解哈希码。本公开提高了社交图像的检索性能,同时减少了检索的时间、空间消耗。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。图1为本公开的基于语义迁移的弱监督深度哈希社交图像检索的整体网络框架;图2为本公开的基于语义迁移的弱监督深度哈希社交图像检索的总流程图。
具体实施方式:
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一,本实施例提供了基于语义迁移的弱监督深度哈希社交图像检索方法;
基于语义迁移的弱监督深度哈希社交图像检索方法,包括:
S1:获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集。
作为一个或多个实施例,训练集有n个样本xi∈Rd,d是图像视觉特征的维度,每个样本有c个图像标签,表示为yi∈Rc,如果xi与标签j关联,则yji=1,否则yji=0。图像的视觉特征矩阵表示为X=[x1,…,xn]∈Rd×n,图像的标签矩阵表示为Y=[y1,…,yn]∈Rc×n,目标是学习哈希函数h(·),从而获得哈希码Z=[z1,…,zn]∈[-1,1]r×n,其中r是哈希码的长度,zi表示第i个样本xi对应的哈希码。
S2:构建深度哈希网络模型并进行网络参数初始化。
作为一个或多个实施例,采用VGG-16模型作为基本的深度哈希网络模型,并使用在大规模ImageNet数据集上预先训练的权值对其进行初始化。卷积层和前两个全连接层构成特征表示部分,用于获取图像特征,最后一个全连接层的神经元数目设置为哈希码长度,并选择tanh函数作为激活函数,整个网络作为哈希函数学习部分。
S3:将训练集输入到所构建的深度哈希网络中,获取图像特征
S4:根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数。
进一步优选地,S41:图像视觉相似性保存。视觉相似性保存主要是对图像间的视觉关联进行建模,并将其有效的保存到哈希码中。它的基本思路是通过构建相似度图保存图像间的视觉关联,然后通过优化模型将相似图像映射到汉明空间中距离接近的哈希码。具体地说,如果两个相似图像的哈希码之间汉明距离过大,将遭受严重的损失。为此,最小化哈希码的加权汉明距离:
其中,Z=[z1,…,zn]∈Rr×n是哈希码,r是哈希码的长度,n是训练集样本点的个数,zi表示第i个样本xi对应的哈希码,S∈Rn×n是相似度矩阵,LG=diag(S1)-S是相似度矩阵对应的拉普拉斯矩阵,其中diag(·)用于构建对角矩阵,1表示元素全为1的矩阵。由于公式(1)中S和LG的复杂性为O(n2),不适用于大数据集,因此本公开通过设置锚点来获得近似的相似度矩阵S=VΛ-1VT,其中,V∈Rn×m表示n个数据样本和m个锚点之间的相似度矩阵,Λ=diag(VT1)∈Rm×m,此时,LG=In-VΛ-1VT,In为n×n的单位矩阵,由此,公式(1)可以转化为:
S42:直接语义迁移。由于语义上的差异,视觉特征在表示高层语义上存在固有的局限性,因此,根据视觉特征构建的相似度图无法完全捕捉图像间潜在的语义关联。社交图像附有的用户标签相当于带有噪音的图像标注,它们通常包含非常明确的语义。将用户标签中的语义直接迁移到哈希码中,具体来说,引入一个直接将哈希码与标签关联起来的语义迁移矩阵P=[p1,…,pr]∈Rc×r,其中pk∈Rc×1表示第k位哈码的语义相关向量,通过最小化哈希码和图像标签的映射向量之间的差异来学习语义迁移矩阵P:
其中,L2,1范数用于过滤有噪音的标签,选择语义判别力强的标签进行语义迁移。
S43:间接语义迁移。社交图像之间的语义关联是高阶的,一张图片可能描述多个语义概念,同一个语义概念也可能被多张图片描述,有更多重合语义概念的社交图片更有可能拥有相似的视觉内容,受此启发,构造一个图像-概念超图来间接传递图像的语义关联。
首先将视觉特征矩阵与图像标签矩阵进行合并,然后利用k-means对合成矩阵进行概念探测,合并后的图像特征矩阵为
为了对图像潜在的高阶语义关联进行建模,将图像定义为顶点,将概念定义为超边,它们共同组成图像-概念超图。超图可以表示为关联矩阵H∈Rn×a,其中顶点
其中,LH表示图像-概念超图H对应的拉普拉斯矩阵,为了简化计算,避免显式地计算LH,将LH表示为如下形式:
其中,Dv,De和Dw分别是顶点的度、超边的度和超边的权重所对应的对角矩阵,这种转化可以有效地降低计算复杂度。
S44:特征学习和深度哈希模型。浅层哈希使用手工提取的视觉特征,特征提取和哈希学习被分成两个独立的过程,视觉特征与后续的编码过程不能最佳兼容,所以浅层哈希方法性能有限。本公开将特征表示和哈希函数学习整合到一个统一的深度框架中,采用VGG-16模型作为基本的深度哈希模型,使用在大规模ImageNet数据集上预先训练的权值对其进行初始化。卷积层和前两个全连接层构成特征表示模型,用于提取图像视觉特征
最小化深度哈希网络的输出Φ(xi;Θ)和学习到的哈希码zi之间的量化损失,可以得到:
S45:综合步骤S41到S44得到基于语义迁移的弱监督深度哈希的目标函数如下:
其中,α,β和γ是各项的权重参数,用于调节各项在统一学习框架中的重要性。
图像视觉相似性保存和两个层次的语义迁移可以指导特征表示和哈希函数的学习,改进后的深度表示和哈希模型有利于视觉相似性保存和语义的迁移,两者相互促进。
S5:求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数h(x)=sgn(Φ(X;Θ)),其中sgn(·)是符号函数,如果括号内元素为正,其值为1,否则其值为-1。
进一步优选的,公式(7)中,由于哈希码离散约束和L2,1范数的存在,现有的离散优化方法都无法直接用于该问题的求解。本公开提出了一种基于增广拉格朗日乘数法的高效离散优化算法,引入辅助变量来消除约束,并将目标函数转换为更容易计算的等价形式。具体来说,添加辅助变量A=Z-PTY,B=Z,将其带入目标函数中,公式(7)可以转化为
其中,EA和EB用于衡量原始变量和辅助变量之间的差异,μ是正则化系数。等价转换后,可以采用下面的迭代优化方法求解公式(8)。
S51:固定其他变量求解辅助变量A。目标函数变为:
令
由此,可以得到辅助变量A的解:
S52:固定其他变量求解语义迁移矩阵P。目标函数变为:
对P求偏导,并将其设为零,可以得到:
S53:固定其他变量求解辅助变量B。目标函数变为:
对B求偏导,并将其设为零,可以得到:
S54:固定其他变量求解哈希码Z,目标函数变为:
公式(16)可以转化为:
由此可以得到Z的封闭解:
至此,通过以上哈希码求解操作快速求解哈希码。
S55:将学习到的哈希码Z带入整体的目标函数中,利用反向传播算法和随机梯度下降方法来更新网络参数。
S56:更新增广拉格朗日方法中的参数EA,EB和μ:
其中,ρ是用来控制收敛速度的参数。
S6:利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
作为一个或多个实施例,所述检索方法还包括:根据标签数据衡量图像检索性能,如果两个图像共享至少一个公共标签,则认为它们在语义上是相似的。本公开采用精度-召回率(Precision-recall)曲线和平均精度(Mean AveragePrecision,MAP)作为评价指标,它们的值越大表示检索性能越好。具体定义分别为:
①Precision-recall曲线
precision-recall曲线反映了不同召回级别的召回精度,其中:
②MAP
给定一个检索样本集合,其中每个检索样本的平均准确率(AP)定义为:
其中,R是返回的检索样本总数,N是返回的与查询相关的样本总数,P(r)表示前r个检索结果的精度,如果第r个检索得到的样本与查询样本相关则δ(r)=1,否则δ(r)=0。所有样本的AP值的平均值即MAP。
实施例二,本实施例还提供了基于语义迁移的弱监督深度哈希社交图像检索系统;
基于语义迁移的弱监督深度哈希社交图像检索系统,包括:
图像预处理模块,获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集;
网络模型构建模块,构建深度哈希模型并进行网络参数初始化;
特征获取模块,将训练集输入到所构建的深度哈希网络中,获取图像特征
目标函数构建模块,根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数;
哈希函数学习模块,求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数;
检索模块,利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
以上仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
机译: 基于深度学习的弱监督显着对象检测方法及系统
机译: 基于变长深度哈希学习的图像检索方法
机译: 基于变长深度哈希学习的图像检索方法