首页> 中国专利> 一种基于形状回归的草图图像检索方法

一种基于形状回归的草图图像检索方法

摘要

本发明公开了一种基于形状回归的草图图像检索方法,所述方法包括以下步骤:使用ImageNet图像数据预训练的VGG19网络作为初始化网络;使用Gb边界提取方法,生成草图近似;将Gb轮廓图像和原始图像同时送到初始化网络中进行训练,实现域迁移学习;在初始化网络的分类softmax损失基础上,增加形状回归损失作为网络整体的损失函数,该损失函数的设计有助于挖掘图像和形状之间的潜在一致性;在图像检索的过程中,利用提取出来的草图特征和图像特征基于余弦距离进行匹配和排序。本发明通过引入形状回归损失,利用经过预训练的卷积神经网络,对草图域和图像域进行学习,实现基于形状回归的草图图像检索。

著录项

  • 公开/公告号CN108681555A

    专利类型发明专利

  • 公开/公告日2018-10-19

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN201810304969.6

  • 申请日2018-04-08

  • 分类号

  • 代理机构天津市北洋有限责任专利代理事务所;

  • 代理人李林娟

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-06-19 06:54:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-02

    授权

    授权

  • 2018-11-13

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20180408

    实质审查的生效

  • 2018-10-19

    公开

    公开

说明书

技术领域

本发明涉及图像检索、计算机视觉技术领域,尤其涉及一种基于形状回归的草图图像检索方法。

背景技术

随着互联网技术的飞速发展和多媒体设施的迅速普及,互联网上数字图像数量在飞速增长。如何对数字图像进行高效的查找成为了当下迫切的需求。对图像进行高效检索在人们的日常生活中以及在医学、公共安全及国防、电影工业、数字图书馆、遥感、农业等领域中发挥着重要作用。因此,图像检索技术受到了国内外学者的广泛关注,成为了当下的研究热点。图像检索最初的研究方向主要是基于文本的图像检索技术。基于文本的图像检索即使用文本方式对图像的特征进行描述。随着计算机计算能力的提升,基于内容的图像描述方式逐渐普及。基于内容的图像检索通过对图像内容的分布进行描述来获取图像特征,通过此特征进行检索匹配。图像中纹理、颜色、形状等复杂性是图像检索技术的巨大挑战之一。输入图像和输出检索结果之间的映射匹配关系的构建成为了图像检索的重点研究方向。

以图搜图的图像检索中,用户需要找到一幅和检索意图非常相似的真实图像,这对于普通用户来说也是一个难以获得的输入。更加简单的输入模态,比如简单线条组成的形状,会是一个更加符合用户检索习惯的应用场景,对于检索意图的描述也更加清晰、简单、直观。因此,基于草图的图像检索(Sketch-based Image Retrieval,SBIR)应运而生。近年来,平板电脑、智能手机等触摸屏设备逐渐普及,使用这些触摸屏设备,人们可以方便的对草图进行绘制,这也为基于草图的图像检索技术提供了广阔的平台和应用前景。

传统的SBIR方法使用一些通用特征来描述草图和图像轮廓。许多经典的特征提取方式经过微调就可以应用于草图图像检索任务中。Hu等人提出了基于梯度场的草图特征描述符,然后将它们与词袋模型相结合来进行检索。他们还引入了一个名为Flickr15k的数据集来评估算法,现在这个数据集广泛用于SBIR评估。Zhou等人首先检测图像显著性区域,然后基于该区域的特征进行相似性匹配。上述方法都侧重于为草图和图像轮廓提取相同的特征。然而为两个域设计的公共特征可能不如为某个域设计单独的特征更加具有可分辨性。

深层特征成功应用于诸如图像识别等许多应用。最近在SBIR任务中深度学习方法也被成功应用。许多基于卷积神经网络(Convolutional Neural Network,简称CNN)的SBIR框架被提出。Qi等人引入了孪生网络来对草图和图像边缘进行匹配。联合网络可以缩小属于同一个类的实例特征之间的距离,并将属于不同类的其他实例特征之间的距离拉远。三重CNN使用正样本和负样本作为训练数据来构建样本之间的相似性关系。最近在SBIR上也采用了深度哈希的方法。Liu等人将深度网络模型和哈希方法结合在一起,在训练跨域相似性的同时显著加快了SBIR的速度。

发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:

首先,现有技术的算法没有充分考虑图像和轮廓之间的对应关系,其次,基于草图的图像检索的关键信息是形状信息,现有的算法只考虑了特征的区分性,即仅从特征相似性角度考虑草图和图像的关系,并没有强调形状信息,而形状信息是草图和图像的内在一致性的体现。

发明内容

本发明提供了一种基于形状回归的草图图像检索方法,本发明通过引入形状回归损失,利用经过预训练的卷积神经网络,对草图域和图像域进行学习,实现基于形状回归的草图图像检索,详见下文描述:

一种基于形状回归的草图图像检索方法,所述方法包括以下步骤:

使用ImageNet图像数据预训练的VGG19网络作为初始化网络;

使用Gb边界提取方法,生成草图近似;

将Gb轮廓图像和原始图像同时送到初始化网络中进行训练,实现域迁移学习;

在初始化网络的分类softmax损失基础上,增加形状回归损失作为网络整体的损失函数,该损失函数的设计有助于挖掘图像和形状之间的潜在一致性;

在图像检索的过程中,利用提取出来的草图特征和图像特征基于余弦距离进行匹配和排序。

进一步地,在网络训练完成后,所述初始化网络具备同时输出有效的草图特征和图像特征的能力,更好地关联图像特征和草图特征。

具体实现时,所述形状回归损失将形状信息引入图像特征,促进草图特征与其对应的图像形状的关联性信息的挖掘,提取鲁棒的图像和草图特征。

进一步地,所述形状回归损失项的回归目标是从Gb轮廓中提取的形状信息,用于增强网络保留形状信息的能力。

具体实现时,调整Gb轮廓图的大小为8×8来降低由于大分辨率引入的形状误差影响,调整大小后的轮廓图被映射成一个一维形状向量,大小为64维。同时,形状回归损失嵌入层的维度也调整为64维,与上述形状向量的大小相匹配。

所述网络整体的损失函数设计为:

L(p,y,t,v)=Lcls(p,y)+λLreg(t,v)

其中,第一个损失项Lcls(p,y)=-logpy,是真实类别y的对数分类损失,py为输入图像或轮廓属于真实类别的概率;

第二个损失项λLreg(t,v)是基于形状信息的回归损失,t表示目标形状向量,从Gb轮廓中提取得到,v表示网络预测的形状信息输出,超参数λ表示两个损失项之间的权重比。

进一步地,两个损失项之间的权重比λ值设为1,形状回归损失项使用欧式距离作为回归的距离度量函数,具体设计如下:

本发明提供的技术方案的有益效果是:

1、本发明引入了形状回归损失,不仅充分考虑了图像和轮廓之间的对应关系,而且充分挖掘了图像和形状之间的一致性关系;

2、本发明能够将草图和图像映射到相同的特征空间,充分提取具有分辨性的特征,从而提升了检索特征的有效性,获得了较高的检索准确率。

附图说明

图1为一种基于形状回归的草图图像检索方法的流程图;

图2为本发明在Flickr15k数据集上的三个检索实例的示意图;

图3为本发明提出的方法基于Flickr15k数据集的检索平均准确率与其他方法的对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

草图图像检索是利用草图和图像之间的共性来进行相似度匹配的检索技术。传统方法主要从特征相似性角度考虑草图和图像的关系,忽略了形状信息,而形状信息是草图和图像的内在一致性的体现。

实施例1

本发明实施例提出了一种基于形状回归的草图图像检索方法。考虑到草图和图像的关系-形状的内在一致性,创新性的引入了形状回归损失,使图像特征中包含相应的形状信息,参见图1,具体实现步骤如下:

101:使用大规模数据预训练的网络作为初始化网络;

102:提取Gb(广义边界)形状轮廓,作为草图近似;

103:实现域迁移,将草图和图像映射到相同的特征空间;

104:引入形状回归损失,设计损失函数;

105:用网络提取草图和图像的特征,进行特征匹配和排序。

综上所述,本发明实施例引入了形状回归损失,成功将草图和图像映射到了相同的特征空间,充分挖掘了图像和形状之间的一致性关系,获得了较高的检索准确率。

实施例2

下面结合具体的实例对实施例1中的方案进行进一步地介绍,本发明实施例使用ImageNet图像数据预训练的VGG19网络用作初始化网络。使用Gb边界提取方法用于生成草图近似。然后将Gb轮廓图像和原始图像送到预训练网络中进行微调。在网络原始的分类softmax损失基础上,增加了形状回归损失,这有助于挖掘图像和形状之间的潜在一致性。形状回归向量将形状信息带入图像特征,可以促进草图特征与其对应的图像形状的关联性信息的挖掘,提取鲁棒的图像和草图特征,详见下文描述:

201:使用大规模数据预训练的网络作为初始化网络;

卷积神经网络以其局部权值共享的特殊结构在图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

受卷积神经网络成功应用在图像识别等任务上的启发,本发明实施例探索卷积神经网络在草图图像检索中的应用。此任务的目标是,使得原本输入域为图像的网络架构能够提取草图域的特征,实现域迁移。

本发明实施例采用经过ImageNet百万数据集预训练的VGG19网络作为初始化网络,它在ImageNet图像识别任务中取得了很好的效果。VGG19由16个卷积层和5个池化层,外加3个全连接层组成,在图像识别和图像分类领域取得了非常好的效果。

202:提取Gb形状轮廓,作为草图近似;

手绘草图由于人为因素,具有较大的几何失真和偏移,因此无法很好地与图像中的对象进行特征匹配。而图像轮廓作为图像和草图之间的桥梁,可以很好地弥补自然图像和草图之间的几何偏移。

其中,传统边缘提取方法提取的边缘相比于草图,多了很多冗余的内部线条,这些内部线条对于形状来说是干扰因素。为了减少这些冗余线条的影响,本发明实施例使用Gb图像轮廓检测方法来获取图像轮廓,Gb模型[1]是一种高效的广义边界检测方法,该模型具有闭式解。Gb方法结合了多种类型的信息,以统一的方式找出精确的轮廓,去除了冗余的线条。

经过Gb图像轮廓提取后,提取的轮廓内部仍存在一些弱边缘,因此本发明实施例还采用自适应阈值去除了这些无用的线。经过处理后的Gb轮廓图和传统方法提取的边缘相比,拥有更加清晰的轮廓和更少的冗余线条。

203:实现域迁移,将草图和图像映射到相同的特征空间;

在训练的过程中,需要让原本输入为图像域的VGG19网络适用于草图域,本发明实施例同时将草图近似数据和图像数据送入经过预训练的VGG19网络,在网络训练完成后,该网络具备同时输出有效的草图特征和图像特征的能力,从而更好地关联图像特征和草图特征。

对于基于草图的图像检索任务,草图的训练数据不足将导致网络无法学习到好的特征。事实上,基于草图的图像检索的目标为使得网络在训练后,能够将来自不同域的输入映射到相同的特征空间中。为了使基于图像域进行训练的网络适应草图域,本发明实施例将提取的Gb轮廓图,作为草图近似,送到预训练的网络中进行训练,实现域迁移学习。采用Gb轮廓图进行训练可以使网络发生域迁移,这意味着网络具有处理来自轮廓域数据的能力。为了使网络能够同时处理草图和图像,Gb轮廓图(草图近似)和原始图像同时用于训练。

204:引入形状回归损失,设计损失函数;

草图图像检索的关键信息是形状信息,原始的分类网络只考虑了特征的区分性,并没有强调形状信息。本发明实施例在原有的分类损失的基础上,引入了形状回归损失。网络的整体损失由两部分组成。一个是分类损失项,即softmax,另一个是形状回归损失项。

分类损失输出为一个离散的概率分布,p=(p1,p2,...,pk),k对应k个种类。假设Pi为概率值P的最大值,那么i即为对应的输出种类。原始的VGG19分类网络是为ImageNet分类任务设计的,一共有1000个类别。对于SBIR任务,最后softmax输出的数量k需要调整为任务的类别数目。

形状回归损失项的目的是增强网络保留形状信息的能力,回归目标是从Gb轮廓中提取的形状信息。形状信息反映了几何形状信息,和分辨率无关。较大的分辨率会引入冗余的信息,导致较差的效果。因此,本发明实施例调整Gb轮廓图的大小为8×8来降低由于大分辨率引入的形状误差影响。为了简化回归操作,重新调整大小后的轮廓被映射成一个一维向量。在本发明实施例中,这个一维向量的大小为64。同时,形状回归损失嵌入层的维度也调整为64,与上述形状向量的大小相匹配。最终的损失函数L为:

L(p,y,t,v)=Lcls(p,y)+λLreg(t,v)

其中,第一个损失项Lcls(p,y)=-logpy,是真实类别y的对数分类损失,py为输入图像或轮廓属于真实类别的概率。第二个损失项λLreg(t,v)是基于形状信息的回归损失。t表示目标形状向量,从Gb轮廓中提取得到。v表示网络预测的形状信息输出。超参数λ表示两个损失项之间的权重比。在本发明实施例中,λ值设为1。为了拉近网络输出和目标形状之间的距离,形状回归损失项使用欧式距离作为回归的距离度量函数,具体设计如下:

网络整体损失函数L的目的是让输出特征在保留形状信息的同时,更加具有可分辨性。如果从输出的特征中可以精确的恢复出图像的轮廓形状,那么可以认为输出的特征包含了图像的形状信息。

本发明实施例提出的损失函数不仅考虑了类间差异性,同时考虑了图像和形状之间的关系。将形状信息引入卷积神经网络,能够更好地辅助分类。这样,当轮廓数据和草图同时输入网络进行训练时,网络能够更好地将来自不同域的输入映射到同一高维特征空间中,输出能够反映不同类别的具有差异性的特征向量。

205:用网络提取草图和图像的特征,进行特征匹配和排序。

在图像检索的过程中,使用提取出来的草图特征和图像特征直接进行匹配。首先,使用训练好的网络提取所有的图像特征和要检索的草图特征。然后,整个检索过程是一个特征匹配和KNN排序的过程。当一个草图输入到卷积神经网络中,将草图特征直接和系统中所有候选图像特征进行匹配,二者之间的差异越小,说明二者越相似,检索排名越靠前。

本发明实施例使用余弦距离来度量输入草图特征和图像特征之间的相似性。距离越小,表示特征之间的相似度越高,检索排名也相应地越靠前。最后根据这些相似性距离的排序来输出检索召回序列。

综上所述,本发明实施例引入了形状回归损失,成功将草图和图像映射到了相同的特征空间,充分挖掘了图像和形状之间的一致性关系,获得了较高的检索准确率。

参考文献

[1]M.Leordeanu,R.Sukthankar,and C.Sminchisescu,“Efficient closed-formsolution to generalized boundary detection,”in Proc.European Conference onComputer Vision,2012,pp.516–529.

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号