首页> 中国专利> 一种大规模数据背景下的快速有效的图像检索方法

一种大规模数据背景下的快速有效的图像检索方法

摘要

本发明提供了一种大规模数据背景下的快速有效的图像检索方法,属于计算机视觉、统计学习、模式识别技术领域。首先采用在特定任务数据集下做过迁移学习的深层卷积神经网络提取图像的局部特征,然后进一步利用空间均值池化和协方差描述子对提取的图像局部特征进行建模。为了能够鲁棒的估计高维协方差描述子,本发明提出了改进的最大似然估计法。通过对空间均值池化模型和协方差描述子进行加权融合得到最终的图像表达。为了比较两幅图像的图像表达,提出了基于最大间隔子空间的低秩测度学习方法。一方面降低了图像表达的维度以提高图像匹配效率,另一方面可以依据特定任务数据集的先验信息提高图像匹配准确率。

著录项

  • 公开/公告号CN106055576A

    专利类型发明专利

  • 公开/公告日2016-10-26

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN201610340978.1

  • 申请日2016-05-20

  • 分类号G06F17/30(20060101);G06N3/08(20060101);

  • 代理机构21200 大连理工大学专利中心;

  • 代理人温福雪;李宝元

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-06-19 00:43:59

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-26

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2016103409781 申请日:20160520 授权公告日:20180410

    专利权的终止

  • 2018-04-10

    授权

    授权

  • 2016-11-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160520

    实质审查的生效

  • 2016-10-26

    公开

    公开

说明书

技术领域

本发明涉及到计算机视觉、统计学习、模式识别技术领域,提出了一种针对大规模数据背景下可以适用于真实复杂场景的快速有效的图像检索方法。

背景技术

早期的图像检索技术主要是基于关键字的搜索,用户通过输入对查询图像的描述,在检索数据库中找到相应的检索结果。随着互联网和大数据时代的到来,基于关键字的图像检索技术已不能适用于海量内容、实时扩展的检索数据库。因此,基于内容的图像检索技术在当前大型的搜索引擎中有着日益广泛的应用。基于内容的图像检索是指用户提供查询图像,检索算法计算图像特征表达,在检索库中搜索相似的图像内容并返回结果的检索技术。

基于内容的图像检索技术的难点在于如何设计算法提取图像特征表达与如何度量图像表达之间的相似性。由于图像采集过程中的光照、拍摄角度与尺度等方面的变化,图像变化显著且不可控。尤其是在大数据背景下真实图像数据分布往往十分复杂,这对图像检索任务带来极大的困难与挑,直接导致了当前存在的一些检索方法的检索准确率低,效率不佳。此外,大规模检索问题对算法的效率的要求很高。因此,设计一种具有鲁棒性和辨别能力的图像表达与快速有效的距离度量算法用于大规模图像检索是本发明的目标所在。

近年来,随着对深度学习技术的研究愈发成熟,深层卷积神经网络(CNN,Convolutional Neural Networks)在计算机视觉中的应用也越来越广泛。当前图像检索领域中领先的方法基本都采用了深度学习技术。例如Babenko等人在文献[Babenko A,Slesarev A,Chigorin A,et al.Neural codes for image retrieval[C],ECCV 2014:584-599]中提出针对特定的图像检索任务(如场景或地标建筑检索),构建相似的图像数据集,在该数据集上训练CNN模型。该研究表明了针对特定任务对CNN模型进行迁移学习的重要性。2015年,他们在文献[Babenko A,Lempitsky V.Aggregating Deep Convolutional Features for Image Retrieval[C],ICCV 2015]中提出使用经过预训练的CNN模型中全连接层的输出作为图像的局部特征,使用平均聚合(Average Pooling)方法得到图像的表达向量。该方法虽然效率很高,但是忽略了图像局部特征对应图像块的空间位置分布,在复杂背景的图像检索问题上不够鲁棒。此外,简单的平均聚合只使用了特征的一阶信息,并没有考虑具有更丰富信息的高阶表达,如二阶的协方差描述子建模。

基于上述的图像检索的挑战与困难以及现有工作的不足之处,本发明从提取图像表达与度量图像相似性两方面入手,提出了一种大规模数据背景下的快速有效的图像检索方法。

发明内容

本发明提出了一种针对大规模数据背景下可以适用于真实复杂场景的快速有效的图像检索方法。

本发明的技术方案:

一种大规模数据背景下的快速有效的图像检索方法,步骤如下:

步骤一,基于迁移学习和深层卷积神经网络的图像局部特征提取

首先使用检索数据库的训练集图像对经过预训练的深层卷积神经网络做迁移学习,即微调卷积神经网络各层参数;然后将待处理的图像作为迁移学习得到的深层卷积神经网络的输入,提取最后一层卷积层的输出作为图像局部特征;

步骤二,基于空间均值池化和鲁棒协方差估计的图像局部特征建模

该步骤由两个相互独立的建模方式组成,分别为使用一阶的空间均值池化和二阶的鲁棒估计的协方差对步骤一提取的图像局部特征进行建模,得到的特征建模向量用于表示图像局部特征的信息;

步骤三,对获得的特征建模向量进行基于大间隔子空间的判别学习

利用给定训练数据中已知的标签信息,分别对步骤二中提出的两种特征建模向量使用大间隔最近子空间学习算法,得到相应的具有判别能力的低秩线性映射矩阵;再利用得到的映射矩阵对两种特征建模向量分别进行有监督的降维;

步骤四,融合降维后的两种特征建模向量得到最终的图像表达向量

将降维后的两种特征建模向量通过加权系数进行加权级联,得到最终的图像表达向量,其中融合系数控制两种建模向量在图像表达中起到作用的大小。

步骤五,图像匹配并返回检索结果

首先根据前面四个步骤计算查询图像的表达向量,然后计算该表达向量与图像数据库中的所有待检索图像的表达向量的欧氏距离,对所有距离排序找到距离最小的n个图像并返回检索结果。

本发明的有益效果:首先,相比传统的基于手工设计特征的方法,本发明使用经过迁移学习的深层卷积神经网络提取图像局部特征,在很大程度上提升了检索结果的准确性。其次,本发明提出的空间均值池化方法充分利用了图像的局部空间信息;提出的基于改进的最大似然估计的鲁棒协方差进一步丰富了图像信息的表达,提升了检索的准确率。最后,为了适应大规模问题,提高图像匹配的效率,本发明提出了基于最大间隔子空间的低秩测度学习方法。该发明提出的准确、快速的图像检索算法,在网络多媒体等诸多领域具有广泛的应用前景。

附图说明

图1为本发明提出的大规模数据背景下可以适应复杂场景的图像检索方法的整体流程示意图。

图2为计算每幅图像的表达向量的步骤示意图。

图中:(a)等比例缩放后的图像及增广得到的子图像;(b)经过迁移学习的深层卷积神经网络;(c)图像局部特征及其空间区域划分;(d)特征的局部空间表达;(e)图像局部特征的空间均值池化建模;(f)基于大间隔子空间的判别学习与对特征建模向量的降维;(g)重新排列的图像局部特征,每一列为一个特征向量;(h)对协方差矩阵的上三角向量化;(i)图像局部特征的鲁棒估计的协方差建模向量;(j)融合两种特征建模向量的图像最终的表达向量。

具体实施方式

以下结合附图和技术方案,进一步说明本发明的具体实施方式。

一种大规模数据背景下的快速有效的图像检索方法,步骤如下:

步骤一,基于迁移学习和深层卷积神经网络的局部图像局部特征提取

(1)深层卷积神经网络的训练与迁移学习

首先在大规模图像数据集ImageNet上训练一个卷积神经网络CNN_Ly8。CNN_Ly8是一个8层的卷积神经网络,其前5层为卷积层,后3层为全连接层,其结构同AlexNet[Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C],NIPS 2012:1097-1105]。使用给定检索数据集的训练图像样本对CNN_Ly8进行参数微调,得到迁移学习后的网络,记为CNN_Ly8_FT。CNN_Ly8_FT的优点是既具有较强的泛化能力,又可以适应不同的复杂场景的检索任务。

(2)使用网络CNN_Ly8_FT提取图像局部特征

首先对待处理的图像进行等比例缩放,约束其最小边的长度为256个像素点;然后对缩放后的图像进行增广,获取多个固定大小(227×227)的图像区域(例如,中间区域,左上角区域,左下角区域,右上角区域,右下角区域)以及它们的镜像图像。图像经过增广后可以得到B个相同大小的子图像,每一个子图像代表原图像的一个特定的区域。对图像的增广可以进一步丰富图像信息,并且有效地缓解空间与尺度的变化带来的噪声干扰。

将增广得到的每一个子图像输入网络CNN_Ly8_FT,取最后一个卷积层的输出作为图像局部特征。每一个子图像可以得到一个h×w×d的图像局部特征张量(如附图2(c)所示),其中h×w是局部特征的个数,d是局部特征的维度。当输入的子图像为正方形时,得到的特征中h=w。因此一幅图像的B个子图像一共可以得到M×d的局部特征(如附图2(g)所示),其中M=B×h×h代表一幅图像可以提取的局部特征的总数。

步骤二,基于一阶空间均值池化和鲁棒协方差估计的图像局部特征建模

该步骤对于步骤一获得的图像局部特征进行两种方式的建模,分别为一阶的空间均值池化(Spatial Mean Pooling,SMP)建模与二阶的鲁棒估计的协方差(R-COV)建模。如附图2所示,两种建模方式的实施方案分别为:

(1)计算SMP特征建模向量ys

SMP建模的目的是充分利用深层卷积神经网络的卷积层输出的图像局部特征的空间位置特性,丰富局部空间信息,使得到的建模向量对于目标在图像中的空间位置变化更具有鲁棒性。参照附图2,具体实施步骤为:

1)对图像局部特征划分空间位置区域(如附图2(c)所示)

对任意子图像提取的h×w×d的图像局部特征,依照特征的空间位置划分子区域:以步长为s,边长为b将特征张量按照(h,w)面划分为L个重叠的正方形子区域。将每个区域中包含的b×b个图像局部特征记为区域特征张量。

2)对区域特征张量进行局部空间表达(如附图2(d)所示)

对于每个区域特征张量,依次级联其包含的b×b个图像局部特征,可以得到一个维度为D=b×b×d的向量,即为该区域特征张量的局部空间表达。

3)对得到的L个局部空间表达进行平均聚合(如附图2(e)所示)

利用平均聚合方法求L个局部空间表达向量的均值向量,得到图像局部特征的SMP建模向量ys

4)归一化

使用公式ys←sign(ys)|ys|β对ys进行归一化,其中β=0.75。

(2)计算R-COV特征建模向量yc

使用R-COV建模的目的是鲁棒的估计图像局部特征的协方差,得到具有二阶信息的图像表达。本发明的图像局部特征使用深层卷积神经网络提取,具有高维与稀疏的特性。然而传统的基于最大似然估计的协方差虽然具有很强的表达能力,但是对于高维稀疏的特征并不具有鲁棒性。本发明提出的R-COV建模方法在传统的最大似然估计的基础上引入一个正则项,约束将要估计的协方差与单位矩阵的冯纽曼矩阵散度最小,代价函数为

minC~{log(|C|)+tr(C-1C)+θDvN(I,C)},DvN(I,C)=tr(log(I)-log(C)-I+C).---(1)

其中C是通过协方差公式直接计算的图像局部特征的采样协方差矩阵,是鲁棒估计的协方差矩阵,I是与C维度相同的单位阵,θ是正则项系数,log(·)表示求矩阵的对数运算,tr(·)为矩阵的迹。相比传统的最大似然估计方法,R-COV约束被估计的协方差靠近单位矩阵,更符合深层卷积神经网络特征的高维和稀疏的特性,从而能够得到更加鲁棒的协方差。该问题的求解简单,具有解析的表达式:

C=UΛUT,λi=(1-θ2θ)2+λiθ-1-θ2θ---(2)

其中为一个由特征值组成的对角矩阵,λi=1,2,...,d与U分别为采样协方差矩阵C的特征值和特征向量矩阵,(·)T表示矩阵的转置。

计算鲁棒的协方差R-COV的步骤如下:

1)计算图像局部特征的采样协方差矩阵C

利用步骤一中提取的图像局部特征,使用以下公式计算采样协方差:

C=1M-1Σi=1M(xi-μ)(xi-μ)T---(3)

其中{xi},i=1,...,M为一幅图像所提取的全部局部特征,M为特征个数,μ为图像局部特征的均值向量。

2)对采样协方差C进行特征值分解

C的特征值分解得到C=UΛUT,其中Λ为对角矩阵,对角元素为C的特征值{λ1,...,λd},U为特征值对应的特征向量矩阵。

3)计算鲁棒估计的协方差矩阵

利用以下公式对Λ的对角元进行处理,得到新的特征值矩阵

λi=(1-θ2θ)2+λiθ-1-θ2θ

其中θ为代价函数定义的正则项系数,λi=1,2,...,d为采样协方差矩阵C的特征值。由此可以得到鲁棒估计的协方差矩阵

4)向量化协方差矩阵(如附图2(h)所示)

由于具有对称性,可以通过取其上三角元素的方法将其向量化,得到R-COV的建模向量

5)归一化

使用公式yc←sign(yc)|yc|β对yc进行归一化,其中β=0.75。

步骤三,对特征建模向量ys和yc进行基于大间隔子空间的判别学习

该步骤目的在于使用有标签的训练集图像的标签信息及得到的特征建模向量,分别对于ys和yc有监督的学习具有辨别能力的低秩线性映射矩阵Ls和Lc。使用学习得到的线性映射矩阵对图像的特征建模向量进行降维,可以使降维后的向量具有更强的辨别能力。

对于N个带标签的训练样本{(yi,li),i=1,...,N},其中yi为步骤二计算得到的第i幅图像的特征建模向量(ys或者yc),li为第i幅图像的标签。假设训练集图像可以划分为K类,每一类图像的特征建模向量可以组成一个子空间Sk(k=1,...,K),则训练样本空间即为K个子空间的集合。此时,li代表了yi所属子空间的标签,li∈{1,2,...,K}。当li=K时,定义为yi的目标子空间,反之为非目标子空间。同时定义yi到子空间Sk的距离为:

d(M;yi,Sk)=||L(yi-Akαi)||2=(yi-Akαi)TM(yi-Akαi)>

其中M表示距离测度矩阵,L为想要优化得到的低秩线性映射矩阵,由矩阵M的Cholesky分解M=LLT得到;Ak为Sk的基向量集合,由所有属于该子空间的建模向量yi组成,每一列为一个样本。αi为yi在Ak上的线性表达。基于大间隔测度学习思想,本发明提出的大间隔最近子空间(Large>

minMΣid(M;yi,Sli)+γΣi,cli[1+d(M;yi,Sli)-d(m;yi,Sc)]+---(5)

其中d(M;yi,)与d(M;yi,Sc)分别代表yi到其目标子空间与非目标子空间的距离,γ是一个常量系数,[·]+=max(·,0)。如附图2(f)所示,公式(5)所定义的LMNS代价函数的优化目标是:约束经过映射后的特征建模向量yi到目标子空间的距离在一定程度上小于到非目标子空间的距离,使同类样本和非同类样本更容易区分。由于该目标函数是一个非凸的形式,本发明采用了两步交替迭代算法进行优化。

具体求解步骤为:

1)对距离测度矩阵M进行初始化,定义为单位矩阵。

2)固定测度矩阵M,使用公式(4)所定义的距离函数计算所有特征建模向量yi到各子空间的距离d(M;yi,Sk)。

3)使用上一步计算得到的距离与公式(5),优化LMNS代价函数更新M。

4)判断收敛条件,若未收敛则重复步骤2)和3);若收敛则停止迭代,得

到距离测度矩阵M。

5)对M进行Cholesky分解,得到低秩线性映射矩阵L。

对于步骤二得到的两种特征建模向量ys和yc,需要根据上述的5个步骤分别独立的优化各自的映射矩阵Ls和Lc。优化求解映射矩阵的过程可在训练模型的过程中离线进行,在实际检索过程中不需要重复训练求解,即L可以作为离线映射矩阵使用,并不影响检索效率。经过映射后的ys和yc分别记为fs=Lsys与fc=Lcyc

步骤四,融合两种降维的特征建模向量fs和fc进而得到图像表达向量

对于一幅图像,先后使用步骤一至步骤三可以得到fs和fc,加权级联两种向量即得到最终的图像表达向量f=[ωfs;(1-ω)fc]=[ωLsys;(1-ω)Lcyc],其中ω∈(0,1)控制两种建模方式得到的fs和fc在图像表达中起到作用的大小。

步骤五,图像匹配并返回检索结果

该步骤中检索的距离测度为图像表达向量之间的欧氏距离。根据前面四个步骤可以计算查询图像的表达向量f,然后计算f与图像数据库中的所有待检索图像的表达向量之间的欧氏距离。与检索图像表达向量的欧式距离越小的图像被认为与检索图像越相似,因此可以通过对所有的距离进行排序来找到距离最小的n个图像作为检索结果返回。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号