首页> 中国专利> 深度反卷积特征学习网络、生成方法及图像分类方法

深度反卷积特征学习网络、生成方法及图像分类方法

摘要

本发明公开了一种深度反卷积特征学习网络的生成方法,包括:采用非监督的方式预训练一个多层的反卷积特征学习网络模型;以及用物体检测信息自上而下对所述学习网络模型进行微调。以及一种由此生成的深度反卷积特征学习网络和图像分类方法。本发明的方法在深度特征学习模型中引入非负稀疏性约束,增强了特征的判别力,提高了图像分类的准确率;将物体检测信息作为自上而下的高层指导信息对预训练后的网络进行细调,使得网络中不同节点对输入的图像结构具有较强选择性,尤其是最高层的节点对不同物体类别有不同响应,得到的高层特征有了明显的语义涵义,同时提高了图像分类的准确率。

著录项

  • 公开/公告号CN104361363A

    专利类型发明专利

  • 公开/公告日2015-02-18

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN201410687304.X

  • 发明设计人 卢汉清;刘炳源;刘静;

    申请日2014-11-25

  • 分类号G06K9/66(20060101);G06K9/46(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人宋焰琴

  • 地址 100190 北京市海淀区中关村东路95号

  • 入库时间 2023-12-17 03:49:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-16

    授权

    授权

  • 2015-03-25

    实质审查的生效 IPC(主分类):G06K9/66 申请日:20141125

    实质审查的生效

  • 2015-02-18

    公开

    公开

说明书

技术领域

本发明涉及机器学习领域,更具体地,涉及一种深度反卷积特征学习 网络、生成方法及图像分类方法。

背景技术

在计算机视觉中,如何构造好的图像特征一直是一个关键又极有挑战 性的问题,特征的质量直接决定整个计算机视觉系统的性能,如图像识别、 图像检索和行人检测等。一些人工设计的图像描述子的提出(如SIFT和 HOG)取得了很大的成功,虽然这些人工设计的特征可以很好的利用人类 对图像的理解和先验知识,但它的性能依赖于特定任务而且不能表征复杂 图像的中层和高层结构。

近些年,很多研究工作试图构造深度网络用于图像特征学习。这些深 度网络体现了人类视觉系统的层级性,自动地从图像数据中学习提取图像 特征,但是这些模型缺乏很好的判别选择性和一些高层信息的指导,学习 到的特征在自然图像的识别任务中难以得到很好的性能。

发明内容

鉴于现有深度特征学习网络中的缺点,本发明的目的之一在于提出一 种深度反卷积特征学习网络及其生成方法,以提高图像分类的准确性。

为了实现上述目的,作为本发明的一个方面,本发明提供了一种深度 反卷积特征学习网络的生成方法,包括以下步骤:

预训练一个多层的反卷积特征学习网络模型;以及

用物体检测信息自上而下对所述学习网络模型进行微调,从而得到所 述深度反卷积特征学习网络。

其中,所述预训练一个多层的反卷积特征学习网络模型的步骤采用的 是非监督的方式,以及所述多层的反卷积特征学习网络模型的每一层包含 两种操作,分别为非负卷积稀疏编码和最大值抽取。

其中,每一层可将输入图像分解为一组2维特征图和相应滤波器的卷 积和。

其中,所述将输入图像分解为卷积和的步骤还包括对所述卷积和进行 优化的步骤,优化目标为最小化重构误差的同时最小化稀疏正则项,并满 足非负约束。

其中,所述用物体检测信息自上而下对网络进行微调的步骤包括:

采用物体检测器对训练图像集进行检测得到物体训练集合,在微调 过程中令最高层的网络单元分别响应不同物体类别的图像,同时对下层网 络结构也进行自上而下的微调。

其中,所述对下层网络结构进行自上而下的微调的步骤为:

最高层的每一个特征提取单元和某一种物体类别对应,优化的目标 是最小化每一个重构单元和相应物体原图像的重构误差,该误差可以自上 而下的推演到每一层的节点,由此进行自上而下的网络参数更新和调整。

其中,所述对下层网络结构进行自上而下的微调的步骤中采用ISTA 算法进行优化更新。

作为本发明的另一个方面,本发明还提供了一种根据如上任意一项所 述的深度反卷积特征学习网络的生成方法生成的深度反卷积特征学习网 络。

作为本发明的再一个方面,本发明还提供了一种图像分类方法,包括 以下步骤:

将根据如上所述的深度反卷积特征学习网络与空间金字塔匹配模型 SPM融合,对待分类图像进行分类。

其中,所述将深度反卷积特征学习网络与空间金字塔匹配模型融合的 步骤包括:

从所述深度反卷积特征学习网络得到的特征图上抽取局部特征,代 替标准空间金字塔匹配模型中的SIFT特征输入到所述空间金字塔匹配模 型中进行相应运算,从而实现对所述待分类图像的分类。

其中,所述抽取局部特征的步骤为:输入待分类图像到训练好的所述 深度反卷积特征学习网络中,获得从底层到高层的一组特征图,对于某一 层中的特征图,首先抽取每个特征图内的最大值,并用重构操作将其分别 重构到输入层,得到一组重构图,然后分别利用每个所述重构图对应到第 一层的响应作为所述空间金字塔匹配模型的输入,从而可以构建若干个空 间金字塔图像特征,取这若干个所述空间金字塔图像特征的平均值作为图 像的最终描述,并将其作为SVM分类器的输入。

基于上述技术方案可知,本发明在深度特征学习模型中引入非负稀疏 性约束,使得学习得到的特征具有非负稀疏性质,更适合于表征图像结构, 同时增强了特征的判别力,提高了图像分类的准确率;本发明将物体检测 信息作为一种自上而下的高层指导信息对预训练后的网络进行细调,充分 融合了数据驱动和知识驱动,使得网络中的不同节点对输入的图像结构具 有了较强的选择性,尤其是最高层的节点对不同的物体类别有不同的响应, 得到的高层特征有了明显的语义涵义,同时提高了图像分类的准确率;本 发明还解决了如何将深度特征学习与空间金字塔匹配模型结合完成图像 分类任务的问题,既利用了特征学习模型提取图像特征又采用了最有效的 图像分类模型,提高了图像分类的性能。

附图说明

图1是单层反卷积网络结构的示意图;

图2是本发明的多层反卷积网络结构的示意图;

图3是在Caltech101数据集上训练得到的4层的反卷积网络中每一层 滤波器的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明作进一步的详细说明。

在计算机视觉中,如何构造好的图像特征一直是一个核心并极有挑战 性的问题。图像特征的优劣直接影响很多计算机视觉系统的性能,如图像 识别、图像检测和视频监控等。一些人工设计的图像描述子的提出(如SIFT 和HOG)取得了很大的成功,虽然这些人工设计的特征可以很好的利用 人类智慧和先验知识,但它的性能依赖于特点任务而且不能表征复杂图像 的中层和高层结构。

基于上述问题,本发明提出了一种层级反卷积特征学习网络,并将其 应用到了图像分类任务中,该方法包括反卷积网络的非监督预训练、融合 物体检测的网络细调,以及融合空间金字塔匹配模型的图像分类三个步骤, 具体步骤如下所示:

首先,本发明采用非监督的方式预训练一个多层的反卷积特征学习网 络模型,其中每一层包含两种操作,分别为非负卷积稀疏编码和最大值抽 取。输入一幅二维特征图像,每一层模型将其分解为一组2维特征图和相 应滤波器的卷积和,优化目标是最小化重构误差的同时最小化稀疏正则项 和满足非负约束。之后,对得到的特征图实施一个作用在图像内部和相邻 特征图之间的最大值抽取操作,降低特征图的分辨率,作为更高层的输入。

然后,在得到了一个预训练后的网络基础上,用物体检测信息自上而 下对网络进行微调。采用物体检测器对训练图像集进行检测得到物体训练 集合,在微调过程中令最高层的网络单元分别响应不同物体类别的图像, 同时对下层网络结构也进行自上而下的微调。微调后的网络具有了很强的 选择性,对图像中的不同结构有不同的响应,得到的特征有很强的判别性。

最后,将图像输入训练好的模型后,可以得到图像的多层次特征,包 括底层的边缘结构、中层的边缘连接和高层的物体结构信息。本发明将得 到的图像特征代替SIFT特征,并与空间金字塔匹配模型相结合,进行图 像分类任务。

更具体地,本发明提出了一个物体检测指导的深度反卷积特征学习网 络,包括反卷积网络的非监督预训练、融合物体检测的网络微调和融合空 间金字塔匹配模型的图像分类三个步骤,下面从这三个部分对本发明作进 一步详细地解释和说明。

一、多层反卷积网络的非监督预训练

单层反卷积网络结构

如图1所示,单层反卷积网络包含两步运算,非负卷积稀疏编码(即 反卷积)和最大值抽取操作。输入一幅图像y,其中包含了N0个通道 该模型将每个通道分解为一组二维特征图和一组滤波器的卷积和。本发明通过在目 标函数中加入关于特征图的l1正则项同时强制要求不小于0的方式, 在模型中引入了非负稀疏约束,使得系统能得到稳定解同时让学到的特征 具有非负稀疏性质,提升了特征的表达力和判别性,还对模型学习起了约 束作用,防止过拟合现象。单层反卷积网络的优化目标包含重构误差和l1范 数两项:

C1(y)=λ12Σc=1N0||Σi=1N1xi1*fi,c1-ye||22+Σi=1N1|xi1|1s.t.xi10

其中,yc对应输入图像y的第c个通道,表示第一层中第i个特征 图,对应第一层中第i个特征图和第c个输入通道的滤波器。超参数λ1用于平衡重构误差项和l1正则项,即λ1越小得到的特征越稀疏,重构误差 越大。

在反卷积后,对得到的特征图x1实施一个三维的最大值抽取运算。这 里的最大值抽取运算是三维的,因为它不仅发生在特征图内部也在相邻的 几个特征图之间。在3维最大值抽取操作中,首先将输入图像划分为没有 交叉区域的网格,然后只保留每个网格中最大像素点的像素值和位置,去 掉其他像素点。最大值抽取运算可以增加模型的一些旋转和平移不变形, 减少模型的复杂度,同时利于高层网络学习图像的更高层结构。分别用h 和s表示经过这一操作后输出的特征图和最大值位置,则三维最大值抽取 操作可记为:

[h,s]=P(x)

三维最大值抽取是一个非线性运算,但当位置s固定后就成为了线性 运算。它的反运算即将h放入位置s中,而其余位置的像素值都设为0。

在优化学习过程中的重构操作里,需要定义三维最大值抽取的逆运算, 即将h中的元素按照记录的位置s恢复到x中而将x中剩余的元素置为0。 当位置s固定后,这一运算也是一个线性操作,将其标记为:

x^=Ush.

构造多层反卷积网络

利用上文描述的单层结构,可以很容易的通过将单层网络级联的方式 构造深度网络,即如图2所示,令第l层的输出h1作为第l+1层的输入。 其中,每一层的模型结构是相同的,但每一层的特征图像的数目设置是不 同的。通过当前层和下层的滤波器可以对高层特征图像进行重构,记第l 层的重构图像为在优化高层参数时,优化目标并不是最小化当前层的 输入误差,而是最小化相对于原始输入像素的误差。由此,第l层的损 失函数为:

C1(y)=λ12||y^l-y||22+Σi=1N1|xi1|1s.t.xi10

其中,为第l层中的第i个特征图,y为输入的原始图像。为用 第l层的特征图像自上而下经过交替的卷积和反向最大值抽取操作重构得 到的重构图,将这样的重构操作定义为R1

y^l=Rlxl=F1Us1F2Us2...Flxl

其中,F1表示第l层的卷积运算,表示第l层的反向最大值抽取运 算。

多层反卷积网络的预训练

本发明先对这样的一个多层反卷积网络进行预训练,在预训练中采用 了非监督的训练方式,即只根据训练图像集合进行模型的训练而没有包括 任何语义信息。对于一个多层网络,如何有效的进行优化训练是非常重要 的。在预训练的过程中,自下而上的逐层对模型进行更新。在每一层的目 标函数中包含两个变量,即特征图像x和滤波器系数f,本发明采用了固 定其中一个求解另一个的迭代更新策略。

首先固定滤波器系数f优化x,这里采用了一种非常高效率的算法 ISTA(具体内容例如参见A.Beck and M.Teboulle.A fast iterative  shrinkage-thresholdingalgorithm for linear inverse problems.SIAM Journal on  ImagingSciences,2(1):183-202,2009)进行优化更新。在ISTA算法中的每 次迭代里包含两步,即梯度下降和压缩。在梯度下降中,需要首先计算出 优化目标函数中重构误差项关于特征图x的梯度:

xl=λl(Rl)T(Rlxl-y)

其中,y表示原始输入的训练图像,x1表示第l层的特征图,R1表示 从第l层到输入层的重构运算。从另一个角度看,此公式中首先将第l层 特征图重构到输入空间计算重构误差,然后将此输入误差通过前向传播得 到当前层的梯度。得到第l层的梯度后,通过梯度下降的方式更新特征图, 更新公式为:

xl=xl-βlxl

其中,β1表示梯度下降的步长。经过梯度下降后,实施一个针对每个 元素的压缩操作将小的元素压缩为0,增加它的稀疏性,即:

xl=max(|xl|-βl,0)

注意到这个公式还将解映射到非负空间,从而满足非负性。一次ISTA 迭代就包含梯度下降和压缩两步。通常需要若干次迭代来得到一个稳定的 解。

然后固定x更新滤波器系数f,本发明采用了共轭梯度下降算法更新f。 在对第l层的滤波器f进行更新前,首先需要计算目标函数关于f的偏导 数,计算公式如下:

fi,ji-Clfi,jl-λl[Psi-1(Rl-1)T(Rlxl-y)]i*xjl

此公式表明,梯度值是两项的卷积值,其中左边一项的函数是将重构 误差前向传播到第l-1层的值,为第l-1层的最大值抽取操作,R1为第 l层到输入层的重构运算,而右项是第l层的特征图。得到梯度值后,就可 根据线性共轭梯度下降法来对滤波器进行更新。

由于本模型在每层的梯度值可以并行的通过层级迭代求得,因而以上 所述的优化算法都可以通过并行化高效实现。注意到滤波器系数f是模型 参数,即对于所有输入图像都是相同的,而特征图像x是和每一个输入图 像相对应的。

二、物体检测指导的网络结构细调

在用非监督的方式对网络进行预训练之后,用一组物体检测器作为自 上而下的指导对整个网络进行微调。首先,用已有的不同类别的物体检测 子对训练集中的每幅图像进行物体检测,然后根据检测到的物体位置框将 图像分解,即分别保留检测到的每个类别物体区域内的像素而将区域外的 像素值设为0,如图2所示,最终得到包含物体类别信息的物体图像训练 集合。假设物体类别数目为M,则物体检测器的数目也为M。对于一幅图 像y,分别施以M个类别检测子可以对相应类别的物体位置进行预测,然 后通过保留预测框内物体像素而将框外像素置0的方式得到M个物体图。 此外,还增加了一个不包含任何物体的背景图,因为背景信息对于理解一 幅图像也是非常重要的。这样M+1个物体图像记为0={o1,o2,...,oM+1}, 其中M为数据库中物体类别数目。对于一组物体图像,只有很小的一部 分是非零的,因为在一幅图像中包含的物体类别是很有限的。

在本发明中,细调的目的是提升网络的选择性,即希望不同的网络节 点响应不同的结构,尤其是使得最高层的滤波器单元具有较高的语义选择 性,即只响应某一种类别的物体而不响应其他类别。在本发明的反卷积模 型中体现在将每一个或者一组滤波单元提取的特征图重构到输入层时,只 重构图像中某一个类别的物体,而其他物体的重构图像接近于0,据此本 发明构造了重构时的优化目标函数。将最高层L的滤波器分为M+1组, 其中每一组对应某一个物体类别,第M+1组响 应不包含任何物体的背景,相应的重构图记为由此物体检测指导下的 网络微调的目标函数为:

CL(O)=λL2Σm=1M+1||o^mL-om||22+Σi=1NL|xiL|1s.t.xiL0

其中,表示输入训练图像对应的第m类物体图,表示第m组特 征图重构到输入层得到的重构图,表示顶层L层的第i个特征图。

注意到这个表达式与非监督预训练的表达式在形式上是完全一致的, 因此在对这个目标进行优化中,依然可以通过迭代的ISTA算法和共轭梯 度下降算法分别对特征图像和滤波器系数进行更新。所不同的是预训练中 是自下而上的方式,而在微调中是自上而下的逐层更新。在用共轭梯度下 降法对滤波器进行更新过程中,目标函数关于每一层滤波器的偏导数为:

fi,jL=λL[PsL-1(RL-1)T(o^mL-om)]i*xjLjgm

其中第一个公式为目标函数关于最高层L层中滤波器的偏导数,为第L-1层的最大值抽取操作,RL-1表示第L-1层到输入层的重构操作。 第二个公式为目标函数关于第l层中滤波器的梯度,它是所有物体类别重 构误差前向传播至第l层的值与将最高层向下重构至第l层的重构图的卷 积。经过自上而下的指导后,整个反卷积网络具有了更强的选择性和判别 力。

三、基于反卷积网络的图像分类

得到了训练好的网络后,将一幅图像输入到网络中就可以得到该图像 对应的层级特征图表示,预测过程是完全非监督的,不需要任何物体检测 器。为了进行图像分类,本发明将反卷积网络与一种有效的图像分类的监 督模型结合,即空间金字塔匹配模型SPM(具体内容例如参见S.Lazebnik, C.Schmid,and J.Ponce.Beyond bags of features:Spatial pyramid matching  for recognizing natural scene categories.In CVPR,2006.)。

在实施过程中,在通过反卷积网络得到的特征图上抽取局部特征,代 替标准空间金字塔匹配模型中的SIFT特征输入到SPM分类模型中。因为 每一副图像的最大位置记录是不同的,所以高层的特征图无法直接比较, 由此本发明提出了一种新的特征提取方法。输入图像到训练好的反卷积网 络中,获得从底层到高层的一组特征图,对于某一层中的特征图,首先抽 取每个特征图内的最大值,并用重构操作R1将其分别重构到输入层,得到 一组重构图然后,本发明分别利用每个重构图对应到第一 层的响应作为SPM的输入,因为第一层得到的特征非常类似于SIFT特征。 因而可以构建N1个空间金字塔图像特征,取这个N1个特征的平均值作为图 像的最终描述。此图像描述可以作为SPM模型中的SVM分类器的输入, 完成最终的图像分类。

四、实验验证

在公开图像数据集Caltech-101上对本发明进行验证。Caltech-101数 据集中总共有101个类别共9144副图像,其中每个类别中的图像数目为 31到800不等。从每类中随机选取30副图像做训练,其余的做测试。采 用本发明的方法训练了一个4层的反卷积网络,在网络结构微调过程中, 让第4层的前101个特征图分别对应101个类别而让其余的49个图像响 应背景。图3展示了学习得到的每一层的滤波器,可以看到得到的网络有 效地抓取到了图像层级性的结构信息,从底层的边缘到中层的几何结构和 高层的物体结构。最高层,即第4层中的滤波器明显的具有不同的语义信 息,即不同的滤波器响应不同类别的物体。将每一层学习得到的图像特征 结合起来训练一个SVM分类器进行分类测试,最终的分类准确率为77.3%, 高于传统的SIFT特征的分类准确度(SIFT特征的分类准确率为64.6%, 参见S.Lazebnik,C.Schmid,and J.Ponce.Beyond bags of features:Spatial  pyramid matching for recognizing natural scene categories.In CVPR,2006.), 此实验验证了通过本发明得到的特征具有更好的判别性,更适合于图像分 类等判别性任务。

由此可见,本发明通过一个深度网络自动而有效地学习从底层到高层 的图像特征,网络训练中既有自下而上的非监督学习也有高层语义指导下 的微调,其中非监督学习中融入了非负稀疏性,而微调过程中融入了物体 检测信息,使学到的特征具有很强的判别力。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已, 并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、 等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号