法律状态公告日
法律状态信息
法律状态
2020-06-30
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06K9/62 变更前: 变更后: 申请日:20150826
专利权人的姓名或者名称、地址的变更
2019-11-15
授权
授权
2017-04-05
实质审查的生效 IPC(主分类):G06K9/62 申请日:20150826
实质审查的生效
2017-03-08
公开
公开
技术领域
本发明涉及计算图像处理的模式识别技术领域,属于机器学习中深度学习的范畴,尤其涉及一种基于高约束高分散主成分分析网络的图像分类方法。
背景技术
在计算机视觉和模式识别领域中,寻找到合适的特征来表达图像在解决分类问题中是非常关键的。例如,最有名的局部或全局特征描述算子(尺度不变特征转换SIFT以及方向梯度直方图HOG)在目标识别和匹配方面取得了的巨大进展。有趣的是,许多成功的特征表达都很相似,实际上可以把它们看成是计算边缘梯度的直方图或者是再加上一些卷积操作。尽管这些描述算子在提取底层图像特征时具有不错的效果,但是它们很难以泛化的方式抓住图像中的重要信息。在过去的几年里,基于深度学习的特征提取方法在一系列视觉分类任务中(如手写字体识别,人脸识别以及目标识别等)取得了重大的突破,其分类精度达到了很高的水平,甚至有时候能够和人类相媲美。所以我们将视角从人工设计的特征提取转移到深度学习的特征提取。
深度学习被视为以一种黑盒方式实现的特征提取算法,该算法可以弥补人工设计的特征提取方法带来的缺陷,并且为我们提供了强大的特征框架,便于从数据中学习到相当复杂的特征表达。从1989年LeCun等在Neural Computation 1(4):541–551杂志上发表的“Backpropagation applied to handwritten zip code recognition”论文中引入卷积神经网络(convolutional networks,CNNs)概念开始,关于CNNs的研究引起了许多学者的关注。特别值得注意的是,Krizhevsky在“NIPS 2012”(“2012年第25界Advances in NeuralInformation Processing Systems会议”)上发表的“ImageNet Classification with DeepConvolutional Neural Networks”证明了在具有挑战性的ImageNet标准数据库上CNNs是一个非常有效的图像分类算法。后续的关于CNNs的工作帮助我们理解和完善这类网络结构在不同方面的性质。
然而,许多现存的深度神经网络很难使用,因其需要大量的参数调节过程和一些特殊的技巧。例如对于CNNs模型,它的学习过程实际上是优化非凸集的目标函数,因此即使是在同样的数据集上进行训练,最终的参数结果可能变化万千。Erhan等在“The Journal of MachineLearning Research”2010,11:625–660杂志发表的“Why does unsupervised pre-traininghelp deep learning”,Hinton等在Neural Computation 18:1527–1554的“A fast learningalgorithm for deep belief nets”,以及Bengio等在“NIPS 2012”153–160发表的“Greedylayer-wise training of deep networks”,这些文章传达出这样的信息:深度神经网络和逐层贪婪的预训练算法结合起来在模型泛化能力上可以提供令人吃惊的提高。深度神经网络的另一个问题是经常会出现过拟合的现象,这是由于深度神经网络是一个极度复杂的模型,该模型包含着数以百万记的冗余参数节点。关于过拟合,有很多学者尝试不同方法试图解决过拟合问题。在2012年,Hinton在“Improving neural networks by preventing co-adaptationof feature detectors”(arXiv:1207.0580)引入了“dropout”的策略,“dropout”是指对于每一个训练样本,随机地将每层中一半的特征检测器置为非激活状态。“dropout”技术的一个缺点是对于卷积层来说没有明显的优势。Zeiler在“ICLR 2013”(InternationalConference on Learning Representations)会议上的“Stochastic pooling forregularization of deep convolutional neural networks”文章中提出了无超参的随机卷积策略来改进“dropout”的不足,随机卷积策略的思想是用随机化的操作来代替传统的固定卷积过程。Zeiler的工作可以看成是标准的最大池化的替代方法,不同的是对于每幅输入图像进行预处理,对于每张输入图像,经过一些局部的微小形变形成了一批副本,这些副本作为Zei ler随机卷积算法的输入。除了Zeiler的工作,还有许多深度学习模型的变体,如Lin在“ICLR 2014”上发表的“Network in network”,Simonyan发表的“Very deepconvolutional networks for large-scale image recognition”以及Szegedy在ILSVRC14上发表的“Going deeper with convolutions”等,这些变体到目前为止已被证明在图像识别任务中是相当成功的。这些深度学习的模型都是先通过前向传播的过程再重复地使用梯度下降算法来极小化损失函数。我们总结了一下,至少有以下两点原因促成了深度学习模型框架的成功:1)拥有更大的数据集和快速的GPU运算性能;2)基于正则化过程的数学理论上的发展,如“dropout”和校正线性激活函数。
尽管深度神经网络框架已经成功应用在某些分问题上,我们仍然需要面对一些不可避免的问题:计算复杂度和时间复杂度。顺着这个思路,我们想要找到一个在复杂度和性能之间的折中网络框架。机器学习方法性能的优劣很大程度上取决于所选择数据的表达方式(或者称为“特征”)。因此,理解这些要提取的特征以及怎样才能最大程度地利用它们,在我们建立分类器或者其他预测器的时候十分重要。本发明构建的CHDNet框架受到Chan等Submittedto IEEE Trans.Image Processing 2014的论文“PCANet:A Simple Deep Learning Baselinefor Image Classification”和Lei等在NIPS 2014会议上发表的“Do Deep Nets Really Needto be Deep?”的启发。本发明和那些包含了数百万参数的深度神经网络不同,同时,本发明另一个创新点在于我们是第一个将卷积层替换成多尺度特征分析层的。本说明书将从理论上详述改进的深度卷积神经网络能够达到和其他深度网络相同甚至更优的分类效果。为了克服现有技术中的上述缺陷,提出了一种基于高约束高分散主成分分析网络的图像分类方法。
发明内容
本发明提出了一种基于高约束高分散主成分分析网络的图像分类方法,输入图像经过至少一组卷积层和非线性变换层,以及一个特征池化层,包括如下步骤:
卷积及非线性变化步骤:在所述卷积层中,采用PCA方式从训练集中学习到用于每个阶段特征提取的多个卷积核;在所述非线性变换层中,利用所述卷积核对于输入图像进行非线性变换,经过至少一次卷积层和所述非线性变换层的变换后得到特征图;
特征池化步骤:在所述特征池化层中,引入多尺度特征分析公式,推导出满足高分散性分布及其尺度缩放因子σ最优的取值后,输出特征;所述高分散性分布以如下式(1)所示,
式(1)中,Fj(x,y)和Fj(p,q)分别表示第j张特征图在(x,y)和(p,q)处的激活度;r和c表示的是第j张特征图的长和宽;σ是尺度缩放因子;
式(6)中,
整合步骤:将所述特征展开为向量,并利用向量组成特征矩阵;
图像分类步骤:所述特征输入线性支持向量机中以完成图像分类任务。
本发明基于高约束高分散主成分分析网络的图像分类方法中,在卷积及非线性变化步骤中,所述特征图经过软绝对值函数
本发明基于高约束高分散主成分分析网络的图像分类方法中,所述输入图像经过所述高约束高分散主成分分析网络处理后,在所述非线性变换层经过如下步骤后得到特征图:
第一变换步骤:以所述输入图像作为输入,利用V1个卷积核对所述输入图像进行卷积,得到V1张第一特征图
第二变换步骤:以所述第一非线性变换图
本发明基于高约束高分散主成分分析网络的图像分类方法中,在特征池化步骤中,所述特征图经过以下步骤得到特征:
归一化步骤:将所述特征图
多尺度特征分析步骤:构建在不同尺度0,1,…,L下的一系列网格,总共构建有
式(9)中,
高约束高分散步骤:利用推导出满足高分散性分布公式
本发明基于高约束高分散主成分分析网络的图像分类方法中,所述整合步骤中,将
式(10)中,
本发明基于高约束高分散主成分分析网络的图像分类方法中,所述尺度缩放因子
本发明基于高约束高分散主成分分析网络的图像分类方法中,在图像分类步骤中,所述输入图像经过以下步骤得到分类结果:
输入步骤:将特征向量输入到SVM中,选择线性核函数;
训练步骤:将数据库中的一部分划分为训练集并给定对应训练样本的标签,按照一对一法训练SVM模型;
测试步骤:将数据库中除去训练集的部分作为测试集,利用训练集得到的SVM模型参数,将特征向量F作为SVM的输入特征向量,根据投票原则,得票最多的类别即为该未知测试样本的类别。
本发明的有益效果在于:
本发明与现有技术相比,简单高效,具有自适应和扩展性,当需要处理新数据库上的分类任务时,不需要特别地设计卷积核,只需要输入网络的结构参数即可。
附图说明
图1为本发明基于高约束高分散主成分分析网络的图像分类方法的流程图。
图2为可视化的两阶段CHDNet网络。
图3为两阶段CHDNet网络结构图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
如图1所示,本发明的基于高约束高分散主成分分析网络的图像分类方法,输入图像经过至少一组卷积层和非线性变换层,以及一个特征池化层,具体包括如下步骤:
卷积及非线性变化步骤:在所述卷积层中,采用PCA方式从训练集中学习到用于每个阶段特征提取的多个卷积核;在所述非线性变换层中,利用所述卷积核对于输入图像进行非线性变换,经过至少一次卷积层和所述非线性变换层的变换后得到特征图;
特征池化步骤:在所述特征池化层中,引入多尺度特征分析公式,推导出满足高分散性分布及其尺度缩放因子σ最优的取值后,输出特征;所述高分散性分布以如下式(1)所示,
式(1)中,Fj(x,y)和Fj(p,q)分别表示第j张特征图在(x,y)和(p,q)处的激活度;r和c表示的是第j张特征图的长和宽;σ是尺度缩放因子;
式(6)中,
整合步骤:将所述特征展开为向量,并利用向量组成特征矩阵;
图像分类步骤:所述特征输入线性支持向量机中以完成图像分类任务。
一般认为,好的特征表达应该是不变性和可分离性相结合的。本发明的目的在于发明一个简单却高效的特征学习算法,该算法可以在复杂性和性能之间找到平衡点。特征学习最鲁棒的方法是尽可能多的分解特征因子,根据实际情况丢弃少量无用的数据信息。为此,本发明仅关注特征的某些关键性质——高分散性和特征之间的竞争性。
为了表述清楚,以下具体实施例考虑在某个给定的有限数据集上的一个特征分布
(一)高分散性
本发明中的高分散性是指Nigam在“NIPS 2011”发表的“Sparse Filtering”中提到的统一激活度分布概念。因为本发明使用了主成分分析(principle component analysis,PCA)来学习滤波器,并且用学习到的PCA滤波器和图像/特征图进行卷积操作,得到的结果是不满足高分散性要求的。以上操作得到的特征导致了特征分布的不均衡,其主要原因是滤波器是通过PCA学习到的,然而PCA相应的是最大的那些特征值,这就表明PCA相应的特征值总是处于激活状态。对于一个特征图来说,高分散性的定义是指:每个特征和该幅特征图中的其他特征的统计分布是相似的;不应该存在任何一个特征其激活度明显高于特征图中的其他特征。高分散在特征表达的的角度来说,可以理解为只有少量特征处于非激活的状态。根据以上描述已知高分散性的性质是指在所有特征之间的分散性,而不能描述为某一特征的分散性。一个特征自身是不具有分散性的,相反,它只能是具有分散性特征图中的一个成员,这和Willmore在Network 2001中发表的“Characterizing the sparseness of neural codes”文章中关于分散性的概念是吻合的。因此,对于大小为r×c的第j张特征来说,本发明首先对每个特征进行归一化,方法是对第j张特征图中的每个特征除以该特征图中所有成员的l2范数。接着再乘以尺度缩放因子σ,这样做的目的是为了防止Fj(x,y)变得太小。因此,为了弥补通过PCA方法学习到的滤波器引起的特征分布非均衡化,本发明给出第j张特征图的高分散性特征的计算公式:
式(1)中,Fj(x,y)和Fj(p,q)分别表示第j张特征图在(x,y)和(p,q)处的激活度;r和c表示的是第j张特征图的长和宽;σ是尺度缩放因子;
上述公式和Willmore在Network 2001中发表的“Characterizing the sparseness ofneural codes”文章中的Treves-Rolls公式非常相似。Treves-Rolls公式是用来衡量种群稀疏度的,也就是说每个特征图只会产生一个值。
式(2)中,r×c表示第j张特征图的大小;Fj(p,q)表示第j张特征图在(p,q)处的激活度;Sj表示第j张特征图的种群稀疏度。
现有Teves-Rolls公式通常用来度量人脑中神神经元激活度的稀疏程度,然而,在本发明主要关心的是分散性而不是稀疏性。所以必须对Treves-Rolls公式进行改进:将Treves-Rolls公式的算术平方根乘上一个尺度缩放因子;同时在分子部分,用的是第j张特征图中每个单独的特征而不是第j张特征图中所有特征和。基于Treves-Rolls公式的变形依据在于:在Nigam的Sparse Filtering(NIPS 2011)文章中,Nigam建议将Treves-Rolls公式的算术平方根乘上一个尺度缩放因子来优化高分散性,这证明了关于Treves-Rolls公式的第一部分变动是有意义的;其次,保证第j张特征图中的每一个成员都具有分散性的性质,本发明对Treves-Rolls公式进行上述的第二个改变。下面,给出公式(1)推导的详细过程。
·第一步:对Treves-Rolls公式开方得到
式(3)中,Fj(x,y)和Fj(p,q)分别表示第j张特征图在(x,y)和(p,q)处的激活度;r和c表示的是第j张特征图的长和宽;
·第二步:给公式(3)乘以一个尺度缩放因子(经过一系列的实验发现,尺度缩放因子
式(4)中,r×c表示第j张特征图的大小;Fj(p,q)表示第j张特征图在(p,q)处的激活度;
·第三部:在分子部分,本发明使用第k张特征图中每个单独的特征而不是第j张特征图中所有特征和,如公式(1)所示,其中x∈[1,r],y∈[1,c]。
本发明中改进的公式和Nigam衡量特征稀疏度的公式相比,除了尺度缩放因子有明显的不同外,另一个显著的区别在于Nigam的公式是:Nigam将公式应用在样本大小为N的数据库上,并且每个样本只有一个特征图。但是本发明中,根据最后一个阶段滤波器数,每个样本有多个特征图。然而,仅仅使用特征高分散性这一个性质是不能提高分类效果的,因为在特征图集合中的特征激活度是以一种冗余的方式分散开来的。这就是接下来在本发明中引入局部响应归一化的原因。
(二)局部响应归一化
通过前面的描述,已知好的特征表达具有高分散性、尽量少冗余的性质。和Hinton在Improving neural networks by preventing co-adaptation of feature detectors文章中描述的关于局部相应归一化的方法类似,本发明提出的CHDNet网络能够达到理想的分类效果。Kevin在(ICCV 20092146–2153)的What is the best multi-stage architecture for objectrecognition论文中论证了在CNN网络中使用局部除法归一化层是进一步提高计算机视觉分类任务效果的方法,局部除法归一化是受到计算神经系统科学模型的启发。局部除法的归一化操作加强了在不同特征图中处于相同空间位置上的特征间的局部竞争性。局部响应归一化方法用公式(5)计算第j张特征图位于(x,y)处的归一化激活度aj(x,y)
式(5)中,ak(x,y)表示第k张特征图位于(x,y)处的激活度;aj(x,y)表示第j张特征图位于(x,y)处的归一化激活度;n表示用于局部响应归一化处理的相邻特征图数量;α和β是调节局部响应作用的因子。
其中,分子会计算在拓扑结构中处于相同位置的n张相邻特征图中的特征平方和。局部响应归一化起着在真实神经元间侧抑制的效果。本发明中,使用改进的局部响应归一化方程
式(6)中,
在本发明的分类系统的结构中,局部响应归一化起到的是约束的作用,这个约束是用来对来自不同特征图中的特征进行归一化处理,因为每一个学习到的PCA滤波器可以被视为尺度不同的特征检测器。
本发明用最基本和简单的操作来模拟传统卷积神经网络中的各层:每个阶段特征提取层(FCSG)中的卷积核(滤波器)是直接从数据库中用最基本的PCA操作学习得到的;非线性变化层是最简单的软绝对值层(Rsabs);在特征卷积层(PCHD),本发明仅用了多尺度归一化直方图分析的方法,特征池化层是整个网络的输出层,其后面直接连接着线性分类器(在本发明中用的是SVM分类器)。为了方便引用,将这个可以自适应的网络命名为高分散性PCA网络(ConstrainedHigh>
(三)和类似方法的比较
显然,CHDNet从整个网络的体系结构角度来说和CNN有着一些相似性,同时,CHDNet从滤波器学习方法上来说和PCANet也存在着一些共性。
本发明中的CHDNet是一个深度卷积神经网络的体系结构。Jarrett在ICCV 2009pp.2146–2153的What is the best multi-stage architecture for object recognition?论文中指出在神经网络的深度体系结构中,深度框架可以看作是采用不同的方式级联滤波器层(FCSG),修正层(Rabs),局部相减归一化层(N),平均池化及子采样层(PA),最大池化及子采样层(PM)。CHDNet由一个或多个阶段的特征提取层,每层特征提取层是由级联的滤波器层和修正层构成的FCSG-Rsabs。特征提取层后面是多尺度分析特征卷积层PCHD。因此CHDNet-1是FCSG-Rsabs-PCHD这样的体系结构,同理,CHDNet-2的体系结构可以抽象成FCSG-Rsabs-FCSG-Rsabs-PCHD。通过以上的描述,可以得出以下结论:本发明中的CHDNet是一个深度框架,因为CHDNet和Jarrett提出的深度卷积神经网络体系结构的定义相符。
和本发明相近的是Chan在Submitted to IEEE Trans.Image Processing 2014中的ASimple Deep Learning Baseline for Image Classification论文中提出的PCANet网络。本发明和PCANet网络最显著的区别在于PCANet没有对特征进行多尺度分析的处理,其他的区别包括:在输出层之前PCANet没有对特征表达进行高分散性以及局部归一化处理,并且也没有尺度缩放因子的处理。
以下结合如图2及图3所示的具体实施例对本发明技术方案做详细说明。
一个卷积深度神经网络模型由多个可训练层以层层堆积的方式组成,在输出层增加一个监督的分类器以完成分类任务。通常每层都包含两层:滤波器卷积层和特征池化层。本发明的CHDNet模型包含了多阶段PCA卷积及非线性变换层,并且只包含一个特征池化层,该特征池化层只出现在最后的输出层之前。接着,学习到的特征被送到线性SVM中来完成不同的分类任务。
以一张输入图像i=1为例,假设经过了2阶段的PCA来学习卷积核。
1)第一变换步骤,输入图像用PCA得到的V1个卷积核
2)第二变换步骤,不同的是用第一变换步骤的输出
3)归一化步骤,将V1×V2张特征图每个位置上的值都映射到[0,1],并对V1组中的每张第二特征图赋予不同的权重(如[2v2-1,2v2-2,2v2-3,……,20]),将特征图和对应的权重相乘并求和,每组第二特征图中的V1张特征图就合并为一张特征图,本发明给出计算合并同组特征图的公式:
式(7)中,
式(8)中,Hj是合并后的特征图,min(·)和max(·)分别是最小值、最大值函数;
4)多尺度特征分析步骤,对归一化后的V1张特征图
式(9)中,
5)高约束高分散步骤:利用推导出满足高分散性分布公式(4)和局部响应归一化约束层(6)对特征图进行进一步的处理;在本具体实例中,总共有2阶段的PCA学习滤波器过程,因此公式(6)中end=2,
6)整合步骤:将
公式(10)中,
经过一系列的实验发现,尺度缩放因子
在特征池化步骤中,所述特征图经过以下步骤得到特征:
1)归一化步骤,将V1×V2张特征图每个位置上的值都映射到[0,1],并对V2组中的每张特征图赋予不同的权重(如[2v2-1,2v2-2,2v2-3,……,20]),将特征图和对应的权重相乘并求和,每组特征图中的V1张特征图就合并为一张特征图,用本发明给出的公式(7)计算合并同组特征图Hj;然后用公式(8)将特征图中元素归一化到[0,255]范围内,得归一化特征图
2)多尺度特征分析步骤,对归一化后的V1张特征图
3)高约束高分散步骤:利用推导出满足高分散性分布公式(4)和局部响应归一化约束层(6)对特征图进行进一步的处理。
图像分类步骤中,所述输入图像经过以下步骤得到分类结果:
输入步骤:将特征向量输入到SVM中,选择线性核函数;
训练步骤:将数据库中的一部分划分为训练集并给定对应训练样本的标签,按照一对一法(one-versus-one,简称OVO SVMs)训练SVM模型;
测试步骤:将数据库中除去训练集的部分作为测试集,利用训练集得到的SVM模型参数,将特征向量F作为SVM的输入特征向量,根据投票原则,得票最多的类别即为该未知测试样本的类别。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
机译: 通过卷积神经网络进行特征提取并通过主成分分析进行特征约简,从而对细粒度对象进行基于类别的基于内容的图像检索
机译: 基于学习数据的病变分类方法和装置,该方法和方法将一种或多种增强方法应用于医学图像的病变信息增强补丁中
机译: 基于学习数据的病变分类方法和装置,该学习数据在医学图像的病变信息增强补丁中采用一种或多种增强方法