首页> 中国专利> 基于线性判别分析准则的改进卷积神经网络性能的方法

基于线性判别分析准则的改进卷积神经网络性能的方法

摘要

本发明公开了一种基于线性判别分析准则的改进卷积神经网络性能的方法,属于深度学习卷积神经网络领域、脑认知领域和计算机视觉图像分类领域,包括以下步骤:1)将待处理图像集划分为训练集、验证集和测试集;2)选择一个卷积神经网络模型;3)选定步骤2)中的卷积神经网络模型的一个层,对选定层的特征做基于线性判别分析准则的正则约束,形成了一个新的卷积神经网络模型;4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经网络模型,新的卷积神经网络模型训练好之后,利用训练好的卷积神经网络模型对待分类图像测试,完成分类预测。实验结果表明:本发明能够显著地提高卷积神经网络图像分类的精度。

著录项

  • 公开/公告号CN105243398A

    专利类型发明专利

  • 公开/公告日2016-01-13

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN201510566529.4

  • 发明设计人 龚怡宏;石伟伟;王进军;张世周;

    申请日2015-09-08

  • 分类号G06K9/66(20060101);G06N3/08(20060101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人闵岳峰

  • 地址 710049 陕西省西安市咸宁西路28号

  • 入库时间 2023-12-18 13:28:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    未缴年费专利权终止 IPC(主分类):G06K 9/66 专利号:ZL2015105665294 申请日:20150908 授权公告日:20180904

    专利权的终止

  • 2018-09-04

    授权

    授权

  • 2016-02-10

    实质审查的生效 IPC(主分类):G06K9/66 申请日:20150908

    实质审查的生效

  • 2016-01-13

    公开

    公开

说明书

技术领域:

本发明涉及深度学习卷积神经网络领域、脑认知领域和计算机视觉图像分 类领域,具体涉及改进卷积神经网络性能的方法,提高卷积神经网络图像分类 性能的方法。

背景技术:

当前深度卷积神经网络,已经广泛应用到计算机视觉的各个领域,例如, 图像分类、目标检测和定位以及图像检索等等。一直以来,提高卷积网络图像 分类性能的方法可以大致分为两种:一种是增加网络结构的规模,即增加网络 的层数和每一层的节点的数目;另一种是使用更大规模的训练集。

增加网络结构的规模将会大大增加计算量,给硬件计算设备带来很大的计 算负担。现实中,计算资源也是有限的,连续增加两个相邻的卷基层特征图的 个数,会导致相应计算量呈平方规模的增加。而且网络规模增大到一定定程度 的时候,其性能会逐渐趋于饱和。同时,由于网络规模越大,要通过训练学习 的参数就越多,过多的模型参数容易导致过拟合,(所谓过拟合,就是在训练集 上分类错误率较低,而在测试集上的分类错误率较高)。

构建大规模的训练标注数据集也是一件很困难的事情,不见耗费大量的时 间、人力和财力,而且构建高质量的数据集往往还需要相关的专业知识。最近 的一些实验还表明,卷积神经网络的性能随着训练集增大也逐渐趋于饱和,也 就是说,当训练集到一定规模时候,再增加训练集,网络性能的提升微乎其微, 提升的幅度已经很小。鉴于以上两种情况,最近一些学者也试图对卷积神经网 络的结构做了一些小的修改,但这些小的技巧都是基于实验驱动的,是通过大 量的实验总结出来的一些技巧,缺乏理论的分析和支持,当然也很难系统地提 升网络性能。

发明内容:

本发明的目的在于针对现有技术的不足,提供了一种基于线性判别分析准 则的改进卷积神经网络性能的训练方法。

为了达到上述目的,本发明采用如下技术方案予以实现的:

基于线性判别分析准则的改进卷积神经网络性能的方法,包括以下步骤:

1)将待处理图像集划分为训练集、验证集和测试集;

2)选择一个卷积神经网络模型;

3)选定步骤2)中的卷积神经网络模型的第k层,对选定层的特征做基于 线性判别分析准则的正则约束,形成了一个新的卷积神经网络模型;

4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积 神经网络模型,新的卷积神经网络模型训练好之后,利用训练好的卷积神经网 络模型对待分类图像测试,完成分类预测。

本发明进一步的改进在于,步骤2)中,设选定的卷积神经网络模型共有M 层,给定一个mini-batch的训练样本n为一个mini-batch的大小;Xi表 示原始的输入数据,即原始图像;ci∈{1,2,…,C}是相应的类别标签,C是类别总 数,选定的卷积神经网络模型的目标函数如下:

minWL=Σi=1nl(W,Xi,ci)

其中,W=(W(1),…,W(M);b(1),…,b(M)),即W表示选定的卷积神经网络模型的全 部参数,W(m)表示选定的卷积神经网络模型第m层的权重参数,b(m)表示选定的 卷积神经网络模型第m层的偏置参数,l(W,Xi,ci)表示样本Xi的损失函数。

本发明进一步的改进在于,步骤2)中,选定的卷积神经网络模型的每一层 的特征的递归表示如下:

Y(m)=X(m-1)*W(m),X(0)=X,

X(m)=f(Y(m)+b(m)),m=1,2,…,M,

其中,X(m)表示选定的卷积神经网络模型第m层的特征,*表示卷积运算, Y(m)表示选定的卷积神经网络模型第m层的没有经过激活函数的响应,f(·)表示 非线性激活函数。

本发明进一步的改进在于,步骤3)中,选定步骤2)中的卷积神经网络模 型的高层,即靠近输出的层。

本发明进一步的改进在于,步骤3)中,对选定的步骤2)中的卷积神经网 络模型的第k层做基于线性判别分析准则的正则约束,即使得特征的类内距离逐 渐变小,类间距离逐渐变大。

本发明进一步的改进在于,步骤3)中,线性判别分析准则为其 中,Trace(·)表示矩阵的迹,

Sw=Σc=1CΣiπc(hi-mc)(hi-mc)T

其中,hi表示样本Xi的第k层特征的简写,nc和πc分别表示该mini-batch中属于第c类的样本个数和第c类的下标标号的集合,mc表示第c类的样本的第k层特征的平均值,m表示该mini-batch的所有样本的第 k层特征的平均值,n=Σc=1Cnc,mc=1ncΣiπchi,m=1nΣi=1nhi.

本发明进一步的改进在于,步骤3)中,对选定层的特征做基于线性判别分 析准则的正则约束,形成一个新的卷积神经网络模型的目标函数为:

minWL=Σi=1nl(W,Xi,ci)-λTrace(Sb)Trace(Sw)=ΔL1-λL2

其中,为新的卷积神经网络模型的分类损失函数, 为第k层特征的线性判别分析准则,λ为大于零的权重系数。

本发明进一步的改进在于,步骤4)中,基于mini-batch的随机梯度下降方 法中使用了基于平均值增量更新的方法来计算每一类第k层的特征的平均值,平 均值增量更新公式具体如下:

mc(t)=Σiπc(t)hi(t)+Nc(t-1)mc(t-1)Nc(t),

m(t)=1nΣnc(t)mc(t),

其中,表示其中,表示样本Xi在第t次迭代的第k层的特征;表示 第c类的第k层的特征在第t次迭代的平均值;表示到第t次迭代为止,第c类 样本的累积总数;和分别表示第t次迭代所选取的mini-batch中属于第c类 的样本个数和第c类的下标标号的集合;m(t)表示第t次迭代所选取的mini-batch 中所有样本的第k层特征的平均值向量;和分别表示第t次迭代所选取的 mini-batch的总的类内散布矩阵和类间散布矩阵,且有

Sw(t)=Σc=1CΣiπc(hi(t)-mc(t))(hi(t)-mc(t))T,

Sb(t)=Σc=1Cnc(t)(mc(t)-m(t))(mc(t)-m(t))T.

本发明进一步的改进在于,步骤4)中,基于mini-batch的随机梯度下降方 法中,第k层的特征的灵敏度为从新的卷积神经网络模型的分类损失函关于第k 层特征的梯度加上线性判别分析准则关于第k层特征的梯度;线性判别分析准则 关于第k层的特征的梯度如下:

L2(t)hi(t)=Trace(Sw(t))Trace(Sb(t))hi(t)-Trace(Sb(t))Trace(Sw(t))hi(t)[Trace(Sw(t))]2

其中,

L2(t)=Trace(Sb(t))Trace(Sw(t)),Trace(Sw(t))hi(t)=2Σi=1CI(iπc(t)){(hi(t)-mc(t))+(nc(t)mc(t)-Σjπc(t)hj(t))Nc(t)},I()为指示函数,当指示函数的括号内的条 件表达式值为真时,指示函数值为1,否则指示函数值为0。

本发明进一步的改进在于,步骤4)中,基于mini-batch的随机梯度下降方 法,利用训练集来训练新的卷积神经网络模型,求得参数W,验证集用来调节 学习率参数。

相对于现有技术,本发明具有如下的优点:

本发明借鉴视觉皮层的认知机理来进一步提高卷积神经网络的性能,而不 单纯地通过增加网络规模和数据规模,同时也避免了陷入纯粹实验驱动的困境。 本发明受到视觉皮层认知机理的启发,通过对卷积神经网络的特征进行基于线 性判别分析准则的约束,显示地使得卷积神经网络所学习到的特征满足类内距 离逐渐变小,类间距离逐渐变大。以往对模型的正则约束都是基于模型参数的 约束,本发明第一次提出显式地对卷积神经网络学习到的特征进行正则约束。 同时,本发明提出了mini-batch平均值增量式更新的方案,并在试验中进行了验 证。

实验结果表明:本发明能够显著地提高卷积神经网络图像分类的精度,不 但能够使性能优秀的深度卷积神经网络的分类精度进一步提高,同时还能够使 一个浅层的卷积神经网络的分类精度达到一个与没有使用基于线性判别分析准 则约束的深度卷积神经网络模型的可比较的分类精度。

具体实施方式:

为了进一步提高卷积神经网络的性能,而不单纯地通过增加网络规模和数 据规模,同时也避免陷入纯粹实验驱动的困境,本发明通过借鉴人类视觉皮层 的一些机理来提高卷积神经网络的性能,人类视觉系统在几乎所有的任务上都 优于机器视觉系统,因此模拟视觉皮层的目标识别来建立一个机器系统一直以 来都是一个很有吸引力的事情,事实上卷积神经网络的局部连接和权值共享的 结构就已经借鉴了最近一些神经科学的研究成果。

最近的神经科学研究成果表明:目标识别,在视觉皮层腹侧通路表现为通 过一系列非线性变换来逐步解离不同类的视觉目标流形。受到视觉皮层认知机 理的启发,通过对卷积神经网络的特征进行基于线性判别分析准则的约束,显 示地使得卷积神经网络所学习到的特征满足类内距离更小,类间距离更大,最 终用一个线性分类器就能将不同类的物体分开,大大提高了卷积神经网络的性 能,训练方法简单易行。

本发明基于线性判别分析准则的改进卷积神经网络性能的方法,包括以下 步骤:

(1)准备好训练集、验证集和测试集。

(2)选定一个卷积神经网络模型(可以包含一个或多个全连接层)

假定共有M层,给定一个这里为一个mini-batch的大 小;Xi表示原始的输入数据,即原始图像;ci∈{1,2,…,C}是相应的类别标签,C是 类别总数。我们的目标是学习相应的卷积核权重以及偏置使得网络有最优的分 类精度,下面递归地给出每一层的特征图(或特征):

Y(m)=X(m-1)*W(m),X(0)=X

X(m)=f(Y(m)+b(m)),m=1,2,…,M.

这里,W(m)表示第m层的权重,X(m)表示相应层的特征图(对于卷积层)或 特征(对于全连接层),“*”表示卷积运算,Y(m)表示第层的没有经过激活函数的 响应,f(·)表示非线性激活函数(例如ReLU激活函数);选定的卷积神经网络 模型的目标函数如下:

minWL=Σi=1nl(W,Xi,ci)

其中,W=(W(1),…,W(M);b(1),…,b(M)),即W表示选定的卷积神经网络模型的全 部参数,W(m)表示选定的卷积神经网络模型第m层的权重参数,b(m)表示选定的 卷积神经网络模型第m层的偏置参数,l(W,Xi,ci)表示样本Xi的损失函数。

(3)选定步骤(2)中卷积神经网络的一个层(一般为高层,即靠近输出 的层),对选定层的特征做基于线性判别分析准则的约束。

假定对网络的第k层的特征进行基于线性判别分析准则的约束,为了描述方 便,将样本Xi的第k层特征简写为hi(列向量),nc和πc分别表示该mini-batch 中属于第c类的样本个数和相应的指标集合(或下标标号的集合),mc表示第c类 的样本的第k层特征向量的平均值,m表示该mini-batch的所有样本的第k层特 征向量的平均值,根据以上符号定义可知

对于不同类的物体,其卷积神经网络模型的相应特征应该是逐层被分离开 的,即卷积神经网络模型所学习到的特征的类内距离逐渐变小,类间距离逐渐 变大。第c类的类内距离可以表示为c=1,2,…,C,这里, 上标T表示向量或矩阵的转置,总的类内距离为总的类间距离为

S(b)=Σc=1Cnc(mc-m)T(mc-m).

令Sw和Sb分别表示该mini-batch的类内散布矩阵(协方差矩阵)和类间散 布矩阵,则,Sw=Σc=1CΣiπc(hi-mc)(hi-mc)T,Sb=Σc=1Cnc(mc-m)(mc-m)T.经过简单的数 学计算可以得到S(w)=Trace(Sw),S(b)=Trace(Sb),这里,Trace(·)表示矩阵的迹(矩 阵主对角元素的和)。于是,最大化基于线性判别分析的准则意味着最 大化类间距离同时最小化类内距离。下面给出对第k层的特征做基于线性判别分 析准则的正则约束的新的卷积神经网络模型的目标函数

minWL=Σi=1nl(W,Xi,ci)-λTrace(Sb)Trace(Sw)=ΔL1-λL2

其中,W=(W(1),…,W(M);b(1),…,b(M)),即W表示新的卷积神经网络的所有要学 习的权重参数和偏置参数;表示分类损失函数,l(W,Xi,ci)表示 样本Xi的分类损失函数;λ为大于零的权重系数,实际应用中, 针对不同的数据集需要进行调节,当λ的值调节好之后,整个训练过程一直保持 为恒定不变的值。

由于训练时,每次迭代是基于一个mini-batch的数据进行的,当数据集的类 别总数接近或大于一个mini-batch的样本个数时,将不能保证每一次迭代都能使 用到所有类的样本。在一个mini-batch中,如果某一类的样本只有一个时,相应 于该类的类内距离将为0,虽然计算线性判别分析准则仍然能够继续进行,但本 发明希望在一个mini-batch中,即使某一类只有一个样本,该类的类内距离不为 0,该类的类内距离仍然能够在总的类内距离中起一定的作用,同时,为了计算 的稳定性,我们提出如下的特征平均值(每一类的平均值和总平均值)的增量 更新方案:

mc(t)=Σiπc(t)hi(t)+Nc(t-1)mc(t-1)Nc(t),m(t)=1nΣnc(t)mc(t).

其中,表示样本Xi在第t次迭代的第k层的特征;表示第c类的第k层 的特征在第t次迭代的平均值向量;表示到第t次迭代为止,第c类样本的累 积总数;n为一个mini-batch的样本总数;和分别表示第t次迭代所选取的 mini-batch中属于第c类的样本个数和相应的指标集合(或下标标号的集合);m(t)表示第t次迭代所选取的mini-batch中所有样本的第k层特征的平均值(按照该 mini-batch中每一类的更新后的平均值计算出来的);和分别表示第t次迭 代所选取的mini-batch的总的类内散布矩阵和类间散布矩阵,且有

Sw(t)=Σc=1CΣiπc(hi(t)-mc(t))(hi(t)-mc(t))T,

Sb(t)=Σc=1Cnc(t)(mc(t)-m(t))(mc(t)-m(t))T.

(4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷 积神经网络模型模型,验证集只用来调节学习率等参数。

在用反向传播算法,需要求目标函数关于模型参数的导数,由于直接求目 标函数关于模型参数的导数比较困难,所以需要先求出来目标函数关于各层特 征的灵敏度,即损失函数关于相应层特征的导数或梯度,然后根据灵敏度可以 求出来关于相应参数的导数。分类损失函数关于第k层的特征的灵敏度可以按照 传统神经网络的反向传播算法进行计算。本发明只需计算出线性判别分析准则 关于第k层的特征的梯度即可,计算过程如下:

Trace(Sw(t))hi(t)=2Σi=1CI(iπc(t)){(hi(t)-mc(t))+(nc(t)mc(t)-Σjπc(t)hj(t))Nc(t)}

Trace(Sb(t))hi(t)=2Σi=1CI(iπc(t))nc(t)(mc(t)-m(t))Nc(t)

L2(t)hi(t)=Trace(Sw(t))Trace(Sb(t))hi(t)-Trace(Sb(t))Trace(Sw(t))hi(t)[Trace(Sw(t))]2

其中,I()为指示函数,当指示函数的括号内的条件表达式值为真时,指示 函数值为1,否则指示函数值为0。

第k层的特征的灵敏度为从新的卷积神经网络模型的分类损失函关于第k 层特征的梯度加上线性判别分析准则关于第k层特征的梯度。然后按照标准的反 向传播算法向前进行误差灵敏度反传即可。

(5)当新的卷积神经网络模型训练好之后,利用训练好的卷积神经网络模 型对待分类图像测试,完成分类预测。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号