首页> 中国专利> 一种基于Sigmoid函数的分类层监督用于人脸识别的方法

一种基于Sigmoid函数的分类层监督用于人脸识别的方法

摘要

本发明公开了一种基于Sigmoid函数的分类层监督用于人脸识别的方法,属于计算机视觉领域。本发明基于Sigmoid非线性函数和Softmax分类层监督两个方面提出了一种可用于训练人脸识别深度神经网络的损失函数。该方法适用于当前以深度神经网络为基础的人脸识别网络训练。在公开数据集上的实验表明,使用本发明作为损失函数训练得到的人脸识别网络具有较高的人脸识别准确率,在侧脸拍摄、强弱光照射等极端场景中也具有较强的人脸识别能力。

著录项

  • 公开/公告号CN113111781A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202110397616.7

  • 发明设计人 李春国;胡超;杨绿溪;

    申请日2021-04-14

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N5/00(20060101);

  • 代理机构32249 南京瑞弘专利商标事务所(普通合伙);

  • 代理人任志艳

  • 地址 211189 江苏省南京市江宁区东南大学路2号

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明涉及计算机视觉领域,尤其是一种基于Sigmoid函数的分类层监督用于人脸识别的方法。

背景技术

自从21世纪以来,人脸识别技术就一直是计算机视觉领域的一个热点研究问题,在安防、民生、交通等领域应用广泛。在当下以深度神经网络为基础的人脸识别技术研究中,网络结构优化和损失函数优化是两个主要的研究方向。网络结构的优化主要着眼于人脸识别任务中特征提取网络如何能够提取到更有效的人脸特征,这些特征包括低级的轮廓、颜色等特征,也包括高级的富含有丰富语意信息的特征。网络结构的优化可以带来人脸识别准确率的提升,但是可能存在网络整体参数量和计算量变大的缺点。损失函数的优化主要着眼于人脸识别任务中训练人脸识别网络时的分类层监督,一般的分类层监督是指使用全连接层作为分类层时为网络引入的“代价”,典型的分类层监督是Softmax分类层监督,在深度神经网络发展的初期被广泛应用于各种图像分类任务,且具有不错的表现。损失函数的优化也可以带来人脸识别准确率的提升,并且由于分类层监督只存在于网络训练阶段,即使非常复杂的分类层监督在网络推理阶段也是没有任何代价的。

当前主流的人脸识别网络分类层监督一般以Softmax损失函数为基础。Softmax损失函数将分类层得到的每一个输出视为每一个类别的未归一化的对数概率,并且将线性分类器SVM中的折叶损失替换为交叉熵损失。从信息论的角度来看,Softmax损失函数最小化了预测概率分布和真实概率分布之间的交叉熵,其中真实概率分布是指所有概率密度都分布在正确的类别上。从概率论的角度来看,Softmax损失函数最小化了正确分类的负对数概率,本质上是最大似然估计。事实上,在深度神经网络中Softmax损失函数的正则化部分可以看作权重矩阵的高斯先验,网络在推理过程中进行了最大后验估计,这符合分类网络设计的初衷。因此,Softmax分类层监督用于图像分类等任务是合适的。

使用Softmax分类层监督训练得到的图像分类网络可以准确分类多达上千类的自然图像,但是却不能直接应用于人脸识别网络。Softmax损失函数只关注分类正确的类别,对分类错误的类别没有优化,因此使用Softmax损失函数训练得到的特征类内距离不够紧凑,类间距离不够远离。在人脸识别这一特殊场景中,由于不同人脸在不同环境下的特征向量可能非常接近,也可能差异较大,因此,人脸识别任务需要特征具有“类内距离紧凑,类间距离远离”这一特性。为了解决Softmax分类层监督无法直接应用于人脸识别网络这一问题,研究人员显式引入了一个基于度量学习的角度裕量,在网络训练优化的过程中人为压缩同一类别的特征向量之间的距离,扩大不同类别的特征向量之间的距离,使得训练得到的网络的输出端输出的特征具有“类内距离紧凑,类间距离远离”这一特性。

发明内容

发明目的:为解决上述在人脸识别过程中Softmax分类层监督存在的问题,本发明设计了一种基于Sigmoid函数的分类层监督,该损失函数具有较强的非线性表达能力,使用该损失函数训练得到的人脸识别网络具有较高的人脸识别准确率。

为达到上述目的,本发明提供了一种基于Sigmoid函数的分类层监督用于人脸识别的方法,包含以下步骤:

步骤1,以原始的Softmax损失函数作为分类层监督的基础。

原始的Softmax损失函数的一般形式为:

其中,N表示batchsize的大小,n表示总共的类别数目。

步骤2,在原始Softmax损失函数的基础上引入角度裕量,角度裕量直接作用于特征夹角,并归一化特征;

步骤3,为步骤2得到的损失函数引入Sigmoid非线性变换,得到耦合了Sigmoid非线性变换后的损失函数,即基于Sigmoid函数的分类层监督。

步骤4,根据步骤3得到的基于Sigmoid函数的分类层监督,在训练数据集上训练人脸识别网络,直到网络收敛,形成训练好的人脸识别网络。

步骤5,将训练好的人脸识别网络用于人脸识别。

进一步的,所述步骤2具体为,在原始Softmax损失函数的基础上引入第一角度裕量m

其中,第一角裕量m

在原始Softmax损失函数的基础上引入第一角度裕量,第一角度裕量直接作用于特征夹角,并归一化特征。归一化特征可以将光照因素建模到神经网络中,从而减小数据预处理部分的压力。第一角度裕量的引入可以使得不同物体之间的类内距离更加紧凑,类间距离更加远离

所述步骤3具体为,为步骤2得到的损失函数分别引入Sigmoid非线性变换,得到损失函数为:

进一步的,所述步骤2还可以是,在原始Softmax损失函数的基础上引入第二个角度裕量m

归一化特征可以将光照因素建模到神经网络中,从而减小数据预处理部分的压力。归一化权重向量可以减小除特征本身外的因素对高维向量分类的影响。第二角度裕量的引入可以使得不同物体之间的类内距离更加紧凑,类间距离更加远离。

所述步骤3具体为,对步骤2得到的损失函数引入Sigmoid非线性变换后,得到的损失函数为:

进一步的,步骤3还包括,将已经引入了Sigmoid非线性变换后得到的损失函数loss

其中,λ为加权系数,m

有益效果:本发明基于Sigmoid非线性函数和Softmax分类层监督两个方面提出了一种可用于训练人脸识别深度神经网络的损失函数,属于计算机视觉领域。该方法适用于当前以深度神经网络为基础的人脸识别网络训练。在公开数据集上的实验表明,使用本发明作为损失函数训练得到的人脸识别网络具有较高的人脸识别准确率,在侧脸拍摄、强弱光照射等极端场景中也具有较强的人脸识别能力。

附图说明

图1为引入第一角度裕量和第二角度裕量所得损失函数的决策边界示意图。

图2为本发明的决策边界示意图。

图3为测试准确率与裕量大小关系图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细描述:

本发明提出了一种基于Sigmoid函数的分类层监督,旨在为人脸识别网络训练过程中的损失函数引入更强的非线性表达能力,从而提高人脸识别网络的人脸识别准确率。

本发明的具体实施方式如下:

步骤1,以原始的Softmax损失函数作为本发明的基础。Softmax损失函数一般用于分类网络中,作为分类层的监督。使用Softmax损失函数训练得到的分类网络可以有效处理二分类和多分类等各种常见图像分类问题。因此,Softmax损失函数是当前各种不同类型的分类层监督的设计基础。原始的Softmax损失函数的一般形式为:

其中,N表示batchsize的大小,n表示总共的类别数目。以Softmax在二分类问题中的应用为例,决策边界上的样本点被分类器划分为两个类别的概率需要相等。为了表达简洁,以下将列向量的转置省略不写。对于某一样本x而言,它被Softmax分类器划分为类别1的概率为:

被划分为类别2的概率为:

上式W

可以发现,Softmax损失函数的决策边界是线性的,使用其作为分类层监督缺少一定的非线性表达能力。

步骤2,在原始Softmax损失函数的基础上引入第一角度裕量和第二角度裕量。

步骤2.1,在原始Softmax损失函数的基础上引入第一角度裕量,第一角度裕量直接作用于特征夹角,并归一化特征。归一化特征可以将光照因素建模到神经网络中,从而减小数据预处理部分的压力。第一角度裕量的引入可以使得不同物体之间的类内距离更加紧凑,类间距离更加远离。经过上述操作后的Softmax损失函数的一般形式为:

步骤2.2,在原始Softmax损失函数的基础上引入第二角度裕量,第二角度裕量直接作用于特征夹角,并归一化特征和权重向量。归一化特征可以将光照因素建模到神经网络中,从而减小数据预处理部分的压力。归一化权重向量可以减小除特征本身外的因素对高维向量分类的影响。第二角度裕量的引入可以使得不同物体之间的类内距离更加紧凑,类间距离更加远离。经过上述操作后的Softmax损失函数的一般形式为:

步骤3,为步骤2得到的损失函数分别引入Sigmoid非线性变换。Sigmoid函数是一种典型的非线性函数,其一般形式为:

其一阶导数的一般形式为:

对步骤2得到的损失函数引入Sigmoid非线性变换后,得到的损失函数分别为:

可以发现,Sigmoid函数在实数域0处具有较大的一阶导数,在实数域正负无穷处导数为0。Sigmoid函数可以为以Softmax损失函数为基础的分类层监督引入更强的非线性表达能力。图1给出了步骤2所得到的损失函数的决策边界,可以发现引入第一角度裕量得到的损失函数在向量的夹角较小时的分辨能力较弱,引入第二角度裕量得到的损失函数也只是在向量夹角的余弦域具有线性区分能力。图2给出了Sigmoid非线性变换后的步骤2中的损失函数的决策边界,可以发现,Sigmoid非线性变换的引入增强了损失函数在向量夹角为0处的区分能力。

步骤4,将已经引入了Sigmoid非线性变换后的步骤3得到的损失函数进行加权组合,得到本发明的基于Sigmoid函数的分类层监督。所述基于Sigmoid函数的分类层监督最终的一般形式为:

其中,λ为加权系数,m

步骤5,根据步骤4得到的基于Sigmoid函数的分类层监督,在训练数据集上训练不同的人脸识别网络,直到网络收敛,形成训练好的人脸识别网络。使用MegaFace人脸识别数据集对以本发明为损失函数的人脸识别网络进行训练,并且在训练时关注损失函数的变化和不同训练轮数时训练集和验证集上的准确率,在网络刚达到收敛时停止训练,防止欠拟合和过拟合。

步骤6,将收敛的网络在测试数据集上进行测试。使用训练好的本发明在MegaFace、LFW、YTF、CFP、AgeDB人脸识别数据集上进行测试,测试流程需要符合上述人脸识别数据集的标准测试协议。

步骤7,将训练好的人脸识别网络用于人脸识别。

本实施例中还根据人脸识别准确率这一指标,分析比较本发明相较于其他人脸识别分类层监督的优势。图3给出了本发明中测试准确率和裕量之间的关系,可以发现,当第二裕量m

表1不同监督下人脸识别准确率(%)

表2不同监督下CFP和AgeDB数据集上人脸识别准确率(%)

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号