首页> 中国专利> 基于非平衡标签信息融合的人脸识别算法架构

基于非平衡标签信息融合的人脸识别算法架构

摘要

本发明公开了基于非平衡标签信息融合的人脸识别算法架构,包括L1和L2两层架构,L1中利用监督学习算法对人脸数据和对应的标签信息进行训练得到初始化人脸识别模型一,后利用无监督方法训练无标签数据,交替优化人脸数据标签信息和模型一参数,多次迭代后计算得到最终的人脸识别模型一。L2与L1思路相反,先随机初始化人脸识别模型二的参数,然后进行无监督训练更新模型参数;后输入有标签数据,利用监督学习算法继续训练,得到最终的人脸识别模型二。融合模型一和模型二得到最终的人脸识别模型。本发明结合监督学习算法和无监督学习算法各自的优势,充分发挥海量无标签数据的作用,使算法既能够在特定场景下具备优秀的识别能力,又能适应不同场景。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-02-05

    授权

    授权

  • 2016-07-20

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20160229

    实质审查的生效

  • 2016-06-22

    公开

    公开

说明书

技术领域

本发明涉及计算机生物特征识别领域,具体涉及一种基于非平衡 标签信息融合的人脸识别算法架构。

背景技术

随着深度学习理论的逐步成熟和有标签人脸数据的大量增加,越 来越多的人脸识别算法选择使用深度学习,从而使得近几年人脸识别 算法的性能大幅提升。然而这类方法面临两个问题:(1)多数基于深 度学习的人脸识别算法需要大规模有标签数据,同时也要求数据具备 多样性,例如包含多个种族、不同姿态、多种来源和不同光照等。如 何获得带有标签信息的人脸数据成为提升人脸识别性能的瓶颈。随着 传感器的大量使用,每天都会产生海量数据,完成这些数据的标定工 作将耗费大量人力物力,代价巨大,从而导致大量无标签数据无法在 实际应用中充分发挥作用。(2)在现有数据规模和计算资源的条件下, 由于用于训练的数据规模和多样性都达不到要求,所以经常会出现过 学习现象,导致得到的模型泛化能力不佳,只能在一些场景下取得不 错的性能,一旦切换场景,性能会出现明显下降。

基于无监督学习的算法能够一定程度上解决上述问题。(1)无 监督学习算法不需要有标签信息的数据,所以没有数据标定任务。(2) 由于没有标签信息的约束,无监督学习方法出现过学习的几率较小, 对于多种场景的适应性也较强。然而,正是因为没有标签信息约束, 无监督学习方法普遍存在针对性不强的问题,导致在实际应用时性能 不佳,所以这类方法目前主要还处于研究阶段。

发明内容

监督学习人脸识别算法(使用标签信息)和无监督学习人脸识别 算法(不使用标签信息)有着各自的优势和缺点,任意一种都无法保 证所开发的算法兼具优秀的泛化性能和辨识能力,本发明旨在提出一 种基于非平衡标签信息融合的人脸识别算法架构,结合监督学习人脸 识别算法和无监督学习算法各自的优势,充分发挥海量无标签数据的 作用,从而使算法既能够在特定场景下具备优秀的识别能力,又可以 适应不同场景。

为了实现上述目的,本发明采用如下技术方案:

基于非平衡标签信息融合的人脸识别算法架构,包括如下两层架 构:

L1先进行监督步骤:将有标签的人脸数据和对应的标签信息作 为输入,利用监督学习算法得到初始化人脸识别模型一;然后以所述 初始化人脸识别模型一为输入,采用无监督方法训练一定量的无标签 人脸数据得到最终的人脸识别模型一:先预测所述无标签人脸数据的 标签信息,然后以所述无标签人脸数据和预测出的标签信息更新模型 参数,按此进行多次迭代;

L2先随机初始化模型参数得到初始化人脸识别模型二,然后对 所述初始化人脸识别模型二按照L1的无监督方法进行训练得到优化 后的人脸识别模型二;然后对于优化后的人脸识别模型二输入有标签 的人脸数据和对应的标签信息,利用监督学习算法继续训练,得到最 终的人脸识别模型二;

融合L1中最终得到的人脸识别模型一和L2中最终得到的人脸识 别模型二即可得到最终的人脸识别模型。

需要说明的是,L1中,以所述初始化人脸识别模型一为输入, 采用无监督方法训练一定量的无标签人脸数据得到最终的人脸识别 模型一:先预测所述无标签人脸数据的标签信息,然后以所述无标签 人脸数据和预测出的标签信息更新模型参数,按此进行多次迭代的具 体方法为:

将所述初始化人脸识别模型一作为输入,固定模型参数,利用聚 类算法预测无标签人脸数据的标签信息,然后将所述无标签人脸数据 和预测出的标签信息作为输入,更新所述初始化人脸识别模型一的模 型参数;

此后每次迭代中,均将前一次迭代后的模型作为输入,在固定模 型参数的条件下利用聚类算法预测无标签人脸数据的标签信息,然后 将所述无标签人脸数据和预测出的标签信息作为输入,更新本次迭代 中作为输入的模型的模型参数;

如此经过多次迭代后,得到最终的人脸识别模型一。

需要说明的是,L1中,采用卷积神经网络作为监督学习算法。

进一步需要说明的是,所述卷积神经网络的输入为切分后的人脸 图像,使用不同区域和尺度的人脸图像块来进行训练得到初始化人脸 识别模型一;所述卷积神经网络最后一层Softmax除了使用Logistic Regression作为识别信号外,还在目标函数上添加了验证信号,通 过加权的方式进行组合。

更进一步需要说明的是,步骤1.1)中所述识别信号如下式:

Id(f,t,θid)=-Σi=1n-pilogp^i=-logp^t;

f是由所述卷积神经网络计算得到的向量,t是目标类别,n是类 别数,θid是Softmax层的参数,pi是类别i的概率分布,当类别是目 标类别t即i=t时,pt=1,对于其他任意i,pi=0,是类别i的预测 的概率分布,则是目标类别t的预测的概率分布;

所述验证信号如下式:

Ver(fi,fj,yij,θver)=12||fi-fj||22if>yij=112max(0,m-||fi-fj||2)2if>yij=-1;

fi和fj是两张人脸图像经过所述卷积神经网络计算得到的向量, yij=1和yij=-1分别表示两个向量fi和fj来自同一个目标和来自不 同目标;上式要求两个向量fi和fj的距离大于m,θver={m}是需要从 验证信号的约束中学习得到的。

需要说明的是,在L1和L2的无监督训练中,当经过迭代计算累 计的损失达到收敛条件后,迭代结束;

所述经过迭代计算后累计的损失通过下式得到:

L(y,θ|I)=Σt=1TLt(y^t,θ^t|I);

其中,I代表无标签人脸图像,是在第t轮计算时的模型参数, 是第t轮计算时的目标标签信息,T为累计迭代次数,Lt代表第t次 迭代的损失,θ和y分别代表经过T次迭代后的得到的模型参数和无标 签人脸数据预测得到的标签信息;

其中:

经过T次迭代后,预测无标签人脸数据的标签信息累计的损失按 照下式计算:

L(y|I,θ)=Σt=1TLt(y^t|I,θ^t);

经过T次迭代后,利用预测得到的无标签人脸数据的标签信息进 行优化模型参数所累计的损失按照下式计算:

L(θ|I,y)=Σt=1TLt(θ^t|I,y^t).

进一步需要说明的是,第t轮迭代计算时的损失计算如下式:

Lt(y^t,θ^t|I)=-A(Cit,NCitKc[1])-γΣk=2Kc(A(Cit,NCitKc[1])-A(Cit,NCitKc[k]));

表示第t轮迭代计算时图像所属类别为Ci,是第t轮计算时 图像所属类别Ci的KC个近邻,以降序方式标号,代表类别Ci的 KC个近邻中的最近邻,A(·)是相似度计算函数;在第t轮迭代时,上 式第一项表示的是Ci与其最近邻之间的距离,第二项则考虑到了多个 近邻的局部结构信息,要求最近邻与Ci尽量地相似,同时排名靠后的 近邻与Ci的相似度要尽量小,γ表示权重。

本发明的有益效果在于:

1、L1最终生成的人脸识别模型一由于后续训练中加入了无标签 人脸数据,并且采用了交替优化的策略,使得之前用有标签数据训练 得到模型的参数发生变化,在降低了模型对有标签数据的针对性的同 时提升了泛化能力,从而让模型具备更好的普适性。

L2最终生成的人脸识别模型二则拥有同L1相反的特点,首先使 用无监督方法训练大量没有标签信息的人脸数据,得到一个普适性非 常强的通用模型,但是针对特定的场景和任务性能不是那么顶尖,后 续加入有标签数据继续训练这个初始模型(finetuning),通过训练 选取的有标签数据,加强处理此类数据的能力,提升模型的针对性, 从而让模型具备更好的分辨能力。

L1和L2生成的模型各具特点且具备良好的互补性,通过分数层 融合两个模型即得到最终的算法,该算法综合了监督学习和无监督学 习算法各自的优势,同时又充分利用了现有的有标签数据和无标签数 据,因此称为基于非平衡标签信息融合的人脸识别算法架构,使用该 架构能够是得到的算法兼具优秀的泛化性能和辨识能力。

2、L1无监督学习模块交替优化模型参数与标签,合并过程中考 虑到类别的局部结构信息。

3、之前的人脸识别finetuning架构都是采用一个大规模的物 体识别数据库(有标签)先训练一个通用的分类模型,然后使用人脸 数据继续训练,从而转向解决人脸识别问题。而本发明的L2层则使 用无标签的人脸数据,在保证数据多样性的情况下(无标签数据规模 大),解决的都是人脸识别问题,针对性更强。

4、L1层和L2层都包含了无监督学习过程,从而能够发挥大量 无标签人脸数据的作用。传统的无监督学习由于性能不佳,一直都无 法在实际应用中取得好的性能,导致大量无标签数据无法发挥作用。 本发明采用的监督学习和无监督学习相结合的架构,合理的采用无监 督学习将大量无标签人脸数据的优势发挥出来。

5、L1层侧重于模型的泛化能力,L2层侧重于模型的分辨能力, 两个模型性能互补,融合后性能大幅提升。模型的分辨能力和泛化性 能一直都是难以平衡的两个方面,本发明的架构在设计之初就以训 练两个互补的模型为目标,最终通过融合解决人脸识别问题。

附图说明

图1为本发明基于非平衡标签信息融合的人脸识别算法架构框 架图;

图2为卷积神经网络的结构图;

图3为本发明基于非平衡标签信息融合的人脸识别算法架构流 程图。

具体实施方式

以下将结合附图对本发明作进一步的描述,需要说明的是,本实 施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程, 但本发明的保护范围并不限于本实施例。

本发明的框架如图1、图3所示,是由L1和L2组成的两层架 构。

L1采用了先监督学习后无监督学习的策略,首先利用有标签信 息的人脸数据,使用监督学习算法(本实施例采用卷积神经网络)训 练一个初始化人脸识别模型一,然后以此作为初始输入处理无标签人 脸数据(即以无监督学习训练无标签人脸数据),采用通过多次迭代 计算以交替优化标签信息标签和模型参数的方法,得到最终的人脸识 别模型一。卷积神经网络的结构如图2所示。

所述卷积神经网络的输入为切分后的人脸图像,使用不同区域和 尺度的人脸图像块来进行训练。卷积神经网络最后一层Softmax除了 使用LogisticRegression作为识别信号外,还在目标函数上添加了 验证信号,通过加权的方式进行组合,两个信号表达式如下:

Id(f,t,θid)=-Σi=1n-pilogp^i=-logp^t---(1);

Ver(fi,fj,yij,θver)=12||fi-fj||22if>yij=112max(0,m-||fi-fj||2)2if>yij=-1---(2);

f是由所述卷积神经网络计算得到的向量,t是目标类别,n是类 别数,θid是Softmax层的参数,pi是类别i的概率分布,当类别是目 标类别t即i=t时,pt=1,对于其他任意i,pi=0,是类别i的预测 的概率分布,是目标类别t的预测的概率分布;

fi和fj是两张人脸图像经过所述卷积神经网络计算得到的向量, yij=1和yij=-1分别表示两个向量fi和fj来自同一个目标和两个向 量来自不同目标;上式要求两个向量fi和fj的距离大于m,θver={m} 是需要从验证信号的约束中学习得到的。

采用上述监督学习方法得到的初始化人脸识别模型一后,再采用 无监督学习方法训练无标签人脸数据,同时进行所述无标签人脸数据 的标签信息的预测和模型参数的更新,那么经过T轮迭代计算后的损 失如式(3)所示。

L(y,θ|I)=Σt=1TLt(y^t,θ^t|I)---(3);

其中,I代表无标签人脸图像,是在第t轮计算时的模型参数, 是第t轮计算时的目标标签,T为累计迭代次数,Lt代表第t次迭代 的损失,θ和y分别代表经过T次迭代后的得到的模型参数和无标签人 脸数据预测得到的标签信息;

第t轮计算时的损失计算如式(4)所示:

Lt(y^t,θ^t|I)=-A(Cit,NCitKc[1])-γΣk=2Kc(A(Cit,NCitKc[1])-A(Cit,NCitKc[k]))---(4);

表示第t轮图像计算时所属类别为Ci,是第t轮计算时所属 类别的KC个近邻,以降序方式标号,代表类别Ci的KC个近邻中 的最近邻,A(·)是相似度计算函数;在第t轮迭代时,上式第一项表 示的是Ci与其最近邻之间的距离,第二项则考虑到了多个近邻的局部 结构信息,要求最近邻与Ci尽量地相似,同时排名靠后的近邻与Ci的 相似度要尽量小,γ表示权重。

经过T轮迭代计算后的损失采用交替优化的方式进行计算,具体 分成两步:

首先固定模型参数,即使用之前监督学习得到的初始化人脸识别 模型一作为初始模型,预测无标签人脸数据的标签信息,损失计算如 式(5)所示:

L(y|I,θ)=Σt=1TLt(y^t|I,θ^t)---(5);

然后使用预测得到的标签信息,反过来优化模型参数,损失计算 如式(6)所示;

L(θ|I,y)=Σt=1TLt(θ^t|I,y^t)---(6);

在式(3)达到收敛条件时停止训练,即可得到最终的人脸识别 模型一。

L2的算法模块同L1类似,但是采用与L1相反的思路。首先采 用无监督学习算法处理一定量无标签人脸数据,每次迭代选一个类别 与其最近邻合并,迭代的损失按照式(5)和式(6)计算。而L2步 骤中,式(5)的初始化人脸识别模型二的参数随机生成,其他具体 计算方法与L1类似。通过无监督学习得到模型后,再按照L1中的卷 积神经网络算法进行监督学习,得到最终的人脸识别模型二。

将L1和L2最终得到的人脸识别模型一和人脸识别模型二进行分 数层融合,即得到本发明最终的人脸识别模型。具体融合方式如下: 对于一张输入图片,分别输入到两个模型,将模型一和模型二输出的 分数相加作为最终的结果。

以下将通过实验对本发明的性能作进一步的描述。

实验情况如下:

本实验总共涉及三个数据库,分别命名为Fri_face1、Fri_face2 和Fri_test。数据库中的图片包括证件照片、现场照片以及视频中 的人脸照片。证件照片比较规整且具有标签信息;通过手机、摄像机 等传感器采集得到包含人脸的现场照片,通过人脸检测器得到人脸位 置,再通过裁剪得到最终图片;对于包含人脸的视频,采用人脸检测 器得到人脸位置,再使用最近邻跟踪算法得到人脸序列,最后使用图 像质量评估技术从中选出质量较好的图片。标签信息的获得有两种方 式;第一种首先采用图像聚类算法将人脸聚类,再人工筛选标记;第 二种直接人工标记数据。

Fri_face1是有标签信息的人脸数据库,包括17056人,每个人 至少有两张图片,共计约80万张图片。Fri_face2是无标签信息的 人脸数据库,共计约500万张图片。Fri_test包括5000人,每个人 至少两张图片,共计30122张图片,图片来源包括证件照片,监控场 景下抓拍图片,黑白图片等。Fri_face1和Fri_face2用于训练,而 Fri_test则为测试用数据库。

实验方法:对比单独采用卷积神经网络(CNN)和采用本发明方 法的性能,CNN采用Fri_face1作为训练库,本发明的监督学习算法 和无监督学习算法则分别用Fri_face1和Fri_face2作为训练库。

测试协议:从Fri_test的正样本对中随机挑选2000对,从负样 本对中随机挑选2000对,计算算法的分类正确率,计算十次取平均 值。

实验结果:单独采用CNN的正确分类比率为89.2%;采用本发明 方法的正确分类比率为92.3%。其中CNN错分主要是一些小分辨率图 和黑白图片,而本发明在这些图片上性能提升明显,并且对于常见的 证件照片和监控场景图片也都有很好的性能,结果表明本发明采用的 基于非平衡标签信息融合的人脸识别算法架构能够在保持识别率的 情况下具备更好的泛化能力,从而有效的提升人脸识别算法的性能。

对于本领域的技术人员来说,可以根据以上的技术方案和构思, 作出各种相应的改变和变形,而所有的这些改变和变形都应该包括在 本发明权利要求的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号