首页> 中国专利> 弹性网正则线性回归的负拖动技术的人脸识别方法及装置

弹性网正则线性回归的负拖动技术的人脸识别方法及装置

摘要

本发明公开了弹性网正则线性回归的负拖动技术的人脸识别方法及装置,该方法包括:将负拖动技术引入弹性网正则线性回归模型;进行优化,以得到一个判别投影矩阵;利用判别投影矩阵对测试样本和训练样本进行线性变换;训练样本为包括大量人脸图像的数据集;测试样本为包括相同所述大量人脸图像不同角度的数据集;将线性变换后的所述测试样本和训练样本投射到所述判别投影矩阵,得到测试样本的预测标签矩阵和测试样本矩阵;通过最近邻分类器对预测标签矩阵和测试样本矩阵的图像进行多类分类,获得分类结果。与传统的大边缘分类器相比,本发明实施例易于实现,计算效率高,并且避免了受污染的训练样本拟合问题;并且可以显著提升人脸识别率。

著录项

  • 公开/公告号CN112307954A

    专利类型发明专利

  • 公开/公告日2021-02-02

    原文格式PDF

  • 申请/专利权人 陕西师范大学;

    申请/专利号CN202011185407.8

  • 发明设计人 刘侍刚;王兆朋;彭亚丽;

    申请日2020-10-29

  • 分类号G06K9/00(20060101);G06K9/62(20060101);

  • 代理机构11465 北京慕达星云知识产权代理事务所(特殊普通合伙);

  • 代理人符继超

  • 地址 710100 陕西省西安市长安区西长安街620号

  • 入库时间 2023-06-19 09:46:20

说明书

技术领域

本发明涉及人脸识别技术领域,特别涉及一种弹性网正则线性回归的负拖 动技术的人脸识别方法及装置。

背景技术

基于稀疏表示的分类(SRC)在人脸识别中得到了广泛的应用,其性能令人 印象深刻。为了提高人脸识别的有效性、效率和鲁棒性,出现了许多基于表征 的分类方法。例如,基于线性回归的分类(LRC)就是利用每种类型的训练样本 的线性组合来表示测试样本,然后将测试样本划分为代表最小表示残差的类。 基于协作表示的分类方法(CRC)用正则化l-2范数代替正则化l-1范数,提高了 人脸识别的效率。实验表明,SRC在理论上是协同表示的一种特例,在不牺牲 分类精度的情况下,CRC仍然比SRC高效得多。此外,局部性约束线性编码 (LLC)强制执行局部性约束,并使用它们来执行描述符的局部性嵌入。与此同 时,基于表示的技术在各个方面得到了广泛的应用。低秩最小化由于其在数据 表示方面的有效性,引起了人们的广泛关注。值得一提的是,RPCA是基于低 秩最小化的最著名的方法之一。当数据在单一子空间时,RPCA将观测数据分 成两部分:稀疏噪声项和低秩未损坏数据项稀疏噪声项。由于低秩特征的明显优 势,提出了两种低秩回归模型,即稀疏低秩回归(SLRR)和低秩岭回归(LRRR) 方法。这两个低秩回归模型相当于基于线性判别分析的回归。由于它们都是基 于低秩最小化的属性,因此它们都可以捕获数据依赖模式的底层结构。

虽然低秩最小化问题得到了很大的改进,但目前的大多数学习方法都只是 将原始的视觉特征投影到传统的0-1矩阵中,由于自由度太少,使得这些矩 阵难以适应严格的二值标记矩阵。此外,由于这些方法的投影矩阵分辨力较弱, 无法将图像特征准确地投影到目标场。判别稳健的回归方法应该具有矩阵的三 个特征:紧凑的投影矩阵、对数据误差的鲁棒性和判别回归目标。为了克服这些 缺点,Zheng等人提出了弹性网正则化线性回归(ENLR)框架。提出了一种用于 多类图像分类的鲁棒紧凑回归模型。特别是弹性网正则化项可以通过积累学习 到更紧凑的投影矩阵,通过扩大不同类别的边界提高分类任务的准确性。通过 拖拽技术,可以更好地定义回归目标,更好地适应回归任务。

在模式识别算法的设计中,研究人员往往将重点放在扩展不同类别之间的 边界上。研究人员已经提出了许多基于类边界度量的算法。大裕度分类器可以 将训练样本划分为各种裕度较大的类,并且可以更好地从训练样本中学习到很 多好的分类器,从而更好地适应测试样本。但是在现实中,由于目标的噪声或 变形性,训练样本与同一类别的测试样本之间可能存在较大差异。

众所周知,人脸图像是可变的目标。来自同一个目标的两个面部图像可能 会有很大的不同。在这种情况下,从训练样本中得到的大边缘分类器的大概率 并不适用于测试样本。因此,便无法得到更高的识别率。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地 解决上述问题的一种具有判别性弹性网正则线性回归的负拖动技术的人脸识 别方法及装置。

第一方面,本发明实施例提供弹性网正则线性回归的负拖动技术的人脸识 别方法,包括:

将负拖动技术引入具有判别性弹性网正则线性回归模型;

进行优化,以得到一个判别投影矩阵;

利用所述判别投影矩阵对测试样本和训练样本进行线性变换;所述训练样 本为包括大量人脸图像的数据集;所述测试样本为包括相同所述大量人脸图像 不同角度的数据集;

将线性变换后的所述测试样本和训练样本投射到所述判别投影矩阵,得到 测试样本的预测标签矩阵和测试样本矩阵;

通过最近邻分类器对所述预测标签矩阵和测试样本矩阵的图像进行多类 分类,获得分类结果。

在一个实施例中,进行优化,以得到一个判别投影矩阵,包括:

构造增广拉格朗日函数L(D,M,A,B,C

s.t.D=AB,M≥0;

式中,X为训练样本集,Y为标签向量,E为常数矩阵,D为学习的投影矩阵, M为学习的非负矩阵,A和B分别为矩阵M的分解,⊙为矩阵对应元素相乘, C

利用块坐标下降方法求出相对于原始变量的最小点;利用增广拉格朗日函 数在每次迭代时沿一个坐标方向最小化L;

依次更新矩阵A、B、D、M,迭代优化所有变量,以得到一个判别投影矩 阵。

在一个实施例中,利用所述判别投影矩阵对测试样本和训练样本进行线性 变换,包括:

获取训练样本集X、标签向量Y和测试样本集Z;

将所述训练样本集X和测试样集Z全部归一化为单位向量x

通过减去训练样本集X的矩阵均值,将训练样本集X变换为中心矩阵。

第二方面,本发明实施例提供弹性网正则线性回归的负拖动技术的人脸识 别装置,包括:

引入模块,用于将负拖动技术引入具有判别性弹性网正则线性回归模型;

优化模块,进行优化,以得到一个判别投影矩阵;

变换模块,用于利用所述判别投影矩阵对测试样本和训练样本进行线性变 换;所述训练样本为包括大量人脸图像的数据集;所述测试样本为包括相同所 述大量人脸图像不同角度的数据集;

投影模块,用于将线性变换后的所述测试样本和训练样本投射到所述判别 投影矩阵,得到测试样本的预测标签矩阵和测试样本矩阵;

分类模块,用于通过最近邻分类器对所述预测标签矩阵和测试样本矩阵的 图像进行多类分类,获得分类结果。

在一个实施例中,所述优化模块,具体用于构造增广拉格朗日函数 L(D,M,A,B,C

s.t.D=AB,M≥0;

式中,X为训练样本集,Y为标签向量,E为常数矩阵,D为学习的投影 矩阵,M为学习的非负矩阵,A和B分别为矩阵M的分解,⊙为矩阵对应元 素相乘,C

利用块坐标下降方法求出相对于原始变量的最小点;利用增广拉格朗日函 数在每次迭代时沿一个坐标方向最小化L;

依次更新矩阵A、B、D、M,迭代优化所有变量,以得到一个判别投影矩 阵。

在一个实施例中,所述变换模块,具体用于获取训练样本集X、标签向量 Y和测试样本集Z;将所述训练样本集X和测试样集Z全部归一化为单位向量 x

本发明实施例提供的上述技术方案的有益效果至少包括:

本发明实施例提供的弹性网正则线性回归的负拖动技术的人脸识别方法, 在人脸识别过程中,将负拖动技术引入弹性网正则线性回归模型,通过适当地 减少不同类别之间的边界,从而产生在可变形数据和噪声下更好工作的鲁棒分 类器。与传统的大边缘分类器相比,本发明实施例提出的负拖动技术易于实现, 计算效率高,并且避免了受污染的训练样本拟合问题;并且可以显著提升人脸 识别率。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明 书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可 通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获 得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发 明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例提供的弹性网正则线性回归的负拖动技术的人脸识别 方法流程图;

图2为FERET人脸数据库的原始图像以及被噪声污染的对象示意图;

图3为GT人脸数据库的原始图像以及被噪声污染时的人脸图像示意图;

图4为本发明实施例提供的弹性网正则线性回归的负拖动技术的人脸识别 装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了 本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被 这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本 公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

下面结合附图,对本发明实施例提供的弹性网正则线性回归的负拖动技术 的人脸识别方法的具体实施方式进行详细的说明。

参照图1所示,弹性网正则线性回归的负拖动技术的人脸识别方法,包括:

S100、将负拖动技术引入具有判别性弹性网正则线性回归模型;

S200、进行优化,以得到一个判别投影矩阵;

S300、利用所述判别投影矩阵对测试样本和训练样本进行线性变换;所述 训练样本为包括大量人脸图像的数据集;所述测试样本为包括相同所述大量人 脸图像不同角度的数据集;

S400、将线性变换后的所述测试样本和训练样本投射到所述判别投影矩 阵,得到测试样本的预测标签矩阵和测试样本矩阵;

S500、通过最近邻分类器对所述预测标签矩阵和测试样本矩阵的图像进行 多类分类,获得分类结果。

本发明实施例中,步骤S100在人脸识别算法中为了提高回归结果的判别 能力,引入了拖拽技术,将严格的0-1回归目标转化为分离的判别目标,使回 归模型具有更强的鲁棒性。由于严格的二元回归目标的可分离性较弱,负拖动 技术使不同类别的回归目标相互向相反方向移动,从而扩大了不同类别之间的 边界,实现了更具鉴别性的回归目标。

下面可通过用一个例子来介绍负拖动技术的基本原理,并证明了,重新制 定的回归目标比原来的更有区别。

设x

然而,我们期望严格的二元回归目标矩阵可以放宽到一定的程度来拟合数 据。为此,利用负拖动技术构造松弛变量矩阵,将二进制输出提升不同类别之 间间距。具体来说,以上述三个样本为例,定义回归目标矩阵为:

其中,下标ij表示矩阵第i行第j列;显然,由于参数的非负约束,矩阵Y 中每个样本之间的距离为

步骤S200中,提出了一种优化算法来解决问题。一般来说,低秩约束的 优化问题是非光滑问题,也是非凸问题。弹性网正则化线性回归模型的一般框 架为学习紧致的判别投影矩阵,建立了基于弹性网正则化的线性回归模型的一 般框架为

D为学习投影矩阵,其中λ

建立了判别弹性网正则化线性回归(DENLR)模型,将目标函数表示为:

其中,

并且

因此,将提出的模型重写为如下优化问题:

因为整个模型是非凸且非光滑的问题,所以对模型进行增广的拉格朗日优 化便得到了问题的增广拉格朗日函数为:

s.t.D=AB,M≥0;式中=tr(P

利用块坐标下降(BCD)方法可以求出相对于原始变量的最小点。利用增广 拉格朗日函数在每次迭代时沿一个坐标方向最小化L。其中,块坐标下降方法 是一种非梯度优化算法。算法在每次迭代中,在当前点处沿一个坐标方向进行 一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方 向。

更新矩阵A

固定其他变量D,M,B,C,可以通过解决下面的问题来更新A

由于其余项D,M,B,C与A无关,故在损失中忽略。上面的问题可以看作是一 个典型的正则化最小二乘问题,其解很容易得到A

更新矩阵B

由于B与A在中L具有类似的角色,所以B可以被更新通过与相同的方法:

同样的

B

更新矩阵D

固定L中的其他变量,D可以通过解决下面的问题来获得。

令S=Y+E⊙M

通过设定导数

D

更新矩阵M

修正其他变量,通过解决下面的问题来更新M。

迭代地优化所有变量,直到满足收敛条件。为了更清楚地展示主要程序,优化 过程的详细算法概述在算法1中:

当求解DENLR问题时,我们可以得到一个判别投影矩阵。步骤S300-S400 中,然后利用投影矩阵对测试样本和训练样本进行线性变换。步骤S500中, 最后,利用最近邻分类器(1-NN)对图像进行多类分类。算法2总结了分类模型 的整个过程。

除了比较DENLR方法的改进之外,本发明实施例还选择了一种健壮高效 的人脸识别方法DLSR,它也使用拖动技术。方法DENLR、DLSR、CRC、SRC、 RPCA都有一个参数,分别设置λ为0.01、0.05、0.1、0.5、1.0、2和4。阈值 h设置为0.0001。并给出了各方法的最佳精度,以供比较。

下面本发明实施例通过使用四个人脸图像数据库进行实验。对于FERET 数据库、乔治亚理工学院人脸数据库、AR数据库和Georgia Tech数据库,利 用Matlab函数“imnoise”在原始人脸图像中添加高斯噪声。对于Matlab函数 “imnoise”,将噪声的均值和标准差分别设为0和0.01。关于“非噪声”的解 释,请参考Matlab软件的帮助文档和示例。

一:在FERET人脸数据集上的实验

FERET是由美国国防部反药物技术开发计划办公室和美国国防部高级研 究计划局(DARPA)发起的。数据库由14,051个正面、左边和右边脸组成。FERET 人脸数据库是一种多餐、不同光照的灰度人脸图像,即人脸在不同角度、不同 光照下、不同表情的成像结果。FERET人脸数据库是人脸识别领域使用最广泛 的数据库之一,在本发明实施例算法比较实验中使用“ba”、“bj”、“bk”、 “be”、“bf”、“bd”和“bg”的子集来测试该方法。这个子集由200人的 1400张图片组成,每个人有7张图片。图2显示了来自FERET人脸数据库的 原始图像以及被噪声污染的对象。以及在不同训练样本数量的FERET数据库 中,每种人脸识别方法的准确性。在实验中,将每个受试者的前1、2、3、4、 5张人脸图像作为训练样本,将每个受试者的剩余人脸图像作为测试样本。实 验结果如表1所示。

表1:FERET数据库中不同方法的准确率(%)

从表1中可以看出,随着训练样本数量的增加,我们的方法的识别率明显 高于其他方法。对于DENLR,在训练样本较小的情况下,虽然提高不明显, 但基本没有丢失识别率。

二:乔治亚理工学院人脸数据库的实验

佐治亚理工学院面部数据库包含了50人的图像,这些图像是在99年6月 1日至99年11月15日期间在佐治亚理工学院信号和图像处理中心拍摄的。数 据库中的所有人由15幅分辨率为640×480像素、背景杂乱的JPEG图像表示。 这些图像中人脸的平均大小为150×150像素。这些照片展示了正面和/或倾斜 的面部表情、光照条件和比例。图3为GT人脸数据库的原始图像以及被噪声 污染时的人脸图像。选取同一类别的前6-12幅图像作为训练样本学习分类器, 剩余的同类别样本作为测试样本,获得识别准确率。不同分类方法的分类精度 如表2所示。从表2可以看出,本发明的方法比DENLR、DLSR、SRC、CRC 和RPCA方法有更好的性能。

表2.不同方法对GT数据库的准确率(%)

从表2可以看出,本发明的方法提高了每个训练样本数下的识别率。与其 他方法相比,我们的方法随着训练样本数量的增加,识别率稳步提高,在整个 过程中都有更好的效果。

三、基于AR人脸数据库的实验

AR人脸数据库于1998年在普渡大学创建计算机视觉中心,数据库包含 126人(男70人,女56人),共计4000多幅彩色图像和3276幅彩色正片图像。 图像大小为75100像素。每个人都有两套图片,间隔两周。外在条件是严格的, 但没有限制参与者的头发和穿戴。每组各有26张不同表情(中性表情、微笑、 愤怒、尖叫)、不同光照(左光源、右光源、双测光光源)、不同光照佩戴头巾(自 然光佩戴头巾、左光源佩戴头巾、右光源佩戴头巾)的照片。除了图像和视频 中的人脸识别,该人脸数据库还可以用于表情识别实验。我们选取每幅人脸图 像的前13、15、17、19和21幅图像作为训练样本,以剩余的图像作为测试样 本,得到不同训练样本数下不同方法的识别率。分类精度实验结果如表3所示。 表III显示我们的方法比其他方法性能更好。

表3.AR数据库中不同方法的准确率(%)

四、ORL人脸数据库的实验

ORL人脸数据库由英国剑桥的Olivetti研究实验室在1992年4月至1994 年4月之间创建,包含40个不同人的400张图像。所有图像以PGM格式存储, 灰度,图像大小为92×112。每个类别的照片都是在不同的时间、在不同的灯 光下、不同的面部表情(眼睛睁开/闭上、微笑/不笑)和面部细节(戴眼镜/不戴眼 镜)拍摄的。所有的照片都是在一个黑暗的,统一的背景下拍摄的,有一张直 脸(有些有轻微的侧倾斜)。将每个图像调整为大小为56×46的图像矩阵。将每 个受试者的前4、5、6、7、8张人脸图像作为原始训练样本,将每个受试者的 剩余人脸图像作为测试样本

表4给出了不同分类方法在不同训练样本数量下的分类准确率。由此可以 得出结论,本发明提供的方法比DENLR、DLSR、CRC、SRC和RPCA方法 有更好的性能。

表4.AR数据库中不同方法的准确率(%)

从表4中,也可以发现与表1,表2,表3相同的情况,本发明提供的方 法在整个过程中识别率有了显著的提高,有更好的识别效果。

基于同一发明构思,本发明实施例还提供了弹性网正则线性回归的负拖动 技术的人脸识别装置,由于该装置所解决问题的原理与一种弹性网正则线性回 归的负拖动技术的人脸识别方法相似,因此该装置的实施可以参见前述方法的 实施,重复之处不再赘述。

本发明还提供弹性网正则线性回归的负拖动技术的人脸识别装置,可以用 于执行上述方法的实施例,参照图4所示,该检测装置可以通过软件、硬件或 者两者结合实现成为电子设备的部分或全部,包括:

引入模块41,用于将负拖动技术引入弹性网正则线性回归模型;

优化模块42,用于进行优化,以得到一个判别投影矩阵;

变换模块43,用于利用所述判别投影矩阵对测试样本和训练样本进行线性 变换;所述训练样本为包括大量人脸图像的数据集;所述测试样本为包括相同 所述大量人脸图像不同角度的数据集;

投影模块44,用于将线性变换后的所述测试样本和训练样本投射到所述判 别投影矩阵,得到测试样本的预测标签矩阵和测试样本矩阵;

分类模块45,用于通过最近邻分类器对所述预测标签矩阵和测试样本矩阵 的图像进行多类分类,获得分类结果。

在一个实施例中,所述优化模块42,具体用于构造增广拉格朗日函数 L(D,M,A,B,C

s.t.D=AB,M≥0;

式中,X为训练样本集,Y为标签向量,E为常数矩阵,D为学习的投影矩阵, M为学习的非负矩阵,A和B分别为矩阵M的分解,⊙为矩阵对应元素相乘, C

利用块坐标下降方法求出相对于原始变量的最小点;利用增广拉格朗日函 数在每次迭代时沿一个坐标方向最小化L;

依次更新矩阵A、B、D、M,迭代优化所有变量,以得到一个判别投影矩 阵。

在一个实施例中,所述变换模块43,具体用于获取训练样本集X、标签向 量Y和测试样本集Z;将所述训练样本集X和测试样集Z全部归一化为单位 向量x

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号