首页> 中国专利> 基于自适应阈值调整拒识子空间学习的人脸检测方法

基于自适应阈值调整拒识子空间学习的人脸检测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于自适应阈值调整拒识子空间学习的人脸检测方法，步骤为：S1，采集人脸和非人脸图像，进行灰度和尺寸归一化处理后形成训练样本集合；S2，利用训练样本集合，采用Boosting算法和互信息最大化准则训练人脸检测模型中第k层的强分类器；S3，采用修正的互信息最大化学习准则自适应的调整人脸检测模型中第k层强分类器的最优拒识阈值，得到带拒识的强分类器；S4，利用带拒识的强分类器在训练集上筛选出拒识的样本作为第k+1层分类器的训练样本；S5，重复S2至S4直至满足收敛性条件；S6，利用带拒识的强分类器对待检测的图像进行人脸检测。该方法缩减人脸检测模型的复杂度，提高人脸检测模型的灵活性。

著录项

公开/公告号CN105488456A

专利类型发明专利
公开/公告日2016-04-13

原文格式PDF
申请/专利权人中国科学院自动化研究所;
展开▼

申请/专利号CN201510811406.2
发明设计人樊艳波;董未名;胡包钢;
展开▼

申请日2015-11-23
分类号G06K9/00(20060101);G06K9/62(20060101);
代理机构北京博维知识产权代理事务所(特殊普通合伙);
代理人方振昌
地址 100080 北京市海淀区中关村东路95号
入库时间 2023-12-18 15:29:11

法律信息

法律状态公告日

法律状态信息

法律状态
2019-04-23

授权

授权
2016-05-11

实质审查的生效 IPC(主分类):G06K9/00 申请日:20151123

实质审查的生效
2016-04-13

公开

公开

说明书

技术领域

本发明涉及计算机视觉、模式识别和机器学习等技术领域，特别是涉及了一种基于自适应阈值调整拒识子空间学习的人脸检测方法。

背景

人脸检测的目的是在图像或视频中自动判定人脸是否出现以及人脸出现的位置、大小以及姿态等。人脸检测是计算机视觉和人脸研究中一个非常重要的研究内容，其在智能图像处理、模式识别、机器学习、智能视频监控等众多研究和应用领域都有着重要的研究意义和广泛的应用价值，人脸检测技术也受到了众多研究人员和公司部分的广泛关注和发展。虽然人脸检测得到了很多的关注和研究，鲁邦性的人脸检测一直是一个非常艰巨和富于挑战性的课题，这主要体现在以下几个方面：现实中的人脸往往存在许多差异，如姿态的变化(正面脸和侧面脸等)、表情的变化(如严肃和大笑等)以及容貌上的差异(如亚洲人种和欧洲人种的差异)等等；由于拍照条件和环境的变化引入的影响，如不同的光照条件(强光照和弱光照)和人脸的遮挡(眼睛、口罩)等；实时性人脸检测，由于无法准确的确定人脸的位置和大小，人脸检测算法通常采取滑动窗口的方法进行判断，该方法需要扫描海量的候选窗口，对实时性的人脸检测带来了很大的负担。

目前关于人脸检测问题人们提出过很多解决方案，这其中基于学习的方法在人脸检测领域取得了很好的效果，特别是基于统计特征的方法。该类方法旨在从大量训练数据中挖掘出类别本身的统计特性，并利用学习得到的统计特性对新样本进行分类，其中最具代表性的人脸检测模型是ViolaJones于2001年提出的级联Boosting分类器人脸检测模型，该人脸检测模型主要有以下三个特点：利用积分图像和Haar特征进行快速的特征计算；利用Boosting算法进行特征选择和弱分类器学习；利用级联检测器框架有效的拒绝大量非人脸窗口。该框架在提高检测精度的同时达到了实时性的检测要求，也得到研究人员和公司的广泛发展和应用。虽然级联Boosting分类器具有优异的性能和快速的检测速度，该类方法中每一层强分类器仅是一个二值分类器(人脸窗输出为1、非人脸窗输出为0)，并将所有的人脸窗口和错分的非人脸窗口都放到下一层去继续训练，这种策略限制了人脸检测模型的灵活性，人脸检测模型训练起来也非常复杂和耗时，最终得到的人脸检测模型往往层数很多。如何缩减人脸检测模型的复杂度，提高人脸检测模型的灵活性仍是一个亟待解决的问题。

发明内容

为了解决复杂度和灵活性的问题，本发明提出一种基于自适应阈值调整拒识子空间学习的人脸检测方法，有效地缩减了人脸检测模型的复杂度，提高了人脸检测模型的灵活性。

本发明提出的基于自适应阈值调整拒识子空间学习的人脸检测方法，包括如下步骤：

步骤S1，采集人脸和非人脸图像，并将所有图像进行灰度处理，将图像尺寸缩放至统一像素大小A，构成训练样本集合；其中人脸图像为正样本、非人脸图像为负样本；

步骤S2，利用步骤S1中的训练样本集合，采用Boosting算法和互信息最大化准则训练人脸检测模型中第k层的强分类器；

步骤S3，计算修正的互信息，利用修正的互信息最大化学习准则自适应的调整人脸检测模型中第k层强分类器的最优拒识阈值，得到带拒识的强分类器；

步骤S4，利用步骤S3中已训练完成的前k层强分类器，在训练集上筛选出拒识的样本作为第k+1层分类器的训练样本；

步骤S5，重复步骤S2至S4直至满足收敛性条件；

步骤S6，给定待检测的图像，构建图像金字塔将待检测图像大小缩放至A，并在图像金字塔的每一层滑动窗口采样，利用训练得到的每一层带拒识的强分类器对每一个采样窗口进行判定，并将判定为人脸的采样窗口还原到待检测的图像上，通过对待检测的图像上所有人脸窗口进行聚类得到最终的人脸检测结果。

优选的，步骤S1中正样本为不同光照、不同姿态情况下的人脸图像；负样本采集方式为先采集一个负样本子集进行训练，对采用通过步骤S2至S5训练好的人脸检测模型进行测试，将人脸检测模型误检的负样本对象进行增量采集加入负样本集中，通过N次反复训练和测试得到最终的负样本集合。

优选的，步骤S2中，人脸检测模型中每层的强分类器均由弱分类器w构成，利用Boosting算法和互信息最大化准则训练人脸检测模型中第k层的强分类器步骤如下：

步骤S21，选取Haar特征，利用总体互信息最大化准则进行弱分类器w的学习，选取互信息最大的阈值为当前弱分类器的阈值；

步骤S22，利用S21所述方法计算得到每一个Haar特征对应的弱分类器及其对应的互信息值，选取互信息值最大的弱分类器为当前迭代轮的弱分类器w_t；

步骤S23，根据样本在弱分类器w_t下的输出值设定样本权重，样本权重计算公式为

其中，表示t-1轮迭代后样本i的权重，L_i表示样本i的真实类别，h_t(x_i)为样本i的预测类别，Z^t为归一化因子；

步骤S24，重复步骤S21-S23直至满足收敛性条件。

优选的，步骤S3中，计算修正的互信息，利用修正的互信息最大化学习准则自适应的调整人脸检测模型中第k层强分类器的最优拒识阈值的步骤如下：

步骤S31，计算每个样本在第k层强分类器下的输出值F_i，并设定强分类器的正、负样本的初始拒识阈值T_k1、T_k2；

其中T为当前强分类器包含的弱分类器总数；

步骤S32，利用非参数估算方法估计正、负样本输出值的条件概率密度；

步骤S33，计算修正的互信息，求解修正的互信息关于参数T_k1，T_k2的一阶导数，利用拟牛顿法迭代求解互信息最大化问题，得到最优的拒识阈值。

优选的，步骤S32中采用的非参数估计方法为Parzen窗法，利用该方法估算正、负样本的条件概率密度和其估算公式如下

其中为正样本的条件概率密度，为负样本的条件概率密度，G(·，σ²)表示高斯核函数，σ表示窗宽。

优选的，所述的窗宽σ采用大拇指准则进行估算。

优选的，步骤S4中，筛选第k+1层的训练样本时，将初始正、负样本集分别输入已训练好的前k层人脸检测模型，将前k层人脸检测模型均不能进行确定的分类的样本作为第k+1层分类器的训练样本。

优选的，步骤S3中，计算修正的互信息的公式为

其中，(t₁，t₂)为给定的一组拒识阈值，N为正、负样本总数，TP(t₂)表示真实类别和预测类别均为正样本的样本数，FN(t₁)表示真实类别为正样本，预测类别为负样本的样本数；FP(t₂)表示真实类别为负样本，预测类别为正样本的样本数；TN(t₁)表示真实类别和预测类别均为负样本的样本数；P(+1)与P(-1)分别是正样本和负样本的先验概率。

优选的，所述的弱分类器w为区域分割分类器。

优选的，步骤5中的收敛条件为总体分类器层数或已收集不到足够的正、负样本用于训练。

优选的，步骤S5的具体步骤为：给定待检测的图像，首先利用下采样构建图像金字塔，直至将图像缩放至A大小，并计算每一层金字塔的积分图；其次在每一层金字塔上滑动A大小的窗口，并利用训练得到的每一层带拒识的强分类器对每一个滑动窗口进行判定，将判定为人脸的窗口还原到待检测的图像上，最终对待检测的图像上所有候选人脸窗口进行聚类得到最后的人脸检测结果。

本发明通过分层处理处理的方式，显著的降低了人脸检测模型训练的复杂度，利用带拒识的强分类器提高了人脸检测模型的灵活度并加快了检测速度，并且各层中强分类器的最优拒识阈值是基于数据分布的统计特性而自动确定，从而实现了自适应阈值调整的功能。

附图说明

图1示出本发明人脸检测方法的结构示意图；

图2示出本发明人脸检测方法的人脸检测模型训练过程的算法流程图；

图3示出本发明人脸检测方法中每一层强分类器训练过程中的算法流程图；

图4示出本发明人脸检测方法中检测过程的算法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明通过基于拒识子空间构建的人脸检测模型可以更加灵活的在分类器的每一层进行判断，并利用互信息最大化准则训练分类器，从而得到的检测具有更好的鲁棒性和灵活性。

本发明的基于自适应阈值调整拒识子空间学习的人脸检测方法如图1、图2所示，包括以下步骤：

步骤S1，采集一定的人脸和非人脸图像，并将所有图像进行灰度处理，将图像尺寸缩放至统一像素大小A，构成训练样本集合。图像尺寸缩放至统一像素大小A为24*24。

其中人脸图像为正样本、非人脸图像为负样本，正样本为不同光照、不同姿态情况下的人脸图像；负样本采集方式为先采集一个负样本子集进行训练，采用如下步骤S2至S5训练好的人脸检测模型进行测试，将人脸检测模型误检的负样本对象进行增量采集加入负样本集中，通过N次反复训练和测试得到最终的负样本集合。

步骤S2，利用步骤S1中的训练样本集合，采用Boosting算法和互信息最大化准则训练人脸检测模型中第k层的强分类器；如图3所示。

本实施例中人脸检测模型中每层的强分类器均由弱分类器w构成；

步骤S21，选取Haar特征，利用总体互信息最大化准则进行弱分类器w的学习，选取互信息最大的阈值为当前弱分类器的阈值；

为了简化训练人脸检测模型和加快检测速度，本实施例中我们选取Haar类型的特征，弱分类器类型为区域分割分类器(Domain-PartitionClassifier)，本实施例中将特征值划分为两个区域，对应的弱分类器w有一个待确定阈值τ和两个输出值(r₁，r₂)，且r₁＝ln((W_1，+1+ε)/(W_1，-1+ε))/2，r₂＝ln((W_2，+1+ε)/(W_2，-1+ε))/2。W_ij为第i个区域内类别为j的样本总权重。弱分类器的每一个阈值都对应一个分类的混淆矩阵C，如公式(1)所示，其中C_ij表示真实类别为i但预测类别为j的样本数，

利用混淆矩阵(1)计算得到其对应的互信息，计算公式如公式(2)所示，

$M I = \underset{l}{Σ} \underset{y}{Σ} p (l, y) l o g \frac{p (l, y)}{p (l) p (y)} = \underset{i = + 1, - 1}{Σ} \underset{j = + 1, - 1}{Σ} \frac{c_{i j}}{N} l o g \frac{{Nc}_{i j}}{N_{i} {\hat{N}}_{j}} - - - (2)$

其中，l表示样本的真实类别；y表示样本的判定类别；MI表示当前特征和弱分类器阈值下真实分布和预测分布之间的经验互信息；p(l,y)表示样本的真实类别和判定类别的联合概率密度；p(l)表示样本的真实类别的概率密度；p(y)表示样本的判定类别的概率密度；N_i＝c_i，+1+c_i，-1表示真实类别为i的样本数量；表示预测类别为j的样本数量；N是全体样本数量。通过遍历所有的阈值以及计算其对应的互信息，选取互信息最大的阈值为当前弱分类器的阈值。

步骤S22，利用S21所述方法计算得到每一个Haar特征对应的弱分类器及其对应的互信息值，选取互信息值最大的弱分类器为当前迭代轮的弱分类器w_t；

步骤S23，根据样本在弱分类器w_t下的输出值设定样本权重，样本权重的计算如公式(3)所示

其中，表示t-1轮迭代后样本i的权重，Z^t为归一化因子，L_i表示样本i的真实类别，，h_t(x_i)为样本i的预测类别；Z^t的计算如公式(4)所示，L_i的取之如公式(5)所示。

步骤S24，重复步骤S21-S23直至满足收敛性条件。

步骤S3，计算修正的互信息，利用修正的互信息最大化学习准则自适应的调整人脸检测模型中第k层强分类器的最优拒识阈值，得到带拒识的强分类器；

步骤S31，计算每个样本在第k层强分类器下的输出值F_i，并设定强分类器的正、负样本的初始拒识阈值T_k1、T_k2；F_i的计算如公式(6)所示。

其中T为当前强分类器包含的弱分类器总数；

步骤S32，利用非参数估算方法估计正、负样本输出值的条件概率密度；

本实施例采用的非参数估计方法为Parzen窗法，利用该方法估算正、负样本的条件概率密度和其估算如公式(7)、公式(8)所示

其中为正样本的条件概率密度，为负样本的条件概率密度，G(·，σ²)表示高斯核函数，σ表示窗宽。窗宽σ采用大拇指准则(RuleofThumb)进行估算。

步骤S33，计算修正的互信息，求解修正的互信息关于参数T_k1，T_k2的一阶导数，利用拟牛顿法迭代求解互信息最大化问题，得到最优的拒识阈值。

其中给定一组拒识阈值(t₁，t₂)，其对应的分类混淆矩阵可以表示如表1所示。

表1分类器对应阈值(t₁，t₂)的分类混淆矩阵

表1中，+1表示正样本，-1表示负样本，0表示拒识的样本；TP(t₂)表示真实类别和预测类别均为+1的样本数，TN(t₁)表示真实类别和预测类别均为-1的样本数；FN(t₁)表示真实类别为+1，预测类别为-1的样本数；FP(t₂)表示真实类别为-1，预测类别为+1的样本数；RP(t₁,t₂)表示真实类别为+1但被拒识的样本数；RN(t₁,t₂)表示真实类别为-1但被拒识的样本数；N表示正、负样本总数；N₊表示真实类别为+1的样本数；N_-表示真实类别为-1的样本数；表示预测类别为+1的样本数；表示预测类别为-1的样本数；N_R表示被拒识的样本数。

考虑到引入拒识项带来的退化现象，此处我们利用公式(9)计算修正的互信息值，P(+1)与P(-1)分别是正样本和负样本的先验概率，

计算可得MMI(t₁，t₂)关于(t₁，t₂)的导数分别如公式(10)、公式(11)，

利用拟牛顿法求解修正互信息最大化问题，得到最优决策阈值即第k层强分类器的决策阈值T_k1，T_k2。

步骤S4，利用步骤S3中已训练完成的前k层强分类器，在训练集上筛选出拒识的样本作为第k+1层分类器的训练样本；

利用已训练完成的前k层强分类器，收集第k+1层人脸检测模型的训练样本，将初始正、负样本集分别输入已训练好的前k层人脸检测模型，如果前k层人脸检测模型均不能对样本进行确定的分类，则将其放入第k+1层的训练集中，由此收集完k+1层的训练样本。

步骤S5，重复步骤S2至S4多次直至满足收敛性条件。

本发明的收敛条件为总体分类器层数或已收集不到足够的正、负样本用于训练；当总体分类器层数小于设定阈值或已收集不到足够的正、负样本用于训练时执行步骤S6。

步骤S6，给定待检测的图像，首先利用下采样构建图像金字塔，直至将图像缩放至24*24大小，并计算每一层金字塔的积分图；其次在每一层金字塔上滑动24*24大小的窗口，并利用训练得到的每一层带拒识的强分类器对每一个滑动窗口进行判定，将判定为人脸的窗口还原到待检测的图像上，最终对待检测的图像上所有候选人脸窗口进行聚类得到最后的人脸检测结果。如图4所示。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应理解的是，以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于自适应阈值调整拒识子空间学习的人脸检测方法 [P] . 中国专利： CN105488456B . 2019.04.23
2. 基于自适应阈值调整拒识子空间学习的人脸检测方法 [P] . 中国专利： CN105488456A . 2016-04-13
3. AN IMAGE TRANING APPARATUS EXTRACTING HARD NEGATIVE SAMPLES BEING USED TO TRAINING A NEURAL NETWORK BASED ON SAMPLING AND A THRESHOLD ADJUSTING ADAPTIVELY AND A METHOD PERFORMED BY THE IMAGE TRAINING APPARATUS [P] . 韩国专利： KR102167011B1 . 2020-10-16

机译：一种基于自适应采样和阈值调整的用于训练神经网络的硬负样本的图像跟踪装置及由图像训练装置执行的方法
4. AN IMAGE TRANING APPARATUS EXTRACTING HARD NEGATIVE SAMPLES BEING USED TO TRAINING A NEURAL NETWORK BASED ON SAMPLING AND A THRESHOLD ADJUSTING ADAPTIVELY AND A METHOD PERFORMED BY THE IMAGE TRAINING APPARATUS [P] . 韩国专利： KR20190107984A . 2019-09-23

机译：一种基于自适应采样和阈值调整的用于训练神经网络的硬负样本的图像跟踪装置及由图像训练装置执行的方法
5. Method for adjusting e.g. electronic device, involves adjusting base approximate value to high value of region, and determining high threshold value and low threshold value based on base approximate value [P] . 德国专利： DE102011055862A1 . 2012-06-06

机译：调整方法例如电子设备，涉及将基本近似值调整为区域的高值，并基于基本近似值确定高阈值和低阈值