公开/公告号CN103366163A
专利类型发明专利
公开/公告日2013-10-23
原文格式PDF
申请/专利权人 北京丰华联合科技有限公司;
申请/专利号CN201310294528.X
发明设计人 王力国;
申请日2013-07-15
分类号G06K9/00;G06K9/62;
代理机构
代理人
地址 100085 北京市海淀区上地信息路26号9层906室
入库时间 2024-02-19 21:14:32
法律状态公告日
法律状态信息
法律状态
2016-07-20
授权
授权
2014-06-25
著录事项变更 IPC(主分类):G06K9/00 变更前: 变更后: 申请日:20130715
著录事项变更
2013-11-20
实质审查的生效 IPC(主分类):G06K9/00 申请日:20130715
实质审查的生效
2013-10-23
公开
公开
技术领域
本发明涉及一种基于增量学习的人脸检测系统和方法,适用于人脸检测 和检测的技术领域。
背景技术
人脸检测是指对于任意一张给定的图像,采用一定的策略对其进行搜索 以确定其中是否含有人脸。
人脸检测是一个复杂的具有挑战性的模式检测问题,其主要的难点有两 个方面。一个方面是由于人脸内在的变化所引起:人脸具有相当复杂的细节 变化,不同的外貌如脸形、肤色等,不同的表情如眼、嘴的开与闭等;人脸 的遮挡,如眼镜、头发和头部饰物以及其他外部物体等。另外一方面是由于 外在条件变化所引起:由于成像角度的不同造成人脸的多姿态,如平面内旋 转、深度旋转以及上下旋转,其中深度旋转影响较大;光照的影响,如图像 中的亮度、对比度的变化和阴影等;图像的成像条件,如摄像设备的焦距、 成像距离,图像获得的途径等等。
这些困难都为解决人脸检测问题造成了难度。现有技术中需要一些相关 的算法和装置并能在应用过程中达到实时,将为成功构造出具有实际应用价 值的人脸检测系统提供保证。
发明内容
本发明提供了一种基于增量学习的人脸检测系统和方法,其检测精确度 高、实时性强并且训练速度快。
一方面,根据本发明的一种基于增量学习的人脸检测系统,包括:
背景建模单元,其用于确定视频中的前景区域和背景区域;
样本提取单元,其包括正样本提取单元和负样本提取单元,正样本提取 单元从前景区域中提取供增量学习的正样本,负样本提取单元从背景区域中 提取供增量学习的负样本;
增量学习单元,其利用正样本和负样本在人脸分类器上进行增量学习, 对人脸检测器进行更新;
人脸检测单元,其利用增量学习后的人脸检测器对人脸进行检测。
优选地,背景建模单元使用混合高斯背景建模算法,对视频中的图像进 行计算,得到所述图像的混合高斯模型,将图像中符合该模型特性的区域作 为背景区域,将不符合该模型特性的区域作为前景区域。
优选地,正样本提取单元将前景区域中基于mean-shift(均值漂移)跟 踪算法得到的不能被检测为人脸的图像区域作为正样本;负样本提取单元将 背景区域中检测出的人脸区域作为负样本。
优选地,增量学习单元包括:
图像特征计算模块,其对每一个样本计算所述人脸分类器中采用的特征, 并逐个计算所述人脸检测器中的弱分类器的参数;
误差估计模块,其基于计算得到的所述弱分类器的参数,分别对每个弱 分类器进行误差估计,计算误差的上界,并将误差值进行排序;
人脸检测器更新模块,其根据误差估计模块得到的每个弱分类器的误差 值,利用误差最小的弱分类器对人脸检测器进行更新。
另一方面,利用本发明的人脸检测系统进行人脸检测的方法,包括以下 步骤:
(1)在背景建模单元中对原始视频进行背景建模,确定视频中的前景区 域和背景区域;
(2)将背景建模单元输出的前景区域和背景区域分别输入到样本提取单 元的正样本提取模块和负样本提取模块中;
(3)增量学习单元基于样本提取单元输出的正样本和负样本进行增量学 习.利用误差最小的弱分类器不断对人脸检测器进行更新,将更新后的人脸 检测器输出到所述人脸检测单元中;
(4)利用更新后的人脸检测器进行人脸检测。
优选地,增量学习单元进行增量学习的步骤包括:
(1)利用所述增量学习单元中的图像特征计算模块对每一个样本计算人 脸分类器中采用的特征,并逐个计算人脸检测器中的弱分类器的参数;
(2)增量学习单元中的误差估计模块基于计算得到的弱分类器的参数, 分别对每个弱分类器进行误差估计,计算分类器误差的上界,并将误差值进 行排序;
(3)增量学习单元中的人脸检测器更新模块根据误差估计模块得到的每 个弱分类器的误差值,利用误差最小的弱分类器对人脸检测器进行更新。
优选地,正样本提取模块提取正样本的方法为:设定一个阈值,对输入 的前景区域进行人脸检测,待分类人脸窗口得分大于所述阈值的认定为人脸, 然后使用均值漂移的人脸跟踪算法继续跟踪该人脸在后续5帧中出现的未检 测为人脸的窗口,作为正样本。
又一方面,本发明还涉及一种视频浏览系统,包括:
视频帧提取模块,其直接对实时视频流或历史视频文件进行处理,以提 取视频帧;
人脸检测模块,其利用本发明的上述人脸检测系统对每个视频帧的图像 进行人脸检测,并建立人脸库;
索引生成模块,其作为人脸检测模块的后端,实时处理人脸检测结果, 将人脸在视频中出现的时间点保存为包含xml标记的视频索引文件;
视频浏览模块,其为人机交互模块,当用户从人脸库中选择待检索或浏 览的人脸图片时,其自动根据视频索引文件定位到人脸对应的视频片段,实 现对原始视频的快速定位与浏览。
利用本发明的基于增量学习的人脸检测系统和方法,能够大大提升人脸 检测的精度和效率。
附图说明
图1显示了根据本发明的基于增量学习的人脸检测系统的组成示意图。
图2为根据本发明的基于增量学习的人脸检测系统运行时的流程示意 图。
图3为根据本发明的基于增量学习的人脸检测系统中的样本提取单元的 功能模块及其流程示意图。
图4为根据本发明的基于增量学习的人脸检测系统中的增量学习单元的 功能模块及其流程示意图。
图5显示了根据本发明的基于人脸检测的视频浏览系统的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图 对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申 请中的实施例及实施例中的特征可以相互任意组合。
参见图1,其中显示了根据本发明的基于增量学习的人脸检测系统的组 成示意图,如图所示,该系统包括:
1.背景建模单元10:用于确定视频中的前景区域和背景区域。优选地, 使用混合高斯背景建模算法,对视频中的图像进行计算,得到所述图像的混 合高斯模型,将图像中符合该模型特性的区域作为背景区域,将不符合该模 型特性的区域作为前景区域。
2.样本提取单元20:分别对前景区域和背景区域进行人脸检测。样本提 取单元20包括正样本提取单元201和负样本提取单元202,正样本提取单元 201从前景区域中提取供增量学习的正样本,负样本提取单元202从背景区 域中提取供增量学习的负样本。优选地,正样本提取单元201将前景区域中 基于mean-shift跟踪算法得到的不能被检测为人脸的图像区域作为正样本; 负样本提取单元202将背景区域中检测出的人脸区域作为负样本。
3.增量学习单元30:其包括图像特征计算模块301、误差估计模块302 和人脸检测器更新模块303,这三个功能模块分别利用供增量学习的正负样 本,进行样本特征计算、分类器参数修正和分类器误差估计,最后选择分类 误差最小的弱分类器对人脸检测器进行更新。
4.人脸检测单元40:在离线训练得到的人脸检测器401的基础上,结合 背景建模和增量学习,不断更新得到增强的人脸检测器,进行人脸检测。
图2为根据本发明的基于增量学习的人脸检测系统运行时的流程示意 图,图3为根据本发明的基于增量学习的人脸检测系统中的样本提取单元20 的功能模块及其流程示意图。结合图2-3,根据本发明的人脸检测方法包括 以下步骤:
1.在背景建模单元10中,对原始视频进行背景建模,得到背景模型。 使用混合高斯背景建模算法,对视频中的图像进行计算,得到图像的混合高 斯模型,将图像中符合该模型特性的区域作为背景区域,将不符合该模型特 性的区域作为前景区域,从而确定视频中的前景区域和背景区域,并将前景 区域和背景区域输出给样本提取单元20。
2.在样本提取单元20中,将背景建模单元10输出的前景区域和背景区 域分别输入到正样本提取模块201和负样本提取模块202中。正样本提取模 块201对前景区域进行人脸检测,将前景区域中基于mean-shift跟踪算法得 到的但不能被检测为人脸的图像区域作为正样本输出到增量学习单元30中; 负样本提取模块202对背景区域进行人脸检测,将检测出的人脸区域作为负 样本输出到增量学习单元30中。其中,获取正样本和负样本的具体方法为: 首先,基于标准人脸数据库离线训练出一个初步的人脸检测器;然后,通过 设置较低的检测阈值,以获得较高的检测率,对从某个场景获取的历史视频 帧进行检测,手动将检测结果中的非人脸选出,基于此人脸与非人脸获得增 量学习的正负样本。
3.在增量学习单元30中,基于样本提取单元20输出的正样本和负样本 进行增量学习,利用误差最小的弱分类器不断对人脸检测器401进行更新, 最终将更新后的人脸检测器输出到人脸检测单元40中。
4.在人脸检测单元40中,利用更新后的人脸检测器进行人脸检测。
如图3所示,样本提取单元20包括:
正样本提取模块201,其设定一个阈值T1,对输入的前景区域进行人脸 检测,待分类人脸窗口得分大于T1的认定为人脸,然后使用均值漂移 (mean-shift)的人脸跟踪算法继续跟踪该人脸在后续5帧中出现的未检测为 人脸的窗口,作为正样本,输出给增量学习单元30,以扩充样本的多样性, 提升分类器的检测性能;
负样本提取模块202,其设置一个区间[T2,T1](其中,T1>T2),对输 入的背景区域进行人脸检测,待分类人脸窗口得分在这个区间内的作为负样 本,输出给增量学习单元30,以扩充样本的多样性,提升分类器的检测性能。
图4为根据本发明的基于增量学习的人脸检测系统中的增量学习单元30 的功能模块及其流程示意图,增量学习单元30包括图像特征计算模块301、 误差估计模块302和人脸检测器更新模块303。
图像特征计算模块301,其对每一个样本计算人脸分类器中所采用的特 征(可为Haar-like特征或LBP特征),利用这些特征值,逐个计算当前人 脸检测器中的弱分类器的参数(阈值和权重)。
误差估计模块302,其基于图像特征计算模块301中弱分类器的新参数, 分别对每个弱分类器进行误差估计,计算分类器误差的上界,并将误差值进 行排序。误差估计由巴氏距离计算得出。
人脸检测器更新模块303,根据误差估计模块302得到的每个弱分类器 的误差值,利用误差最小的N个弱分类器对人脸检测器进行更新,人脸检测 器中其他分类器的参数保持不变,人脸检测器中的弱分类器总数保持不变。
下面将说明本发明的人脸检测系统进行增量学习的算法。需要说明的是, 对于本领域技术人员来说,可以采用的增量学习的方法有很多种,以下描述 的只是其中一种可能的优选实施方式。
本发明提出了一种离线Adaboost训练和增量学习相融合的方法,其中采 用Gentle Adaboost算法进行弱分类器的训练,目的在于自动选取最优的N 个弱分类器h(x)组合成一个强分类器H(x):
其中αk表示k个分类器的标量值。
人脸检测问题可以作为一个二值分类问题,为了能介绍清楚本发明中的 算法,先介绍其中基于高斯分布的弱分类器设计:假设人脸属于ω1类而非人 脸属于ω2类。当同样采用高斯分布对每个弱分类器进行建模时,特征分布由 两个参数确定:均值μ和方差σ2。因此对于一维特征x而言,其均值和方差 可以表达为:
两个高斯分布均值的算术平均值为:
可以通过利用判别式函数来获得最小误检率的分类器。
假设本发明中先验概率P(ωi)是同一的。p(x|ωi)表示分段条件概率。ω1和 ω2之间的界限通过下列公式的解来确定:
f(x)=f1(x)-f2(x)=0 (6)
将(5)代入(6),得到
如果σ1=σ2,那么新阈值为式(7)的唯一解
如果σ1≠σ2,式(7)有两个不同解
取θ=x=min(abs(x1一μ),abs(x2一μ))+μ,即距离正负样本高斯分布均值的算 术平均值较近的解为特征x的新阈值。
在本发明的算法中,增量样本逐一参与到增量学习的过程中,并使用如 下公式分别对正负样本高斯分布的u和σ2进行更新:
本发明使用加权平均的方法计算增量学习后的模型参数,其中,u(n一1)和 σ2(n-1)分别为该特征的分布在增量学习前的均值和方差,u(n)和σ2(n)分别为 该特征的分布在输入第n个样本后的均值和方差。x(n)为第n个增量输入的 样本在一维特征x上的取值。m确定了增量学习中的加权系数,即新样本的 特征取值对参数更新的贡献程度,m通常等于本次增量前的样本总数M。随 着增量的样本逐渐增多,增量系数1/(1+m)递减,也即增量模型在适应新的 场景后逐渐趋于稳定。为了避免当样本较少时,增量系数很大造成旧模型的 偏倚,限定m的最小值为200,即当M小于200时,m取值为200。
对离线模型进行增量学习之前,利用离线模型的正、负训练样本,分别 计算出离线模型每个特征(弱分类器)的高斯分布的均值u(0)和方差σ2(0), 作为增量学习的初始值。增量学习阶段,不再需要离线模型的训练样本参与 计算。
为了评判增量后的分类器优良,本发明引入Bhattacharyya界限计算分 类器误差的上限e,按如下公式给定:
e=exp(-k(1/2)) (12)
其中和分别为人脸(ω1)和非人脸(ω2)的均值和方差。
将每个弱分类器的误差e按从小到大排序,若e1<e2<…<eth<eN…,N为 离线模型中弱分类器的个数。取误差e小于eth的弱分类器对相应的分类器阈 值θi按公式(8)计算得到的θ进行更新,其中eth取值为1.5。
由于本发明的增量算法不对弱分类器的类型和个数做更新,而仅仅只对 弱分类器的阈值做更新,并不是最优的结果。因此在离线分类器的基础上进 行特征选择,对增量后的所有弱分类器,用增量样本对它们进行分类能力的 评估,得到每个弱分类器在增量样本上的分类能力。
弱分类器分类能力的计算:分别用离线模型的N个弱分类器对增量样本 (正负样本)进行测试,统计每个弱分类器对正负样本的分类结果。例如: 对于分类器1,有P个正样本的通过,有N个负样本通过,则分类器1的分 类能力C为P-N,C越趋于正,则对正、负样本的分类能力越强。
利用用于增量学习的正负样本来选择那些对增量样本有最大区分度的前 20个弱分类器,这20个弱分类器(称之为特异分类器)可能分布在不同的 强分类器中,在测试样本通过级联强分类器时,将统计该样本通过的特异分 类器的个数SN。若该样本通过所有的级联强分类器,则判断SN是否大于设 定的阈值(例如,设为10),大于则判定该样本为正样本,否则判定为负样 本。
利用根据本发明的基于增量学习的人脸检测系统和方法,其能够使人脸 检测器进行增量学习,从而提升了人脸检测的精度和效率。
基于本发明的人脸检测系统,还可以构建一种视频浏览系统,主要包括: 视频帧提取模块、人脸检测模块、索引生成模块、视频浏览模块。其中视频 帧提取模块可支持不同视频编码格式的文件,如视频监控领域最常用的 H.264以及MPEG4。本发明的视频浏览系统可通过视频帧提取模块直接对实 时视频流或历史视频文件进行处理,以提取视频帧。在此之前,需要对视频 进行预处理,即将每个视频帧从YUV格式转换成RGB格式。人脸检测模块 利用本发明中以上所述的人脸检测系统,对转换后的RGB图像进行人脸检 测,并建立人脸库,所用分类器采用本发明提出的基于增量学习的检测器, 以适应于不同应用场景,获取最佳检测效果。索引生成模块作为人脸检测模 块的后端,实时处理人脸检测结果,将人脸在视频中出现的时间点保存并组 织为包含xml标记的视频索引文件。视频浏览模块为主要的人机交互模块, 当有视频检索和浏览任务时,由用户从人脸库中选择待检索或浏览的人脸图 片,系统自动根据视频索引文件,直接定位到人脸对应的视频片段,实现对 原始视频的快速定位与高效浏览。当发现感兴趣的人物事件时,再通过网络 获取高质量的原始视频片段,进行细致的浏览或取证。基于人脸检测的视频 浏览系统的框图如图5所示。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本 发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内 的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的 形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所 附的权利要求书所界定的范围为准。
机译: 基于人脸检测的远程控制系统和方法以及基于人脸检测的远程控制多媒体系统
机译: 神经网络中基于状态的实时自适应增量学习的系统和方法
机译: 基于增量学习的大数据挖掘系统及其方法