首页> 中国专利> 一种基于视频图像序列的人脸表情识别方法

一种基于视频图像序列的人脸表情识别方法

摘要

本发明公开了一种基于视频图像序列的人脸表情识别方法,涉及人脸识别领域,包括如下步骤:(1)身份验证:从视频中捕捉图像,获得该视频中的用户信息,然后通过与人脸训练样本的比对,进行身份验证,确定用户表情库;(2)表情识别:对视频进行纹理特征提取,获得用户表情程度最大化时的关键帧,将关键帧图像与步骤(1)确定的用户表情库中的表情训练样本进行比对,达到表情识别的目的,最终输出表情识别的统计结果。本发明提供通过纹理特征分析视频中获取的关键帧,并建立用户表情库对用户表情进行表情识别,能有效抑制干扰、降低计算复杂度和提高识别率。

著录项

  • 公开/公告号CN103824059A

    专利类型发明专利

  • 公开/公告日2014-05-28

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN201410073222.6

  • 发明设计人 徐平平;谢怡芬;吴秀华;

    申请日2014-02-28

  • 分类号G06K9/00(20060101);G06K9/66(20060101);

  • 代理机构南京瑞弘专利商标事务所(普通合伙);

  • 代理人杨晓玲

  • 地址 214135 江苏省无锡市无锡新区菱湖大道99号

  • 入库时间 2024-02-19 23:58:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-15

    授权

    授权

  • 2014-06-25

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20140228

    实质审查的生效

  • 2014-05-28

    公开

    公开

说明书

技术领域

本发明涉及人脸识别领域,尤其涉及一种基于视频图像序列的人脸表情识别方法。

背景技术

在众多的生物特征中,人脸无疑是最具表现力的一部分。在人与人的当面交流中, 人脸作为信息传递最直接的媒介,扮演者极为重要的角色,我们通过分析可以感知人脸 情绪。为了使计算机具备相同的能力,人脸视觉感知成为人机交互、安全认证等计算机 科学领域的重要研究课题。其中,人脸表情识别是一个涉及到模式识别、图像处理、人 工智能等多学科的综合课题。所谓人脸表情识别是让计算机对人脸的表情信息进行特征 提取分析,结合人类所具有的表情信息方面的先验知识使它进行自我思考、推理以及判 断,进而去理解人脸表情蕴含的信息,实现人机之间智能化的交互。它在许多领域都有 着潜在的应用价值,包括机器人技术、图像理解、视频检索、合成脸部动画、心理学研 究、虚拟现实技术等。对人脸表情识别的研究主要包括三个部分:人脸检测、表情特征 提取以及表情分类。目前在这三个方面计算机视觉研究者们进行了很多研究,但这三个 方面仍有问题未得到很好的解决,包括人脸误检、表情识别的鲁棒等。

发明内容

发明目的:为了克服现有技术中存在的不足,本发明提供一种基于视频图像序列的 人脸表情识别方法,通过纹理特征分析视频中获取的关键帧,能有效抑制干扰、降低计 算复杂度和提高识别率。

为实现上述目的,本发明采取如下技术方案:

一种基于视频图像序列的人脸表情识别方法,包括如下步骤:

(1)身份验证:从视频中捕捉图像,获得该视频中的用户信息,然后通过与人脸 训练样本的比对,进行身份验证,确定用户表情库;

(2)表情识别:对视频进行纹理特征提取,获得用户表情程度最大化时的关键帧, 将关键帧图像与步骤(1)确定的用户表情库中的表情训练样本进行比对,最终输出表 情识别的统计结果。

更进一步的,步骤(1)包括如下步骤:

(11)视频用户信息提取;

(12)身份验证。

更进一步的,步骤(2)包括如下步骤:

(21)视频关键帧提取;

(22)人脸区域的检测;

(23)人脸区域的定位;

(24)人脸表情特征的提取;

(25)表情特征的分类识别;

(26)表情识别结果输出。

更进一步的,步骤(21)包括如下步骤:

(211)采用逆差矩特征参数提取视频所反映的纹理特征,得到视频每帧的纹理特 征参数值随着视频帧的变化曲线;

(212)对步骤(211)所述变化曲线参数进行最大最小归一化处理;

(213)对步骤(211)所述变化曲线进行曲线平滑拟合处理。

更进一步的,步骤(22)采用基于肤色模型的人脸区域定位方法,包括如下步骤:

(221)将视频图像基于彩色空间的RGB模型转换为YCbCr模型;

(222)选取合适阈值将视频图像彩色差值图转换成二值差值图像。

更进一步的,步骤(23)结合灰度图像边缘检测方法,采用4连通方法提取连通区 域,在区域内寻找面积最大的板块,确认人脸所在位置,完成人脸区域的定位。

更进一步的,步骤(24)采用基于平均值的主成分分析表情人脸特征提取方法,具 体包括如下步骤:

(241)计算用户表情库训练样本特征向量

设训练样本的维数为n,共有L类,N1,N2,...,NL分别表示每一类训练样本的数目,N 为训练样本总数,第c类训练样本集合表示为其中,Nc为第 c类训练样本的数目;所有训练样本集合用X={X1,X2,...,XL}表示;

第c类训练样本的平均脸定义为:

mc=1NcΣi=1Ncxicc=1,2,...,L---(1)

对第c类训练样本进行规范化:

vic=xic-mci=1,2,...,Ncc=1,2,...,L---(2)

协方差矩阵定义为:

Q=Σi=1NviviT---(3)

其中,vi表示训练样本的规范化向量,且Q∈Rn×n,从矩阵Q的特征值和特征向量中, 取m个最大特征值对应的特征向量,即wi,i=1,2,...,m,从而构成了特征脸空间W∈Rm×n, 即W=[w1,w2,...,wm]T,其中m<n;

(242)将训练样本投影到特征脸空间

为了使测试样本与训练样本具有可比性,必须用同一平均脸对它们进行规范化,为 此必须计算所有训练样本的混合平均脸,即:

mc=1NΣc=1LΣi=1Ncxic---(4)

然后,对训练样本进行规范化:

xic=xic-mi=1,2,...,Ncc=1,2,...,L---(5)

其中,对于第c类任一训练样本,投影到特征脸空间,即可获得训练样 本的投影特征为:

yic=wTxici=1,2,...,Ncc=1,2,...,L---(6)

(243)关键帧测试样本投影到特征脸空间

对任一测试样本xii∈Rm,首先用混合平均脸对它进行规范化,即

xiic=xiic-m---(7)

然后投影到特征脸空间,得到它的投影特征yii∈Rm,即

yiic=WTxiic---(8)

更进一步的,步骤(25)采用欧氏距离分类器对步骤(24)提取后的待识别图像进 行识别。

有益效果:本发明提供的基于视频图像序列的人脸表情识别方法,相对于现有技术, 具有如下优点:

(1)本发明提出的PCA类内平均脸法充分考虑了训练样本数及其类别信息,获 得了较好的识别结果,为人脸识别提供了一种有效的途径。

(2)为了改进现有关键帧提取方法在相邻帧间相似性测度方面的不足,本发明提 出一种基于纹理特征曲线分析的关键帧选取方法。给出表情纹理特征的提取、相似度计 算方法以及利用图像分块计算运动信息的方法,并结合距离累加算法提取视频镜头关键 帧,能有效抑制干扰、降低计算复杂度和提高识别率。

(3)本发明提出一种单帧表情图像中人脸表情特征的快速提取算法,由于基于视 频交互的表情识别对实时性、通用性要求高,因此,在获得人脸表情关键帧图像后,研 究进行降维处理只提取与人脸表情运动有关的特征参数快速算法,最大限度地屏蔽环境 条件和个人特征的差异,有效地降低计算量又能高效地区分与识别典型人脸表情,是基 于视频的人脸表情识别的关键所在。

(4)本发明提出一种基于视频序列的人脸表情关键帧的提取算法,人脸表情在视 频序列中是一个动态变化过程,准确的表情判断主要取决于表情姿势最大状态。因此, 研究快速准确的视频序列中人脸表情关键帧的提取算法,是正确高效地识别各表情动作 单元状态的变化和理解相应表情的重要前提。

(5)本发明提出一种人脸表情的快速分类算法,提出视频环境下用于识别人脸表 情的既具有较快的速度又有较高识别率的新的人脸表情分类算法。

附图说明

图1为本发明提供的一种基于视频图像序列的人脸表情识别方法结构流程图。

图2为本发明提供的人脸表情识别流程图。

图3为逆差矩特征参数随视频帧变化曲线。

图4为关键帧提取四种字符串进行曲线平滑拟合曲线图。

图5为关键帧提取后关键帧所在位置图。

图6为人脸表情区域经典边缘检测流程图。

图7为表情特征的分类识别结构图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示,本发明提供的一种基于视频图像序列的人脸表情识别方法,包括:

(1)身份验证:从视频中捕捉图像,获得该视频中的用户信息,然后通过与人脸 训练样本的比对,进行身份验证,确定用户表情库;

(2)表情识别:对视频进行纹理特征提取,获得用户表情程度最大化时的关键帧, 将关键帧图像与步骤(1)确定的用户表情库中的表情训练样本进行比对,最终输出表 情识别的统计结果。

下面结合实例对本发明作进一步描述:

(一)身份验证

视频信息接收后,从视频信息中捕捉图像,并且可以获得该视频信息的用户信息, 通过与人脸训练样本的比对,进行身份验证,确定该用户的表情库,待表情识别时提取;

(1)视频用户信息提取

对视频中截图运用传统PCA算法进行特征提取;

(2)身份验证

通过计算与训练样本特征的欧氏距离,得出最匹配人脸,获得身份信息。

本发明表情库采用自建表情库,比如对一个公司来说,可以对所有员工建立人脸表 情库,建立员工的人脸表情库一方面可以丰富企业的员工档案,另一方面也是基于自建 的人脸表情库进行识别时可提高一定识别率。但如果通过拍照的方式,假如1名员工需 要留存30张不同表情的照片,那100名员工就需要3000张照片,工作量是非常巨大的, 而且企业的员工流动性也很大,新进人员都需要拍摄相应表情照,这将给员工带来不必 要的麻烦,即影响了正常的生产生活,又大量增加了人力资源部门的劳动量。因此,本 发明通过视频的优越性,在截取的视频录像中,按照表情渐进的程度分别截取,用这种 方法表示的面部表情有个优点就是,这几种表情都可以通过两种类型的信息表示(从一 类到另一类表达的强度变化)。

(二)表情识别

如图2所示,对视频进行纹理特征提取,获得表情程度最大化时的关键帧,将关键 帧图像与该用户的表情训练样本进行比对,达到表情识别的目的,最终得到表情分析的 统计结果。

(1)关键帧提取

首先对输入的视频信息进行关键帧提取,为了改进现有关键帧提取方法在相邻帧间 相似性测度方面的不足,本发明提出一种基于纹理特征曲线分析的关键帧选取方法。人 往往在表达不同情绪时,表情随之变化,而在脸部就重点体现在几个关键区域,只要分 析特定区域的纹理特征,比如纹理的灰度、位移变化等等,根据纹理特征曲线就可提取 出视频镜头的关键帧。

常用的视频图像特征有颜色特征、纹理特征、形状特征、空间关系特征。纹理特征 描述了图像或图像区域所对应物体的表面性质,灰度共生矩阵则是考虑像素之间关系的 一种检测纹理特征的统计方法。一幅图象的灰度共生矩阵能反映出图象灰度关于方向、 相邻间隔、变化幅度的综合信息,它是分析图象的局部模式和排列规则的基础。

规定某一方向和距离(像素),图像矩阵f中灰度为i和j的两个像素沿该方向和距 离同时出现的次数为p(i,j),总像素对为N,则组成的矩阵叫做图像矩阵f 的共生矩阵G,其中G的大小为N×N,i=1,2,...,N,j=1,2,...,N。

由于灰度共生矩阵不能直接用于描述图像的纹理特征,通常定义一些统计量来提取 它所反映的纹理特征,一般采用以下四个常用的参数:

能量(Energy)、相关性(Correlation)、对比度(Contrast)和逆差矩(Inverse Difference  Moment)。逆差矩如式(1),它反映图像纹理的同质性,度量图像纹理局部变化的多少。 其值大则说明图像纹理的不同区域间变化小,局部非常均匀。

g4=Σi=1NΣj=1Np(i,j)(i-j)k,(ij)---(1)

鉴于逆差矩是度量图像纹理局部变化的多少,其值大则说明图像纹理的不同区域间 变化小,说明图像局部均匀,而本文所需正与之相反,当逆差矩处于最小值时,正是图 像纹理变化最大的时候,即是人脸表情最夸张的时候,简单的说,此时正是本发明视频 信息的关键帧所在,因此本发明选定逆差矩特征参数作为反映人脸表情夸张程度的衡量 指标。

从图3中变化曲线图中明显可见曲线还很毛躁,这主要是因为每帧的特征参数值随 着视频帧在不断改变,而且每帧的值都有一定的奇异性和不规律性。虽然在曲线图中能 看出大致的趋势走向,但要能准确的提取出关键帧,还需要做一些训练工作,本文即提 出通过曲线处理来对关键帧进行定位和提取。为了加快训练曲线的收敛性,采用了归一 化处理;为了进一步将曲线去噪,采用了曲线平滑处理。

1)最大最小归一化处理

归一化化就是要把需要处理的数据经过处理后(通过某种算法)限制在需要的一定 范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。

而所谓奇异样本数据指的是相对于其他输入样本特别大或特别小的样本矢量。奇异 样本数据存在所引起的曲线的训练时间增加,并可能引起曲线无法收敛,所以对于训练 样本存在奇异样本数据的数据集在训练之前,最好先进行归一化。

归一化的线性函数转换,表达式如下:

y=(x-MinValue)(MaxValue-MinValue)---(2)

x,y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。 本文是将样本数据归一化到[0,1]范围。

2)曲线平滑拟合处理

由图3的曲线图可知,实验中测量出的数据一般都不是平滑的,极大多数都有毛刺, 很多时候进行数据处理的时候需要对其平滑,从平滑曲线中得到极值点,这是从曲线分 析来说的。从系统实际来讲,就是要去除过程中的表情变化,只要极致表情即可。因此 这里需对曲线进行平滑处理。这里用matlab软件中的自带smooth函数,可以方便得到 平滑效果。

yy=smooth(y,span,method)    (3)

用method参数指定平滑数据的方法,method是字符串变量,可用的字符串如表1 所示。

表1smooth函数支持的method参数值列表

同时,还可以设置span参数对平滑的程度进行调整,span的数值设置越小,曲线 越曲折,越达不到平滑的效果;反之,span的数值设置越大,则曲线越平滑,当然也不 能过大,过大会错过关键点,使曲线失真。

通过比较图4四条曲线可知,在span设置相同的情况下,使用'loess'方法平滑的曲 线峰谷值最明显,最能反映出关键帧所在。

本发明在分析表情时,为简化纹理分析的过程,将分析范围缩小至嘴部周围,这样 既可以忽略了眨眼时对表情分析的干扰,而且人脸表情变化时嘴部变化最大,更便于快 速得出分析结果。

按照上节的方法平滑曲线,并通过寻找曲线的谷点即最小点,找出关键帧所在。这 里将span取值为78,得到的极小点如图5的红色“*”标识所在。

(2)表情识别

人脸表情识别的研究内容主要包括人脸表情区域的检测与定位、人脸表情特征的提 取及表情特征的分类识别。

1)人脸区域的检测

本发明采用基于肤色模型的人脸区域定位:

YCbCr模式是一种常见的重要的色彩模式,网络上很多图片采用的模式正是该模 式。YCbCr不是一种绝对色彩空间,是YUV压缩和偏移的版本。

YCbCr模式与RGB模式的相互转换如下:

Y=0.299R+0.587G+0.114BCb=0.564(B-Y)+128Cr=0.713(R-Y)+128---(4)

其中Y是指亮度分量,Cb指蓝色色度分量,而Cr指红色色度分量。本文首先将基 于彩色空间的RGB模型转换为YCbCr模型,考虑到人脸的生理特征:亚洲人皮肤的颜 色通常是偏黄色,含部分红色,基本都可以只建立在考虑在Cr分量的基础上,因此这 里只采取了Cr分量作为辅助,寻找Cr值在10到255之间的点,将这个阈值内的点定 义为肤色点,设置为白色;将阈值外的点定义为非肤色点,设置为黑色。即通过选取合 适阈值可以把彩色差值图转换成二值差值图像,粗提取出肤色:白色为肤色,黑色为非 肤色。在提取前,如果对图像增强对比度,使得脸部五官和皮肤之间的对比度增强,更 容易辨认,也将使肤色提取工作更容易,识别结果更准确。

2)人脸区域的定位

本发明结合灰度图像边缘检测方法,采用4连通方法提取连通区域,在区域内寻找 面积最大的板块,确认人脸所在位置,完成人脸区域的定位。包括如下步骤:

a、灰度图像边缘检测

本发明采用经典边缘检测算法,边缘检测分为彩色图像边缘检测和灰度图像边缘检 测两种,由于彩色图像有八种彩色基,在边缘检测时选用不同的彩色基将直接影响实时 性、兼容性和检测效果,因此本课题只限于对灰度图像的边缘检测研究,其步骤如图6 所示。

经典的边缘提取办法是考察图像的每个像素在某个领域内灰度的变化,利用边缘邻 近的一阶或者二阶方向导数变化规律,用简单的方法检测边缘,这种方法称为边缘检测 局部算子法。边缘检测的基本思想是通过检测每个像元和其邻域的状态,以决定该像元 是否位于一个物体的边界上。如果每一个像元位于一个物体的边界上,则其邻域像元灰 度值的变化就比较大。假如可以应用某种算法检测出这种变化并进行量化表示,那么就 可以确定物品的边界。常用的边缘检测算子主要有:罗伯特(Roberts)边缘算子、索贝 尔(Sobel)边缘算子、Prewitt边缘算子、拉普拉斯(Laplacian)边缘算子、高斯-拉普 拉斯(Laplacian of Gaussian)边缘算子和坎尼(Canny)边缘算子。通过比较上述几种 算子得出的结果,本课题采用了Prewitt算子进行边缘检测。

b、采用4连通区域人脸定位

利用MATLAB的bwlabel函数进行特征区域提取:

[L,num]=bwlabel(BW,n)    (5)

根据领域的链接性质,将整个区域分为num个子区域,L为一矩阵,其中每个子区 域在此矩阵中的值为子区域的序号。值得注意的是,序号为0的情况(可以理解为背景, 直接弃之不用)。n指的是连通性质,4连通或者8连通。本发明采用4连通提取,即

L=bwlabel(BW,4)      (6)

比如BW如下式,3个框内即为连通子区域,剩下的即为区域0,可以视为背景。

对应生成的L矩阵即为

L=1110000011102200111022001110003011100030111000301110033011100000

标注“2”和“3”处,不属于连通,所以分开标记,因此连通区域个数为3。再通 过regionprops(L,'BoundingBox','FilledArea')来测量标注矩阵L中每一个标注区域的一系 列属性,这里测量出矩阵的面积,就可以在所有的连通区域内寻找面积最大的板块,即 可认定为人脸所在位置。当然,在为使特征区域提取有效、清晰,也需要在之前进行一 系列的图像处理,即对图像进行边缘检测、膨胀操作和填充图像区域“空洞”。对寻找 的连通区域进行图像填充并裁剪出该区域。

至此,人脸区域被完整的检测定位出来,但这里还包括脖子这块连通区域,在本发 明中由于不影响表情识别,而且考虑到运算速度和简化程序,因此不考虑再精确定位。

3)人脸表情特征的提取

本发明采用基于PCA(主成分分析)的表情人脸特征提取,即Principal Component  Analysis,主成分分析方法,基本原理是:利用K-L变换抽取人脸的主要成分,构成特 征脸空间,识别时将测试图像投影到此空间,得到一组投影系数,通过与各个人脸图像 比较进行识别。这种方法使得压缩前后的均方误差最小,且变换后的低维空间有很好的 分辨能力。

基于平均值的PCA算法的表情人脸特征提取包括训练样本特征向量的计算、训练样 本投影到特征脸空间及测试样本投影到特征脸空间。

a、训练样本特征向量的计算

设训练样本的维数为n,共有L类,N1,N2,...,NL分别表示每一类训练样本的数目,N 为训练样本总数,第c类训练样本集合表示为其中Nc为第 c类训练样本的数目;所有训练样本集合用X={X1,X2,...,XL}表示。

第c类训练样本的平均脸定义为:

mc=1NcΣi=1Ncxicc=1,2,...,L---(9)

对第c类训练样本进行规范化:

vic=xic-mci=1,2,...,Ncc=1,2,...,L---(10)

协方差矩阵定义为:

Q=Σi=1NviviT---(11)

其中,vi表示训练样本的规范化向量,且Q∈Rn×n,从矩阵Q的特征值和特征向量中, 取m个最大特征值对应的特征向量,即wi,i=1,2,...,m,从而构成了特征脸空间W∈Rm×n, 即W=[w1,w2,...,wm]T,其中m<n;

b、训练样本投影到特征脸空间

为了使测试样本与训练样本具有可比性,必须用同一平均脸对它们进行规范化,为 此必须计算所有训练样本的混合平均脸,即:

mc=1NΣc=1LΣi=1Ncxic---(12)

然后,对训练样本进行规范化:

xic=xic-mi=1,2,...,Ncc=1,2,...,L---(13)

其中,对于第c类任一训练样本,投影到特征脸空间,即可获得训练样 本的投影特征为:

yic=wTxici=1,2,...,Ncc=1,2,...,L---(14)

c、测试样本投影到特征脸空间

对任一测试样本xii∈Rm,首先用混合平均脸对它进行规范化,即

xiic=xiic-m---(15)

然后投影到特征脸空间,得到它的投影特征yii∈Rm,即

yiic=WTxiic---(16)

4)表情特征的分类识别

本发明采用基于欧氏距离的分类器设计。表情分类与表情识别是系统设计的最后一 个环节,本文已经通过一些方法提取到各个表情的特征值,目前的主要任务就是表情分 类器的设计与表情分类器的实现。表情分类器的设计好坏将会直接影响到系统的识别率 和鲁棒性。因此,表情分类器的设计是至关重要的环节。完成训练过程并获得了测试样 本的投影特征后,就进行分类识别。本文采用欧氏距离进行分类。对测试样本人脸图像 和特征空间各表情类别对应的特征空间向量之间的欧式距离进行计算,测试样本人脸图 像与哪一表情类别图像的距离最近就把其归入该类。

得到人脸特征空间后,就可以采用欧氏距离分类器对待识别图像进行识别,从而最 终得到表情分析的统计结果。识别步骤如下:

首先计算测试样本投影特征yii与第c类训练样本之间的欧氏距离,即:

d(yic,yii)=||yic-yii2||=[Σj=1m|yijc-yii·jj|2]12---(17)

其中,i=1,2,...,Nc,c=1,2,...,L,j=1,2,...,m,c表示第c类第i个训练样本的投影 特征的第j个元素;表示任一测试样本投影特征的第j个元素。计算测试样本的投影 特征与所有训练样本投影特征的欧氏距离,将测试样本判为与训练样本投影特征欧氏距 离最小的样本所对应的类别。其判据为:

(yic*,yii)=min1cmin1cLmin1iNcmin1iNcd(yic*,yii)---(18)

其中,c*为测试样本的类别。识别流程如图7如示。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员 来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也 应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号