首页> 中国专利> 基于结构性稀疏特征学习的三维动态人脸表情识别方法

基于结构性稀疏特征学习的三维动态人脸表情识别方法

摘要

本发明涉及一种基于结构性稀疏特征学习的三维动态人脸表情识别方法,对图像序列预处理,将人类表情样本的RGB和深度序列分别分割为三维模块;提取每个三维模块的LBP-TOP纹理特征;以三维模块纹理特征为编码字典训练样本,并得到RGB和深度序列的编码字典B;利用编码字典B计算得到所有三维模块纹理特征的RGB和深度稀疏编码表示;利用汇聚算法将所有稀疏编码值汇聚统计表示,缩小特征维数,并合并RGB和深度特征,得到最终人脸表情序列特征;利用PCA算法降维,将降维后的特征输入CRFs实现样本训练;针对测试样本,依次采用上述步骤处理,投影至训练样本PCA空间降维,最终输入CRFs分类器实现表情识别。

著录项

  • 公开/公告号CN103971137A

    专利类型发明专利

  • 公开/公告日2014-08-06

    原文格式PDF

  • 申请/专利权人 上海电力学院;

    申请/专利号CN201410189169.6

  • 发明设计人 邵洁;

    申请日2014-05-07

  • 分类号G06K9/66(20060101);G06K9/00(20060101);

  • 代理机构31001 上海申汇专利代理有限公司;

  • 代理人吴宝根;王晶

  • 地址 200090 上海市杨浦区平凉路2103号

  • 入库时间 2023-12-17 01:00:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-29

    授权

    授权

  • 2014-09-03

    实质审查的生效 IPC(主分类):G06K9/66 申请日:20140507

    实质审查的生效

  • 2014-08-06

    公开

    公开

说明书

技术领域

本发明涉及一种三维动态人脸表情识别方法,尤其是一种在RGB-D摄像头(彩色及深度摄像头,如Kinect)视频拍摄条件下的人脸表情识别方法。

背景技术

表情是人重要的情感表达方式,因此,人脸表情识别技术是机器理解人类感情的基础,也是人类对自身情感智能化研究的有效途径。它不仅可以在诸如智能机器人、远程医疗、远程教育、智能游戏等人机互动的各种应用领域中发挥作用,还能够为商业决策,安全监控和辅助医疗等领域提供有效分析数据。

目前已有的人脸表情识别成果大多基于二维平面图像研究,在我国也尚未出现针对动态三维脸部视频图像表情识别的研究成果。作为脸部肌肉在三维空间中的一种运动过程,发掘人脸在深度空间和时间上的变化特征将更有助于提高自然状态的脸部表情识别率,推动脸部表情识别算法的实用化。RGB-D传感器,如Kinect或Intel的Creative SENZ3D摄像头等的普及,也为基于三维视频图像的人脸表情识别算法在人机互动领域的应用提供了条件。最早出现的针对三维视频图像的人脸表情识别研究来自于2008年发表在ECCV(欧洲计算机视觉会议)上L. Yin等人的一片文章“Facial expression recognition based on 3D dynamic range model sequences”。但该算法采用2D纹理与人工标定的3D脸部特征点信息融合的特征实现表情识别,并没有提出脸部三维特征的提取方法。基于自动三维特征提取识别人脸表情的研究成果出现在2011年,且此后几年中,有约不到10篇相关研究论文在国际上发表,其中一些取得了不俗的识别精确率。但以上研究成果均以高分辨率的三维重建视频为输入数据,而三维重建数据的建立需要高分辨率的图像输入和复杂的数据计算,因此不适用于以普通RGB-D传感器为视频媒介的人机互动相关应用。

发明内容

本发明提出了一种直接基于RGB-D图像序列提取4D(2D空间+深度+时间)特征的三维动态人脸表情识别方法,该方法适用于各种正常分辨率(320×240像素大小及以上)的RGB-D图像输入,可直接应用于各种基于RGB-D传感器的人机互动应用。

本发明的技术方案是:一种基于结构性稀疏特征学习的三维动态人脸表情识别方法,其步骤是:

1、针对训练样本集,对图像序列预处理,将人类表情样本的RGB 和深度序列分别分割为一定大小三维模块,使整个序列中的脸部图像像素位置一致;

2、提取每个三维模块的LBP-TOP纹理特征;

3、以三维模块纹理特征为编码字典训练样本,通过字典初始化和更新流程分别得到RGB 和深度序列的编码字典B;利用编码字典B计算得到所有三维模块纹理特征的RGB和深度稀疏编码表示;

4、利用汇聚算法将所有稀疏编码值汇聚统计表示,缩小特征维数,并合并RGB和深度特征,得到最终人脸表情序列特征;

5、利用PCA算法降维,将降维后的特征输入条件随机场模型(CRFs)实现样本训练;

6、针对测试样本,依次采用步骤2-4处理,投影至训练样本PCA空间降维,最终输入条件随机场模型(CRFs)分类器实现表情识别。

对图像序列预处理具体方法是:

首先定位每帧图像的人眼位置,以双眼中心点的连接线中点为各帧基准点,采用人脸检测算法提取第一帧图像的脸部上边缘坐标,以第一帧图像的基准点与脸部上边缘坐标差值为脸部基准高度,第一帧双眼与基准点平均距离为脸部基准宽度;此后各帧,在各帧基准点位置确定的基础上,以基准点垂直上方基准高度处为该帧脸部上边缘y值,基准点垂直向下两倍基准高度处为脸部下边缘y值;基准点水平向左两倍基准宽度为脸部左侧边缘x值,同理水平向右两倍基准宽度为右侧边缘x值。

提取每个三维模块的LBP-TOP纹理特征具体方法是:

将预处理后的RGB图像和深度图像划分为相同个数的n×n大小,保持当前表情序列长度T,则每个图像序列可分为n×n×T大小的三维模块:

针对二维图像,若给出位于的像素点,为该点的像素值,则其3×3邻域空间中的LBP特征为:

(1)

作为LBP在三维空间的延伸,LBP-TOP(Three Orthogonal Planes)在空间时间中三个平面上分别计算LBP值实现动态纹理特征统计;若定义v为某一像素时空邻域的LBP-TOP特征,以()表示该像素点位置。P为其邻域个数。则:

(2)

其中,为中心像素点灰度值,

最终可以得到每个表情样本的4D纹理特征;177为每个三维模块的LBP-TOP特征维数,N为模块总数,2对应一种表情的RGB和深度图像两个序列。

以三维模块纹理特征为编码字典训练样本,通过字典初始化和更新流程分别得到RGB 和深度序列的编码字典B,利用编码字典B计算得到所有三维模块纹理特征的RGB和深度稀疏编码表示具体方法:

首先,以所有三维模块4D 纹理特征为特征训练样本集,采用k-均值聚类初始化编码字典B,再对编码字典B 进行优化,从全部特征训练样本集中随机取部分样本,采用循环方式进行字典优化;设字典,由此得到的稀疏编码为,指某一三维模块纹理特征,按照如下公式计算:

(3)

(4)

以上公式中,表示两向量间的点积运算,,其中为和间的欧式距离,为权重参数,在k-均值聚类初始化得到B值后,将参与字典优化的训练样本依次代入循环中,每次循环无重复使用其中一个样本,循环数等于参与字典优化的样本数;在每次循环中,将某样本与当前字典B代入公式(3)得到的稀疏编码,只有在中大于某预定义阈值的元素对应的项会被更新,这一过程如公式(5)所示:

(5)

再将代入公式(6),得到结果为

(6)

利用值采用梯度下降法更新,结合未被更新的其他项生成新的编码字典B;

在得到更新后的字典后,将B代入公式(3),依次算出所有特征样本的LLC稀疏编码值;在上述编码过程中,RGB和深度图像是分别计算其各自的编码字典和稀疏编码值的,针对每一个人脸表情序列样本,其LLC编码特征维数为M×2×N,其中M为字典条目数。

利用汇聚算法将所有稀疏编码值汇聚统计表示,缩小特征维数,并合并RGB和深度特征,得到最终人脸表情序列特征的具体方法:

将提取特征时分割得到的三维模块分组汇聚,组成金字塔式单元,以每一个单元中的稀疏编码最大值表示该单元特征值:图像长轴划分个数×图像宽轴划分个数×时间轴划分个数,每个单元Q的特征值F(Q)计算公式为:

(7)

依据上述图像序列的单元划分方式,将所有单元特征累积,得到最终该人脸表情序列的特征向量。

输入条件随机场模型(CRFs)分类器实现表情识别具体方法:

以每一个表情样本的观察特征为,其类别标签为,则每一个样本特征为表征样本纹理和形态特征的随机变量,对应CRF中一个输入节点;而每一个对应表征表情类型的随机变量,为输出节点;采用线性链式结构的CRFs模型为:

(8)

(9)

这里是归一化因子,则为特征函数,给出N个训练样本后,在训练过程中计算出使条件对数似然值最大化的最优权值,即:

(10)

(11)

上式中,参数的估计使用L-BFGS算法解决。

本发明的有益效果是:

本发明在经初始化实现脸部检测和数据校准后,在RGB和深度图像序列上分别提取3D纹理特征,以这些纹理特征为基础特征,通过k-均值聚类算法初始化编码字典。再利用局部限定线性编码算法(LLC)对编码字典进行学习更新,再计算得到每个纹理特征描述的稀疏编码表示。采用金字塔汇聚算法(Pyramid pooling)保留脸部图像的结构特征,并利用主成分分析(PCA)降维后,输入条件随机场模型(CRFs)实现样本训练和分类。由此得到表情识别结果。

因此,本发明在三维重建数据的建立不需要高分辨率的图像输入和复杂的数据计算,适用于以普通RGB-D传感器为视频媒介的人机互动相关应用。

具体实施方式

一种直接基于RGB-D图像序列提取4D(2D空间+深度+时间)特征的三维动态人脸表情识别方法,具体步骤是:

1.图像序列预处理:

预处理的目的是保证整个序列中的脸部图像像素位置一致。首先定位每帧图像的人眼位置。以双眼中心点的连接线中点为各帧基准点。采用人脸检测算法提取第一帧图像的脸部上边缘坐标,以第一帧图像的基准点与脸部上边缘坐标差值为脸部基准高度,第一帧双眼与基准点平均距离为脸部基准宽度。此后各帧,在各帧基准点位置确定的基础上,以基准点垂直上方基准高度处为该帧脸部上边缘y值,基准点垂直向下两倍基准高度处为脸部下边缘y值。基准点水平向左两倍基准宽度为脸部左侧边缘x值,同理水平向右两倍基准宽度为右侧边缘x值。

2.4D 纹理特征提取:

将预处理后的RGB图像和深度图像划分为相同个数的n×n大小。保持当前表情序列长度T,则每个图像序列可分为n×n×T大小的三维模块。针对每个三维模块提取基于LBP-TOP的动态纹理特征。

针对二维图像,若给出位于的像素点,为该点的像素值,则其3×3邻域空间中的LBP特征为:

(1)

作为LBP在三维空间的延伸,LBP-TOP(Three Orthogonal Planes)在空间时间中三个平面上分别计算LBP值实现动态纹理特征统计。若定义v为某一像素时空邻域的LBP-TOP特征,以()表示该像素点位置。P为其邻域个数。则:

(2)

其中,为中心像素点灰度值,。

最终可以得到每个表情样本的4D纹理特征。177为每个三维模块的LBP-TOP特征维数,N为模块总数,2对应一种表情的RGB和深度图像两个序列。

3.稀疏编码特征学习:

采用特征学习的方法得到每个三维模块特征的编码表示。首先,以所有三维模块4D 纹理特征为特征训练样本集,采用k-均值聚类初始化编码字典B。再对编码字典B 进行优化。从全部特征训练样本集中随机取部分样本,采用循环方式进行字典优化。设字典,由此得到的稀疏编码为。指某一三维模块纹理特征。按照如下公式计算:

(3)

(4)

以上公式中,表示两向量间的点积运算。,其中为和间的欧式距离。为权重参数。在k-均值聚类初始化得到B值后,将参与字典优化的训练样本依次代入循环中,每次循环无重复使用其中一个样本,循环数等于参与字典优化的样本数。在每次循环中,将某样本与当前字典B代入公式(3)得到的稀疏编码。只有在中大于某预定义阈值的元素对应的项会被更新,这一过程如公式(5)所示。

(5)

再将代入公式(6),得到结果为。

(6)

利用值采用梯度下降法更新,结合未被更新的其他项生成新的编码字典B。

在得到更新后的字典后,将B代入公式(3),依次算出所有特征样本的LLC稀疏编码值。在上述编码过程中,RGB和深度图像是分别计算其各自的编码字典和稀疏编码值的,因此针对每一个人脸表情序列样本,其LLC编码特征维数为M×2×N。M为字典条目数。

4.金字塔汇聚:

空间金字塔汇聚算法被应用于每一个人脸表情序列中,实现在降低特征维数的同时,保留图像结构特征。将之前提取特征时分割得到的三维模块分组汇聚,组成金字塔式单元。以每一个单元中的稀疏编码最大值表示该单元特征值。如,将整个图像序列划分为1×1×1,2×2×1和4×4×1(图像长轴划分个数×图像宽轴划分个数×时间轴划分个数)个单元,处于该单元中的所有模块参与该单元特征值的计算。每个单元Q的特征值F(Q)计算公式为:

(7)

依据上述图像序列的单元划分方式,将所有单元特征累积,得到最终该人脸表情序列的特征向量。

5.分类器人脸表情识别:

将上述特征经由主成分分析(PCA)算法降维后,输入CRFs分类器训练和识别。CRFs原理为:以每一个表情样本的观察特征为,其类别标签为。则每一个样本特征为表征样本纹理和形态特征的随机变量,对应CRF中一个输入节点;而每一个对应表征表情类型的随机变量,为输出节点。这里采用的线性链式结构的CRFs模型为:

(8)

(9)

这里是归一化因子,则为特征函数。给出N个训练样本后,在训练过程中能够计算出使条件对数似然值最大化的最优权值,即:

(10)

(11)

上式中,参数的估计问题可以使用L-BFGS(Limited memory Broyden Fletcher Goldfarb Shanno)算法解决。

应用实例:

以帮助自闭症患儿理解人的表情为例诠释该算法的应用。采用Intel的Creative SENZ3D摄像头和电脑为硬件辅助设备。开启算法运行后,算法可以自动捕获摄像头中儿童的表情,辅助动画软件,在显示器中相应显示出微笑、悲伤、惊讶、生气、厌恶、恐惧等6中常见表情的动画形象,利用情感反馈帮助自闭症患儿理解不同的情感表达。

算法具体实施步骤:

1、针对训练样本集,将人类表情样本的RGB 和深度序列分别分割为一定大小三维模块

2、提取每个三维模块的LBP-TOP纹理特征

3、以三维模块纹理特征为编码字典训练样本,通过字典初始化和更新流程分别得到RGB 和深度序列的编码字典B。

4、利用编码字典B计算得到所有三维模块纹理特征的RGB和深度稀疏编码表示。

5、利用汇聚算法将所有稀疏编码值汇聚统计表示,缩小特征维数,并合并RGB和深度特征,得到最终人脸表情序列特征。

6、利用PCA算法降维

7、将降维后的特征输入CRFs实现样本训练。

8、针对测试样本,依次采用步骤2-5处理,投影至训练样本PCA空间降维,最终输入CRFs分类器实现表情识别。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号