公开/公告号CN112560824A
专利类型发明专利
公开/公告日2021-03-26
原文格式PDF
申请/专利权人 之江实验室;
申请/专利号CN202110200931.6
申请日2021-02-23
分类号G06K9/00(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构33213 杭州浙科专利事务所(普通合伙);
代理人孙孟辉
地址 310023 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼
入库时间 2023-06-19 10:24:22
技术领域
本发明属于人工智能领域,具体涉及一种人脸表情识别方法。
背景技术
人脸表情是最直接、最有效的情感识别模式。它有很多人机交互方面的应用,例如疲劳驾驶检测和手机端实时表情识别。在20世纪Ekman等专家通过跨文化调研提出了七类基础表情,分别是生气,害怕,厌恶,开心,悲伤,惊讶以及平静。
目前主流的表情识别方法为基于传统机器学习的方法或者基于深度学习的方法。基于传统机器学习方法基本流程为:人脸检测,人脸表情特征提取,人脸表情特征分类。其中提取表情特征的方法可选择:HOG(HistogramofOrientedGradient)、LBP(LocalBinaryPattern)、Gabor等特征,特征分类器可以选择SVM,Adaboost等。基于深度学习方法基本流程为:人脸提取,人脸表情识别,通过提取出的人脸输入神经网络中进行自主学习。
在目前相关技术中,表情识别泛化性差,针对不同人种、不同脸型的目标存在识别结果差异性大,同时在视频连续动态识别过程中,识别结果稳定性差。
发明内容
本发明要解决的技术问题是提供一种基于多特征自适应融合的人脸表情识别方法。
为解决上述问题,本发明采用的技术方案包括步骤:
S1、从待识别表情图像中检测出对应的人脸区域,截取人脸区域图像块后,用于表情识别;
S2、利用多种特征提取方法对人脸区域进行特征提取;
步骤S2中所述的利用多种特征提取方法,包括HOG、LBP、CNN中的一种或多种对步 骤S1获取的人脸区域进行特征提取,得到对应特征集合
S3、将特征集合
所述步骤S3具体为:
步骤S31、针对步骤S2获取的特征集合
其中,
步骤S32、将集合
步骤S33、先将集合
上式中,concat运算将集合
上式中,Softmax具体运算操作为:
其中,
上式中,split运算将
步骤S34、将步骤S33分离后的权重向量集合
S4、将融合后的特征进行识别。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于:步骤S1中所述的待识别图像通过摄像头或者用户已有图像数据库获取,并采用基于图像特征提取算法LBP和分类算法Adaboost的组合以及MTCNN、Faceboxes深度学习算法检测出对应的人脸区域。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述步骤S4具体为:
S41、将步骤S34融合后的特征向量
S42、使用Softmax对向量
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述MTCNN深度学习算法具体为:
S11.首先将图像进行不同尺度的变换,构建图像金字塔,以适应不同大小的人脸的进行检测;
S12.利用神经网络P-Net(ProposalNetwork)对上一步构建完成的图像金字塔进行初步特征提取与标定边框,P-Net利用3个浅层的卷积层对输入进行特征提取,然后通过人脸分类器判断该区域是否包含人脸,并且P-Net使用边框回归和面部关键点的定位器来进行人脸区域的初步提取,因此该网络将输出大量可能存在人脸的人脸区域;
S13.利用较为复杂的神经网络R-Net(RefineNetwork)对P-Net产生的多张人脸区域进行细化选择,并且舍去大部分的错误输入,且再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,将输出较为可信的人脸区域;
S14.利用更为复杂的神经网络O-Net(outputnetwork)对R-Net输出的人脸区域进行更加精细化的筛选,同样,该网络将输出人脸区域和人脸特征定位点且将该网络的输出作为最终输出,其中O-Net包含四个深层的卷积层和一个全连阶层。
所述的一种基于多特征自适应融合的人脸表情识别方法,其特征在于,所述Faceboxes深度学习算法具体为:
S111.通过神经网络大尺寸卷积核以及下采样Pooling层对输入空间进行快速缩小;
S112.仿照SSD(SingleShotMultiBoxDetector)设计多尺度卷积层并通过使用更加密集的anchorboxes对缩小后的特征图进行人脸区域回归,最终进行不同尺度大小的人脸目标识别。
本发明的一种基于多特征自适应融合的人脸表情识别方法优点如下:
1、融合多种特征对人脸表情进行识别,由于特征提取方式的不同,例如HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征而LBP则通过对比中心元素与周围像素点大小来提取图像局部纹理特征;因此,不同人脸表情特征方式具有表达不同的表情信息的能力,而特征融合能有效将特征间的信息进行合并提高特征的信息量。
2.仿照SSD(SingleShotMultiBoxDetector)设计多尺度卷积层并通过使用更加密集的anchorboxes对缩小后的特征图进行人脸区域回归,实现不同尺度大小的人脸目标检测。
附图说明
图1为本发明方法的流程图;
图2为VGG-16网络结构图;
图3是一种表情融合和分类网络模型结构图示例。
具体实施方式
参照图1-3所示,本发明的基于多特征自适应融合的人脸表情识别方法包括如下几个步骤:
步骤101、从待识别表情图像中检测出对应的人脸区域。
所述待识别图像可通过实时摄像头中获取,也可是用户已有图像数据库中的图像中获取。并采用基于图像特征提取算法LBP和分类算法Adaboost的组合或采用MTCNN、Faceboxes深度学习算法检测出对应的人脸区域。其中,
所述MTCNN深度学习算法具体为:
1.首先将图像进行不同尺度的变换,构建图像金字塔,以适应不同大小的人脸的进行检测。
2.利用神经网络P-Net(ProposalNetwork)对上一步构建完成的图像金字塔进行初步特征提取与标定边框,P-Net利用3个浅层的卷积层对输入进行特征提取,然后通过人脸分类器判断该区域是否包含人脸,并且P-Net使用边框回归和面部关键点的定位器来进行人脸区域的初步提取,因此该网络将输出大量可能存在人脸的人脸区域;
3.利用较为复杂的神经网络R-Net(RefineNetwork)对P-Net产生的多张人脸区域进行细化选择,并且舍去大部分的错误输入,且再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,将输出较为可信的人脸区域;
4.利用更为复杂的神经网络O-Net(outputnetwork)对R-Net输出的人脸区域进行更加精细化的筛选,同样,该网络将输出人脸区域和人脸特征定位点且将该网络的输出作为最终输出,其中O-Net包含四个深层的卷积层和一个全连阶层。
所述Faceboxes深度学习算法具体为:
1.通过神经网络大尺寸卷积核以及下采样Pooling层对输入空间进行快速缩小;
2.仿照SSD(SingleShotMultiBoxDetector)设计多尺度卷积层并通过使用更加密集的anchorboxes对经步骤1缩小后的特征图进行人脸区域回归,实现不同尺度大小的人脸目标检测。
所述LBP(LocalBinaryPattern,局部二值模式)是一种用来描述图像局部纹理特征的算法,它具有旋转不变性和灰度不变性等显著的优点。所述Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器。本发明采用将二种算法的结合检测出对应的人脸区域。所述LBP、Adaboost自身为公知技术,在此不做赘述。
步骤101、从待识别表情图像中检测出对应的人脸区域。
在步骤101中提取的人脸区域后,先将提取的人脸区域缩放至长宽均为96像素大 小的正方形图像,然后使用多种特征提取方法对该人脸区域进行特征提取。多种特征提取 方法可选用HOG和CNN。其中,HOG即:方向梯度直方图(HistogramofOrientedGradient, HOG)。由于HOG特征提取方法输入为灰度图像,而上述人脸区域缩放后仍为彩色图像,因此, 本发明先对输入图像进行灰度化处理。通常彩色图像由RGB三个色彩通道组成,每个色彩通 道取值范围为0~255,而灰度图只有一个通道,取值范围同样为0~255。本发明采用加权平均 法对彩色图像进行灰度化处理。假设生成的灰度图为
HOG特征提取方法中的方向梯度实现为:1.利用梯度算子
式中
进一步的,针对输入灰度图像
本发明使用的CNN特征提取模型为经过ImageNet数据集预训练的网络模型VGG- 16。该特征提取方法为:1.将人脸区域缩放至224*224像素大小,2.将缩放后的图像输入包 含预训练参数的VGG-16网络,3.获取网络全连接之前的特征向量1*1*4096。因此,本发明特 征向量长度集合为
步骤103、自适应融合多种人脸表情特征。
在步骤102中的一个示例中提取了CNN和HOG特征且特征维度分别为一维4096和 4356,为融合这两种特征,本发明使用神经网络中全连接的方式将这两个特征向量维度映 射到同一长度,在一个示例中,可以选择长度
加权平均法:
其中,
拼接法:
考虑到直接拼接法融合将造成过大的特征维度,对应全连接网络需要更多的参数,容易造成网络过拟合,因此,本发明将基于加权平均法对各项特征进行融合。通常,上述加权平均法的权重系数为人为设定缺乏数据支撑,因此,本网络通过引入可训练权重参数让网络根据数据进行自适应参数调整。其中一个示例网络结构图如下图3所示,流程如下:
1.经过HOG和CNN提取后的特征向量为
2.
3.
4.将
5.利用Softmax对特征
6.将
最终,得到的权重系数如下;
7.利用生成的权值向量与特征相乘得到加权后的特征向量,最后将加权后的特征 向量相加得到融合后的向量
式中,
步骤104、对融合特征进行分类。
在步骤103示例中,融合后的特征
综上所述,本实施例提供的方法,通过提取多种特征增加了人脸表情表达能力,并且通过自适应融合方式进一步增加模型的鲁棒性。
综上所述,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施案例揭示如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的结构及技术内容做出些许的更动或修饰为等同变化的等效实施案例,但是凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施案例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案范围。
机译: 基于多特征空间几何处理的基于电磁能量的信息提取装置及方法
机译: 基于多特征提取和转移学习的机器学习装置及方法,以及使用该方法的泄漏检测装置
机译: 基于多特征提取和转移学习的机器学习装置/方法,以及使用相同方法的泄漏检测装置