首页> 中国专利> 一种基于递归神经网络的离散情感识别方法

一种基于递归神经网络的离散情感识别方法

摘要

本发明提出的一种基于递归神经网络的离散情感识别方法,步骤为:1、对视频中的图像信号进行人脸检测及跟踪,得到人脸区域后,提取人脸关键点作为人脸的形变特征;将人脸区域裁剪并归一化到统一大小,提取人脸的外观特征;2、对视频中的音频信号进行加窗处理,分割出音频序列单元并提取音频特征;3、利用具有长短时记忆模型的递归神经网络分别对上述得到的三项特征进行时序编码,获得固定长度的情感表征向量;并将其相串联,得到最终情感表述特征;4、基于的支持向量机分类器,利用3中得到的最终情感表述特征进行情感类别预测。该方法能够充分利用情感表达过程中的动态信息,从而实现视频中参与者情感的精确识别。

著录项

  • 公开/公告号CN105469065A

    专利类型发明专利

  • 公开/公告日2016-04-06

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN201510889388.X

  • 申请日2015-12-07

  • 分类号G06K9/00(20060101);G06K9/62(20060101);

  • 代理机构北京博维知识产权代理事务所(特殊普通合伙);

  • 代理人方振昌

  • 地址 100080 北京市海淀区中关村东路95号

  • 入库时间 2023-12-18 15:24:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-23

    授权

    授权

  • 2016-05-04

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20151207

    实质审查的生效

  • 2016-04-06

    公开

    公开

说明书

技术领域

本发明属于视频信号处理领域,具体地涉及一种基于具有长短时记 忆模型的递归神经网络的离散情感识别方法,并以此来提高离散情感识 别的精度。

背景技术

近年来,国内外研究人员对离散情感识别进行了大量的研究工作, 提出了许多用于情感识别的有效算法。这些方法从处理策略上可以分为 基于静态图像的情感识别和基于动态视频的情感识别。在基于视频的情 感识别工作的主要框架为:先提取视频中每帧图像的特征,再最大池化 这些特征并得到统一长度的情感特征,最后用该特征进行情感分类。该 框架通过最大池化的方法将长度不等的特征序列统一映射为一个特征 向量,进而进行分类器的训练及最终的预测。然而,该方法忽略了情感 表达是一个动态过程,情感表达中的动态信息对情感识别有重要作用。 仅仅通过最大池化特征序列的方法,完全忽视了情感表达的动态信息, 有着很大的信息损失。

发明内容

为了解决上述技术问题,本发明提出了一种基于递归神经网络的离 散情感识别方法,该方法能够充分利用情感表达过程中的动态信息,从 而实现视频中参与者情感的精确识别。

本发明提出的一种基于递归神经网络的离散情感识别方法,包括以 下步骤:

步骤1,对视频中的图像信号进行人脸表情特征的提取:

对视频中的图像信号进行人脸检测及跟踪,得到人脸区域后,提取 人脸关键点,作为人脸的形变特征;

将人脸区域裁剪并归一化到统一大小,提取人脸的外观特征;

步骤2,对视频中的音频信号进行音频特征的提取:

对视频中的音频信号进行加窗处理,分割出音频序列单元;

在分割出的音频序列单元上提取音频特征;

步骤3,利用具有长短时记忆模型的递归神经网络分别对所述人脸 的形变特征、人脸的外观特征、音频特征进行时序编码,获得固定长度 的情感表征向量;将所获得的情感表征向量相串联,得到视频数据的最 终情感表述特征;

步骤4,基于支持向量机算法设计的支持向量机分类器,利用步骤 3中得到的最终情感表述特征进行情感类别预测。

优选的,所述步骤1中人脸的形变特征的提取方法为:

对于视频序列中的第一帧图像进行人脸检测,得到人脸区域图像后 对后续每帧图像进行人脸跟踪,跟踪时停止进行人脸检测;在人脸跟踪 过程中,如果人脸跟踪失败,则对当前帧图像重新进行人脸检测寻找人 脸区域图像后继续进行人脸跟踪;

提取每帧人脸区域图像对应的人脸关键点,将得到的人脸关键点作 为一组人脸的形变特征,用于描述人脸的形态及头部运动信息。

优选的,所述步骤1中所述人脸检测采用Haar特征及AdaBoost 分类器进行检测;所述的人脸跟踪采用均值漂移算法进行跟踪;所述人 脸关键点根据ASM算法进行提取。

优选的,所述人脸关键点包括眼球点及眼角点、鼻唇中心点、嘴角 点。

优选的,在步骤1中得到人脸关键点后,对每帧人脸区域图像的人 脸关键点的坐标值进行归一化处理,并采用主成分分析法对所述人脸关 键点的坐标值进行降维和白化处理。

优选的,步骤2中提取音频特征的方法为:在分割出的音频序列单 元上按照固定的帧长及帧移,对视频中的语音信号按帧提取能量、幅值、 MFCC参数、LSP参数及梅耳谱参数作为音频特征。

优选的,步骤2中,按帧提取音频特征后,采用主成分分析法对于 所述音频进行降维和白化处理。

优选的,步骤3中所述具有长短时记忆模型的递归神经网络的结构 包括:一个具有长短时记忆模型的递归层、一个均值池化层、一个逻辑 回归层;其中所述具有长短时记忆模型的递归层用于学习输入特征序列 之间的时序变化模式,所述均值池化层将所述具有长短时记忆模型的递 归层对应于输入特征序列的所有输出取均值,所述逻辑回归层将均值池 化层的输出作为所输入特征序列的情感表征向量。

优选的,该方法包括训练阶段和预测阶段,两个阶段均包括步骤1 至步骤4,区别在于:

训练阶段:

在步骤3中采用利用具有长短时记忆模型的递归神经网络分别对 所述人脸的形变特征、人脸的外观特征、音频特征进行处理得到相应的 情感表征向量的方法,分别训练与上述三个特征对应的递归神经网络, 并保存权值;

在步骤4中采用步骤3中得到的最终情感表述特征进行情感类别预 测的方法进行所述支持向量机分类器的训练;

预测阶段:

在步骤3中采用的具有长短时记忆模型的递归神经网络为训练阶 段训练好的三个特征对应的递归神经网络;

步骤4中采用的支持向量机分类器为训练阶段训练好的支持向量 机分类器。

优选的,所述具有长短时记忆模型的递归神经网络的训练采用最速 梯度下降法,其中的损失函数采用交叉熵损失函数。

本发明在基于视频的情感识别中,采用具有长短时记忆模型的递归 神经网络对视频序列数据进行时序编码,利用递归神经网络的时序建模 能力,通过神经网络的参数学习,学习各帧特征之间的相互作用,即长 跨度及短跨度相结合,实现了序列中不同粒度上的有效建模,融合了情 感表达的动态特征,从而实现视频中参与者情感的精确识别。

附图说明

图1是本发明基于具有长短时记忆模型的递归神经网络的识别方 法流程图;

图2是本发明步骤1的流程示意图;

图3是本发明步骤2的流程示意图;

图4是本发明步骤3采用的递归神经网络的结构示意图;

图5是本发明采用采用的LSTM节点结构示意图;

图6是本发明时序展开的网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体 实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,在附图或说明书描述中,相似或相同的部分都使用 相同的图号。附图中绘示或描述的实现方式,为所属技术领域中普通技 术人员所知的形式。应该指出,所描述的实例仅仅视为说明的目的,而 不是对本发明的限制。

如图1所示,本发明的基于递归神经网络的离散情感识别方法包括 以下步骤:

步骤1,对视频中的图像信号进行人脸表情特征的提取,如图2所 示:

步骤11,对视频中的图像信号进行人脸检测及跟踪,得到人脸区 域后,提取人脸关键点,作为人脸的形变特征;

步骤12,将人脸区域裁剪并归一化到统一大小,提取人脸的外观 特征。

所述步骤11中人脸的形变特征的提取方法为:首先对于视频序列 中的第一帧图像进行人脸检测,得到人脸区域图像后对后续每帧图像进 行人脸跟踪,跟踪时停止进行人脸检测;但如果在人脸跟踪过程中人脸 跟踪失败,则需要对于当前帧图像重新进行人脸检测寻找人脸区域图像 后继续进行人脸跟踪;在得到每帧图像的人脸检测或跟踪的人脸区域图 像后,提取得到每帧人脸区域图像对应的人脸关键点,并将得到的人脸 关键点作为一组人脸的形变特征,用于描述人脸的形态及头部运动信息。

在本发明实施例中,采用Haar特征及AdaBoost分类器进行人脸检 测;采用均值漂移算法进行人脸跟踪;采用ASM算法提取得到人脸的 关键点,其中,所述人脸关键点包括眼球点及眼角点、鼻唇中心点、嘴 角点三部分。

在本发明实施例中,在所述步骤11得到人脸关键点之后,对每帧 人脸区域图像的人脸关键点的坐标值进行归一化处理,即将每帧人脸区 域图像的人脸关键点的坐标值减去所有人脸关键点的坐标均值;之后采 用主成分分析法对于所述人脸关键点的坐标值进行降维,降维之后通过 白化处理使所有特征的方差为1.0其中,降维后数据的能量保持在降维 前数据能量的90%。

数据的白化处理是为了使降维后的所有特征的方差为1.0且特征之 间的相关性较低。具体做法为:求得降维后数据的每一维除以各自维度 上的标准差,从而使降维后的数据的每一维的方差为1。

在得到人脸的形变特征后,步骤12主要完成人脸区域图像的校正, 并提取相应的人脸的外观特征。具体地,所述步骤12进一步包括以下 步骤:

步骤121,根据所述人脸关键点中左、右眼睛眼角的关键点进行连 线,得到眼角连线与水平线之间的夹角,根据所述夹角对于所述人脸区 域图像进行旋转,使所述夹角变为0度;

步骤122,对于旋转后的人脸区域图像进行尺度缩放,使所述眼角 连线的长度为M个像素,其中,100≥M≥50;

步骤123,根据左眼角关键点的位置对于经过尺度缩放的人脸区域 图像进行裁剪,以使得到的人脸区域图像达到第一预定大小;

在本发明实施例中,所述第一预定大小为2Mx2M,且左眼角关键 点的位置为横纵坐标分别为0.8M和0.6M。

步骤124,对于裁剪得到的人脸区域图像进行灰度化,并将所述人 脸区域图像中每个像素的灰度值减去所述人脸区域图像的像素灰度值 均值,并对于归一化后的人脸区域图像的像素灰度值进行主成分分析降 维和白化处理,降维后的特征能量保持在降维前特征总能量的80%, 将降维后的人脸区域图像的所有像素灰度值作为人脸的外观特征。

这样,对于每帧人脸区域图像,均能够得到人脸的形变特征和人脸 的外观特征两组人脸特征。

步骤2,对视频中的音频信号进行音频特征的提取:对视频中的音 频信号进行加窗处理,分割出音频序列单元;在分割出的音频序列单元 上提取包括线谱对、基音周期和增益均值的特征参数的音频特征。

如图3所示,参数提取步骤的具体实现方式如下:

步骤21,对于每帧语音数据进行高通滤波,消除语音采集过程中带来 的工频干扰;

步骤22,计算每帧语音数据的能量、幅值、MFCC参数、LSP参数及 梅耳谱参数作为音频特征;

步骤23,对步骤22每帧语音数据的参数采用0均值标准化 (Z-scorestandardization)进行参数归一化,采用主成分分析法对于所 述音频进行降维和白化处理,保留降维前特征总能量的80%,将降维后 的各参数作为音频特征进行进一步处理。

步骤3,利用具有长短时记忆模型的递归神经网络分别对所述人脸 的形变特征、人脸的外观特征、音频特征进行时序编码,获得固定长度 的情感表征向量;将所获得的情感表征向量相串联,得到视频数据的最 终情感表述特征;

如图4所示,所述具有长短时记忆模型的递归神经网络的结构包括: 一个具有长短时记忆模型的递归层(Longshorttermmemoryrecurrent neuralnetwork,简称LSTM)、一个均值池化层、一个逻辑回归层;其中 所述具有长短时记忆模型的递归层用于学习输入特征序列之间的时序 变化模式,所述均值池化层将所述具有长短时记忆模型的递归层对应于 输入特征序列的所有输出取均值,所述逻辑回归层将均值池化层的输出 作为所输入特征序列的情感表征向量。

具有长短时记忆模型的递归神经网络的训练采用最速梯度下降法, 其中的损失函数采用交叉熵损失函数。

步骤3在训练阶段和预测阶段的具体描述如下:

训练阶段:

在步骤3中采用利用具有长短时记忆模型的递归神经网络分别对 所述人脸的形变特征、人脸的外观特征、音频特征进行处理得到相应的 情感表征向量的方法,分别训练与上述三个特征对应的递归神经网络, 并保存权值;

本发明实施例中所采用的LSTM节点结构如图5所示。它包含输入 门、忘记门、输出门及相应的记忆细胞。其中输入门控制是否往记忆细 胞写内容,忘记门用于控制是否将已有记忆细胞的内容清空,输出门决 定记忆细胞的内容是否输出。记忆细胞存储着序列过往时刻的历史信息。 将步骤1、步骤2中获得的人脸的形变特征、人脸的外观特征、音频特 征通过LSTM节点的输入端输入。其中ht-1为LSTM神经网络在t-1时刻 的隐藏节点输出,xt为LSTM神经网络在t时刻的输入特征,b为偏置变 量,it,ft,ot分别对应LSTM节点的输入门、忘记门和输出门,ct是记忆 细胞在t时刻的输出值。每一时刻,LSTM节点的具体计算如公式(1)至 (5)如下:

ft=sigmoid(Wxfxt+Whfht-1+bf)(1)

ot=sigmoid(Wxoxt+Whoht-1+bo)(2)

gt=tanh(Wxcxt+Whcht-1+bc)(3)

ct=ft*ct-1+it*gt(4)

ht=ot*tanh(ct)(5)

预测阶段:

在步骤3中采用的具有长短时记忆模型的递归神经网络为训练阶段 训练好的三个特征对应的递归神经网络,具体为:采用训练阶段训练好 的三个特征对应的递归神经网络,输入新的特征序列,依次通过LSTM 层和均值池化层,将均值池化层的输出取出作为该特征序列的情感表征 向量。如图6所示为时序展开的网络结构示意图,输入特征序列 f1,f2,…fn在经过LSTM编码后,所得输出求取均值即得到序列特征对应 的情感表征向量。

步骤4,基于支持向量机算法设计的支持向量机分类器,利用步骤3 中得到的最终情感表述特征进行情感类别预测。

步骤4在训练阶段和预测阶段的具体描述如下:

训练阶段:

在步骤4中采用步骤3中得到的最终情感表述特征,并以视频的情感 类别为标签进行情感类别预测的方法进行所述支持向量机分类器的训 练;

预测阶段:

步骤4中采用训练阶段训练好的支持向量机分类器对步骤3中得到 的最终情感表述特征进行情感类别预测。

综上,本发明采取具有长短时记忆模型的递归神经网络对视频数据 中的音频信号和图像序列信号分别进行时序编码,充分学习了序列中每 帧信号之间的相互联系及时序变化模式;同时在支持向量机预测阶段, 完成了人脸的形变特征、人脸的外观特征、音频特征的特征层融合,充 分利用了音频和视频两个通道的情感辨别特性,实现了更加准确的离散 情感识别。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而 已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号