首页> 中国专利> 一种基于对比域差异的跨域人脸表情识别方法

一种基于对比域差异的跨域人脸表情识别方法

摘要

本发明公开了一种基于对比域差异的跨域人脸表情识别方法,首先,对人脸图像进行表情相关局部区域检测,提取出五个局部人脸区域的中心坐标,并与原始人脸图像一起作为多尺度人脸表情特征提取网络的输入,得到既能描述全局表情属性、又能适应个性化局部区域表达的多尺度人脸表情特征。随后,使用深度聚类得到目标域数据的伪标签,计算目标域和源域之间的对比域差异,结合源域的交叉熵损失,构建对比域自适应损失函数,用于网络的优化训练。本发明能够提取更丰富的人脸表情信息,对比域自适应损失可以减少不同领域的类内差异,增加不同领域的类间差异,能够帮助网络找到更好的决策边界,提高跨域人脸表情识别的可靠性,实现了对人脸表情的高效识别。

著录项

  • 公开/公告号CN114926877A

    专利类型发明专利

  • 公开/公告日2022-08-19

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN202210507850.5

  • 申请日2022-05-10

  • 分类号G06V40/16(2022.01);G06V10/75(2022.01);G06V10/82(2022.01);G06V10/776(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构西北工业大学专利中心 61204;

  • 代理人金凤

  • 地址 710072 陕西省西安市友谊西路127号

  • 入库时间 2023-06-19 16:25:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-06

    实质审查的生效 IPC(主分类):G06V40/16 专利申请号:2022105078505 申请日:20220510

    实质审查的生效

说明书

技术领域

本发明属于模式识别技术领域,具体涉及一种跨域人脸表情识别方法。

背景技术

基于深度学习方法进行人脸表情识别,只有在训练集和测试集数据独立同分布时,才能在测试集上取得良好的识别结果。然而在实际应用中,经常会遇到训练时所用的人脸表情数据(源域)和测试时的人脸表情数据(目标域)来自于不同分布的领域,即跨域人脸表情识别问题。由于不同域之间的数据分布存在差异,这会导致直接使用源域数据训练得到的人脸表情识别模型在目标域数据上的识别准确率表现不佳。

文献“Li S,Deng W.Deep emotion transfer network for cross-databasefacial expression recognition[C]//2018 24th International Conference onPattern Recognition(ICPR).IEEE,2018:3092-3099”公开了一种基于深度学习的跨域人脸表情识别方法,该方法将最大均值差异(Maximum Mean Discrepancy,MMD)引入到跨域人脸表情识别任务中,并且针对人脸表情数据集中类别不均衡可能造成负迁移的问题,对MMD损失进行了改进,根据每个类别中样本数占总样本数的不同进行加权计算MMD损失。但是,该方法存在以下问题:首先,该方法并未考虑人脸表情图像中存在面部遮挡的情况,仅提取全局人脸特征进行跨域迁移,可能会导致网络过度拟合面部遮挡物的噪声信息,从而在将源域知识迁移到目标域时,发生负迁移的现象。其次,该方法未能在类别层面上将源域和目标域特征进行对齐,而这将导致某些类内样本之间的差异大于类间样本的差异,进而使得算法无法进行准确分类,从而降低了跨域人脸表情识别的准确率。

发明内容

为了克服现有技术的不足,本发明提供了一种基于对比域差异的跨域人脸表情识别方法,首先,对人脸图像进行表情相关局部区域检测,提取出五个局部人脸区域的中心坐标,并与原始人脸图像一起作为多尺度人脸表情特征提取网络的输入,得到既能描述全局表情属性、又能适应个性化局部区域表达的多尺度人脸表情特征。随后,使用深度聚类得到目标域数据的伪标签,计算目标域和源域之间的对比域差异,结合源域的交叉熵损失,构建对比域自适应损失函数,用于网络的优化训练。本发明能够提取更丰富的人脸表情信息,对比域自适应损失可以减少不同领域的类内差异,增加不同领域的类间差异,能够帮助网络找到更好的决策边界,提高跨域人脸表情识别的可靠性,实现了对人脸表情的高效识别。

本发明解决其技术问题所采用的技术方案包括如下步骤:

步骤1:构造训练数据集;

基于人脸68个基准点进行人脸检测和人脸裁剪操作,提取出5个与人脸表情相关的局部区域:左眼、右眼、左嘴角、右嘴角和鼻尖的中心坐标,并与原始人脸图像一起作为训练数据;

采用镜面翻转变换、尺度上平移、旋转变换、引入高斯噪声的在线数据增强方式,对训练数据进行数据增强,扩展训练集;

步骤2:构建多尺度人脸表情特征提取网络;

所述多尺度人脸表情特征提取网络的骨干网络采用卷积神经网络IR-50,IR-50由4个大的残差层组成,每个大的残差层由一系列残差单元组成;

在IR-50的第2个大残差层之后并联5个分支网络用于提取局部人脸表情特征,所述分支网络的结构为IR-50的第3个和第4个大残差层依次连接;

将训练集中的原始人脸图像输入多尺度人脸表情特征提取网络,对于经过骨干网络IR-50后提取到的特征进行一个1×1的卷积操作,得到大小为7×7×64的特征图,然后再输入到全局平均池化层,得到一个64维的特征向量,作为全局人脸表情特征;

将训练集中的原始人脸图像输入多尺度人脸表情特征提取网络,骨干网络IR-50第2个残差层输出大小为28×28×128的浅层全局人脸表情特征;在每个大小为28×28的浅层全局人脸表情特征图上,在训练集中5个与人脸表情相关的局部区域的中心坐标周围裁剪出大小为7×7的区域,对于每个局部区域共得到大小为7×7×128浅层局部人脸表情特征,然后将每个浅层局部人脸表情特征输入进分支网络中,随后将每个分支网络提取到的特征进行一个1×1的卷积操作和全局平均池化操作,得到一个64维的特征向量,作为最终的局部人脸表情特征;

最后将全局人脸表情特征和局部人脸表情特征进行级联操作,得到多尺度人脸表情特征;

步骤3:基于对比域自适应损失的表情类别判定;

步骤3-1:通过深度聚类方法得到目标域样本

步骤3-2:源域和目标域的对比域差异的计算公式表示如下:

其中,M表示类别数目,c和c′表示两种不同类别,φ表示提取到的人脸表情特征;

其中,

步骤3-3:在多尺度人脸表情特征提取网络后增加全连接层形成人脸表情识别神经网络;在进行人脸表情识别神经网络训练时,首先要最小化源域和目标域的对比域差异作为对比域损失用于网络训练;对比域损失函数的公式为:

其中L表示全连接层的层数;

除此之外,还需要最小化源域数据的交叉熵损失作为分类损失用于网络训练;交叉熵损失函数的公式为:

其中

最终,构建对比域自适应损失函数表示为:

其中,β表示为对比域差异损失所占的权重;

网络参数通过反向传播使用随机梯度下降法进行更新;

步骤3-4:采用训练完成的人脸表情识别神经网络实现跨域人脸表情识别。

本发明的有益效果如下:

本发明通过对人脸表情相关局部区域进行检测,选取了5个与人脸表情相关区域(左眼、右眼、左嘴角、右嘴角和鼻尖),充分利用了局部人脸表情特征受面部遮挡影响更小更适合迁移的优势,同时联合全局人脸表情特征,又可以补偿局部特性可能存在的信息缺失;通过构建多尺度人脸表情特征提取网络,使用IR-50骨干网络提取全局人脸表情特征,增加5个子网络用于提取局部人脸表情特征,融合得到更加鲁棒的多尺度人脸表情特征,提高人脸表情识别的可靠性。此外,本发明构建了对比域自适应损失函数,使用对比域差异来衡量源域和目标域特征之间的差异,不仅充分利用了不同领域的类别信息,还联合交叉熵损失,进一步减少不同领域的类内差异,增加类间差异,能够帮助网络找到更好的决策边界,从而提升跨域人脸表情识别的效果。

附图说明

图1本发明多尺度人脸表情特征提取网络结构图。

图2本发明方法整体流程图,其中(a)训练过程,(b)测试过程。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

现有的基于深度学习的跨域人脸表情识别方法存在未能提取适合跨域迁移的人脸表情特征以及未能在类别层面上将源域和目标域特征对齐的问题,导致跨域人脸表情识别准确率低,影响实际应用。针对以上问题,本发明公开了一种基于深度学习的跨域人脸表情识别方法。

一种基于对比域差异的跨域人脸表情识别方法,包括如下步骤:

步骤1:构造训练数据集;

基于人脸68个基准点进行人脸检测和人脸裁剪操作,提取出5个与人脸表情相关的局部区域:左眼、右眼、左嘴角、右嘴角和鼻尖的中心坐标,并与原始人脸图像一起作为训练数据;

采用镜面翻转变换、尺度上平移、旋转变换、引入高斯噪声的在线数据增强方式,对训练数据进行数据增强,扩展训练集;

步骤2:构建多尺度人脸表情特征提取网络;

所述多尺度人脸表情特征提取网络的骨干网络采用卷积神经网络IR-50,IR-50由4个大的残差层组成,每个大的残差层由一系列残差单元组成;

在IR-50的第2个大残差层之后并联5个分支网络用于提取局部人脸表情特征,所述分支网络的结构为IR-50的第3个和第4个大残差层依次连接;

将训练集中的原始人脸图像输入多尺度人脸表情特征提取网络,对于经过骨干网络IR-50后提取到的特征进行一个1×1的卷积操作,得到大小为7×7×64的特征图,然后再输入到全局平均池化层,得到一个64维的特征向量,作为全局人脸表情特征;

将训练集中的原始人脸图像输入多尺度人脸表情特征提取网络,骨干网络IR-50第2个残差层输出大小为28×28×128的浅层全局人脸表情特征;在每个大小为28×28的浅层全局人脸表情特征图上,在训练集中5个与人脸表情相关的局部区域的中心坐标周围裁剪出大小为7×7的区域,对于每个局部区域共得到大小为7×7×128浅层局部人脸表情特征,然后将每个浅层局部人脸表情特征输入进分支网络中,随后将每个分支网络提取到的特征进行一个1×1的卷积操作和全局平均池化操作,得到一个64维的特征向量,作为最终的局部人脸表情特征;

最后将全局人脸表情特征和局部人脸表情特征进行级联操作,得到多尺度人脸表情特征;

步骤3:基于对比域自适应损失的表情类别判定;

步骤3-1:通过深度聚类方法得到目标域样本

步骤3-2:源域和目标域的对比域差异的计算公式表示如下:

其中,M表示类别数目,c和c′表示两种不同类别;

其中,

步骤3-3:在多尺度人脸表情特征提取网络后增加全连接层形成人脸表情识别神经网络;在进行人脸表情识别神经网络训练时,首先要最小化源域和目标域的对比域差异作为对比域损失用于网络训练;对比域损失函数的公式为:

除此之外,还需要最小化源域数据的交叉熵损失作为分类损失用于网络训练;交叉熵损失函数的公式为:

其中

最终,构建对比域自适应损失函数表示为:

网络参数通过反向传播使用随机梯度下降法进行更新;

步骤3-4:采用训练完成的人脸表情识别神经网络实现跨域人脸表情识别。

具体实施例:

本发明的技术方案包括下述步骤:表情相关局部区域检测、多尺度人脸表情特征提取网络构建和基于对比域自适应损失的表情类别判定。

本发明方法首先对人脸图像进行表情相关局部区域检测,提取出五个局部人脸区域(左眼、右眼、左嘴角、右嘴角和鼻尖)的中心坐标,并与原始人脸图像一起作为所构建的多尺度人脸表情特征提取网络的输入,得到既能描述全局表情属性、又能适应个性化局部区域表达的多尺度人脸表情特征。随后,使用深度聚类得到目标域数据的伪标签,并计算目标域和源域之间的对比域差异,并结合源域的交叉熵损失,构建对比域自适应损失函数,用于网络的优化训练。本发明的多尺度人脸表情特征提取网络能够提取更丰富的人脸表情信息,所构建的对比域自适应损失可以减少不同领域的类内差异,增加不同领域的类间差异,能够帮助网络找到更好的决策边界,提高跨域人脸表情识别的可靠性,实现了对人脸表情的高效识别。

(a)通过对人脸表情相关局部区域进行检测,提取出五个与人脸表情相关的局部区域(左眼、右眼、左嘴角、右嘴角和鼻尖)的中心坐标,并与原始人脸图像一起作为识别网络的输入。为了进一步扩充训练数据,采取镜面翻转变换、尺度上平移、旋转变换、引入高斯噪声等数据增强方式,对训练数据进行预处理。

(b)构建了多尺度人脸表情特征提取网络,在现有的经典卷积神经网络IR-50基础上增加5个用于提取局部人脸表情的子网络。IR-50网络用于提取全局人脸表情特征,子网络用于提取不同的局部人脸表情特征。将全局人脸表情特征和局部人脸表情特征级联得到多尺度人脸表情特征,既能够描述全局表情属性,又能够适应个性化的局部特征。

(c)基于对比域自适应损失对表情类别进行判定。在提取源域和目标域数据集的多尺度人脸表情特征后,根据深度聚类得到目标域的伪标签,并使用源域的特征和真实标签以及目标域的特征以及伪标签计算对比域差异,用于衡量源域和目标域特征之间存在的差异。将源域的多尺度人脸表情特征输入判别器中得到源域的预测标签,根据源域的真实标签以及网络对源域的预测标签计算交叉熵损失,最后联合交叉熵损失和对比域损失构建对比域自适应损失,作为网络训练的损失函数,优化网络性能,完成表情类别的判定。

本发明将公共人脸表情数据集RAF-DB作为源域,EXPW作为目标域时的识别率高达71.31%,相比于文献方法的识别率62.64%具有显著的优越性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号