首页> 中国专利> 一种对多模态情绪识别进行层次不确定性量化估计的方法

一种对多模态情绪识别进行层次不确定性量化估计的方法

摘要

本发明公开了一种对多模态情绪识别进行层次不确定性量化估计的方法,通过构建权重共享三元网络模型,并通过模型中多模态条件层归一化模块提取当前各模态语句的全局状态特征;利用模型中源自适应噪声干扰注意力模块结合之前轮次的全局状态特征得到上下文关系向量,结合前一轮次各单模态语句更新说话者状态,并利用模型中情绪神经网络单元提取更新后说话者状态特征,得到各单模态情绪表征,最终利用模型中基于胶囊的预测层对各单模态情绪表征进行融合、预测;本发明通过引入上下文层级不确定性和模态层级不确定性,完成对预测结果不确定性与可靠性的量化估计,赋予情绪识别系统量化估计不确定性的能力,提高估计的可靠性,改进情感计算模型的性能。

著录项

  • 公开/公告号CN113257281A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利权人 四川省人工智能研究院(宜宾);

    申请/专利号CN202110747678.6

  • 申请日2021-07-02

  • 分类号G10L25/63(20130101);G10L25/30(20130101);G06F40/35(20200101);G06N3/04(20060101);

  • 代理机构11870 北京正华智诚专利代理事务所(普通合伙);

  • 代理人何凡

  • 地址 644000 四川省宜宾市临港经济技术开发区长江北路西段附二段430号

  • 入库时间 2023-06-19 12:13:22

说明书

技术领域

本发明涉及多模态情绪识别技术领域,具体涉及一种对多模态情绪识别进行层次不确定性量化估计的方法。

背景技术

情绪识别(Emotion Recognition)是情感计算研究中最基础也最重要的领域,旨在赋予机器以发现和理解人类情感状态并做出相应响应的能力,即通过对人的面部表情、语音语调、文本内容或者身体生理信号等各种模态数据的学习,识别出人类的情绪状态。会话中的情绪识别(Emotion Recognition in Conversation)则进一步探索在交互会话中互相影响转变的情绪并对其进行准确建模。情绪识别研究对来自不同领域的很多应用大有益处,例如智能人机交互系统,智能业务和客户服务系统以及远程医疗系统。

针对会话中的情绪识别问题,研究者们提出了很多方法,例如改进模态融合方法,使用注意力机制、记忆网络以及图网络等。现存的工作主要致力于对多模态关系、上下文关系、以及说话者的自我及互相影响这三方面进行建模,但是这些系统都没有尝试对其预测结果的不确定性和可靠性进行量化估计。

神经网络常被诟病的一大缺点在于,它时常会表现得过于自信,使得其输出结果的可靠性降低。而估计模型预测的不确定性可以提供一个衡量其可靠性的量化指标。不确定性估计能反映模型对其预测结果的信心以及这些预测结果的可靠性,这对于情感智能体至关重要,尤其是在容错能力较低的情况下(例如抑郁症检测)。因此有必要赋予情绪识别系统以量化估计不确定性的能力,进一步提高情感计算模型的性能。

发明内容

针对现有技术中的上述不足,本发明提供了一种对多模态情绪识别进行层次不确定性量化估计的方法。

为了达到上述发明目的,本发明采用的技术方案为:

一种对多模态情绪识别进行层次不确定性量化估计的方法,包括以下步骤:

S1、构建包括全局神经网络单元、情绪神经网络单元、说话者神经网络单元、多模态条件层归一化模块、源自适应噪声干扰注意力模块以及基于胶囊网络的预测层的权重共享三元网络模型;

S2、利用步骤S1中全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,并通过步骤S1中多模态条件层归一化模块对提取的全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征;

S3、利用步骤S1中源自适应噪声干扰注意力模块,对之前轮次会话中各单模态语句的全局状态特征施加注意力,得到当前各单模态语句的具有不确定性感知的上下文关系向量;

S4、利用步骤S1中说话者神经网络单元根据步骤S3中上下文关系向量与当前轮次各单模态语句更新说话者状态特征;

S5、利用步骤S1中情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到各单模态情绪表征;

S6、利用步骤S1中基于胶囊网络预测层对步骤S5中单模态情绪表征进行含有不确定性估计的融合,并进行情绪模态预测。

该方案的进一步有益效果为:

1、模态参数在每个模态分支间实现共享;

2、完成对预测结果不确定性与可靠性的量化估计,赋予情绪识别系统以量化估计不确定性的能力;

3、提高层次不确定性量化估计的可靠性,改进情感计算模型的性能;

4、通过源与查询的共同贡献,获得更好的注意力机制性能;

5、有针对性的提高模型的鲁棒性与泛化能力;

6、加强每个分支传播开始处的细粒度跨膜态嵌入。

进一步地,

所述全局神经网络单元用于提取当前轮次会话中各单模态语句的全局特征并作跨模态引导的层归一化处理,得到全局状态特征,然后将所述全局状态特征传输到所述源自适应噪声干扰注意力模块;

所述多模态条件层归一化模块用于对各单模态语句的全局特征进行跨模态引导的层归一化;

所述源自适应噪声干扰注意力模块用于结合之前轮次会话中各单模态语句的全局状态特征,得到具有不确定性感知的上下文关系向量,并将所述上下文关系向量传输到所述说话者神经网络单元;

所述说话者神经网络单元用于结合所述当前轮次各单模态语句以及所述上下文关系向量更新说话者状态特征,并将更新后的说话者状态传输到所述情绪神经网络单元;

所述情绪神经网络单元用于对所述更新后的说话者状态进行特征提取,得到各单模态情绪表征,并将所述各单模态情绪表征传输到所述基于胶囊网络的预测层;

所述基于胶囊网络的预测层用于对所述各单模态情绪表征进行含有不确定性估计的融合与情绪模态预测。

该进一步有益效果为:

权重共享三元网络模型便于探索模态的同变性与不变性,捕捉模态间的关系并学习其中的平衡关系,从而对模态不变性进行建模。

进一步地,所述步骤S2具体为:

将当前轮次会话中各单模态语句输入所述全局神经网络单元中进行特征提取,并通过所述多模态条件层归一化模块维持一个单向序列,利用当前轮次会话中各单模态语句依次引导另一模态的全局状态特征进行缩放与平移,对全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征。

该进一步有益效果为:

在全局神经网络提取状态特征时,构建多模态条件层归一化模块,通过嵌入额外学习参数,优化原始归一层方法,在源模态的监督下操作目标模态传播,引导信息相应地平移、缩放,进行归一化处理,通过将单模态语义细节嵌入另一个模态分支有助于提高模型对同变性的学习,从而与权重共享中着重于探索不变性的设计进行互补。

进一步地,所述步骤S3具体包括以下分步骤:

S31、利用源自适应噪声干扰注意力模块根据当前输入查询语句的均值与方差构建加性高斯噪声;

S32、将步骤S31中加性高斯噪声注入注意力机制中归一化前的注意力权重,计算噪声干扰的注意力权重,表示为:

其中,

S33、利用步骤S32中噪声干扰的注意力权重与之前轮次会话中各单模态语句的全局状态特征计算上下文关系向量,表示为:

其中,

该进一步有益效果为:

通过在细粒度的上下文层级上对不确定性进行建模,有针对性的提高模型的鲁棒性与泛化能力。

进一步地,所述步骤S32中加性高斯噪声

其中,

该进一步有益效果为:

将均值和方差建模得到与源相关的函数,从而使得基于给定的源和查询实例,使得具有较大方差的嘈杂注意力能够反映出模型不确定的区域。

进一步地,所述步骤S4具体为:

利用所述说话者神经网络单元根据步骤S4中上下文关系向量与当前轮次各单模态语句更新说话者状态特征,表示为:

其中,

该进一步有益效果为:

说话者状态传播和存储各个参与者在对话中的状态,使模型能够了解不同说话者的特定表达模式。

进一步地,所述步骤S5具体为:

利用所述情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到单模态情绪表征,表示为:

其中,

该进一步有益效果为:

由于上下文对判断语句

进一步地,所述步骤S6具体包括以下分步骤:

S61、利用所述基于胶囊的预测层对步骤S5得到的单模态情绪表征进行含有不确定性估计的融合,得到融合后的单模态情绪表征;

S62、结合向量级dropout法将步骤S61中融合后的单模态情绪表征进行模态层级不确定性估计,表示为:

其中,

S63、利用步骤S62得到的模态层级不确定性估计进行情绪模态预测,表示为:

其中,

该进一步有益效果为:

胶囊网络的基本单位为胶囊,即神经元的向量,其构造使其具有为每个类别维护独特参数以聚合特征从而保留额外信息的能力。利用胶囊网络对复杂的模态关系进行蒸馏,学习多种模态的交互效果,捕捉可能具有多个极性(如在冲突模态中)或模棱两可的情感的复杂模态级别的信息,提高预测结果的可靠性。

附图说明

图1为本发明提供的一种对多模态情绪识别进行层次不确定性量化估计的方法步骤示意图;

图2为本发明提供的权重共享三元网络结构示意图;

图3为本发明提供的多模态条件层归一化模块MCLN结构示意图;

图4为本发明中步骤S3的分步骤;

图5为本发明提供的源自适应噪声干扰注意力模块SANPA 结构示意图;

图6为本发明中步骤S6的分步骤;

图7为本发明提供的基于胶囊网络的向量级dropout结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

如图1、图2所示,本发明提供的一种对多模态情绪识别进行层次不确定性量化估计的方法,包括以下步骤S1至步骤S6:

S1、构建包括全局神经网络单元、情绪神经网络单元、说话者神经网络单元、多模态条件层归一化模块、源自适应噪声干扰注意力模块以及基于胶囊网络的预测层的权重共享三元网络模型;

本实施例中,

全局神经网络单元用于提取当前轮次会话中各单模态语句的全局特征并作跨模态引导的层归一化处理,得到全局状态特征,然后将全局状态特征传输到源自适应噪声干扰注意力模块;

多模态条件层归一化模块用于对各单模态语句的全局特征进行跨模态引导的归一化;

源自适应噪声干扰注意力模块用于结合之前轮次会话中各单模态语句的全局状态特征,得到具有不确定性感知的上下文关系向量,并将上下文关系向量传输到说话者神经网络单元;

说话者神经网络单元用于结合当前轮次各单模态语句以及上下文关系向量更新说话者状态特征,并将更新后的说话者状态传输到情绪神经网络单元;

情绪神经网络单元用于对更新后的说话者状态进行特征提取,得到各单模态情绪表征,并将各单模态情绪表征传输到基于胶囊网络的预测层;

基于胶囊网络的预测层用于对各单模态情绪表征进行含有不确定性估计的融合融合与情绪模态预测。

实际中,权重共享三元网络模型以DialogueRNN模型作为每个三元组分支的基础架构,分别使用全局神经网络单元、情绪神经网络单元以及说话者神经网络单元来捕获情绪动态,并结合注意力机制获得当前输入查询语句的上下文关系向量,完成情绪模态预测。

本发明中会话语句的情绪主要取决于:1)目标语句的上下文;2)目标语句的多模态信息的联合效应;分别为上下文依赖层级和多模态融合层级两个细粒度的级别上量化估计不确定性;权重共享三元网络模型保证了探索模态的同变性与不变性,权重共享三元网络模型中全局神经网络单元、情绪神经网络单元以及说话者神经网络单元都以循环方式工作,并且参数在每个模态分支间共享,每个模态均在分支中传播,以单独获得单模态情绪状态,然后将其融合并馈送到胶囊网络层中进行融合并做最终预测。

S2、利用步骤S1中全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,并通过步骤S1中多模态条件层归一化模块对提取的全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征;

如图3所示,本实施例中,步骤S2具体为:

将当前轮次会话中各单模态语句输入全局神经网络单元中进行特征提取,并通过多模态条件层归一化模块维持一个单向序列,利用当前轮次会话中各单模态语句依次引导另一模态的全局状态特征进行缩放与平移,对全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征。

实际中,异步交换的双人会话中的

本发明为了探索模态间的同变性,进一步加强每个分支传播开始处的细粒度跨模态嵌入,构建了多模态条件层归一化模块,通过在原始的层归一化法上添加额外学习参数,得到条件层归一化法,表示为:

其中,

其中,

原始的层归一化方法(LN)根据隐藏层中的神经元对目标模态的全局特征

S3、利用步骤S1中源自适应噪声干扰注意力模块,对之前轮次会话中各单模态语句的全局状态特征施加注意力,得到当前各单模态语句的具有不确定性感知的上下文关系向量;

实际中,本发明将上下文定义为源,将参与计算注意力的目标语句定义为查询,在以源为特征的条件高斯分布中采样,将采样的噪声注入softmax函数之前的注意力权重值中,对各单模态语句的全局状态特征施加注意力特征,将方差更大的噪声分配给不确定度更大的区域,即有较大方差的嘈杂注意力能反映模型不确定的区域,得到当前各单模态语句具有的不确定性感知的上下文关系向量,保证源和查询的联合贡献。

如图4、图5所示,本实施例中,步骤S3具体包括以下分步骤:

S31、利用源自适应噪声干扰注意力模块根据当前输入查询语句的均值与方差构建加性高斯噪声,表示为:

其中,

实际中,本发明中并非在零均值、固定方差的高斯分布中采样,而是将均值

S32、将步骤S31中加性高斯噪声注入注意力机制中归一化前的注意力权重,计算噪声干扰的注意力权重,表示为:

其中,

实际中,本发明中源自适应噪声干扰注意力模块围绕噪声注入的思想,精准针对每个模态和对话回合中的上下文注意力,没有将噪声注入网络权重,而是将噪声注入注意力的源和查询的乘积,即归一化之前的注意力权重中。

S33、利用步骤S32中噪声干扰的注意力权重与之前轮次会话中各单模态语句的全局状态特征计算上下文关系向量,表示为:

其中,

实际中,在当前轮次

S4、利用步骤S1中说话者神经网络单元根据步骤S3中上下文关系向量与当前轮次各单模态语句更新说话者状态特征;

本实施例中,步骤S4具体为:

利用说话者神经网络单元根据步骤S4中上下文关系向量与当前轮次各单模态语句更新说话者状态特征,表示为:

其中,

实际中,利用说话者神经网络单元

其中,

S5、利用步骤S1中情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到各单模态情绪表征;

本实施例中,步骤S5具体为:

利用情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到单模态情绪表征,表示为:

其中,

S6、利用步骤S1中基于胶囊网络预测层对步骤S5中单模态情绪表征进行含有不确定性估计的融合,并进行情绪模态预测。

如图6、图7所示,本实施例中,步骤S6具体包括以下分步骤:

S61、利用基于胶囊的预测层对步骤S5得到的单模态情绪表征进行含有不确定性估计的融合,得到融合后的单模态情绪表征;

S62、结合向量级dropout法将步骤S61中融合后的单模态情绪表征进行模态层级不确定性估计,表示为:

其中,

S63、利用步骤S62得到的模态层级不确定性估计进行情绪模态预测,表示为:

其中,

实际中,蒙特卡洛丢弃MC-dropout等同于最小化真实后验与其近似值之间的KL散度,而仅需要在测试阶段使用dropout和采样。因此,本发明中调整蒙特卡洛丢弃MC-dropout使其适应胶囊网络,执行模态层级不确定性估计;

在获得单模态情感表征并进行含有不确定性估计的融合之后,模态层级不确定性使用蒙特卡洛丢弃MC-dropout在预测层中建模,将dropout应用进CapsNet中不是本领域中常用的手段,因为标准dropout方法丢弃随机的参数为元素,而在CapsNet的基本组成部分中参数为向量,因此胶囊网络需要向量级别的dropout而不是元素级别,因此本发明中在模型中采用向量级dropout。

本发明中采用通用数据集IEMOCAP和AVEC进行验证。在IEMOCAP上进行情绪分类,使用F1和准确率(accuracy)进行评价,而在AVEC上进行情绪回归,使用平均绝对误差(MeanAbsolute Error,简称MAE)和皮尔逊相关系数(Pearson correlationCoefficient,简写为r)进行评价,采用三种模态,即文本,视频和音频。首先使用预先提取的单模态特征,遵循先前工作中相同的提取程序,与其他噪声注入方法相同,本发明中设计的源自适应噪声干扰注意力模块SANPA仅在训练中使用,在测试过程中被标准注意力所取代。对于胶囊网络CapsNet而言,胶囊的数量为5,每个胶囊的尺寸为150。路由的数量设置为1,在压榨过程之前应用向量级dropout;测试阶段,对预测进行25次抽样来测量不确定性,并给出平均结果,dropout值在IEMOCAP上设置为0.4,在AVEC上设置为0.2。

如表1所示,在数据集IEMOCAP上,本发明提供的模型在准确性和F1得分方面均优于其他方法。尤其是,在多模态设定中,本发明提供的模型优于使用的基础架构DialogueRNN,并在精确度上提升2.22%,在F1得分上提升2.46%。在AVEC数据集上,除了“Power”属性的平均绝对误差(MAE)以外,我们的模型在所有其他指标上均优于以前的方法,并且,我们提出的HU-Dialogue在所有四个属性上产生的皮尔逊相关系数(r)明显较高,以及在其他三个属性上的MAE误差明显较低。

表1与主流模型有效方法间比较

本发明提出了多种变体结构,通过删除组成模块来探索HU-Dialogue各个模块的有效性。如表2所示,显示了对这些变体模型的评估,其中,对于采用蒙特卡洛丢弃MC-dropout的变体,在测试过程中,通过25次Monte Carlo采样对结果进行平均,其中WS表示权重共享。

表2 多种变体结构模型的评估

1)权重共享 vs非共享。

变体1-6为每个模态保留一个分支,且使用权重非共享结构。在IEMOCAP上,除变量7的准确率和变量11的F1分数外,权重共享模型(分别对应变量7-12)皆取得更好的性能。总的来说,共享权重可使F1分数平均提高0.37%,准确性平均提高0.54%。在AVEC上,皮尔逊相关系数(r)在所有四个属性上都有改善。我们认为,这是由于权重共享结构能够捕获潜在的模态关联,学习微妙的平衡以及对模态之间的不变性进行建模。

2)CapsNet中dropout的作用。

变体4和10遵循胶囊网络CapsNet的传统,即不使用dropout,而变体5和11中采用了向量级dropout(表示为vec-dropout)。从表2中可以明显看出,在两个数据集上,vec-dropout略有提高性能,而应用蒙特卡洛丢弃MC-dropout(变量6和12)带来更大的改进,唯一的例外是IEMOCAP上非共享设置(变量6)的准确度。具体而言,IEMOCAP上的F1得分提高了1%以上,AVEC的所有四个属性的皮尔逊相关系数(r)结果也得到了显著改善。

3)MCLN的作用。

变体1、2、7和8不使用MCLN,而变体3、4、9和10提供了相应的使用MCLN的模型比较。在IEMOCAP上,可以观察到F1分数平均提高了0.83%,准确度平均提高了1.25%。在AVEC上,使用MCLN在所有四个属性上均获得了更高的r结果,其中“Power”属性对MCLN的敏感度最低,而“Arousal”属性的受益最大。还应注意的是,使用权重共享的变体模型(9和10)比非共享的变体(3和4)获得更多的相对改进。这证实了我们的假设,即MCLN和权重共享结构是相互补充的,分别探索了同变性和不变性。

如表3所示,完全连接模式(MCLN-FC)和顺序模式(MCLN-SQ,如图2所示)的影响。可以看出,在两个指标上,MCLN-SQ均明显优于MCLN-FC,并且当采用蒙特卡洛丢弃MC-dropout时,差距会更大。

表3 额外的IEMOCAP数据集上的针对MCLN模式的消融研究

4)SANPA的作用。

变体1、3、7和9使用标准注意力模块,而变体2、4、8和10对应替换为SANPA模块。在IEMOCAP上,使用SANPA的方法在两个指标上均获得更好的性能。在AVEC上,同样地,SANPA在所有属性上的表现都超过了标准注意力方法,如表4所示,带有UA的HU-Dialogue略优于标准注意力模块,但依旧低于本发明所提供的SANPA模块,其中,UA是另一种不确定性注意力机制,UA为注意力权重值学习一个后验分布,而本发明中在以源为特征的条件高斯分布中采样,并将采样的噪声注入到softmax函数之前的注意力权重值中,SANPA保证源和查询的联合贡献,而UA方法仅依赖于源而不依赖于查询。

表4 准确率及F1分数对比

本发明还通过使用期望校准误差(ECE)作为指标来评估校准不确定度。其中,预测置信度的概念被引入来表示与预测的类别标签相关的概率,期望校准误差ECE根据M个间隔区间来估计准确性和置信度(confidence)之间的差异:

由于此经验指标仅适用于分类设置,因此仅对IEMOCAP进行评估。如表5所示,结果基于四次测试取平均值,可知本发明所提出的模型的预期校准误差(ECE)远低于使用的基础架构。在没有任何不确定性感知模块的情况下(表2中的变量9),本发明所提出的HU-Dialogue的平均ECE为0.402,比DialogueRNN(0.423)的校准程度略高。当使用SANPA时,ECE值下降3.7%至0.365。同样,在CapsNet中应用蒙特卡洛丢弃MC-dropout可以进一步产生更好的校准,与基线DialogueRNN相比,本发明所提供的HU-Dialogue将ECE降低了8.5%至0.338,充分证明了本发明所提供的模型能够估计不确定性并提高可靠性。

表5预期校准误差对比

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号