首页> 中国专利> 一种基于迁移学习和注意力机制的跨语料库情感识别方法

一种基于迁移学习和注意力机制的跨语料库情感识别方法

摘要

本发明属于迁移学习、情感计算等技术领域,涉及一种基于迁移学习和注意力机制的跨语料库情感识别方法。本发明方法中使用编码‑解码在源语料库上进行训练,并通过循环卷积神经网络RNN提取上下文中的情感依赖和传递情况,将编码和上下文情感依赖等特征参数迁移到目标语料库的训练中,通过训练将迁移损失控制在一定范围内进而完成知识迁移,在目标语料库上借助迁移学习的知识进行编码‑上下文特征参数提取‑分类的操作,最终完成目标语料库上说话人情感状态判定的任务,能够有效解决小样本训练不充分的问题。

著录项

  • 公开/公告号CN113065344A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN202110330443.7

  • 发明设计人 王塔娜;张强;王鹏飞;候亚庆;

    申请日2021-03-24

  • 分类号G06F40/279(20200101);G06F16/35(20190101);G06F40/126(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构21200 大连理工大学专利中心;

  • 代理人隋秀文;温福雪

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明属于迁移学习、情感计算等技术领域,涉及一种基于迁移学习和注意力机制的跨语料库情感识别方法,用于解决小样本训练不充分的问题。

背景技术

情感计算旨在通过赋予计算机识别、理解、表达和适应人的情感能力来构建和谐的人机环境,并使计算机具有更加高效全面的智能。作为人工智能的重要分支,情感计算与分析不仅在实现机器智能化方面不可或缺,在舆论舆情监控、临床心理动态检测以及人机交互等领域更是十分重要。

近些年,深度学习在语音处理、图像分类和其他机器学习相关领域表现优异,这其中就包括人类的情感识别和认知理解,很多工作都是在卷积神经网络(CNN)、循环神经网络(RNN)等及其变种模型上进行,取得了一定的进步。最初的研究多是在单一语料库上通过表情或文字等单模态来识别目标人物的情感状态,然而随着神经网络结构的不断复杂化,网络训练需要大量的标注数据,高昂的数据标注成本一定程度上制约了训练的实际操作。为解决这一难题,近些年有学者提出迁移学习的思路,即从相关领域中迁移标注数据或者知识结构对目标领域或任务进行实现或改进。此外,在实际中由于采集环境和设备、对话情景和主题等不同,训练集和测试集中的情感数据往往差异很大,所以进行跨语料库的情感识别更加贴近于真实生活和应用场景。但跨语料库情感识别的难点在于如何提取合适的情感特征并通过不断缩小源任务和目标任务之间的特征差异来完成知识迁移。

《基于神经网络和迁移学习的多模态情感识别方法、系统》(专利号:CN201710698379.1)该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器,进而对多模态情感数据进行音频特征视频特征的提取,从而识别各语音情感类别的概率、各视频情感类别的概率,并通概率值判断最终情感类别。

《一种基于增强式深度残差神经网络的多模态语音情感识别方法》(专利号:CN201811346114.6),该方法提取视频(序列数据)与语音的特征表达,包括将语音数据转换为相应的语谱图表达,以及对时序数据进行编码:使用卷积神经网络提取原始数据的情感特征表达用于分类,模型接受多输入并且输入维度不等,提出交叉卷积层对不同模态的数据特征进行融合,模型使用的整体网络结构是增强式深度残差神经网络:模型初始化后,使用语音语谱图、序列视频信息及相应的情感标签训练多分类模型,训练完毕后对末标记的语音和视频进行预测,得到情感预测的概率值,选择概率最大值作为该多模态数据的情感类别。

《一种基于情景感知的多模态抑郁症检测方法和系统》(专利号:201911198356.X)该方法包括:构建训练样本集,所述训练样本集包括话题信息、语谱图和对应的文本信息:使用卷积神经网络,结合多任务学习,对所述训练样本集的语谱图进行声学特征提取,获得具备情景感知的声学特征;利用所述训练样木集,使用Transformer模型对词嵌入进行处理,提取具备情景感知的文本特征;对于所述情景感知的声学特征建立进行抑郁症检测的声学通道子系统,对于所述情景感知的文本特征建立进行抑郁症检测的文本通道子系统,对所述声学通道子系统和所述文本通道子系统的输出进行融合,获得抑郁症分类信息。

考虑到实际交谈场景中说话人目标语句的情感状态往往还会受到上下文语句的影响。本发明在选取特征进行迁移时,除了传统的情感特征,也将上下文中有关于情感的动态变化进行特征提取并进行迁移。在迁移过程中,使用注意力迁移机制使得目标任务的特征图(feature map)与源任务的特征图(feature map)尽可能相似进而完成知识迁移。

发明内容

基于上述跨语料库情感识别的难点,本发明提出了一种基于迁移学习和注意力机制的跨语料库情感识别方法。通过本发明方法,首先在源语料库上针对整段对话中的每个单句进行编码,并将单句的编码向量送入到循环神经网络(RNN),通过RNN提取上下文中的情感依赖和传递情况,将编码和上下文情感依赖等特征参数迁移到目标语料库的训练中,通过训练将迁移损失控制在一定范围内进而完成知识迁移,在目标语料库上借助迁移学习的知识进行编码-上下文特征参数提取-分类的操作,最终完成目标语料库上说话人情感状态判定的任务。

为了达到上述目的,本发明采用的技术方案如下:

一种基于迁移学习和注意力机制的跨语料库情感识别方法,具体步骤如下:

S1:将源语料库中对话部分划分为t条的语句X=[x

S2:使用编码解码器架构进行建模。编码解码器使用三个顺序组件以分层方式对会话进行构建循环神经网络模型:编码器循环神经网络用于句子编码,上下文循环神经网络用于语句级对话上下文进行建模,解码器循环神经网络用于生成响应句子。将步骤S1划分好的每条语句送入循环神经网络模型进行编码-上下文建模-解码操作:

编码操作:首先,将步骤S1划分好的每条语句送入编码器循环神经网络进行编码,并通过注意力机制获得编码过程中情感相关的隐藏层向量,在某一时刻t进行如下公式所示的计算:

其中,

上下文建模:将编码操作中得到的

其中,f

解码操作:使用解码器循环神经网络用于生成响应句子x

其中,f

S3:类似的,对目标任务的目标语料库中每条语句送入循环神经网络模型进行编码-上下文建模操作:

编码操作:首先,将每条语句送入编码器进行编码,并通过注意力机制获得编码过程中情感相关的隐藏层向量,在某一时刻t进行如下公式所示的计算:

其中,

上下文建模:将编码操作中得到的

其中,f

S4:通过定义空间注意力图将注意力信息从源语料库转移到目标语料库的训练网络中,完成知识迁移。定义循环神经网络网络的激活张量

对于空间注意力图,由于隐藏神经元激活的绝对值可以表示神经元相对于特定输入的重要性,在跨通道维度计算隐藏神经元激活的绝对值的统计信息,并构建以下空间注意力映射:

其中,i∈{1,2,…,H}和j∈{1,2,…,W},p表示在特定卷积层的源域和目标域的激活映射进行所有卷积响应通道上的lp-范数池化计算。在注意力转移模块中,给定源任务的空间注意力图,目标是训练目标任务不仅能做出正确的预测,而且还能拥有与源任务类似的注意力图,源任务和目标任务之间的迁移损失通过以下公式计算:

其中,

其中,Θ表示空间注意图,

S5:在完成步骤S4的知识迁移并在目标任务语料库上进行编码建模训练后,使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率。最终结果输出目标语句的情感分类矩阵,从而能够判断每个句子说话人所处的情感状态。

softmax分类器的分类计算以及训练过程中的损失函数Loss计算表达式如下:

其中,y是所有真实的情感标签,

本发明的有益效果:本发明提出了一种基于迁移学习和注意力机制的跨语料库情感识别方法,该方法中使用循环神经网络(RNN)提取上下文中的情感依赖和传递情况,并通过注意力迁移模块将编码和上下文情感依赖等特征参数迁移到目标语料库的训练中,训练过程中约束迁移损失控制在一定范围内进而完成知识迁移。该方法能够在数据量较少的目标语料库上借助迁移学习的知识完成目标语料库上说话人情感状态判定的任务,能够有效解决小样本训练不充分的问题。

附图说明

图1为本发明的框架流程图。

图2为源任务和目标任务的网络结构图。

具体实施方式

以下结合附图和技术方案,进一步说明本发明的具体实施方式。

本发明可用于基于迁移学习和注意力机制的跨语料库情感识别任务,本发明的流程如图1所示,所采用网络结构如图2所示。本实施例应用到了对话中说话人所处情感分类任务,下面主要针对对话中说话人情感识别问题对本发明的实施方式进行详细说明,具体包括以下步骤:

S1:将源语料库中对话部分划分为t条的语句X=[x

S2:使用编码解码器架构进行建模。编码解码器使用三个顺序组件以分层方式对会话进行建模:编码器循环神经网络用于句子编码,上下文循环神经网络用于语句级对话上下文进行建模,解码器循环神经网络用于生成响应句子。将步骤S1划分好的每条语句送入循环神经网络模型进行编码-上下文建模-解码操作。参见图2,编码器和上下文建模选用双向长短期记忆网络(BLSTM)模型,解码器选用双向长短期记忆网络(LSTM)模型:

编码操作:首先,将步骤S1划分好的每条语句送入编码器循环神经网络进行编码,并通过注意力机制获得编码过程中情感相关的隐藏层向量,在某一时刻t进行如下公式所示的计算:

其中,

上下文建模:将上一步中得到的

其中,f

解码操作:使用解码器循环神经网络用于生成响应句子x

其中,f

S3:类似的,对目标任务的每条语句送入循环神经网络模型进行编码-上下文建模操作:

编码操作:首先,将每条语句送入编码器进行编码,并通过注意力机制获得编码过程中情感相关的隐藏层向量,在某一时刻t进行如下公式所示的计算:

其中,

上下文建模:将上一步中得到的

其中,f

S4:注意力迁移模块。该模块通过定义空间注意力图将注意力信息从源语料库转移到目标语料库的训练网络中。定义双向LSTM网络的激活张量

对于空间注意力图,由于隐藏神经元激活的绝对值可以表示神经元相对于特定输入的重要性,在跨通道维度计算这些绝对值的统计信息,并构建以下空间注意力映射:

其中,i∈{1,2,…,H}和j∈{1,2,…,W},p表示在特定卷积层的源域和目标域的激活映射进行所有卷积响应通道上的lp-范数池化计算。在注意力转移模块中,给定源任务的空间注意图,目标是训练目标任务不仅能做出正确的预测,而且还能拥有与源任务类似的注意图,源任务和目标任务之间的迁移损失通过以下公式计算:

其中,

具体的,

其中,Θ表示空间注意图,

此外,

其中,σ为softmax函数,f

类似的,

其中,第一项是常规的softmax交叉熵损失函数,第二项是迁移损失,

为了实现注意力迁移,在源任务语料库上进行预先训练,获得空间注意力图。对于源任务模型的训练,使用编码器-上下文建模-解码器模型,其中BLSTM网络的前向隐层和后向隐层各有128个单元,同时将学习速率设置为0.001。并使用Movie Dialog Corpus数据集(数据量较大)作为源任务数据库。

S5:使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率。最终结果输出目标语句的情感分类矩阵,从而能够判断每个句子说话人所处的情感状态。

softmax分类器的分类计算以及训练过程中的损失函数Loss计算表达式如下:

其中,y是所有真实的情感标签,W

本实施例使用Adam优化器来优化训练网络学习参数,使用Dropout来防止过拟合,初始学习率设置为0.001。本实施例中选用Movie Dialog Corpus作源任务语料库,IEMOCAP和DailyDialog作目标任务语料库上分别进行6类情感(高兴、悲伤、中性、生气、激动、懊恼)分类实验,得到如下实验结果:

上表中展示了本发明的方法在IEMOCAP和DailyDialog作目标任务语料库通过借助源任务语料库Movie Dialog Corpus上学习到的知识能够进行有效的情感识别。

尽管本实施例以训练过程介绍该发明方法,但实际应用中,利用训练好的网络模型可以针对不同数据集进行分类测试,此外,除了实例中使用的LSTM,双向LSTM之外,也可以采用其他包含时间序列信息的模型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号