首页> 中国专利> 一种基于多任务学习和子域自适应的跨库语音情感识别方法

一种基于多任务学习和子域自适应的跨库语音情感识别方法

摘要

本发明提出了一种基于多任务学习和子域自适应的跨库语音情感识别方法,本发明包括以下步骤:首先,源域和目标域提取的高维语音特征分别输入深度自编码网络,压缩特征冗余信息,获取低维情感特征;然后,采用子域自适应算法将低维特征空间分别划分成情感子域特征空间和性别子域特征空间,以此来减小特征分布距离;最后,将情感识别作为主任务,性别识别作为辅助任务,学习更多共性情感信息。本发明提出的方法可以有效提升跨库语音情感识别性能。

著录项

  • 公开/公告号CN113870900A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 河南工业大学;

    申请/专利号CN202111125098.X

  • 申请日2021-09-25

  • 分类号G10L25/63(20130101);G10L15/02(20060101);G10L15/06(20130101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构

  • 代理人

  • 地址 450001 河南省郑州市高新技术产业开发区莲花街100号河南工业大学科技处

  • 入库时间 2023-06-19 13:29:16

说明书

技术邻域

本发明属于语音信号处理技术领域,具体涉及到一种基于多任务学习和子域自适应的跨库语音情感识别方法。

背景技术

语音情感识别是情感计算的重要组成部分,也是人工智能邻域重要的研究方向。语音情感识别是将人类的语音情感信号通过计算机转换为数字信号,通过计算机的学习,使其具备识别人类语音情感的能力。由于在现实应用场景中,难以保证训练数据和测试数据来自同一语料库,这就造成了训练和测试的数据特征分布存在极大的差异,严重影响了模型识别性能。

受迁移学习和多任务学习在语音情感识别邻域成功应用的启发,在跨库语音情感识别研究中引入子域自适应来减少不同领域之间特征分布的差异性,以及使用多任务学习来提升模型的泛化能力。

因此本发明主要关注于不同语料库之间的跨库语音情感识别。在低维的情感特征空间中,使用子域自适应算法来减小特征分布距离,值得注意的是,本发明同时在情感子域特征空间以及性别子域特征空间中来减小特征分布距离,以此来提升跨库语音情感识别性能。

发明内容

为了学习更多源域和目标域的相同语音情感信息,实现无监督域自适应的情感分类,提出了一种基于多任务学习和子域自适应的跨库语音情感识别方法。具体步骤如下:

(1)特征预处理:首先选取源域语料库和目标域语料库具有相同情感类别的数据分别作为训练集和测试集,然后提取他们的声学特征,对其进行归一化处理;

(2)特征处理:将步骤(1)归一化之后得到的源域和目标域特征分别输入深度自编码器,压缩特征冗余信息,得到表征力强的低维情感特征。假设深度自编码的输入为X,解码输出为

从而获取源域和目标域在低维空间中的情感表示;同时使用源域真实的情感标签和性别标签作交叉熵来优化子域空间的划分。交叉熵计算如下:

其中

(3)子域特征分布对齐:采用局部最大均值误差(local maximum meandiscrepancy, LMMD)分别将子域特征空间划分为情感子域特征空间和性别子域特征空间。情感子域特征分布对齐算法表达为:

其中

其中

(4)训练模型:整个网络训练是通过Adam优化器不断优化训练的,由源域的情感标签和性别标签分别计算交叉熵来优化步骤(3)子域空间的准确划分。整个网络的损失函数表示为:

其中

(6)重复步骤(2)、(3),通过梯度下降法迭代训练网络模型,不断减小步骤(5)的损失函数,直至模型最优;

(7)利用步骤(6)训练好的网络模型,使用sofmatx分类器识别步骤(1)中未加噪的目标域特征,最终实现语音情感在跨语料库条件下的情感识别。

附图说明

如附图所示,图1为一种基于多任务学习和子域自适应的跨库语音情感识别方法流程图。

具体实施方式

下面结合具体实施方式对本发明做更进一步的说明。

(1)选择EMO-DB和CASIA两个语音情感语料库,分别作为源域数据库和目标域数据库;

(2)选择上述两个语料库共同的情感语音作为数据集。具体而言,选用EMO-DB数据库的4类情感语音(anger,fear,happiness,sadness)共有327条语音;CASIA汉语语音情感数据库的4类情感语音(anger,fear,happiness,sadness)共计800条语音数据。使用开源工具包Opensmile提取2010年国际语音情感识别挑战赛的标准特征集,每条语音提取出的特征都为1582维;

(3)制作源域语音信号的情感标签及性别标签,标签表示为one-hot向量;

(4)基于深度自编码器的隐层数量为3,隐层神经元节点分别设置为1200、500、1200,其中编码阶段的激活函数使用LeakyReLU函数,解码阶段的激活函数使用ReLU函数;

(5)将(2)得到的源域和目标域数据集特征作特征预处理之后,分别输入深度动编码器提取低维情感特征;

(6)在低维情感空间中,同时基于LMMD的情感子域自适应算法和性别子域自适应算法来度量源域和目标域的低维情感特征分布距离。其中计算基于LMMD的子域自适应损失函数时,需要使用源域的低维情感特征,以及源域的低维性别特征及对应的真实标签;但是目标域的情感标签和性别标签需要使用softmax计算的概率分布产生伪标签;

(7)整个网络的损失函数表示为:

其中

(8)模型的学习率和批处理大小都设置为0.00001和100,使用Adam梯度下降法训练网络模型,模型迭代训练800次,分类器使用softmax。在情感子域自适应和性别子域自适应中,LMMD的特征映射函数均使用多核高斯函数,而高斯核数量分别设置为5和2;

(9)将待识别的目标域语音信号进行归一化处理,并输入步骤(8)中训练好的深度自编码器,使用softmax分类器输出概率最大的类别即为识别的目标域情感类别;

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号