首页> 中国专利> 一种基于长短时记忆网络快速识别语音情感类别的方法

一种基于长短时记忆网络快速识别语音情感类别的方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于长短时记忆网络快速识别语音情感类别的方法，包括如下步骤：从原始语音数据样本中提取具有时序信息的帧级语音特征；通过软注意力模型创建基于注意力机制的改进型LSTM模型；用已知的原始语音数据样本及其语音情感类别对改进型LSTM模型进行训练得到情感类别识别模型；对情感类别识别模型进行情感识别测试验证；将未知的原始语音数据样本输入情感类别识别模型进行识别，输出对应的语音情感类别；本发明通过注意力机制优化常规型LSTM模型得到改进型LSTM模型，在保证性能的前提下，有效减少了矩阵计算量，提高语音情感类别识别的性能，具有良好的应用前景。

著录项

公开/公告号CN113053418A

专利类型发明专利
公开/公告日2021-06-29

原文格式PDF
申请/专利权人南京工程学院;
展开▼

申请/专利号CN202110485958.4
发明设计人颜思瑞;丁凯星;谢跃;陈允韬;王超;
展开▼

申请日2021-04-30
分类号G10L25/63(20130101);G10L25/30(20130101);G10L25/03(20130101);
代理机构32358 南京创略知识产权代理事务所(普通合伙);
代理人吕娟
地址 211167 江苏省南京市江宁区江宁科学园弘景大道1号
入库时间 2023-06-19 11:39:06

说明书

技术领域

本发明涉及语音情感识别技术领域，特别涉及一种基于长短时记忆网络快速识别语音情感类别的方法。

背景技术

语音是人类表达情感的重要方式之一，以其为媒介的情感识别对智能化的人机交互研究具有重要意义。早前语音情感识别的工作主要聚焦于机器学习算法，如支持向量机，贝叶斯分类器和K近邻算法。而当前随着深度学习的提出，语音情感识别得到了进一步的发展。

虽然早期的工作促进了语音情感的研究，但受传统机器学习只能接受固定长度数据作为输入的影响，目前具有固定维度的静态语音情感特征是使用最多的。例如Schuller提出了一系列的INTERSPEECH情感特征集合，这类特征通过静态统计函数计算了语音特征在时间维度的统计特性，最终可获得一个与语音持续时间无关的固定维度的特征向量。虽然这种特征可以满足传统机器学习只能接受确定维度的数据作为输入的要求，但也导致了统计分析处理后的语音特征丧失了原始语音中的时序信息。为解决上诉问题，我们采用了在计算统计函数之前的帧级语音特征，该特征维度是随语音长度而变化的，且通过帧之间的序列关系保留了原始语音的时序信息。

另一方面，虽然传统机器学习算法因记忆能力较差很难学习时间信息，但随着深度学习算法在情感识别领域中的成功应用，尤其是长短时记忆网络(Long Short-termMemory，LSTM)的提出，为处理语音的时序信息以及变长序列提供了可行性。近些年来，为强化LSTM在特定任务中处理数据的能力，提出了很多LSTM的变体结构。例如：Gers提出了窥视连接,将细胞状态也作为了输入信息。Shi使用卷积操作替换了原始LSTM中部分乘法操作，使得网络能更好的挖掘时空信息。Daniel通过振荡频率稀疏化更新以加快LSTM的收敛速度。上述这些算法在优化LSTM记忆能力的同时也增加了其计算复杂度。

注意力机制最早应用于图像处理领域，并取得了非常好的效果。其核心思想是人脑对整幅图的关注并不是均衡的，是存在一定的区分权重的。在了机器翻译领域，Bahdanau提出了软注意力模型。所谓的“软”是指求取编码后每个单词的概率分布，然后进行加权，即当前待翻译的单词对其他单词的依赖程度(即权重)是有区别的。同样，在LSTM中，可以通过注意力机制为历史细胞状态与候选细胞状态进行加权计算，取代原始的遗忘门与输入控制门。

发明内容

发明目的：本发明公开了一种基于长短时记忆网络快速识别语音情感类别的方法，在常规型LSTM基础上，通过注意力机制优化了常规型LSTM内部的遗忘门和输入控制门的计算方式，提出了基于注意力机制的改进型LSTM模型，在保证性能的前提下，有效减少了矩阵计算量，提高语音情感识别的性能。

技术方案：本发明采用如下技术方案：一种基于长短时记忆网络快速识别语音情感类别的方法，包括以下步骤：

S1、从原始语音数据样本中提取具有时序信息的帧级语音特征；

S2、通过软注意力模型创建基于注意力机制的改进型LSTM模型；

S3、用已知的原始语音数据样本及其语音情感类别对步骤S2中创建好的改进型LSTM模型进行训练，训练好后得到情感类别识别模型；

S4、对步骤S3得到的情感类别识别模型进行情感识别测试验证；

S5、将未知的原始语音数据样本输入情感类别识别模型进行识别，输出对应的语音情感类别。

优选的，步骤S2中通过软注意力模型创建基于注意力机制的改进型LSTM模型，包括以下步骤：

S21、用软注意力模型中的注意力门替代常规型LSTM模型中的遗忘门以得到新遗忘门；

S22、以步骤S21得到的新遗忘门与常规型LSTM模型中输入控制门的对偶关系，取代常规型LSTM模型中的输入控制门，得到注意力机制的改进型LSTM模型。

优选的，步骤S21中，用软注意力模型中的注意力门替代常规型LSTM模型中的遗忘门以得到新遗忘门，包括如下步骤：

S21.1、对常规型LSTM模型进行分析，利用LSTM引入细胞结构,通过自循环方式，使得常规型LSTM模型能够关联RNN过去的历史序列，其具体计算公式如下：

其中，σ为sigmoid激活函数，其取值范围在[0,1]之间，代表了遗忘历史细胞状态的概率；tanh为双曲正切激活函数；h

S21.2、通过注意力机制优化了常规型LSTM内部的遗忘门计算方式，f

步骤S22中，以步骤S21得到的新遗忘门与常规型LSTM模型中输入控制门的对偶关系，取代常规型LSTM模型中的输入控制门，得到注意力机制的改进型LSTM模型，包括以下步骤：

S22.1、通过注意力机制来计算历史细胞状态与候选细胞状态的加权分数，替代常规型LSTM模型中的遗忘门与输入控制门，得到新的细胞状态，新的细胞状态更新公式如下：

其中s

优选的，步骤S22.1中的公式(8)和(9)与步骤S21.1的公式(1)和(2)中的权重参数相比可得,注意力公式中的权重参数W

其中等式右边是一个元素全为1的矩阵，为了进一步减少计算复杂度,s

优选的，步骤S4中，用召回率对情感类别识别模型进行测试验证：

其中，recall为召回率；TP是预测为正，实际为正的数量；TN是预测为负，实际为正的数量。

优选的，步骤S1中，提取的语音特征通过语音帧之间的序列关系保留了原始语音数据样本中的时序信息，且语音特征的维度随原始语音数据样本的实际长度而变化。

有益效果：本发明具有如下有益效果：

本发明的一种基于长短时记忆网络快速识别语音情感类别的方法，通过注意力机制优化了常规型LSTM内部的遗忘门和输入控制门的计算方式，通过注意力机制来计算历史细胞状态与候选细胞状态的加权分数，替代常规型LSTM模型中的遗忘门与输入控制门，有效减少了矩阵计算量，提高语音情感识别的性能，通过加权系数间的对偶关系可进一步减少计算复杂度；而在性能方面，改进型LSTM模型具有更稳定的收敛性和更高的识别率；因为注意力门是直接根据历史细胞状态与候选细胞状态进行加权分数的计算，而不是依赖当前输入与历史输出来间接计算两种细胞状态的权重系数，因而能够更有效评估历史细胞状态与候选细胞状态的相对信息量，所以基于注意力机制的改进型LSTM模型可以在保证性能的前提下，减少其计算的复杂度，具有良好的应用前景。

附图说明

图1是本发明基于长短时记忆网络快速识别语音情感类别的方法的流程图；

图2是eNTERFACE数据库收敛曲线；

图3是GEMEP数据库收敛曲线；

图4是收敛后模型的稳定性；

图5是传统LSTM计算框架图；

图6是优化后的LSTM计算框架图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明公开了一种基于长短时记忆网络快速识别语音情感类别的方法，包括如下步骤：

步骤A、从原始语音数据中提取具有时序信息的帧级语音特征，其中，该语音特征通过语音帧之间的序列关系保留了原始语音数据中的时序信息，且该语音特征的维度是随原始语音数据的实际长度而变化的。详细的语音特征集合如下表1所示：

表1

步骤B、对常规型LSTM模型进行分析，LSTM(Long Short-Term Memory)是长短期记忆网络，是RNN的一种变体，在一般的RNN中，当关联步长较大时，往往容易出现梯度消失，因为导数的链式法则导致了连乘使得梯度按指数级消失。LSTM引入细胞结构(Cell),通过自循环方式解决了这个问题，使得RNN能够关联过去的历史序列，具有了更强的长程依赖性，本实验引用了Gers所提出的窥视链接网络，其具体计算公式如下：

其中，σ为sigmoid激活函数，其取值范围在[0,1]之间，代表了遗忘历史细胞状态的概率；tanh为双曲正切激活函数。h

步骤C、在常规型LSTM模型基础上，通过注意力机制优化了LSTM内部的遗忘门的计算方式，提出了基于注意力机制的改进型LSTM模型，在保证性能的前提下，有效减少了矩阵计算量；由与sigmod函数的特征，f

其中s

步骤D、将步骤C中公式(8)与(9)与公式(1)和(2)中的权重参数相比,注意力公式中的权重参数W

其中等式右边是一个元素全为1的矩阵，为了进一步减少计算复杂度,s

因此最终得出结论，改进型LSTM模型的权重矩阵的维度远小于常规型LSTM模型中的权重矩阵，因而减少了计算复杂度。

步骤E、将已知的原始语音数据样本及其语音情感类别对如步骤A至D中所述的情感识别模型；训练情感识别模型，并对训练好的情感识别模型的识别性能进行评测；将未知的原始语音数据样本输入情感类别识别模型中，输出对应的语音情感类别。

为评价模型性能，本发明通过情感识别中常用的召回率(Recall)对比了传统缩放点注意力机制算法，总体评价指标为无加权平均召回率(Unweighted Average Recall,UAR)。

其中，TP是预测为正，实际为正的数量；TN是预测为负，实际为正的数量。

为验证本发明的有效性，在eNTERFACE和GEMEP两个情感数据库上进行了测试,。eNTERFACE是一种音视频情感数据库，由来自14个国家的43人用英语完成录制，包含了以下6中情感：生气，厌恶，害怕，高兴，伤心和惊讶.本文仅使用该数据库中的语音作情感识别研究，获得了1260条有效语音样本，其中260条作为测试集。GEMEP是法语数据库，本文使用了12种情感数据，共1080条样本，其中200条作为测试数据。而模型由2层LSTM构成，相关参数设置如表2所示。为对比计算复杂度，基于注意力机制的改进型LSTM模型(lstm-at)和常规型LSTM模型使用相同的参数。

表2模型参数

为验证注意力门在时间复杂度上的优越性，实验在训练相同的迭代次数下，对比了lstm-at模型与常规型LSTM模型所需要的时间代价。图1和图2分别给出了两个模型在eNTERFACE和GEMEP数据库上的收敛曲线，其中图(a)表明这两个模型具有相同的迭代步数。图(b)可以看出，基于注意力机制的改进型LSTM模型的算法在相同条件下所需要的训练时间要小于常规型LSTM模型，证明了所提算法减少了计算复杂度。因为注意力门中待训练的权重矩阵的维度要小于原始模型中的权重，且通过减法运算直接取缔了原始的输入控制门(如公式(11)所示)，所以降低了计算复杂度。

为了更好的比较模型收敛后的性能，eNTERFACE和GEMEP分别取500步和2000步之后的测试结果作为分析对象，并将结果绘制成图3。其中矩形框的高度反应了收敛曲线的波动性，即收敛后模型的稳定性。框的高度越小模型的波动就越小，性能越稳定。而矩形框框内的水平线表示了稳定的识别率。两侧的虚线代表了模型所获得的极值。由此可见，基于注意力机制的改进型LSTM模型具有较小的矩形框，收敛后的模型更加稳定，在eNTERFACE上获得了75％的稳定识别率比传统LSTM高约8％，并能达到80％的最佳识别率。在GEMEP上，基于注意力机制的改进型LSTM模型算法比常规型LSTM模型提高了约4％，最佳可达50％的识别率。因而改进型LSTM模型比常规型LSTM模型具有更稳定的收敛性与更高的识别率。

相比于常规型LSTM模型，所提出的改进型LSTM模型通过注意力机制直接对历史细胞状态与候选细胞状态进行注意力加权分数的计算，其加权分数与历史输入以及当前输入无关，因而矩阵运算是在低维空间中完成的，具有较少的矩阵运算量。基于注意力机制的改进型LSTM模型合并了常规型LSTM模型的遗忘门与输入控制门的功能，通过加权系数间的对偶关系可进一步减少计算复杂度。而在性能方面，基于注意力机制的改进型LSTM模型具有更稳定的收敛性和更高的识别率。因为注意力机制中的注意力门是直接根据历史细胞状态与候选细胞状态进行加权分数的计算，而不是依赖当前输入与历史输出来间接计算两种细胞状态的权重系数。因而能够更有效评估历史细胞状态与候选细胞状态的相对信息量。所以基于注意力机制的改进型LSTM模型可以在保证性能的前提下，减少模型计算的复杂度。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于长短时记忆网络快速识别语音情感类别的方法 [P] . 中国专利： CN113053418A . 2021-06-29
2. 一种基于长短时记忆网络LSTM的双耳语音分离方法 [P] . 中国专利： CN110728989A . 2020-01-24
3. Novel and innovative means of providing an anonymized and secure mechanism for speech-to-text conversion. This invention provides a versatile and extensible privacy layer that leverages existing cloud-based Automated Speech Recognition (ASR) services and can accommodate emerging speech-to-text technologies, such as Natural Language Processing (NLP), voice bots and other voice-based artificial intelligence interfaces. This invention also allows the latest and best-of-breed speech technologies to be applied to the legal, medical, financial, and other privacy-sensitive fields without sacrificing [P] . 美国专利： US2020005792A1 . 2020-01-02

机译：为语音到文本转换提供匿名和安全机制的新颖创新方法。本发明提供了一种通用且可扩展的隐私层，其利用了现有的基于云的自动语音识别（ASR）服务，并且可以适应新兴的语音到文本技术，例如自然语言处理（NLP），语音机器人和其他基于语音的人工语言。智能接口。本发明还允许在不牺牲法律，医学，金融和其他隐私敏感领域的情况下应用最新和最好的语音技术。
4. Speech synthesis apparatus, speech synthesis method and speech synthesis program based on one model speech recognition synthesis [P] . 日本专利： JP5574344B2 . 2014-08-20

机译：基于一种模型的语音识别合成的语音合成装置，语音合成方法和语音合成程序
5. Speech transmitting method for Internet, involves registering voice over Internet protocol module as mobile terminal with base station, converting speech signal to protocol data and data into speech signals based on standard of radio system [P] . 德国专利： DE102004009368A1 . 2005-09-22

机译：一种互联网语音传输方法，包括将互联网语音协议模块注册为基站的移动终端，将语音信号转换为协议数据，并将数据转换为基于无线电系统标准的语音信号