首页> 中国专利> 基于压缩感知的鲁棒性语音情感识别方法

基于压缩感知的鲁棒性语音情感识别方法

摘要

本发明公开了一种基于压缩感知的鲁棒性语音情感识别方法,包含如下步骤:产生含噪声的情感语音样本、建立声学特征提取模块、构建稀疏表示分类器模型、输出语音情感识别结果;有益效果是:充分考虑到自然环境中的情感语音通常会受到噪声的影响,提供一种噪声背景下的鲁棒性语音情感识别方法;充分考虑到不同类型特征参数的有效性,将特征参数的提取从韵律特征和音质特征两方面,扩充到梅尔频率倒谱系数MFCC,进一步提高特征参数的抗噪声效果;利用压缩感知理论中的稀疏表示的判别性,提供一种高性能的基于压缩感知理论的鲁棒性语音情感识别方法。

著录项

  • 公开/公告号CN103021406A

    专利类型发明专利

  • 公开/公告日2013-04-03

    原文格式PDF

  • 申请/专利权人 台州学院;赵小明;张石清;

    申请/专利号CN201210551585.7

  • 发明设计人 赵小明;张石清;

    申请日2012-12-18

  • 分类号G10L15/02(20060101);G10L15/06(20130101);G10L15/08(20060101);G10L25/03(20130101);G10L25/63(20130101);

  • 代理机构33230 杭州赛科专利代理事务所;

  • 代理人曹绍文

  • 地址 318000 浙江省台州市市府大道1139号

  • 入库时间 2024-02-19 19:02:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-02-02

    未缴年费专利权终止 IPC(主分类):G10L15/02 授权公告日:20141022 终止日期:20161218 申请日:20121218

    专利权的终止

  • 2014-10-22

    授权

    授权

  • 2013-05-01

    实质审查的生效 IPC(主分类):G10L15/02 申请日:20121218

    实质审查的生效

  • 2013-04-03

    公开

    公开

说明书

技术领域

本发明涉及语音处理、模式识别领域,特别是涉及一种基于压缩感知 的鲁棒性语音情感识别方法。

背景技术

人类的语言不仅包含了文字符号信息,同时也携带着人们的感情和情 绪等信息。如何让计算机通过语音信号自动分析和判断说话人的情感 状态,即所谓的“语音情感识别”方面的研究已成为语音处理、模式 识别等领域的热点。该研究的最终目的就是要赋予计算机情感智能, 使得计算机像人一样能进行自然、亲切和生动地交互。该研究在人工 智能、机器人技术、自然人机交互技术等领域具有重要的应用价值。

目前,对于语音情感识别的研究基本上是以安静环境中录制的情感语 料作为情感分析和研究对象。然而,自然环境中的情感语音通常都会 受到噪声的干扰,包含了不同程度的噪声。因此,对于噪声背景下的 鲁棒性语音情感识别方面的研究更接近实际,更具有应用价值。但对 于噪声背景下的鲁棒性语音情感识别研究,目前这方面的研究文献甚 少。

语音情感自动识别技术主要包括两个问题:一是情感特征提取问题, 即提取何种有效的语音特征参数用于情感识别;二是情感识别方法问 题,即采用何种有效的模式识别方法对包含某种情感的语句所属的情 感类别进行分类(见专利:邹采荣,一种基于支持向量机的语音情感 识别方法-申请号/专利号:2006100973016)。

目前,在情感特征提取方面,语音情感识别中常用的情感特征参数是 韵律特征和音质特征,前者包括基频、振幅和发音持续时间,后者包 括共振峰、频带能量分布、谐波噪声比以及短时抖动参数等。但是, 这些特征参数本身所表现出来的抗噪声效果非常有限。因此,仅仅使 用韵律特征和音质特征,难以在噪声背景下获得较好的语音情感识别 性能。为了提高特征参数的抗噪声效果,有必要提取其它类型的特征 参数如谱特征,将其与 韵律特征和音质特征相融合。一种代表性的谱特征就是能够反映人耳 听觉特性的梅尔频率倒谱系数(MFCC)。

在情感识别方法方面,现已经成功应用于语音情感识别的方法主要包 括:线性判别分类器(LDC)、K近邻法(KNN)、人工神经网络(ANN )和支持向量机(SVM)。但这些识别方法对噪声比较敏感,难以获得 较好的鲁棒性语音情感识别性能。因此,有必要发展新的高性能的鲁 棒性语音情感识别方法。

再介绍压缩感知(CS)技术。

压缩感知(CS)(见文献:E. J. Candes, M. B. Wakin. An  introduction to compressive sampling. IEEE Signal Proc essing Magazine, 2008, 25(2): 21-30)作为一种全新的信号处 理和采样理论,其核心思想是,只要信号是可以压缩的,或者在某个 变换域是稀疏的,则就可以采用一个与变换基不相关的观测矩阵将变 换所得到的高维信号投影到一个低维空间上,然后通过求解一个最优 化问题就可从这些少量的投影当中以高概率重构出原信号。在该理论 框架下,采样速率不再决定于信号的带宽,而决定于信息在信号中的 结构和内容。

压缩感知(CS)研究的初衷是用于信号的压缩和表示,但其最稀疏的 表示具有很好的判别性,可用于构建分类器(见文献:Guha T, Wa rd RK. Learning Sparse Representations for Human Acti on Recognition. IEEE Transactions on Pattern Analysis  and Machine Intelligence, 2012, 34(8): 1576-1588.)。目 前,在已有的语音情感识别研究文献中,还未见采用压缩感知理论中 的稀疏表示的判别性作为语音情感识别的鲁棒性识别方法。本发明就 是利用压缩感知理论中的稀疏表示的判别性来实现噪声背景下的鲁棒 性语音情感识别。

发明内容

本发明的目的就是为了克服上述现有情感识别技术的不足,提供一种 基于压缩感知的鲁棒性语音情感识别方法,用于实现噪声背景下的鲁 棒性语音情感识别。

本发明所采用的技术方案是:

一种基于压缩感知的鲁棒性语音情感识别方法,该方法包含如下步骤 :

产生含噪声的情感语音样本、建立声学特征提取模块、构建稀疏表示 分类器模型、输出语音情感识别结果;

(1)产生含噪声的情感语音样本,包括:

将情感语音样本库的所有语音样本,分为训练样本和测试样本两部分 ,然后对每一个训练样本和测试样本都添加高斯白噪声,从而产生含 噪声的情感语音样本;

(2)建立声学特征提取模块,包括:

将含噪声的情感语音样本进行声学特征提取,该声学特征提取模块包 括三部分:韵律特征参数提取、音质特征参数提取、梅尔频率倒谱系 数MFCC提取;

(2-1)韵律特征参数提取,包括:基频、振幅和发音持续时间;

(2-2)音质特征参数提取,包括:共振峰、频带能量分布、谐波噪声 比和短时抖动参数;

(2-3)梅尔频率倒谱系数MFCC提取,包括:提取13维MFCC特征及其一 阶和二阶导数参数,然后计算出它们的平均值和标准差;

(3)构建稀疏表示分类器模型,包括:

通过声学特征提取模块,每一个情感语音样本都对应着一个由提取的 声学特征参数所构成的特征矢量;将所有情感语音样本所对应的特征 矢量都输入到稀疏表示分类器中,用于构建稀疏表示分类器模型; 

构建稀疏表示分类器的方法是,首先采用稀疏分解的方法,用训练样 本对测试样本进行最稀疏表示,即把训练样本看作为一组基,通过求 解1-范数最小化的方法得到测试样本的最稀疏表示系数,最后用测试 样本与稀疏表示后的残差来进行分类;

(4)输出语音情感识别结果,包括:

通过稀疏表示分类器的训练和测试,输出语音情感识别结果,情感识 别测试中采用10次交叉检验技术,即所有语句被平分为10份,每次使 用其中的9份数据用于训练,剩下的1份数据用于测试,这样的识别实 验过程相应重复10次,最后取10次的平均值作为识别结果。

所述的基频采用自相关法提取出情感语音的基频轨迹曲线,然后计算 出该基频曲线的10个统计学参数,包括最大值、最小值、变化范围、 上四分位数、中位数、下四分位数、内四分极值、平均值、标准差、 平均绝对 斜度;

所述的振幅采用平方求和方法求取,提取振幅相关的9个统计学参数, 包括平均值、标准差、最大值、最小值、变化范围、上四分位数、中 位数、下四分位数、内四分极值;

所述的发音持续时间:发音持续时间表征不同情感语音的说话时间构 造上的差异性,提取发音持续时间相关的参数6个,包括发音持续总时 间、有声发音持续时间、无声发音持续时间、有声与无声时间的比值 、有声与发音总时间的比值、无声与发音总时间的比值。

所述共振峰:采用伯格Burg法计算出情感语音的14阶线性预测系数LP C,再用峰值检出法计算出第一、第二、第三共振峰F1、F2、F3的平均 值、标准差、中位数以及这三个共振峰的中位数所占的带宽,共提取 出12个共振峰相关特征参数;

所述频带能量分布:提取出5个不同频带的能量分布参数SED,即0-5 00Hz的频带能量平均值SED500、500-1000Hz的频带能量平均值SED1000、1 000-2500Hz的频带能量平均值SED2500、2500-4000Hz的频带能量平均值 SED4000、4000-5000Hz的频带能量平均值SED5000

所述谐波噪声比:提取谐波噪声比HNR的平均值、标准差、最小值、最 大值、变化范围,其计算公式为:

HNR=10log10[Σi=1Nh(i)2/Σi=1Nn(i)2](式1)

所述短时抖动参数:包括基频微扰 Jitter和振幅微扰Shimmer,它们 分别表示基频和振幅的微小变化,可通过计算出基频曲线和振幅曲线 的斜率变化而得到;

基频微扰 Jitter 的计算公式定义为:

Jitter(%)=Σi=1N-1(2Ti-Ti-1-Ti+1)/Σi=2N-1Ti(式2)

式中,Ti表示第i个峰间期,N为峰间期的数目;

振幅微扰 Shimmer 的计算公式定义为:

Shimmer(%)=Σi=2N-1(2Ei-Ei-1-Ei+1)/Σi=2N-1Ei(式3)

式中,Ei表示第i个峰间能量。

所述构建稀疏表示分类器的方法,具体步骤如下:

给定某一类的训练样本,测试样本看作为同类训练样本的线性组合, 即

yk,test=αk,1yk,1+αk,2yk,2+...+αk,nkyk,nk+ϵk=Σi=1nkαk,iyk,i+ϵk(式1)

式中,yk,test表示第kth类的测试样本,yk,i表示第kth类的第ith个训练样本, αk,i表示相应训练样本的权向量,εk则表示误差;

对于所有目标类别的训练样本,(式1)可表示为:

yk,test=α1,1y1,1+...+αk,1yk,1+...+αk,nkyk,nk+...+αc,ncyc,nc+ϵ=Σi=1n1α1,iy1,i+...+Σi=knkαk,iyk,i+...+αc,iyc,i+ϵ(式2)

式中,c表示所有训练样本的总的类别数;

采用矩阵的形式表示(式2),则

yk,test=Aα+ε(式3)

其中

A=[y1,1|...|y1,n1|...|yk,1|...|yk,nk|...|yc,1|...|yc,nc]α=[α1,1...α1,n1...αk,1...αk,nk...αc,1...αc,nc] (式4)

在稀疏表示分类器中,要求权向量α中除了与第kth类相关的元素外, 其余的元素都应该为零,为了获取权向量α,需要求解下面的L-0范数 意义下的最优化问题:

minα||α||0,s.t.||yk,test-||2ϵ (式5)

为求解(式5),将L-0范数最优化问题转化为L-1范数最优化问题求解 :

minα||α||1,s.t.||yk,test-||2ϵ (式6)

这是一个凸优化问题,可转化为线性规划问题进行求解;

为了进一步提高稀疏表示的抗噪声性能,设计一个加权的L-1范数最优 化问题,即(式6)可表示为

minα||α||1,s.t.||W(yk,test-)||2ϵ (式7)

其中,权因子变量W可表示为

Wi=e-||y-yrecons(i)||22σ2(式8)

式中,σ为一个常数,yrecons(i)=Aαi表示一个基于权向量αi的重构样本 ,其中,常数σ设为1,对于噪声比较大的数据,残差值||ytest-ytest(i)| |2就会比较大,其相应的权因子变量会比较小,从而可以削弱噪声的 影响;

给定一个新的测试样本ytest,首先通过求解(式7)获取权向量α,权向 量α的非零系数当中最大的系数值若对应第kth类,且将ytest归入到这个 类别当中,或将ytest归入到权向量α中最大的系数值所对应的类别当中 。

5、如权利要求1所述的基于压缩感知的鲁棒性语音情感识别方法,其 特征是:

所述稀疏表示分类器的训练和测试,包括以下步骤:

(4-1)用训练样本的特征矢量对每一类情感测试样本进行最稀疏表示 ,即给定一类情感的测试样本,通过求解(式7)的L-1范数最优化问 题获取其权向量α;

(4-2)对每一类情感(i=1,2,…,7)的测试样本ytest,先近似重构出一 个新样本,将其记为:,然后计算出这个重构的新样本与ytest的残差, 即r(ytest,i)=||ytest-ytest(i)||2

(4-3)取残差为最小值的类别号i作为测试样本ytest的情感类别,即id entify(ytest)=arg minir(ytest,i),从而输出不同情感类别的识别结果。

所述的情感语音样本库中选取生气、高兴、悲伤、害怕、讨厌、厌烦 以及无情感七种情感语音样本。

本发明的有益效果效果在于:

1.充分考虑到自然环境中的情感语音通常会受到噪声的影响,提供一 种噪声背景下的鲁棒性语音情感识别方法。

2.充分考虑到不同类型特征参数的有效性,将特征参数的提取从韵律 特征和音质特征两方面,扩充到梅尔频率倒谱系数MFCC,进一步提高 特征参数的抗噪声效果。

3.利用压缩感知理论中的稀疏表示的判别性,提供一种高性能的基于 压缩感知理论的鲁棒性语音情感识别方法。

附图说明

图1——语音情感识别系统框图。

图2——情感声学特征参数的统计。

图3——不同信噪比SNR下不同方法所取得的语音情感识别性能(%)比 较。

图4——本发明方法表现最好时所取得的不同情感类型的正确识别率( %)。

具体实施方式

图1为本系统框图,主要包括两大块:声学特征提取、稀疏表示分类器 的训练和测试。

一、声学特征提取

从德语情感语音样本库Berlin(见文献: Burkhardt, F., Paesch ke, A., Rolfes, M., Sendlmeier, W., Weiss, B. A dat abase of German emotional speech. In: Proceedings of.  Interspeech-2005, Lisbon, Portugal, 2005, pp. 1-4.)中 选取生气、高兴、悲伤、害怕、讨厌、厌烦以及中性(无情感)七种 情感语音样本,共535句。对选取的每一句情感语音样本添加高斯白噪 声,并经过预加重、分帧和加窗预处理,其中帧长为10ms。然后提取 三个方面的声学特征参数:韵律特征、音质特征、以及梅尔频率倒谱 系数MFCC。图2给出了所提取的这三个方面的情感声学特征参数的统计 情况,总共204个。这些特征参数提取的具体情况,表述如下:

1.韵律特征参数提取:包括基频、振幅和发音持续时间。

(1-1)基频:采用自相关法提取出情感语音的基频轨迹曲线,然后计 算出该基频曲线的10个统计学参数,包括最大值、最小值、变化范围 、上四分位数、中位数、下四分位数、内四分极值、平均值、标准差 、平均绝对斜度。

(1-2)振幅:采用平方求和方法求取,提取振幅相关的9个统计学参 数,包括平均值、标准差、最大值、最小值、变化范围、上四分位数 、中位数、下四分位数、内四分极值。

(1-3)发音持续时间:发音持续时间表征不同情感语音的说话时间构 造上的差异性,提取发音持续时间相关的参数6个,包括发音持续总时 间、有声发音持续时间、无声发音持续时间、有声与无声时间的比值 、有声与发音总时间的比值、无声与发音总时间的比值。

2.音质特征参数提取:包括共振峰、频带能量分布、谐波噪声比,以 及短时抖动参数。

(2-1)共振峰:采用伯格Burg法计算出情感语音的14阶线性预测系数 LPC,再用峰值检出法计算出第一、第二、第三共振峰F1、F2、F3的平 均值、标准差、中位数以及这三个共振峰的中位数所占的带宽,共提 取出12个共振峰相关特征参数。伯格Burg法的逼近准则就是使得格型 滤波器的正反向预测均方误差之和最小。(见文献:Erkelens JS,  Broersen PMT. Bias  propagation in the autocorrelation method of linear p rediction[J]. IEEE Transactions on Speech and Audio P rocessing, 1997,5(2): 116-119.)

(2-2)频带能量分布:提取出5个不同频带的能量分布参数SED,即0 -500Hz的频带能量平均值SED500、500-1000Hz的频带能量平均值SED1000、1000-2500Hz的频带能量平均值SED2500、2500-4000Hz的频带能量平 均值SED4000、4000-5000Hz的频带能量平均值SED5000

(2-3)谐波噪声比:提取谐波噪声比HNR的平均值、标准差、最小值 、最大值、变化范围,其计算公式为:

HNR=10log10[Σi=1Nh(i)2/Σi=1Nn(i)2](式1)

(2-4)短时抖动参数:包括基频微扰(Jitter和振幅微扰Shimmer,它 们分别表示基频和振幅的微小变化,可通过计算出基频曲线和振幅曲 线的斜率变化而得到。

基频微扰 (Jitter) 的计算公式定义为:

Jitter(%)=Σi=1N-1(2Ti-Ti-1-Ti+1)/Σi=2N-1Ti(式2)

式中,Ti表示第i个峰间期,N为峰间期的数目。

振幅微扰 (Shimmer) 的计算公式定义为:

Shimmer(%)=Σi=2N-1(2Ei-Ei-1-Ei+1)/Σi=2N-1Ei(式3)

式中,Ei表示第i个峰间能量。

3.梅尔频率倒谱系数MFCC:提取13维MFCC特征及其一阶和二阶导数参 数,然后计算出它们的平均值和标准差。

二、稀疏表示分类器的训练和测试

稀疏表示分类器的训练和测试步骤包括:

1.用训练样本的特征矢量对每一类情感测试样本进行最稀疏表示,即 给定某一类情感的测试样本,通过求解(式7)的L-1范数最优化问题 获取其权向量。

2.对每一类情感(i=1,2,…,7)的测试样本ytest,先近似重构出一个新 样本,将其记为:,然后计算出这个重构的新样本与ytest的残差,即r (ytest,i)=||ytest-yrecons(i)||2

3.取残差为最小值的类别号i作为测试样本ytest的情感类别,即identif y(ytest)=arg minir(ytest,i),从而输出不同情感类别的识别结果。

三、识别系统的评价

为了提高测试结果的可信度,情感识别测试中采用10次交叉检验技术 。

图3给出了在不同信噪比(SNR)的情况下本发明方法与其它四种识别 方法,如线性判别分类器(LDC)、K近邻法(KNN)、人工神经网络( ANN)和支持向量机(SVM),所取得的语音情感识别性能(%)比较。 信噪比(SNR)的取值,先是无噪声(即直接从Berlin数据库中的情感 语句提取的声学特征数据)情况下,然后再从30dB开始,依次减少5d B,直到-10dB截止。该结果表明,使用本发明方法在各种信噪比条件 下所取得的语音情感识别性能都要明显优于其它四种识别方法。可见 ,使用本发明方法能够获得优异的鲁棒性语音情感识别性能。此外, 在无噪声情况下,本发明方法也取得了最好的识别性能。图4给出了使 用本发明方法表现最好时,即在无噪声情况下所取得的不同情感类型 的正确识别率(%)。其中,图4中对角线粗体数据表示每一种具体情 感类型所获得的正确识别率。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号