首页> 中国专利> 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法

一种考虑语音中多线性群组稀疏特性的情绪特征提取方法

摘要

本发明公开了一种考虑语音中多线性群组稀疏特性的情绪特征提取方法,该方法考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,最终计算特征的一阶和二阶差分系数,得到语音情绪特征。本发明考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取,利用群组稀疏张量分解方法进行特征投影,最终提高了多类语音情绪识别的准确率。

著录项

  • 公开/公告号CN102592593A

    专利类型发明专利

  • 公开/公告日2012-07-18

    原文格式PDF

  • 申请/专利权人 山东大学;

    申请/专利号CN201210091525.1

  • 发明设计人 吴强;刘琚;孙建德;

    申请日2012-03-31

  • 分类号G10L15/02;G10L19/06;

  • 代理机构济南金迪知识产权代理有限公司;

  • 代理人宁钦亮

  • 地址 250100 山东省济南市历城区山大南路27号

  • 入库时间 2023-12-18 06:17:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-17

    未缴年费专利权终止 IPC(主分类):G10L15/02 授权公告日:20140101 终止日期:20170331 申请日:20120331

    专利权的终止

  • 2014-01-01

    授权

    授权

  • 2012-09-19

    实质审查的生效 IPC(主分类):G10L15/02 申请日:20120331

    实质审查的生效

  • 2012-07-18

    公开

    公开

说明书

技术领域

本发明涉及一种用于提高语音情绪识别性能的语音情绪特征提取方法,属于语音信号处 理技术领域。

背景技术

语音是人们在日常生活中进行交流的最便捷的方式之一,这也使得研究人员积极探索如 何利用语音作为人和机器之间进行交流的工具。除了传统的语音识别等人机交互模式外,说 话人的情绪也是一种重要的交互信息,机器能够自动识别理解说话人的情绪是人机交互智能 化的重要标志之一。

语音情绪识别在信号处理和智能人机交互领域具有重要的价值,有着很多潜在的应用。 在人机交互方面,通过计算机识别说话人的情绪可以提高系统的亲切性和准确性,例如远程 教育系统可以通过识别学生的情绪及时调整课程,从而提升教学效果;在电话呼叫中心和移 动通信中,可以及时获取用户的情绪信息,提高服务的质量;车载系统可以通过情绪识别检 测司机的精力是否集中,并做出相应的辅助警示。在医学方面,基于语音的情绪识别可以作 为一种工具,帮助医生对病人的病情进行诊断。

对于语音情绪识别来说,一个重要的问题就是如何提取出有效的特征用来表示不同的情 绪。按照传统的特征提取方法,通常会将一段语音信号分成多帧,以便得到近似平稳的信号。 从每一帧获取的周期性特征称为局部特征,例如基音、能量等,其优点是现有的分类器能够 利用局部特征较为准确的估计出不同情绪状态的参数,缺点是特征维数和样本数较多,影响 到特征提取和分类的速度。通过对整个句子的特征进行统计得到特征称为全局特征,其优点 是能够获得较好的分类精度和速度,但是丢失了语音信号的时序信息,容易出现训练样本不 足的问题。一般情况下,语音情绪识别常用的特征有以下几类:连续声学特征、谱特征、基 于Teager能量算子的特征等等。

根据心理学和韵律学等的研究结果,说话人的情绪在语音中最直观的特征就是韵律连续 特征,如基音、能量、说话的速率等。对应的全局特征包括基音或者能量的均值、中位数、 标准偏差、最大值、最小值等,以及第一、第二共振峰等等。

谱特征提供了语音信号中的有用的频率信息,也是语音情绪识别中重要的特征提取方式。 常用的谱特征包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、美尔频率倒谱系数 (MFCC)、感知加权线性预测(PLP)等等。

语音是由发声系统中的非线性空气流产生的,Teager能量算子(TEO)是Teager等人提出 的一种能够快速跟踪声门周期内信号能量变化的运算操作,用于分析语音的精细结构。不同 的情绪状态下,肌肉的伸缩情况会影响发声系统中空气流的运动,根据Bou-Ghazale等人的 研究结果可以知道,基于TEO的特征可以用来检测语音中的紧张情绪。

根据众多实验评估结果,对于语音情绪识别来说,要针对不同的分类任务来选择合适的 特征表征,基于Teager能量的特征适合于检测语音信号中的紧张情绪;连续声学特征则适合 区分高唤醒情绪(high-arousal emotion)和低唤醒情绪(low-arousal emotion);而对于多 类的情绪分类任务,谱特征是最适合的语音表征,如果将谱特征与连续声学特征结合,或者 考虑多种因素的关联分析,也能够达到提高分类精度的目的。

在语音情绪特征提取和选择完成之后的另外一个重要阶段就是分类。目前模式识别领域 中各种分类器都被用来对语音情绪特征进行分类,包括隐马尔科夫模型(HMM)、高斯混合模 型(GMM)、支持向量机(SVM)、线性判别分析(LDA)和集成分类器等等。隐马尔科夫模型是在 语音情绪识别中应用的最广泛的识别器之一,这得益于它在语音信号中的普遍应用,尤其适 用于处理具有时序结构的数据,从目前的研究结果来看,基于隐马尔科夫模型的情绪识别系 统能够提供较高分类准确率。高斯混合模型可以看作是只有一个状态的隐马尔科夫模型,非 常适合于对多元分布进行建模,Breazeal等人利用GMM作为分类器应用于KISMET语音数据 库,对五类情绪进行分类识别。支持向量机已经被广泛应用模式识别领域,其基本原理是通 过核函数将特征投影到高维空间使得特征线性可分,相比HMM和GMM,它具有训练算法全局 最优以及存在依赖于数据的泛化边界的优点,不少研究结果是利用支持向量机作为语音情绪 识别的分类器并取得了较好的分类效果。

如图1所示,传统的基于谱特征的语音情绪识别方法通常采用以下步骤:

1)对输入的语音信号进行预处理,包括加窗、滤波、预加重等;

2)对信号进行短时傅立叶变换,通过美尔三角窗进行滤波,然后求对数谱(取log);

3)利用离散余弦变换计算倒谱,然后加权,求倒谱均值减,计算差分;

4)利用高斯混合模型(GMM)进行训练,获得不同情绪的模型;

5)通过训练得到的情绪模型,对测试数据进行识别,得到识别准确率。

目前针对两类情绪分类,如负面情绪和中立情绪,已经达到了相对较好的分类精度,但 是对于多类情绪的分类,由于数据的不平衡性,只考虑单一因素(频率或者时间)等原因, 使得特征可区分性较差,情绪分类精度相对较低,这使得基于语音的情绪识别系统应用受到 限制。

发明内容

针对传统语音情绪识别中的特征提取只考虑单一因素,如频率或者时间,使得特征可区 分性较差的问题,本发明提出一种考虑语音中多线性群组稀疏特性、用于语音情绪识别并能 够提高多类情绪识别准确率的语音情绪特征提取方法。

本发明的考虑语音中多线性群组稀疏特性的情绪特征提取方法,是:

考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分 解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表 征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余 弦变换对特征去相关,通过差分获得特征的一阶和二阶差分系数;具体包括以下步骤:

(1)采集语音信号s(t)(通过麦克风等设备采集),利用短时傅里叶变换将s(t)变换到时 频域,得到信号的时频表示S(f,t)和能量谱P(f,t);

(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波,Gabor函数定 义如下:

gk(x)=k2σ2·e-(k2·x2/2σ2)·[ejk·x-e-(σ2/2)],

其中:是能量谱P(f,t)在第t帧、频率为f的元素;是控制函数的尺度 与方向的向量,j表示虚部单位,kv=2-(v+2)/2·π,φ=u(π/K),u表示函数的方向,v表示 函数的尺度,K表示总的方向数,σ是确定函数包络的常数,设为2π。

Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征这里是一个 大小为的5阶张量,各阶分别表示时间、频率、方向、尺度和类别,然 后对的频率阶进行美尔三角窗滤波得到新的5阶张量PP的大小为N1×N2×N3×N4×N5, 每一阶的长度为Ni,i=1,L 5;

(3)对得到的多线性表征P进行群组稀疏张量分解,计算不同因素上的投影矩阵 U(i),i=1,L 5,以便进行特征投影,建立以下分解模型:

PΛ×1U(1)×2U(2)×3U(3)×4U(4)×5U(5)

其中,U(i)是分解之后得到的大小为Ni×K的投影矩阵;Λ是对角元素为1的5阶张量,大 小为K×K×K×K×K;×i表示张量i阶矩阵乘运算,其定义如下:

(X×iA)n1,Lni-1,k,ni+1,LnM=ΣniXn1,LnMAk,ni

其中X表示一个大小为N1×L×NM的M阶张量,A是一个大小为Ni×K的矩阵,是 张量X的元素,是矩阵A的元素;

计算投影矩阵U(i),i=1,L I的具体的分解过程如下,这里i表示阶(对应不同因素)的索 引,I=5:

①采用交替最小均方或者随机初始化U(i)≥0,i=1,L,I;

②对投影矩阵U(i),i=1,L I的每个列向量i=1,L,I,k=1,L,K进行归一化;

③误差目标函数E=12P-Σk=1Kuk(1)ouk(2)oLouk(I)F2大于一定阈值时,循环执行以下操作:

●从n=1到I依次执行:

uk(i)||uk(i)||Fγk(i)||uk(i)||F+λkqi[P(i)(k){uk}e-i]+,

其中,||·||F表示Frobenius范数,是张量P(k)的i阶张量矩阵展开, P(k)=P-Σj=1,jkKuj(1)ouj(2)oLouj(I),{uk}e-i=[uk(I)]eLe[uk(i-1)]e[uk(i+1)]eLe[uk(1)],e是矩阵 的Khatri-Rao积,λk和qi是用于调节目标函数成分稀疏度的权重系数,取0到1之间的数 值;

●如果n≠5,γki=uk(I)Tuk(I),如果n=5,

④当目标函数E小于一定阈值时,循环结束,计算得到投影矩阵U(i),i=1,L I;

(4)利用得到的对应于频域的投影矩阵U(2)对语音信号的多线性表征P进行特征投影:

S=P×2U+(2)

其中,是投影矩阵U(2)伪逆的非零元素组成的矩阵,×2表示矩阵与P进 行张量的2阶矩阵乘;

(5)将时间阶固定,对获得的多线性稀疏表征S进行张量展开操作,得到大小为的特征矩阵S(f),其中N^1=N2·N3·N4·N5;

(6)利用离散余弦变换对S(f)进行去相关,得到语音情绪特征F,计算特征的一阶和二 阶差分系数得到最终的情绪特征。

本发明考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取,利用群 组稀疏张量分解方法进行特征投影,最终提高了多类语音情绪识别的准确率。

附图说明

图1是传统语音情绪识别过程的示意框图;

图2是本发明的特征提取方法的示意图;

图3是采用本发明的语音情绪识别过程的示意框图。

图4是对四类语音情绪识别的实验结果对比图。

具体实施方式

如图2所示,本发明的基于多线性群组稀疏特征的语音情绪识别方法,具体包括以下步骤:

(1)通过麦克风等设备采集到语音信号s(t),利用短时傅里叶变换将s(t)变换到时频域, 得到信号的时频表示S(f,t)和能量谱P(f,t);

(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波,得到语音信号 的多线性表征然后对的频率阶进行美尔三角窗滤波得到表征P

Gabor函数定义如下:

gk(x)=k2σ2·e-(k2·x2/2σ2)·[ejk·x-e-(σ2/2)],

其中:是能量谱P(f,t)在第t帧、频率为f的元素;是控制函数的尺 度与方向的向量,j表示虚部单位,kv=2-(v+2)/2·π,φ=u(π/K),u表示函数的方向,v表 示函数的尺度,K表示总的方向数,σ是确定函数包络的常数,设为2π。

Gabor函数对能量谱P(f,t)卷积滤波的结果是语音信号的多线性表征这里是一个 大小为的5阶张量,各阶分别表示时间、频率、方向、尺度和类别,然 后对的频率阶进行美尔三角窗滤波得到新的5阶张量PP的大小为N1×N2×N3×N4×N5, 每一阶的长度为Ni,i=1,L 5;

(3)对表征P进行群组稀疏张量分解,计算不同因素上的投影矩阵U(i),i=1,L 5,以便 进行特征投影。建立以下分解模型:

P≈Λ×1U(1)×2U(2)×3U(3)×4U(4)×5U(5)

其中,U(i)是分解之后得到的大小为Ni×K的投影矩阵;Λ是对角元素为1的5阶张量,大 小为K×K×K×K×K;×i表示张量i阶矩阵乘运算,其定义如下:

(X×iA)n1,Lni-1,k,ni+1,LnM=ΣniXn1,LnMAk,ni

其中X表示一个大小为N1×L×NM的M阶张量,A是一个大小为Ni×K的矩阵,是 张量X的元素,是矩阵A的元素。

为计算投影矩阵U(i),i=1,L I,这里I=5,具体的分解过程如下:

a)采用交替最小均方或者随机初始化U(i)≥0,i=1,L,I;

b)对投影矩阵U(i),i=1,L I的每个列向量i=1,L,I,k=1,L,K进行归一化;

c)误差目标函数E=12P-Σk=1Kuk(1)ouk(2)oLouk(I)F2大于一定阈值时,循环执行以下操 作:

●从n=1到I依次执行

uk(i)||uk(i)||Fγk(i)||uk(i)||F+λkqi[P(i)(k){uk}e-i]+,

其中,||·||F表示Frobenius范数,P(k)=P-Σj=1,jkKuj(1)ouj(2)oLouj(I),是张量P(k)的 i阶张量矩阵展开,{uk}e-i=[uk(I)]eLe[uk(i-1)]e[uk(i+1)]eLe[uk(1)],e是矩阵的Khatri-Rao 积,λk和qi是用于调节目标函数成分稀疏度的权重系数,取0到1之间的数值;

●如果n≠5,γki=uk(I)Tuk(I),如果n=5,

d)当目标函数E小于一定阈值时,循环结束,计算得到投影矩阵U(i),i=1,L I;

(4)利用得到的对应于频域的投影矩阵U(2)对语音信号的多线性表征P进行特征投影:

S=P×2U+(2)

其中,是投影矩阵U(2)伪逆的非零元素组成的矩阵,×2表示矩阵与P进 行张量的2阶矩阵乘;

(5)将时间阶固定,对获得的多线性稀疏表征S进行张量展开操作,得到大小为的特征矩阵S(f),其中N^1=N2·N3·N4·N5;

(6)利用离散余弦变换对S(f)进行去相关,得到语音情绪特征F,计算特征的一阶和二 阶差分系数得到最终的情绪特征。

如图3所示,采用上述特征提取方法进行语音情绪识别的过程,包括以下步骤:

1)获取已经具有不同情绪标签的语音信号数据sl(t),l=1,L,L,共有J类不同情绪;

2)利用图2中所示的特征提取方法进行提取不同情绪的特征Fl

3)利用混合高斯混合模型(GMM)对不同情绪特征进行建模,通过学习训练,得到第l 类的情绪所对应的情绪模型Ml

4)当给定未知情绪类型的语音信号进行测试时,利用GMM建立的情绪模型Ml, l=1,L,L,依次进行测试计算极大后验概率,得到最大概率的情绪类别,即是该语 音信号的情绪识别结果。

本发明的效果可以通过实验进一步说明。

实验在FAU Aibo数据集上测试了本发明提出的特征提取方法的识别性能,对4类情绪 (Anger,Emphatic,Neutral,Rest)进行识别。本实验语音信号的采样率为8kHz,采用汉 明窗进行加窗,23ms窗长,10ms窗移,利用短时傅里叶变换计算信号的能量谱,具有4个不 同的尺度和4个不同方向Gabor函数对能量谱进行时频卷积滤波,采用大小为36的Mel滤波器 组计算美尔能谱,利用投影矩阵在频域阶上进行特征投影,利用DCT对特征进行去相关。

图4比较了本发明提出的方法与已有特征提取技术(MFCC和LFPC特征)的识别性能比较,由 最终的识别准确率可见,采用本发明后,多类语音情绪识别的准确率得到有效提高,较传统 方法MFCC提高了6.1%,较LFPC方法提高了5.8%。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号