首页> 中国专利> 联合惩罚稀疏表示字典学习的语音情感识别方法及系统

联合惩罚稀疏表示字典学习的语音情感识别方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种联合惩罚稀疏表示字典学习的语音情感识别方法及系统，该方法包括：S1、对训练样本库中每个情感语音信号进行特征提取和处理，得到训练样本特征矩阵A；S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典

著录项

公开/公告号CN103594084A

专利类型发明专利
公开/公告日2014-02-19

原文格式PDF
申请/专利权人江苏大学;
展开▼

申请/专利号CN201310503631.0
发明设计人毛启容;董俊健;黄正伟;王新宇;邢玉萍;詹永照;
展开▼

申请日2013-10-23
分类号G10L15/02;G10L15/06;G10L25/63;
代理机构江苏致邦律师事务所;
代理人樊文红
地址 212013 江苏省镇江市京口区学府路301号
入库时间 2024-02-19 22:14:31

法律信息

法律状态公告日

法律状态信息

法律状态
2016-05-25

授权

授权
2014-03-19

实质审查的生效 IPC(主分类):G10L15/02 申请日:20131023

实质审查的生效
2014-02-19

公开

公开

说明书

技术领域

本发明涉及语音信号处理、信号的稀疏表示和模式识别技术领域，尤其涉及一种基于联合惩罚稀疏表示字典学习的语音情感识别方法及系统。

背景技术

语音信息在人类交流中扮演重要的角色，有研究表明，人类40%的情感信息都是通过说话进行传递的。准确理解人的情感有助于促进和谐的人机交互。因此，如何使用计算机技术从语音中自动识别说话人的情感状态近年来受到各领域研究者的广泛关注。近年来，稀疏表示技术在图像识别中取得很好的效果，例如人脸识别，数字和文本识别等。

现有技术一采用训练样本作为原子组成一个结构化的字典，对人脸特征进行稀疏表示，稀疏表示后的特征具有很好的识别能力,并具有较好的鲁棒性。但该技术简单地将训练样本作为原子组成一个结构化的字典，得到的字典的性能过分依赖训练样本。现有技术二通过在字典学习目标函数中加入与类别标签信息相关的线性分类器惩罚函数的方法进行字典学习，该技术能得到一个具有较强识别力的字典，但该技术学习得到的字典是一个被所有类别共享的字典，即学习后字典中的原子没有与之对应的类别标签信息，该技术不能用SRC(Sparse Representation based Classification)的重构误差识别准则来识别，失去了重构误差识别准则的优势。

然而，现有技术中未同时考虑子编码和全编码惩罚函数，而且未发现基于稀疏表示的语音情感识别技术。

为了解决现有技术的缺陷，因此，本发明提供了一种联合惩罚稀疏表示字典学习的语音情感识别方法及系统。在字典学习的目标函数中同时加入子编码惩罚函数和全编码惩罚函数，学习后能同时得到两个具有较高识别力的识别准则，即子编码识别准则和全编码识别准则（对应着字典学习中两个有识别力的惩罚函数）。其中的子编码识别准则不但可以用每个子字典的重构误差来识别，还可以用每个子字典上的编码系数大小来识别，全编码识别准则根据整个字典上的编码系数来识别。联合这两个识别准则设计出基于子编码和全编码联合惩罚的字典学习识别准则，可有效提高语音情感的识别率。

发明内容

本发明针对背景技术中字典学习未同时考虑子编码和全编码惩罚函数，而且未发现基于稀疏表示的语音情感识别技术的缺陷，提供了一种联合惩罚稀疏表示字典学习的语音情感识别方法及系统，将基于子编码和基于全编码的惩罚函数相结合进行联合惩罚的稀疏表示字典学习方法，并提供了基于联合惩罚稀疏表示字典学习的语音情感识别技术，最终提高语音情感的识别率。

为了实现上述目的，本发明实施例提供的技术方案如下：

一种联合惩罚稀疏表示字典学习的语音情感识别方法，所述方法包括：

S1、对训练样本库中每个情感语音信号进行特征提取和处理，得到训练样本特征矩阵A；

S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典；

S3、对测试样本库中的情感语音信号进行特征提取和处理，每个测试样本得到各自的测试样本特征向量y；

S4、将测试样本特征向量y在字典上进行稀疏编码得到编码系数

S5、根据字典学习的识别准则进行识别。

作为本发明的进一步改进，所述步骤S1具体包括：

对训练样本库中的每个情感语音信号进行预处理，预处理包括预加重、加窗处理、分帧、端点检测；

对训练样本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰的语音的声学和韵律特征，并在情感语音信号上分别提取所述声学和韵律特征的最大值、最小值以及变化范围的统计特征；

将训练样本库中的每个情感语音信号的特征向量作为列构成训练样本特征矩阵。

作为本发明的进一步改进，所述步骤S2中子编码和全编码联合惩罚的字典学习方法的目标函数为：

$(\begin{matrix} J_{(D, W)} = \arg \min_{D, W} Σ_{i = 1}^{C} {{| | A_{i} - {DX}_{i} | |}_{F}^{2} + {| | A_{i} - D_{i} X_{i}^{i} | |}_{F}^{2} + μ \underset{j \neq i}{Σ} {| | X_{i}^{j} | |}_{F}^{2} + η {| | H_{i} - {WX}_{i} | |}_{F}^{2} + β {| | W | |}_{F}^{2}} + λ {| | X | |}_{1} \\ s . t . {| | d_{i} | |}_{2}^{2} = 1, for \forall i = 1, . . ., N \end{matrix}),$

其中，μ,λ是权衡各个惩罚项的标量参数，c表示类别的个数，A′=[A₁′,A₂′,...,A_c′]表示带类别标签的训练样本特征矩阵，A_i′表示类别为i的带类别标签的训练样本特征矩阵，字典 D′=[D₁′,D₂′,...,D_c′]=[d₁′,d₂′,...,d_N′]，D_i′表示与类别i相关的子字典，d_i′表示字典的第i个原子，一共有N个原子，X′表示带类别标签的训练样本特征矩阵A′在字典D′上的编码系数，也就是A′≈D′X′，A′的编码系数X′表示为X′=[X₁′,X₂′,...,X_c′]，其中X_i′表示A_i′在字典D′上的编码系数，表示A_i′在子字典D^j′上的编码系数。

作为本发明的进一步改进，所述步骤S2具体为：

对训练样本特征矩阵A进行预处理；

初始化A′和D′，将A′和D′的每一列都归一化；

固定字典D′更新编码系数X′，目标函数简化为：

$J_{X_{i}^{'}} = \arg \min_{X_{i}^{'}} {{| | A_{i}^{'} - D^{'} X_{i}^{'} | |}_{F}^{2} + {| | A_{i}^{'} - D_{i}^{'} X_{i}^{i^{'}} | |}_{F}^{2} + μ \underset{j \neq i}{Σ} {| | X_{i}^{j^{'}} | |}_{F}^{2} + λ {| | X_{i}^{'} | |}_{1}};$

固定更新后的编码系数X′来更新字典D′，目标函数简化为：

$(\begin{matrix} J_{D_{i}^{'}} = \arg \min_{D_{i}^{'}} {{| | A^{'} - Σ_{j = 1, j \neq i}^{c} D_{j}^{'} X^{j^{'}} - D_{i}^{'} X^{i^{'}} | |}_{F}^{2} + {| | A_{i}^{'} - D_{i}^{'} X_{i}^{i^{'}} | |}_{F}^{2}} \\ s . t . {| | d_{i}^{'} | |}_{2}^{2} = 1, for \forall i = 1, . . ., N \end{matrix});$

重复步骤上述步骤直到目标函数收敛或达到指定迭代次数，输出D′。

作为本发明的进一步改进，所述标量参数λ,η,μ采用5倍交叉验证方法获得。

作为本发明的进一步改进，所述步骤S3具体为：

对测试样本库中的每个情感语音信号进行预处理，预处理包括预加重、加窗处理、分帧、端点检测；

对测试本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰的语音的声学和韵律特征，并在情感语句上分别提取所述声学和韵律特征的最大值、最小值以及变化范围的统计特征，每个情感语音信号得到各自的测试样本特征向量 y。

作为本发明的进一步改进，所述步骤S4具体为：

对学习得到的字典D′进行预处理；

将测试样本特征向量y在字典上进行稀疏编码。

作为本发明的进一步改进，所述步骤S5中字典学习的识别准则为：

$identity (y) = \arg \min_{i} {{| | y - {\hat{D}}_{i} {\hat{α}}_{i} | |}_{2} - θ {| | {\hat{α}}_{i} | |}_{2} + ω {| | h_{i} - \hat{W} \hat{α} | |}_{2}},$

其中，θ和ω是权衡各个项的标量参数，表示与类别i相关的子字典，表示y在子字典上的编码稀疏。

相应地，一种联合惩罚稀疏表示字典学习的语音情感识别系统，所述系统包括：

字典学习模块，用于：

对训练样本库中每个情感语音信号进行特征提取和处理，得到训练样本特征矩阵A；

用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典；

稀疏表示模块，用于：

对测试样本库中的情感语音信号进行特征提取和处理，每个测试样本得到各自的测试样本特征向量y；

将测试样本特征向量y在字典上进行稀疏编码得到编码系数；

识别模块，用于：

根据字典学习的识别准则进行识别。

本发明具有以下有益效果：

本发明巧妙地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法，联合了子编码差惩罚函数和全编码惩罚函数，充分利用了这两个个惩罚函数的优势，通过权衡这两个有识别力的惩罚函数可以获得比其他稀疏表示字典学习方法更好的识别效果。

本发明使用的基于子编码和全编码联合惩罚的稀疏表示字典学习方法，其中的子编码差惩罚函数的第二个惩罚项和FDDL（Fisher Discrimination Dictionary Learning for sparse representation）的有识别力的保真度惩罚函数中的惩罚项相比是有优势的，基于子编码的惩罚函数不仅对子字典的重构误差有约束，还对子字典上的编码系数大小有约束，因此字典学习后不仅可以用每个子字典的重构误差来识别，还可以用每个子字典上的编码系数的大小来识别,而FDDL则只能用每个子字典的重构误差来识别。比更强大且更符合基于稀疏表示识别的要求，即大的编码系数几乎都集中在自己所属类别的子字典上。

本发明成功地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法对语音情感信号进行识别，使得识别结果更准确。

附图说明

图1是本发明一实施方式中基于联合惩罚稀疏表示字典学习的语音情感识别方法的流程框架图。

具体实施方式

以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

本发明公开了一种联合惩罚稀疏表示字典学习的语音情感识别方法，包括：

S1、对训练样本库中每个情感语音信号进行特征提取和处理，得到训练样本特征矩阵A；

S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典；

S3、对测试样本库中的情感语音信号进行特征提取和处理，每个测试样本得到各自的测试样本特征向量y；

S4、将测试样本特征向量y在字典上进行稀疏编码得到编码系数；

S5、根据字典学习的识别准则进行识别。

其中，步骤S1具体包括：

S11：对训练样本库中的每个情感语音信号进行预处理。这一步采用传统的语音信号预处理方法对情感语音信号进行预处理，包括预加重、加窗处理、分帧、端点检测。

S12：对训练样本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰等语音的声学和韵律特征，并在情感语音信号上分别提取这些特征的最大值、最小值以及变化范围等统计特征。这些特征的提取过程不属于本发明部分，因此不做详细叙述。最终每个情感语音信号都得到各自的特征向量a_i,i∈(1,m)，其中m是训练样本库中情感语音信号的个数。

S13：将训练样本库中的每个情感语音信号的特征向量作为列构成训练样本特征矩阵 A=[a₁,a₂,...,a_m]。

基于子编码差惩罚函数如式(1)所示，全编码差惩罚函数如式(2)所示：

$r_{1} (A, D, X) = Σ_{i = 1}^{C} {{| | A_{i} - D_{i} X_{i}^{i} | |}_{F}^{2} + μ \underset{j \neq i}{Σ} {| | X_{i}^{j} | |}_{F}^{2}} + λ {| | X | |}_{1} - - - (1)$

$r_{2} (H, W, X) = {| | H - WX | |}_{F}^{2} + β {| | W | |}_{F}^{2} - - - (2)$

其中μ和λ是衡量各个惩罚项的标量参数。由于对D′的每一列都做归一化操作，所以惩罚项可以省略。通过上述换元方法，训练样本特征矩阵A转化为带标签信息的样本矩阵特征A′，将字典D转化为带线性分类器参数的字典D′，将三个变量D，W，X转变为两个变量D′和X′，大大降低了字典的求解速度。

本发明中基于子编码和全编码联合惩罚的字典学习方法的目标函数为：

式(3)中μ,λ是权衡各个惩罚项的标量参数，c表示类别的个数，A′=[A₁′,A₂′,...,A_c′]表示带类别标签的训练样本特征矩阵，其中A_i′表示类别为i的带类别标签的训练样本特征矩阵。字典D′=[D₁′,D₂′,...,D_c′]=[d₁′,d₂′,...,d_N′]，其中D_i′表示与类别i相关的子字典，d_i′表示字典的第i个原子，一共有N个原子。X′表示带类别标签的训练样本特征矩阵A′在字典D′上的编码系数，也就是A′≈D′X′，所以A′的编码系数X′可以表示为X′=[X₁′,X₂′,...,X_c′]，其中X_i′表示A_i′在字典 D′上的编码系数，表示A_i′在子字典D^j′上的编码系数。

结合上述目标函数，步骤S2具体为：

S21：对训练样本特征矩阵A进行预处理。令 $A^{'} = (\begin{matrix} A \\ \sqrt{η} H \end{matrix})$ 表示带类别标签的训练样本特征矩阵，其中H是训练样本特征矩阵A对应的类别标签矩阵，H的每一列都是一个这样的向量h_i=[0,0,...,1,...,0,0]^T，非零元素1的位置标志着该列(情感语音信号特征向量)的类别信息；η 是一个标量参数，用来权衡两种惩罚函数的有效性，η越大则表示全编码惩罚函数对于字典学习越有效。

S22：初始化A′和D′，将A′和D′的每一列都归一化。其中A′是标量矩阵，由 $A^{'} = (\begin{matrix} A \\ \sqrt{η} H \end{matrix})$ 计算可得；D′是变量矩阵，可以简单的通过随机一个矩阵来初始化。然后将A′和D′的每一列都归一化。

S23：固定字典D′更新编码系数X′。更新X′=[X₁′,X₂′,...,X_c′]时是逐个类别进行更新的，即计算X_i′时，X_j′,j≠i是不变的。这时式(3)所示的问题简化为:

式(4)是一个结构化的稀疏正则化问题，可以用迭代的投影方法来解决。

S24：固定更新后的编码系数X′来更新字典D′，更新D′=[D₁′,D₂′,...,D_c′]时也是逐个类别(逐个子字典)来更新的，即计算D_i′时，D_j′,j≠i是不变的。这时式(3)所表示的问题简化为:

式(5)更新D_i′=[d₁′,d₂′,...,d_N′]时是逐个原子进行更新的，即计算d_i′时，d_j′,j≠i是不变的。因此式(5)变成了一个带约束的二次规划问题，可以用拉格朗日乘子法求解d_i′。

S25：重复步骤S23～S24直到式(3)所示的目标函数收敛或达到指定迭代次数，输出D′。

进一步地，字典学习过程中需要用到三个标量参数λ,η,μ，这些标量参数都是为了权衡各个项的大小，均采用5倍交叉验证方法来获得。其中稀疏度标量参数λ用来权衡编码的稀疏度，是稀疏表示识别正确率的根本保证。η用来权衡两种惩罚函数的有效性，η越大则表示全编码惩罚函数对于字典学习越有效。参数的具体选取方法为先根据参数的意义估计一些个初值，再用5倍交叉验证方法来选取最佳的参数值。

步骤S3具体包括：

S31：对测试样本库中的每个情感语音信号进行预处理。这一步采用传统的语音信号预处理方法对情感语音信号进行预处理，包括预加重、加窗处理、分帧、端点检测。

S32：对测试本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰等语音的声学和韵律特征，并在情感语句上分别提取这些特征的最大值、最小值以及变化范围等统计特征。这些特征的提取过程不属于本发明部分，因此不做详细叙述。最终每个情感语音信号都得到各自的测试样本特征向量y。

步骤S4具体为：

S41：对学习得到的字典D′进行预处理。D′由用于稀疏编码的字典D和用于识别的线性分类器参数W组成，即由于D′是列归一化的，所以字典D不是列归一化的。为了得到能够用于稀疏编码的字典和线性分类器参数对做如下处理： $\hat{D} = (\frac{d_{1}}{| | d_{1} | |}, \frac{d_{2}}{| | d_{2} | |}, . . ., \frac{d_{N}}{| | d_{N} | |}), \hat{W} = (\frac{w_{1}}{| | d_{1} | |}, \frac{w_{2}}{| | d_{2} | |}, . . ., \frac{w_{N}}{| | d_{N} | |}) .$

S42：将测试样本特征向量y在字典上进行稀疏编码。稀疏编码过程可以由经典的lasso 算法来完成。由于lasso算法不属于本发明的部分，因此不做详细叙述。

步骤S5中，该字典学习的识别准则如式(6)所示:

$identity (y) = \arg \min_{i} {{| | y - {\hat{D}}_{i} {\hat{α}}_{i} | |}_{2} - θ {| | {\hat{α}}_{i} | |}_{2} + ω {| | h_{i} - \hat{W} \hat{α} | |}_{2}} - - - (6)$

式(6)中θ和ω是权衡各个项的标量参数，当ω∈[0,+∞)越大表示全编码识别准则越准确，当ω=0表示只采用子编码识别准则。当ω=0,θ=0时就回到了只用子字典的重构误差来识别，这就成了SRC的识别准则。参数的具体选取方法为先根据参数的意义估计一些个初值，再用5倍交叉验证方法来选取最佳的参数值。式(6)中其中表示与类别i相关的子字典，其中表示y在子字典上的编码稀疏。

相应地，本发明还公开了一种联合惩罚稀疏表示字典学习的语音情感识别系统，包括：

字典学习模块，用于：

对训练样本库中每个情感语音信号进行特征提取和处理，得到训练样本特征矩阵A；

用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典；

稀疏表示模块，用于：

对测试样本库中的情感语音信号进行特征提取和处理，每个测试样本得到各自的测试样本特征向量y；

将测试样本特征向量y在字典上进行稀疏编码得到编码系数；

识别模块，用于：

根据字典学习的识别准则进行识别。

本发明效果可以通过以下实验进一步说明：

1)实验条件

实验仿真环境为：MATLAB R2012a(7.14.0.739)，Intel(R)Core(TM)2Duo CPU 2.80GHz,Windows7操作系统。

2)实验内容

2.1)实验数据来源：课题组自制的情感语料库(简称UJS情感语料库)。UJS情感语料库共包括六种典型的情感类别：高兴、伤心、惊奇、生气、害怕、厌恶。采用CoolEdit作为音频录制编辑软件，共有4个男生5个女生参与录制，每种情感每人录制13个语料，音频采样率为11025HZ，量化精度为16bit，样本都经过手工标注，以wav格式存储，共有 6×(4+5)×13=702个语料样本。每次实验从每个表演者每类情感中随机选择8句作为训练样本，剩余的2句作为测试样本，因此，共得到6×(4+5)×8=432个训练样本和6×(4+5)×2=108个测试样本。实验中提取的特征为能量相关、基因频率相关和共振峰系数等101维特征，并采用SFFS方法进行特征选择，最终确定特征向量的维度为101维，最终得到101×432的训练样本特征矩阵A和101×108的测试样本特征矩阵Y。

2.2)实验步骤：首先用基于子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典,然后将测试样本特征矩阵Y的每一个测试样本特征向量y在字典上进行稀疏编码得到编码系数最后根据本字典学习的识别准则进行识别。

3)实验结果分析

在UJS情感语料库上选取的参数为λ=0.003,η=0.25,μ=100,θ=1,ω=1，如表1所示，基于子编码和全编码联合惩罚的字典学习方法（Sub-coding and Entire-coding jointly penalty based dictionary learning，下面简称ScEcDL）比其他字典学习方法（DKSVD（Discriminative K-SVD for Dictionary Learning），FDDL）高2%～6%，比SVM(Support Vector Machine)高4%，比SRC 高1%。

表1 UJS语音情感库上各方法识别率比较

方法 SVM SRC DKSVD FDDL ScEcDL 识别率(%) 63.89 66.67 61.11 65.74 67.59

由以上技术方案可以看出：

本发明使用的基于子编码和全编码联合惩罚的稀疏表示字典学习方法，其中的子编码差惩罚函数的第二个惩罚项和FDDL的有识别力的保真度惩罚函数中的惩罚项相比是有优势的，基于子编码的惩罚函数不仅对子字典的重构误差有约束，还对子字典上的编码系数大小有约束，因此字典学习后不仅可以用每个子字典的重构误差来识别，还可以用每个子字典上的编码系数的大小来识别,而FDDL则只能用每个子字典的重构误差来识别。比更强大且更符合基于稀疏表示识别的要求，即大的编码系数几乎都集中在自己所属类别的子字典上。

本发明成功地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法对语音情感信号进行识别，使得识别结果更准确。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 联合惩罚稀疏表示字典学习的语音情感识别方法及系统 [P] . 中国专利： CN103594084B . 2016.05.25
2. 联合惩罚稀疏表示字典学习的语音情感识别方法及系统 [P] . 中国专利： CN103594084A . 2014-02-19
3. Mobile terminal with mail creation function by speech emotion recognition, mobile terminal system, and, E-mail generating method of voice emotion recognition [P] . 日本专利： JP4670431B2 . 2011-04-13

机译：通过语音情感识别具有邮件创建功能的移动终端，移动终端系统以及语音情感识别的电子邮件生成方法
4. ATTRIBUTE AWARE ZERO SHOT MACHINE VISION SYSTEM VIA JOINT SPARSE REPRESENTATIONS [P] . 欧洲知识产权局专利： EP3682370A1 . 2020-07-22

机译：通过联合稀疏表示法归因于AWARE零射击机器视觉系统
5. Zero shot machine vision system via joint sparse representations [P] . 美国专利： US10755149B2 . 2020-08-25

机译：通过联合稀疏表示的零镜头机器视觉系统