法律状态公告日
法律状态信息
法律状态
2016-05-25
授权
授权
2014-03-19
实质审查的生效 IPC(主分类):G10L15/02 申请日:20131023
实质审查的生效
2014-02-19
公开
公开
技术领域
本发明涉及语音信号处理、信号的稀疏表示和模式识别技术领域,尤其涉及一种基于联 合惩罚稀疏表示字典学习的语音情感识别方法及系统。
背景技术
语音信息在人类交流中扮演重要的角色,有研究表明,人类40%的情感信息都是通过说 话进行传递的。准确理解人的情感有助于促进和谐的人机交互。因此,如何使用计算机技术 从语音中自动识别说话人的情感状态近年来受到各领域研究者的广泛关注。近年来,稀疏表 示技术在图像识别中取得很好的效果,例如人脸识别,数字和文本识别等。
现有技术一采用训练样本作为原子组成一个结构化的字典,对人脸特征进行稀疏表示, 稀疏表示后的特征具有很好的识别能力,并具有较好的鲁棒性。但该技术简单地将训练样本 作为原子组成一个结构化的字典,得到的字典的性能过分依赖训练样本。现有技术二通过在 字典学习目标函数中加入与类别标签信息相关的线性分类器惩罚函数的方法进行字典学习, 该技术能得到一个具有较强识别力的字典,但该技术学习得到的字典是一个被所有类别共享 的字典,即学习后字典中的原子没有与之对应的类别标签信息,该技术不能用SRC(Sparse Representation based Classification)的重构误差识别准则来识别,失去了重构误差识别 准则的优势。
然而,现有技术中未同时考虑子编码和全编码惩罚函数,而且未发现基于稀疏表示的语 音情感识别技术。
为了解决现有技术的缺陷,因此,本发明提供了一种联合惩罚稀疏表示字典学习的语音 情感识别方法及系统。在字典学习的目标函数中同时加入子编码惩罚函数和全编码惩罚函 数,学习后能同时得到两个具有较高识别力的识别准则,即子编码识别准则和全编码识别准 则(对应着字典学习中两个有识别力的惩罚函数)。其中的子编码识别准则不但可以用每个 子字典的重构误差来识别,还可以用每个子字典上的编码系数大小来识别,全编码识别准则 根据整个字典上的编码系数来识别。联合这两个识别准则设计出基于子编码和全编码联合惩 罚的字典学习识别准则,可有效提高语音情感的识别率。
发明内容
本发明针对背景技术中字典学习未同时考虑子编码和全编码惩罚函数,而且未发现基于 稀疏表示的语音情感识别技术的缺陷,提供了一种联合惩罚稀疏表示字典学习的语音情感识 别方法及系统,将基于子编码和基于全编码的惩罚函数相结合进行联合惩罚的稀疏表示字典 学习方法,并提供了基于联合惩罚稀疏表示字典学习的语音情感识别技术,最终提高语音情 感的识别率。
为了实现上述目的,本发明实施例提供的技术方案如下:
一种联合惩罚稀疏表示字典学习的语音情感识别方法,所述方法包括:
S1、对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字 典;
S3、对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测 试样本特征向量y;
S4、将测试样本特征向量y在字典上进行稀疏编码得到编码系数
S5、根据字典学习的识别准则进行识别。
作为本发明的进一步改进,所述步骤S1具体包括:
对训练样本库中的每个情感语音信号进行预处理,预处理包括预加重、加窗处理、分帧、 端点检测;
对训练样本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、 音质以及共振峰的语音的声学和韵律特征,并在情感语音信号上分别提取所述声学和韵律特 征的最大值、最小值以及变化范围的统计特征;
将训练样本库中的每个情感语音信号的特征向量作为列构成训练样本特征矩阵。
作为本发明的进一步改进,所述步骤S2中子编码和全编码联合惩罚的字典学习方法的 目标函数为:
其中,μ,λ是权衡各个惩罚项的标量参数,c表示类别的个数,A′=[A1′,A2′,...,Ac′]表示带类 别标签的训练样本特征矩阵,Ai′表示类别为i的带类别标签的训练样本特征矩阵,字典 D′=[D1′,D2′,...,Dc′]=[d1′,d2′,...,dN′],Di′表示与类别i相关的子字典,di′表示字典的第i个原子, 一共有N个原子,X′表示带类别标签的训练样本特征矩阵A′在字典D′上的编码系数,也就 是A′≈D′X′,A′的编码系数X′表示为X′=[X1′,X2′,...,Xc′],其中Xi′表示Ai′在字典D′上的编码系 数,表示Ai′在子字典Dj′上的编码系数。
作为本发明的进一步改进,所述步骤S2具体为:
对训练样本特征矩阵A进行预处理;
初始化A′和D′,将A′和D′的每一列都归一化;
固定字典D′更新编码系数X′,目标函数简化为:
固定更新后的编码系数X′来更新字典D′,目标函数简化为:
重复步骤上述步骤直到目标函数收敛或达到指定迭代次数,输出D′。
作为本发明的进一步改进,所述标量参数λ,η,μ采用5倍交叉验证方法获得。
作为本发明的进一步改进,所述步骤S3具体为:
对测试样本库中的每个情感语音信号进行预处理,预处理包括预加重、加窗处理、分帧、 端点检测;
对测试本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、 音质以及共振峰的语音的声学和韵律特征,并在情感语句上分别提取所述声学和韵律特征的 最大值、最小值以及变化范围的统计特征,每个情感语音信号得到各自的测试样本特征向量 y。
作为本发明的进一步改进,所述步骤S4具体为:
对学习得到的字典D′进行预处理;
将测试样本特征向量y在字典上进行稀疏编码。
作为本发明的进一步改进,所述步骤S5中字典学习的识别准则为:
其中,θ和ω是权衡各个项的标量参数,表示与类别i相关的子字 典,表示y在子字典上的编码稀疏。
相应地,一种联合惩罚稀疏表示字典学习的语音情感识别系统,所述系统包括:
字典学习模块,用于:
对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典 ;
稀疏表示模块,用于:
对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测试样 本特征向量y;
将测试样本特征向量y在字典上进行稀疏编码得到编码系数;
识别模块,用于:
根据字典学习的识别准则进行识别。
本发明具有以下有益效果:
本发明巧妙地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法,联合了子编 码差惩罚函数和全编码惩罚函数,充分利用了这两个个惩罚函数的优势,通过权衡这两个有 识别力的惩罚函数可以获得比其他稀疏表示字典学习方法更好的识别效果。
本发明使用的基于子编码和全编码联合惩罚的稀疏表示字典学习方法,其中的子编码差 惩罚函数的第二个惩罚项和FDDL(Fisher Discrimination Dictionary Learning for sparse representation)的有识别力的保真度惩罚函数中的惩罚项相比是 有优势的,基于子编码的惩罚函数不仅对子字典的重构误差有约束,还对子字典上的编码系 数大小有约束,因此字典学习后不仅可以用每个子字典的重构误差来识别,还可以用每个子 字典上的编码系数的大小来识别,而FDDL则只能用每个子字典的重构误差来识别。 比更强大且更符合基于稀疏表示识别的要求,即大的编码系数几乎都 集中在自己所属类别的子字典上。
本发明成功地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法对语音情感 信号进行识别,使得识别结果更准确。
附图说明
图1是本发明一实施方式中基于联合惩罚稀疏表示字典学习的语音情感识别方法的流程 框架图。
具体实施方式
以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本 发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包 含在本发明的保护范围内。
本发明公开了一种联合惩罚稀疏表示字典学习的语音情感识别方法,包括:
S1、对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字 典;
S3、对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测 试样本特征向量y;
S4、将测试样本特征向量y在字典上进行稀疏编码得到编码系数;
S5、根据字典学习的识别准则进行识别。
其中,步骤S1具体包括:
S11:对训练样本库中的每个情感语音信号进行预处理。这一步采用传统的语音信号预 处理方法对情感语音信号进行预处理,包括预加重、加窗处理、分帧、端点检测。
S12:对训练样本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、 振幅、音质以及共振峰等语音的声学和韵律特征,并在情感语音信号上分别提取这些特征的 最大值、最小值以及变化范围等统计特征。这些特征的提取过程不属于本发明部分,因此不 做详细叙述。最终每个情感语音信号都得到各自的特征向量ai,i∈(1,m),其中m是训练样本库 中情感语音信号的个数。
S13:将训练样本库中的每个情感语音信号的特征向量作为列构成训练样本特征矩阵 A=[a1,a2,...,am]。
基于子编码差惩罚函数如式(1)所示,全编码差惩罚函数如式(2)所示:
其中μ和λ是衡量各个惩罚项的标量参数。由于对D′的每一列都做归一化操作,所以惩 罚项可以省略。通过上述换元方法,训练样本特征矩阵A转化为带标签信息的样本矩阵 特征A′,将字典D转化为带线性分类器参数的字典D′,将三个变量D,W,X转变为两个 变量D′和X′,大大降低了字典的求解速度。
本发明中基于子编码和全编码联合惩罚的字典学习方法的目标函数为:
式(3)中μ,λ是权衡各个惩罚项的标量参数,c表示类别的个数,A′=[A1′,A2′,...,Ac′]表示带 类别标签的训练样本特征矩阵,其中Ai′表示类别为i的带类别标签的训练样本特征矩阵。字 典D′=[D1′,D2′,...,Dc′]=[d1′,d2′,...,dN′],其中Di′表示与类别i相关的子字典,di′表示字典的第i个 原子,一共有N个原子。X′表示带类别标签的训练样本特征矩阵A′在字典D′上的编码系数, 也就是A′≈D′X′,所以A′的编码系数X′可以表示为X′=[X1′,X2′,...,Xc′],其中Xi′表示Ai′在字典 D′上的编码系数,表示Ai′在子字典Dj′上的编码系数。
结合上述目标函数,步骤S2具体为:
S21:对训练样本特征矩阵A进行预处理。令
S22:初始化A′和D′,将A′和D′的每一列都归一化。其中A′是标量矩阵,由
S23:固定字典D′更新编码系数X′。更新X′=[X1′,X2′,...,Xc′]时是逐个类别进行更新的, 即计算Xi′时,Xj′,j≠i是不变的。这时式(3)所示的问题简化为:
式(4)是一个结构化的稀疏正则化问题,可以用迭代的投影方法来解决。
S24:固定更新后的编码系数X′来更新字典D′,更新D′=[D1′,D2′,...,Dc′]时也是逐个类别(逐 个子字典)来更新的,即计算Di′时,Dj′,j≠i是不变的。这时式(3)所表示的问题简化为:
式(5)更新Di′=[d1′,d2′,...,dN′]时是逐个原子进行更新的,即计算di′时,dj′,j≠i是不变的。 因此式(5)变成了一个带约束的二次规划问题,可以用拉格朗日乘子法求解di′。
S25:重复步骤S23~S24直到式(3)所示的目标函数收敛或达到指定迭代次数,输出D′。
进一步地,字典学习过程中需要用到三个标量参数λ,η,μ,这些标量参数都是为了权衡 各个项的大小,均采用5倍交叉验证方法来获得。其中稀疏度标量参数λ用来权衡编码的稀 疏度,是稀疏表示识别正确率的根本保证。η用来权衡两种惩罚函数的有效性,η越大则表 示全编码惩罚函数对于字典学习越有效。参数的具体选取方法为先根据参数的意义估计一些 个初值,再用5倍交叉验证方法来选取最佳的参数值。
步骤S3具体包括:
S31:对测试样本库中的每个情感语音信号进行预处理。这一步采用传统的语音信号预 处理方法对情感语音信号进行预处理,包括预加重、加窗处理、分帧、端点检测。
S32:对测试本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、 振幅、音质以及共振峰等语音的声学和韵律特征,并在情感语句上分别提取这些特征的最大 值、最小值以及变化范围等统计特征。这些特征的提取过程不属于本发明部分,因此不做详 细叙述。最终每个情感语音信号都得到各自的测试样本特征向量y。
步骤S4具体为:
S41:对学习得到的字典D′进行预处理。D′由用于稀疏编码的字典D和用于识别的线性 分类器参数W组成,即由于D′是列归一化的,所以字典D不是列 归一化的。为了得到能够用于稀疏编码的字典和线性分类器参数对做如下处理:
S42:将测试样本特征向量y在字典上进行稀疏编码。稀疏编码过程可以由经典的lasso 算法来完成。由于lasso算法不属于本发明的部分,因此不做详细叙述。
步骤S5中,该字典学习的识别准则如式(6)所示:
式(6)中θ和ω是权衡各个项的标量参数,当ω∈[0,+∞)越大表示全编码识别准则越准确, 当ω=0表示只采用子编码识别准则。当ω=0,θ=0时就回到了只用子字典的重构误差来识别, 这就成了SRC的识别准则。参数的具体选取方法为先根据参数的意义估计一些个初值,再 用5倍交叉验证方法来选取最佳的参数值。式(6)中其中表示与类别i相 关的子字典,其中表示y在子字典上的编码稀疏。
相应地,本发明还公开了一种联合惩罚稀疏表示字典学习的语音情感识别系统,包括:
字典学习模块,用于:
对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典 ;
稀疏表示模块,用于:
对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测试样 本特征向量y;
将测试样本特征向量y在字典上进行稀疏编码得到编码系数;
识别模块,用于:
根据字典学习的识别准则进行识别。
本发明效果可以通过以下实验进一步说明:
1)实验条件
实验仿真环境为:MATLAB R2012a(7.14.0.739),Intel(R)Core(TM)2Duo CPU 2.80GHz,Windows7操作系统。
2)实验内容
2.1)实验数据来源:课题组自制的情感语料库(简称UJS情感语料库)。UJS情感语料库 共包括六种典型的情感类别:高兴、伤心、惊奇、生气、害怕、厌恶。采用CoolEdit作为音 频录制编辑软件,共有4个男生5个女生参与录制,每种情感每人录制13个语料,音频采 样率为11025HZ,量化精度为16bit,样本都经过手工标注,以wav格式存储,共有 6×(4+5)×13=702个语料样本。每次实验从每个表演者每类情感中随机选择8句作为训练样 本,剩余的2句作为测试样本,因此,共得到6×(4+5)×8=432个训练样本和6×(4+5)×2=108个 测试样本。实验中提取的特征为能量相关、基因频率相关和共振峰系数等101维特征,并采 用SFFS方法进行特征选择,最终确定特征向量的维度为101维,最终得到101×432的训练样 本特征矩阵A和101×108的测试样本特征矩阵Y。
2.2)实验步骤:首先用基于子编码和全编码联合惩罚的字典学习方法对训练样本特征矩 阵A进行学习得到字典,然后将测试样本特征矩阵Y的每一个测试样本特征向量y在字典 上进行稀疏编码得到编码系数最后根据本字典学习的识别准则进行识别。
3)实验结果分析
在UJS情感语料库上选取的参数为λ=0.003,η=0.25,μ=100,θ=1,ω=1,如表1所示,基于 子编码和全编码联合惩罚的字典学习方法(Sub-coding and Entire-coding jointly penalty based dictionary learning,下面简称ScEcDL)比其他字典学习方法(DKSVD(Discriminative K-SVD for Dictionary Learning),FDDL)高2%~6%,比SVM(Support Vector Machine)高4%,比SRC 高1%。
表1 UJS语音情感库上各方法识别率比较
由以上技术方案可以看出:
本发明巧妙地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法,联合了子编 码差惩罚函数和全编码惩罚函数,充分利用了这两个个惩罚函数的优势,通过权衡这两个有 识别力的惩罚函数可以获得比其他稀疏表示字典学习方法更好的识别效果。
本发明使用的基于子编码和全编码联合惩罚的稀疏表示字典学习方法,其中的子编码差 惩罚函数的第二个惩罚项和FDDL的有识别力的保真度惩罚函数中的惩罚项 相比是有优势的,基于子编码的惩罚函数不仅对子字典的重构误差有约束,还 对子字典上的编码系数大小有约束,因此字典学习后不仅可以用每个子字典的重构误差来识 别,还可以用每个子字典上的编码系数的大小来识别,而FDDL则只能用每个子字典的重构误 差来识别。比更强大且更符合基于稀疏表示识别的要求,即大的编码 系数几乎都集中在自己所属类别的子字典上。
本发明成功地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法对语音情感 信号进行识别,使得识别结果更准确。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立 的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为 一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其 他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们 并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应 包含在本发明的保护范围之内。
机译: 通过语音情感识别具有邮件创建功能的移动终端,移动终端系统以及语音情感识别的电子邮件生成方法
机译: 通过联合稀疏表示法归因于AWARE零射击机器视觉系统
机译: 通过联合稀疏表示的零镜头机器视觉系统