首页> 中国专利> 一种基于说话人惩罚的独立于说话人语音情感识别方法

一种基于说话人惩罚的独立于说话人语音情感识别方法

摘要

本发明公开了一种基于说话人惩罚的独立于说话人语音情感识别方法,对语音信号样本依次进行预处理、语音情感原始特征提取、维数约简、分类器分类判决。其中在维数约简阶段,使用了基于说话人惩罚的图嵌入学习方法,利用说话人标签信息,分别针对属于同一类情感类别但说话人不同,以及属于同一说话人但分属于不同情感类别的语音信号样本对,在图嵌入理论的基础上利用已有理论,进行组合优化运算。与现有方法相比,本发明的方法在独立于说话人的语音情感识别中,能够有效地提升系统的识别性能。

著录项

  • 公开/公告号CN103854645A

    专利类型发明专利

  • 公开/公告日2014-06-11

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN201410078383.4

  • 申请日2014-03-05

  • 分类号G10L15/08(20060101);G10L21/003(20130101);G10L25/63(20130101);

  • 代理机构南京瑞弘专利商标事务所(普通合伙);

  • 代理人杨晓玲

  • 地址 211189 江苏省南京市江宁区东南大学路2号

  • 入库时间 2024-02-20 00:15:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-24

    授权

    授权

  • 2014-07-09

    实质审查的生效 IPC(主分类):G10L15/08 申请日:20140305

    实质审查的生效

  • 2014-06-11

    公开

    公开

说明书

技术领域

本发明属于语音情感识别领域,特别是涉及一种基于说话人惩罚的独立于说话人语 音情感识别方法。

背景技术

随着应用需求不断增加,语音情感识别(Speech Emotion Recognition,简称SER) 的研究近年来得到了较大的发展。语音情感识别的成果可以应用于呼叫中心语料的自动 分析处理,以及人机交互(Human-Machine Interaction,简称HMI)等诸多领域,以获 取语音情感信息的自动分析识别,实现机器的智能化。基于上述的需求,为了取得更高 的系统性能,目前已有了大量集中在语音情感识别方面的研究工作。然而,大量已有的 工作都是对如何利用专家知识或是实验经验,选取有效的语音情感特征的研究,这些研 究忽略了系统对样本变化的自适应性,从而并不具有很好的可移植性。而且语音情感原 始特征一般都含有着大量的冗余信息。

独立于说话人的语音情感识别工作则在语音情感识别系统的训练和测试阶段分别 使用完全不同的说话人语料样本,使得算法的训练和测试阶段基于不同的说话人信息。 从而提高了算法的实用性,但却同时加大了算法实现语音情感识别的难度。

维数约简作为模式识别与机器学习中一个重要的环节,不仅对特征的提取、压缩、 传输以及有效地减小后续模块中的计算量有着重要的意义,还能够显著地提高整个系统 的识别性能。流形学习方法常用于识别工作的维数约简阶段,可以体现出训练数据集的 本征结构。目前常用的基于图学习的流形学习方法有多种,如局部保持投影(Locality  Preserving Projection)、局部线性嵌入(Locally Linear Embedding,简称LLE)、扩散映 射(Diffusion Maps,简称DM)、Isomap、边界Fisher分析(Marginal Fisher Analysis, 简称MFA)等。此外,还有主成分分析(Principal Component Analysis,简称PCA)、线 性判别分析(Liner Discriminant Analysis,简称LDA)、局部判别嵌入(Local Discriminant  Embedding,简称LDE)等可以转化为图学习形式的子空间学习算法。上述这些算法都 可以表示为统一的图嵌入框架、最小均方框架及其各类扩展形式。

当前的研究中还存在着以下问题:由于在提取语音情感原始特征时包含了大量的说 话人特征,所以不同说话人的存在对语音识别的效果有着较大的影响,尤其是独立于说 话人语音情感识别时对系统的影响更为明显。而目前的语音情感识别主要针对不同说话 人的情况,所以减轻不同说话人对识别的影响有着重要的意义。在此基础上,大量的研 究工作基于经验性的实验结论来去除说话人特征的影响,但这些成果对于不同环境下的 自适应性同样不够理想。本发明正是基于这些缺陷,对语音情感识别系统,尤其是独立 于说话人条件下的语音情感识别,进行了一系列改进,使其对不同说话人所带来的影响 具有一定的鲁棒性。

发明内容

要解决的技术问题:针对现有技术的不足,本发明提出一种基于说话人惩罚的独 立于说话人语音情感识别方法,即说话人惩罚图学习(Speaker Penalty Graph Learning, 简称SPGL),具体包括线性说话人惩罚图学习算法(简称LSPGL)和核说话人惩罚图 学习算法(简称KSPGL),解决现有技术中语音情感特征受不同说话人影响较大;并且 存在语音情感的维数较高,不适于特征的压缩、传输,不利于系统的识别性能;同时传 统的独立于说话人语音情感识别算法可移植性较差的技术问题。

技术方案:为解决上述技术问题,本发明采用以下技术方案:

一种基于说话人惩罚的独立于说话人语音情感识别方法,将语音情感数据库中若干 个语音样本按照不同说话人划分为训练样本集和测试样本集,且训练集中任一样本所属 的说话人在测试集中不出现,其中每个语音样本均具有语音情感标签信息和说话人标签 信息,包括顺序执行的以下步骤:

步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的 时域信号进行分帧;

步骤二,语音情感特征提取:对经步骤一处理后的每个语音样本,分别提取其能量、 基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音 样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处 理后组成每个语音样本的规整化语音情感特征向量;

步骤三,特征筛选:使用训练样本语音情感标签信息,对步骤二中得到的规整化语 音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向 量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向 量;

步骤四,基于说话人惩罚的特征维数约简:设经步骤三特征筛选得到训练样本特征 筛选后语音情感特征向量集X=[x1,x2,...,xN],利用训练样本的语音情感标签信息和 说话人标签信息,采用本发明提出的LSPGL算法或KSPGL算法对X进行维数约简训 练,生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射 阵P,同时分别求解得到X的线性映射低维样本集ATX或核映射低维样本集PTK,其 中K为训练样本集的Gram阵,选用Gauss核函数;

步骤五,训练分类器:对多类SVM分类器进行训练或直接选取1NN分类器;其中 多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于Nc个种类的语音 样本,在训练样本集中任取两个种类的语音样本,进行训练得到1个两类SVM分类器, 每两类重复该训练过程,共得到Nc(Nc-1)/2个两类SVM分类器;

步骤六,测试:对于每个测试样本,使用经步骤五训练完成的分类器对每个测试样 本进行测试,具体包括顺序执行的以下步骤:

(1)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用线 性降维投影矩阵A或核方法降维映射阵P进行维数约简,得到经过线性维数约简后 的低维样本或经过核方法维数约简后的低维样本PTKi,对于一个测试样本 Ki=[K(xitest,x1),K(xitest,x2),...,K(xitest,xN)]T,Gram阵K中的核函数选用步骤 四中所述的Gauss核函数;

(2)使用分类器对或PTKi进行分类,选择多类SVM分类器或者1NN分 类器进行分类:

利用多类SVM分类器分类的方法为:将每个测试样本的低维样本或PTKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判 断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最 多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进 行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一 个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本 按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类 别;

利用1NN分类器分类的方法为:对于每一个测试样本,在全体训练样本中找到与 其欧式距离最近的训练样本,使用该训练样本对应的类别标签作为该测试样本的分类判 决结果。

进一步的,在本发明中,步骤二中原始语音情感特征向量中的语音情感特征分布如 下:

1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计 特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同 频带内能量序列的一阶、二阶抖动;

81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统 计特征;基音序列斜率;

102-121维:过零率序列及其一阶、二阶差分序列的统计特征;

122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长 段的帧数;浊、清音帧数和段数;语速;

131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共 振峰频率序列的一阶、二阶抖动;

251-406维:MFCC及其一阶差分序列的统计特征;

其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、 标准差和范围。

进一步的,在本发明中,步骤二中的规整化处理的方法如下:

规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样 本集为X(0)=[x1(0),x2(0),...,xN(0)],设为的第j个特征元素(i=1,2,...,N);

对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:

x·j(1)=x·j(0)-mini=1,2,...,N(xij(0))maxi=1,2,...,N(xij(0))-mini=1,2,...,N(xij(0))

其中表示X(0)第j行中最大的元素,表示X(0)第j行中最 小的元素;

将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本 x(0)规整化语音情感特征向量集其中,属于训练样本集的语 音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集 X(1)=[x1(1),x2(1),...,xN(1)],即其余为测试样本的语音 样本规整化语音情感特征向量。

进一步的,在本发明中,步骤二中所述特征筛选的方法如下:

任一语音样本规整化语音情感特征向量中属于特征j的 FDR值的计算公式为:

J(j)=Σl,k=1l>kNc(μclj-μckj)2δclj2+δckj2

其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分 属于cl、ck类样本的均值,分别为训练样本的规整化语音情感特征向量集 X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;

去除40~60个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特 征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量

具体地,在本发明中,维数约简时根据采用的不同算法,具有不同的维数约简方法, 其中,

LSPGL算法的图嵌入的优化形式为:

argminaaTXLXTaaTXLpXTa,s.t.aTa=1

其中,

L为本征图的拉普拉斯矩阵且为N×N矩阵,

Lp为惩罚图的拉普拉斯矩阵且为N×N矩阵,

这里LLDA为线性判别分析的本征图的拉普拉斯矩阵,且LLDA=DLDA-WLDA,其中N ×N对角阵DLDA中第i行j列的元素的形式为(DLDA)ij=Σk=1N(WLDA)ik,i=j0,ij,WLDA为线性判别分析的本征图邻接阵,且

H为主成分分析的本征图的拉普拉斯矩阵,同时H也为线性判别分析的惩罚图的 拉普拉斯矩阵,且其中e为N维列向量,I为N×N的单位阵;

为规范化的说话人本征图的拉普拉斯矩阵:

L~is=(Dis)-12Lis(Dis)-12=I-(Dis)-12Wis(Dis)-12;

这里Lis为说话人本征图的拉普拉斯矩阵,且Lis=Dis-Wis,其中Dis为Lis的节点 度对角阵,且Dis中第i行j列的元素的形式为Dijis=Σk=1NWikis,i=j0,ij;Wis为说话人本 征图的邻接阵,且式中表示 两个矩阵的对应位置元素相乘的运算符;其中对于N维列向量ec的任一元素,其对应 的训练样本属于类c时该元素为1,否则该元素为0;对于N维列向量的任一元素, 其对应的训练样本属于说话人cs时该元素为1,否则该元素为0;

为规范化的说话人的惩罚图的拉普拉斯矩阵:

L~ps=(Dps)-12Lps(Dps)-12=I-(Dps)-12Wps(Dps)-12;

这里Lps为说话人惩罚图的拉普拉斯矩阵,且Lps=Dps-Wps,其中Dps为Lps的 节点度对角阵,且Dps中第i行j列的元素的形式为Dijps=Σk=1NWikps,i=j0,ij;Wps为 说话人惩罚图的邻接阵,且其中表示两个矩阵的对应位置元素相乘的运算符;N×N阵WkNN为训练样本集的 k近邻图的邻接阵,其对应的第i行、第j列元素为: (WkNN)ij=1,iNk(j)orjNk(i)0,otherwise,NK(i)、NK(j)分别表示样本点i、j的k 近邻点集,其中k=1,2,3,...;

参数0≤γ1≤1、0≤γ2≤1,且γ1和γ2通常取值范围为0.1~0.6;

n维列向量a为线性投影映射向量,aT为a的转置;

KSPGL算法的图嵌入的优化形式为:

argminaαTKLKααTKLp,s.t.αTα=1

其中,

N维列向量α为核投影映射向量,αT为α的转置;

Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为: Kij=K(xi,xj)=exp(-||xi-xj||22),其中σ2为Gauss核参数,控制核函数的平缓程 度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征 下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;

L和Lp的含义与LSPGL的图嵌入的优化形式中相同;

本发明中提出的SPGL算法(包括LSPGL和KSPGL)基于说话人标签信息,在语 音情感识别研究中表现较好的LDA算法基础上,加入上述权重成分,形成新的嵌入图, 其对应的本征图和惩罚图的拉普拉斯阵可以分别表示为:

L=(1-γ1)LLDA+γ1L~is

Lp=(1-γ2)H+γ2L~ps

其中,图的线性组合系数γ1和γ2,对说话人本征图、惩罚图,与LDA嵌入图之间的关 系进行加权,一般组合系数取值的大致范围可以通过经验得到,更精确的取值可由交叉 验证得到。

利用广义特征值问题GEP对LSPGL或KSPGL的优化形式进行求解:首先预先使 用奇异值分解将广义特征值问题GEP转化为普通的特征值问题,然后求解优化形式:

求解LSPGL算法的优化形式时,得到线性降维投影向量a的求解a1,a2,...,am,所 述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成线性降维映射阵 A=[a1,a2,...,am],m为维数约简后的特征维数;

求解KSPGL算法的优化形式时,得到核方法降维投影向量α的求解α12,...,αm, 所述各个求解α12,...,αm均两两相互正交,进而得到各个求解组成核方法的降维映射 阵m为维数约简后的特征维数。

有益效果:

本发明的独立于说话人语音情感识别方法,通过对语音样本划分为分别来自于不同 说话人的训练样本集和测试样本集,对经过预处理的语音信号样本进行原始语音情感特 征提取,继而进行特征筛选、维数约简和分类器分类。

由于原始语音情感特征中包含大量的与说话人类别相关的特征,如共振峰、MFCC、 基音频率等类别的特征,而在语音情感识别中这些特征可能会对识别系统以及算法的性 能产生不利的影响。鉴于此,在训练学习时需要对属于不同情感类别,并属于同一说话 人且在其相互近邻域中的语音样本对权重进行一定的增加,可以抑制说话人特征的影 响;同时,对于属于同一情感类别且属于不同说话人的语音样本对增加权重,可以突出 同一语音情感的共性成分。

因此,本发明中提出的LSPGL算法或KSPGL算法,在维数约简阶段对训练样本使 用LDA和说话人嵌入图的线性组合进行最优化运算,实现对独立于说话人语音情感识 别中,特征维数约简过程的优化,提高了降维的有效性。

通过实验证明,相比于现有的识别方法,本发明的方法在语音情感特征空间降维过 程中增加了降维的有效性,使得独立于说话人语音情感识别系统的识别率性能得到了提 升。

附图说明

图1为本发明的流程图;

图2为使用1NN分类器时,Berlin语音情感数据库中,几种使用线性维数约简的识 别算法,在使用不同降维维数时LOSO方法识别率的比较;

图3为使用SVM分类器时,Berlin语音情感数据库中,几种使用线性维数约简的 识别算法,在使用不同降维维数时LOSO方法识别率的比较;

图4为Berlin语音情感数据库中,几种维数约简算法使用LOSO方法测试,得到的 低维情况最优识别率比较;

图5为eNTERFACE’05数据库中语音信号部分,几种维数约简算法使用LOSO方 法测试,得到的低维情况最优识别率比较。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示,为本发明的流程图。

一种基于说话人惩罚的独立于说话人语音情感识别方法,包括以下步骤:

将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样 本集,且训练集中任一样本所属的说话人在测试集中不出现,其中每个语音样本均具有 语音情感标签信息和说话人标签信息,包括顺序执行的以下步骤:

步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的 时域信号进行分帧;

步骤二,语音情感特征提取:对经步骤一处理后的每个语音样本,分别提取其能量、 基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音 样本的原始语音情感特征向量;所述6大类语音情感特征分布如下:

1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计 特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同 频带内能量序列的一阶、二阶抖动;

81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统 计特征;基音序列斜率;

102-121维:过零率序列及其一阶、二阶差分序列的统计特征;

122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长 段的帧数;浊、清音帧数和段数;语速;

131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共 振峰频率序列的一阶、二阶抖动;

251-406维:MFCC及其一阶差分序列的统计特征;

其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标 准差和范围。

对上述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规 整化语音情感特征向量;这里规整化的具体处理方法如下:

规整化前的所有语音样本中的任一样本为x(0),其中N个训练样本组成的训练样 本集为X(0)=[x1(0),x2(0),...,xN(0)],设为的第j个特征元素(i=1,2,...,N);

对于任一语音样本x(0),特征j对应元素的规整化处理的计算公式为:

x·j(1)=x·j(0)-mini=1,2,...,N(xij(0))maxi=1,2,...,N(xij(0))-mini=1,2,...,N(xij(0))

其中表示X(0)第j行中最大的元素,表示X(0)第j行中最 小的元素;

将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本 x(0)规整化语音情感特征向量集其中,属于训练样本集的语 音样本规整化语音情感特征向量,组成训练样本的规整化语音情感特征向量集 X(1)=[x1(1),x2(1),...,xN(1)],即其余为测试样本的语音 样本规整化语音情感特征向量。

步骤三,特征筛选:使用训练样本语音情感标签信息,对步骤二中得到的规整化语 音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向 量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向 量;特征筛选的具体方法为:任一语音样本规整化语音情感特征向量 中属于特征j的FDR值的计算公式为:

J(j)=Σl,k=1l>kNc(μclj-μckj)2δclj2+δckj2

其中,分别为训练样本的规整化语音情感特征向量集X(1)中特征j分 属于cl、ck类样本的均值,分别为训练样本的规整化语音情感特征向量集 X(1)中特征j分属于cl、ck类样本的方差,Nc为情感的类数;

去除40~60个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特 征向量集X=[x1,x2,...,xN]和每个测试样本的特征筛选后语音情感特征向量

步骤四,基于说话人惩罚的特征维数约简:设经步骤三特征筛选得到训练样本特征 筛选后语音情感特征向量集X=[x1,x2,...,xN],利用训练样本的语音情感标签信息和 说话人标签信息,采用本发明提出的LSPGL算法或KSPGL算法对X进行维数约简训 练,生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射 阵P,同时分别求解得到X的线性映射低维样本集ATX或核映射低维样本集PTK,其 中K为训练样本集的Gram阵,选用Gauss核函数;具体的,

维数约简时,LSPGL算法的图嵌入的优化形式为:

argminaaTXLXTaaTXLpXTa,s.t.aTa=1

其中,

L为本征图的拉普拉斯矩阵且为N×N矩阵,

Lp为惩罚图的拉普拉斯矩阵且为N×N矩阵,

这里LLDA为线性判别分析的本征图的拉普拉斯矩阵,且LLDA=DLDA-WLDA,其中N ×N对角阵DLDA中第i行j列的元素的形式为(DLDA)ij=Σk=1N(WLDA)ik,i=j0,ij,WLDA为线性判别分析的本征图邻接阵,且

H为主成分分析的本征图的拉普拉斯矩阵,同时H也为线性判别分析的惩罚图的 拉普拉斯矩阵,且其中e为N维列向量,I为N×N的单位阵;

为规范化的说话人本征图的拉普拉斯矩阵:

L~is=(Dis)-12Lis(Dis)-12=I-(Dis)-12Wis(Dis)-12;

这里Lis为说话人本征图的拉普拉斯矩阵,且Lis=Dis-Wis,其中Dis为Lis的节点 度对角阵,且Dis中第i行j列的元素的形式为Dijis=Σk=1NWikis,i=j0,ij;Wis为说话人本 征图的邻接阵,且其中表示 两个矩阵的对应位置元素相乘的运算符;对于N维列向量ec的任一元素,其对应的训 练样本属于类c时该元素为1,否则该元素为0;对于N维列向量的任一元素,其对 应的训练样本属于说话人cs时该元素为1,否则该元素为0;

为规范化的说话人的惩罚图的拉普拉斯矩阵:

L~ps=(Dps)-12Lps(Dps)-12=I-(Dps)-12Wps(Dps)-12;

这里Lps为说话人惩罚图的拉普拉斯矩阵,且Lps=Dps-Wps,其中Dps为Lps的 节点度对角阵,且Dps中第i行j列的元素的形式为Dijps=Σk=1NWikps,i=j0,ij;Wps为 说话人惩罚图的邻接阵,且其中表示两个矩阵的对应位置元素相乘的运算符;N×N阵WkNN为训练样本集的 k近邻图的邻接阵,其对应的第i行、第j列元素为: (WkNN)ij=1,iNk(j)orjNk(i)0,otherwise,NK(i)、NK(j)分别表示样本点i、j的k 近邻点集,其中k=1,2,3,...;

参数0≤γ1≤1、0≤γ2≤1,且γ1和γ2通常取值范围为0.1~0.6;

n维列向量a为线性投影映射向量,aT为a的转置;

维数约简时,KSPGL算法的图嵌入的优化形式为:

argminaαTKLKTααTKLpKα,s.t.αTα=1

其中,

N维列向量α为核投影映射向量,αT为α的转置;

Gram阵K中元素选用Gauss核函数,K中i行j列元素形式为: Kij=K(xi,xj)=exp(-||xi-xj||22),其中σ2为Gauss核参数,控制核函数的平缓程 度;这里的Gram阵K满足K=φT(X)φ(X),φ(X)=[φ(x1) φ(x2) ... φ(xN)]为原特征 下的样本集X向高维再生核Hilbert空间的映射,φT(X)为φ(X)的转置矩阵;

L和Lp的含义与LSPGL的图嵌入的优化形式中相同;

上述LSPGL算法或KSPGL算法的优化形式进行求解可以利用广义特征值问题GEP 进行:首先预先使用奇异值分解将广义特征值问题GEP转化为普通的特征值问题,然 后求解优化形式:

求解LSPGL算法的优化形式时,得到线性降维投影向量a的求解a1,a2,...,am,所 述各个求解a1,a2,...,am均两两相互正交,进而得到各个求解组成线性降维映射阵 A=[a1,a2,...,am],m为维数约简后的特征维数;

求解KSPGL算法的优化形式时,得到核方法降维投影向量α的求解α12,...,αm, 所述各个求解α12,...,αm均两两相互正交,进而得到各个求解组成核方法的降维映射 阵m为维数约简后的特征维数。

步骤五,训练分类器:对多类SVM分类器进行训练或直接选取1NN分类器;其中 多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于Nc个种类的语音 样本,在训练样本集中任取两个种类的语音样本,进行训练得到1个两类SVM分类器, 每两类重复该训练过程,共得到Nc(Nc-1)/2个两类SVM分类器;1NN分类器不需 要先训练即可使用,同样是本领域内的现有技术。

步骤六,测试:对于每个测试样本,使用经步骤五训练完成的分类器对每个测试样 本进行测试,具体包括顺序执行的以下步骤:

(1)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用线 性降维投影矩阵A或核方法降维映射阵P进行维数约简,得到经过线性维数约简后 的低维样本或经过核方法维数约简后的低维样本PTKi,对于一个测试样本 Ki=[K(xitest,x1),K(xitest,x2),...,K(xitest,xN)]T,Gram阵K中的核函数选用步骤 四中所述的Gauss核函数;

(2)使用分类器对或PTKi进行分类,选择多类SVM分类器或者1NN分 类器进行分类:

利用多类SVM分类器分类的方法为:将每个测试样本的低维样本或PTKi经所有得到的两类SVM分类器分类之后得到Nc(Nc-1)/2个判断结果,得票最多的判 断结果即判决为对应的测试样本所属的情感类别;若出现相同最多票数,则仅选择由最 多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进 行判断,得到新一轮判断结果,上述方法依次递减两类SVM分类器的个数直到得到一 个唯一的最多票数即判决为对应测试样本所属的情感类别;如一个测试样本的低维样本 按此过程仍有相同最大票数的类别判决时,则在这几类中随机决定对应测试样本的类 别;

利用1NN分类器分类的方法为:使用全体训练样本,对于每一个测试样本,找到 与其欧式距离最近的训练样本,使用该训练样本对应的类别标签作为该测试样本的分类 判决结果。

下面对通过实验的方法将本发明的方法与现有的具有代表性的识别方法包括主成 分分析(PCA)、线性判别分析(LDA)、线性判别嵌入(LDE)进行识别率对比。

实验采用Berlin语音情感数据库(EMO-DB)以及eNTERFACE’05数据库的语音 部分。

Berlin数据库中包括7类情感:害怕、厌恶、喜悦、厌倦、中性、悲伤、生气。实 验者为10个专业演员,包括5男5女,在录制数据库时采用10个不同的德语短句。语 音样本的采样频率为16kHz,量化位数为16bit。

eNTERFACE’05数据库中包含有喜悦、悲伤、害怕、厌恶、惊讶、生气等6类情感 状态,相比于EMO-DB库,不含有平静、厌倦类别,而有惊讶的情感类别。数据库共 有42个说话人,采用英语进行录制,同时获取语音和表情部分的数据,即双模态数据 库,这里仅使用语音部分的内容。由于语料库较大,所以实验中选择其中15个说话人 所属的样本。相对于广泛使用的EMO-DB库,eNTERFACE’05数据库在语音情感识别 方面具有更大的难度。

所述LSPGL、PCA、LDA、LDE等4种算法为采用线性数据映射的降维方法,其 中PCA中不含监督信息,LDA、LDE、LSPGL含有监督信息;背景中提到的LLE、Isomap、 LPP等算法不含监督信息,其识别率一般情况下均低于含有监督信息的算法,故这里没 有针对这些算法做相关实验。PCA和LDA常用于语音情感识别,而LDE已在人脸识别 等图像处理领域内得到了应用。

首先,针对独立于说话人语音情感识别的应用需求,使用留一说话人(Leave One  Speaker Out,简称LOSO)方法,根据每个样本对应的说话人类别(设共有个说话 人),将实验数据库划分为包含1个说话人所有样本的测试集,以及包含其他所有 个说话人对应样本的训练集。这样,共有个训练、测试样本集的划分方法, 取每次划分后的测试样本中识别率的平均值,就得到了最终的实验识别率结果。

具体的,首先比较本发明的方法在不同维度子空间内和其他一些现有算法之间识别 率的高低。利用本发明所述LSPGL算法对EMO-DB库中的语音情感样本使用LOSO方 法进行识别,得到如图2、图3所示的识别率随约简的维数变化的图像。其中图2为使 用1NN分类器时,而图3则为使用多类SVM分类器时的情况。由图2和图3可以看出, 在语音情感特征的低维子空间内,相对于其他一些常用的线性映射的子空间学习算法, 本发明中所提出的LSPGL算法在使用不同分类器时均可以取得较高的识别率。这里使 用的是本发明中的LSPGL算法,由于KSPGL算法是基于LSPGL的算法的基础上,使 用了采取核数据映射方式而形成的,理论上会进一步提高了语音情感识别的识别率。

进一步的,加入eNTERFACE’05数据库,并加入采用Gauss核数据映射的KSPGL 算法进行比较,重复整个实验过程,得到实验中各算法在低特征维数时的最高识别率及 其对应维数,并以“最高识别率/维数”的形式表示,其中因原维数下维数信息恒定,故 原特征一行对应的实验结果以“最高识别率/”的形式表示,最终制成表1。

表1

由表1和图2、图3可知,LSPGL算法、KSPGL算法在独立于说话人的语音情感 识别中相比其他现有采用维数约简的识别方法(PCA、LDA、LDE等),在使用同样分 类器(SVM、1NN)的条件下,在不同的语音情感数据库中,都能够取得较优的识别效 果,从而更适用于独立于说话人的语音情感识别。

再进一步,在不同的语音情感数据库中,比较不同分类器对识别率的影响。如图4、 图5,SVM分类器相比于1NN分类器在大部分情况下都能取得较好的效果,但SVM分 类器迭代过程中所需的计算量较大,尤其是类数较多时。而1NN分类器则性能较低, 较大程度上依赖于维数约简模块的性能,但所需计算量较小。使用不同分类器时需要综 合各方面进行考虑。

综上所述,本发明中所采用的SPGL算法能够使用说话人惩罚信息,有效地提高语 音情感识别效果。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员 来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也 应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号