首页> 中国专利> 训练数据匮乏下的鲁棒性语音转换方法

训练数据匮乏下的鲁棒性语音转换方法

摘要

本发明公开了一种训练数据匮乏下的鲁棒性语音转换方法,利用经验模式分解算法分析平行参数序列,挖掘源与目标个性特征相关的表征信息,并结合高斯过程模型设计并训练转换函数,压缩冗余信息,提高数据匮乏条件下的系统鲁棒性。本发明提供的训练数据匮乏下的鲁棒性语音转换方法,将高斯过程建模和经验模式分解的参数特征化方法应用在语音转换模型中,可以描述和刻画局部数据中体现的共性特征,提高转换算法在训练数据匮乏条件下的泛化性;同时,该方法进一步强化特征模式之间的区分度,提高转换算法在训练数据匮乏情况下的精确度。

著录项

  • 公开/公告号CN102968988A

    专利类型发明专利

  • 公开/公告日2013-03-13

    原文格式PDF

  • 申请/专利权人 河海大学常州校区;

    申请/专利号CN201210488131.X

  • 发明设计人 徐宁;沈媛;鲍静益;

    申请日2012-11-27

  • 分类号G10L15/02;G10L15/06;G10L19/13;G10L25/03;

  • 代理机构南京纵横知识产权代理有限公司;

  • 代理人董建林

  • 地址 213022 江苏省常州市晋陵北路200号

  • 入库时间 2024-02-19 17:37:56

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-15

    未缴年费专利权终止 IPC(主分类):G10L15/02 授权公告日:20150916 终止日期:20181127 申请日:20121127

    专利权的终止

  • 2015-09-16

    授权

    授权

  • 2013-04-10

    实质审查的生效 IPC(主分类):G10L15/02 申请日:20121127

    实质审查的生效

  • 2013-03-13

    公开

    公开

说明书

技术领域

本发明涉及语音信号处理技术中的语音转换技术,尤其涉及一种训练数据匮乏下的鲁棒性语音转换方法。

背景技术

语音转换是语音信号处理领域中一个比较新的分支,涉及语音分析与合成、语音识别、说话人识别、语音编码和语音增强等各个传统的研究方向。语音转换的最终目标是提供即时的、可以自动快速适应任何说话者的语音服务。然而,目前的语音转换技术还做不到这一点。例如,在Toda,T.,Black,A.W.,and Tokuda,K.:‘Voice Conversion Basedon Maximum-Likelihood Estimation of Spectral Parameter Trajectory’,IEEE Trans.onAudio,Speech,and Language Processing,vol.15,no.8,pp.2222-2235,2007发表的文献中就表明:当前的语音转换系统还存在较大的实用性限制,一方面严格限制用户措词造句的模式——用作训练系统的语音数据必须包含相同的语义内容,另一方面还要求确保较大的词汇量——用作训练系统的语音数据量必须是充裕的。

因此,“在实际环境中如何提高系统应对词汇量匮乏问题的鲁棒性”,是该领域迫切需要解决的关键问题。在E.Helander,J.Nurminen,and M.Gabbouj,“LSF mapping forvoice conversion with very small training sets,”IEEE Int.Conf.on Acoustics,Speech andSignal Processing,2008,pp.4669-4672文献中,该团队在提出在建模的过程中考虑线谱频率参数之间的耦合关系,并利用这一关系提高系统在数据量稀少情况下的鲁棒性。该算法主要在参数“特征化”的层面展开研究,即通过调整特征参数的结构、提炼参数间蕴含的某种关系等手段来提高系统性能。随后,在文献E.Helander,T.Virtanen,J.Nurminen,and M.Gabbouj,“Voice conversion using partial least squares regression,”IEEE Trans.onAudio Speech and Language Processing,vol.18,no.5,pp.912-921,2010中,他们提出采用部分最小二乘和高斯混合模型相结合的方法来克服训练数据稀少时系统的“过拟合”问题。该改进算法的重点从“特征化”参数转变到了“模型化”系统结构上,即研究设计更可靠的、更符合物理实际的系统模型来揭示数据中隐含的客观本质,从而提高系统抵抗数据量缺乏的能力。

综上所述,虽然近年来一些学者已经针对该问题展开研究,但目前仍然缺乏有组织的系统工作。因此,针对语音转换系统在训练数据量匮乏条件下性能急剧恶化的问题,本发明充分利用模式识别、数据挖掘等领域的最新研究成果,并结合听觉场景分析理论,提出了一种解决方案,以提高语音转换技术在实际环境中的适用性。

发明内容

发明目的:为了克服现有技术中存在的不足,本发明将高斯过程建模和经验模式分解的参数特征化方法应用在语音转换模型中,设计出能充分反映数据统计特性的转换方法;该方法可以描述和刻画局部数据中体现的共性特征,提高转换算法在训练数据匮乏条件下的泛化性;同时,该方法进一步强化特征模式之间的区分度,提高转换算法在训练数据匮乏情况下的精确度。

技术方案:为实现上述目的,本发明采用的技术方案为:

训练数据匮乏下的鲁棒性语音转换方法,利用经验模式分解算法分析平行参数序列,挖掘源与目标个性特征相关的表征信息,并结合高斯过程模型设计并训练转换函数,压缩冗余信息,提高数据匮乏条件下的系统鲁棒性。

所述利用经验模式分解算法分析平行参数序列,具体包括如下步骤:

(a1)利用线性谱频率参数的任一维特征空间在相邻时域上都具有连续变化的特性,利用下述两种方案中的任一方案获得时序序列:

方案一:对于源和目标平行的线性谱频率参数序列,逐次提取他们相应的某一维特征空间的系数,从而构成时序序列X(t);

方案二:对源和目标平行的线性谱频率参数序列,以帧为单位并按时间顺序,分别首尾相连构成扩展的时序序列X(t);

(a2)利用经验模式分解算法对源和目标的时序序列X(t)进行分解,得到若干固态函数ci,i=1,2,…,n和残差信号函数rn,满足

所述结合高斯过程模型设计并训练转换函数,具体包括如下步骤:

(b1)训练阶段

(b1-1)将系统输入X={x1,x2,…xi,…,xN}进行归一化,得到将系统输出Y={y1,y2,…yi,…,yN}进行归一化,得到其中;>xi=xi-x~,>>yi=yi-y~,>>x~=Σj=1Nxj/N,>>y~=Σj=1Nyj/N;>

(b1-2)将下述步骤①~③循环执行D次,其中D表示矢量维数,对于第j次执行:

①构造数据集合其中表示矩阵的第j行;

②针对Rj,选择相应的核函数建立一个高斯过程模型,令该高斯过程模型的参数结构为Θj

③通过最大化边缘似然概率,求解Θj的最优值;

(b1-3)将求解得到的Θ={Θ12,…,ΘD}以及进行保存,供转换阶段使用;

(b2)转换阶段

(b2-1)将测试输入进行归一化,得到将测试输出Y*进行归一化,得到表示矩阵的第j行;

(b2-2)将训练阶段得到的Θj带入建立高斯过程模型时设计的转换函数中求解,得到预测概率,取此概率函数的均值作为预测值;

(b2-3)利用训练阶段保存的将测试输出反归一化,即

上述方法主要特征在两方面:①从模型化方向入手,研究利用一种新的、适合于训练数据量稀少情况物理模型,这种模型应该具备对数据量鲁棒、建模能力强、泛化性能好等特点;②在特征化方向突破,利用新的分析方法(传统的信号分析方法一般都是基于傅立叶变换理论)对数据进行分析,力求抓住本质因素,深入挖掘源和目标人数据之间的差异性,以达到提高语音转换系统在信息量匮乏条件下的精确性的目的。下面就本案的这两方面加以具体描述。

第一方面:高斯过程模型建立

设训练时的系统输入为X={x1,x2,…xi,…,xN},对应的系统输出为Y={y1,y2,…yi,…,yN},测试时的输入假设为单个符号变量x*,根据高斯过程模型的定义,设[Y,y*]T组成的联合矢量服从以下形式的先验高斯分布:

>YTy*=N(0,KK*TK*K**)---(1)>

K*=[k(x1,x*),k(x2,x*),…,k(xT,x*)],K**=k(x*,x*)            (3)

则通过证明可以得到如下概率函数:

>P(y*|X,Y,x*)N(K*K-1Y,K**-K*K-1K*T)---(4)>

上述概率函数的物理意义是:给定已知数据,预测数据的概率分布是一个高斯分布,且均值和方差与已知数据有关。因此,公式(4)可以被用作设计转换函数,其中k(·,·)称之为“协方差函数”,也称“核”算子。针对不同的实际问题设计不同的高斯过程结构,在本质上就是选择和设计不同的k(·,·)。通过初步研究,我们拟设计一种基于人耳听觉感知效应的核函数如下:

>k(x,x~)=2πsin-1(2xTΣx~(1+2xTΣx)(1+2x~TΣx~))+exp(-2υ(x-x~)l)Γ(p+1)Γ(2p+1)Σi=0p(p+i)!i!(p-i)!(8υ(x-x~)l)p-i+σn2δ(x,x~)---(5)>

上述核函数考虑了人耳的非线性感知特性,并将短时和长时相关性联合在一起进行建模,这将有助于提高高斯过程区分和转换不同特征参数的能力。

注意到标准的高斯过程的输入输出分别为矢量和数值,而训练数据却是平行矢量集合,因此这就涉及到如何把高斯过程和语音转换相结合的问题。本发明拟利用分簇的思想,将特征矢量集合划分成若干不同的区域分别处理(详见表1、2)。同时,有别于传统的系统将激励信息和声道信息分开处理,本方案将两者糅合到高斯过程统一的框架下进行操作,以改善训练数据量极其匮乏的条件下系统的性能。

表1基于高斯过程的训练算法

表2基于高斯过程的转换算法

第二方面:经验模式分解算法分析平行参数序列

经验模式分解算法本质上是将任意时间序列分解为由若干个固态函数叠加而成的形式。这些固态函数具有良好的数学性质——完备性和正交性,且每一个函数都代表了该序列中隐含的某一类振动模式,因此被认为在一定程度上反映了数据的物理本质,具有极其重要的研究意义。具体而言,设时序信号为X(t),固态函数为ci,i=1,2,…,n,残差函数为rn,则由如下关系式成立:

>X(t)=Σi=1nci+rn---(6)>

从任意时序信号中萃取出上述固态函数的过程称之为“筛选”,该算法步骤如表3所示。

表3筛选算法代码

接下来的问题是如何将经验模式分解算法和语音转换任务结合起来。一般来说,平行线性谱频率参数序列不是简单的时序序列,因为每一帧参数都是一个矢量,因此整个序列在本质上组成的是一个时序矩阵。正是由于这个原因,使得不能直接套用经验模式分解算法。但是,深入分析可知,线性谱频率参数的任一维特征空间在相邻时域上都具有连续变化的特性,这就为我们提供了设计依据。本发明提出两种不同的分析方案:(a)对于源和目标平行的线性谱频率参数序列,逐次提取它们相应的某一维特征空间的系数(从而构成了时序序列),然后用经验模式分解算法分别对其进行分析,最终可能会得到d组待分析的信号对,其中d表示线性谱频率参数的维数。这种方案的优点是简单易行,处理复杂度不高;缺点是比较耗时,时间复杂度较高。(b)将源和目标人平行的线性谱频率参数序列按照时间顺序(以帧为单位),分别首尾相连构成扩展时序序列(即将原本d×N维的特征矢量集合变成1×dN的特征时序序列,其中N表示矢量个数),然后调用经验模式分解算法分别对其进行分析,最终得到一组待分析信号对。该方案的优点是时间复杂度低,且具有一定的物理意义:线性谱频率参数各维空间系数在时间轴上展开后形成了具有准周期性的时序序列,该序列具有类似语音信号的短时相关性和长时相关性。其中短时相关性由一帧线性谱频率参数展开后形成的波形斜率所表征,长时相关性由相邻的线性谱频率参数展开后形成的周期性波形包络所表征。在此基础上利用经验模式分解算法对源和目标时序序列进行分解,得到若干固态函数和残差信号。初步研究表明,残差信号一般幅度较小,在建模过程中可以忽略。因此,最终将分析焦点放到固态函数上。正如前文所述,固态函数之间是相互正交的关系,换句话说,正是由于每个固态函数均代表一类隐含在信号中的振动模式,而这些振动模式之间是两两相互独立的,因此固态函数之间呈现正交的关系。利用这一特点,可以有效地为语音转换任务服务,即通过对比源和目标各个相应的固态函数之间存在的差异性,并针对这种差异性寻求某种算法进行变换,最终实现说话人个性的转换。值得一提的是,这些固态函数中有一部分呈现出高频振荡的特性,因此频域细节信息比较丰富,另外一些则呈现出波形随时间缓慢变化的特性,因此频域包络信息占主导地位。

有益效果:本发明提供的训练数据匮乏下的鲁棒性语音转换方法,将高斯过程建模和经验模式分解的参数特征化方法应用在语音转换模型中,可以描述和刻画局部数据中体现的共性特征,提高转换算法在训练数据匮乏条件下的泛化性;同时,该方法进一步强化特征模式之间的区分度,提高转换算法在训练数据匮乏情况下的精确度。

附图说明

图1为应用本发明方法的语音转换系统框图。

图2为动态时间规整算法示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

训练数据匮乏下的鲁棒性语音转换方法,利用经验模式分解算法分析平行参数序列,挖掘源与目标个性特征相关的表征信息,并结合高斯过程模型设计并训练转换函数,最大化压缩冗余信息,提高数据匮乏条件下的系统鲁棒性。如图1所示,具体按如下步骤实现。

第一步,源和目标的语音数据通过谐波加噪声模型进行分析,得到激励参数和声道参数。其中,激励参数主要由基音频率来表征,声道参数则由谐波信息和随机信息两部分组成。所谓的谐波信息指的是该部分参数主要由一系列谐波幅度和相位值构成,且这些谐波的位置均位于基音频率的整数倍上,谐波频率的最大可取值称之为最大浊音频率。需要注意的是,由于采用的语音数据的采样频率为16KHz(即折叠频率为8KHz),因此在谐波加噪声模型分析的过程中,最大浊音频率我们假设为5KHz。另一方面,所谓的随机信息指的是那些不能被谐波信息所表征的信息,或者说是残差信息。另外,谐波信息被认为只位于语音的浊音部分,而随机信息则在浊音部分和清音部分都存在,且是全频带的。由于随机信息变化性较大且不易建模,因此在语音转换系统设计过程中不对其进行修改,即目标人的随机信息暂时由源说话人的随机信息代替。初步实验结果证明,采用复制的方式处理随机信息所引起的主观平均意见分的降低程度并不明显。

第二步,需要对谐波加噪声模型分析得到的激励参数和声道参数(特别是谐波信息)进一步处理,提取所谓的特征参数。由于在谐波加噪声模型框架下,激励参数为一维数值(基频)且和声学特征密切相关,所以可以直接利用。换句话说,只需考虑对声道参数进行处理。正如前文所述,着重考虑如何从声道参数中的谐波信息里提取维数恒定的、与说话人个性密切相关的特征矢量(随机信息暂不考虑)。这里涉及到两方面的问题:(a)谐波幅度的特征化。首先对离散谐波幅度谱进行内插,然后对其求平方获得近似功率谱,接着将功率谱逆傅立叶变换得到与之对应的自相关系数,最后通过频域线性预测技术求得该谐波幅度谱对应的线性预测系数,由于线性预测系数和线谱频率系数之间存在等效的转换关系,因此很容易从中推导出线谱频率系数。(b)谐波相位的处理。研究表明:人耳对语音信号的相位谱不敏感。因此,在本发明中,暂且不考虑对谐波相位的建模和转换。但是,由于相位条件影响合成语音的波形,且不连续相位会导致语音波形严重失真,从而使得合成语音音质受到损伤,因此必须在合成语音时,考虑谐波相位因素对它的影响。具体而言,在合成端利用三次样条曲线对相邻帧谐波相位值进行建模,并假设其包含一个线性相位常量,在这种情况下,可以近似求得相位重构系数,以确保相位连续。

第三步,为获得平行数据(即语义内容相同的对称数据),需要对第二步骤中求得的线谱频率特征参数序列进行匹对运算。具体而言,本发明采用动态时间规整算法来解决该问题,算法的示意图如图2所示。从图中可以看到,每一个小方块代表一帧线谱频率系数,不同的颜色代表不同的语义内容的线谱频率系数集合。虽然两个说话人说的是同一句话,但是由于各种原因,导致在时间轴上对应的线谱频率系数之间有时并不代表同样的语义内容。因此,这就需要我们对其进行匹对,形成如图所示的虚线箭头指向的参数关系。最后,我们将这些虚线箭头连接的参数对提取出来(平行数据),作为后续操作的输入数据。

第四步,运用经验模式分解算法对平行参数序列进行进一步分析,挖掘深层次信息。具体做法见发明内容部分。

第五步,结合高斯过程模型设计并训练转换函数。具体做法见发明内容部分。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号