首页> 中国专利> 一种基于简化自适应内插加权谱模型的语音转换及重构方法

一种基于简化自适应内插加权谱模型的语音转换及重构方法

摘要

本发明公开了一种基于简化自适应内插加权谱模型的语音转换及重构方法。在语音分析阶段省略了非周期成分的提取过程,从而简化并避免了非周期成分参数的输出。同时,在语音合成阶段又基于平滑功率谱参数建立高斯混合模型,对非周期成分参数进行估计和重构,从而满足原传统模型的输入参数要求。该简化模型与传统模型相比,其合成语音质量总体相当,在男声语音方面甚至更优于传统模型。此外,由于在分析阶段中省略了复杂的非周期成分提取过程,使得简化方法模型的计算量大为减小。

著录项

  • 公开/公告号CN102930863A

    专利类型发明专利

  • 公开/公告日2013-02-13

    原文格式PDF

  • 申请/专利权人 河海大学常州校区;

    申请/专利号CN201210401029.1

  • 申请日2012-10-19

  • 分类号G10L13/00;G10L13/08;

  • 代理机构南京纵横知识产权代理有限公司;

  • 代理人董建林

  • 地址 213022 江苏省常州市晋陵北路200号

  • 入库时间 2024-02-19 17:57:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-08

    未缴年费专利权终止 IPC(主分类):G10L13/00 授权公告日:20140528 终止日期:20161019 申请日:20121019

    专利权的终止

  • 2014-05-28

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):G10L13/00 申请日:20121019

    实质审查的生效

  • 2013-02-13

    公开

    公开

说明书

技术领域

本发明属于语音信号处理技术领域,涉及一种语音转换和重构模型,特别 涉及一种基于自适应内插加权谱的语音转换及重构(STRAIGHT)模型。

背景技术

语音参数化和重构是一个重要且具有一定挑战性的问题。其对应的语音分 析-合成系统被广泛用于各种应用,如语音编码,转换等。在H.Kawahara,I.M. Katsuse,A.d.Cheveigne,“Restructuring speech representations using a pitch adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction:Possible role of a repetitive structure in sounds,”J.Speech Communication,vol.27,no.3-4,pp.187–207,April.1999发表的文献中表明,基 于自适应内插加权谱的语音转换及重构(Speech Transformati on and Representation using Adaptive Interpolation of weiGHTed spectrum, STRAIGHT)模型,抛弃了传统语音模型中声门、声道的构造,直接提取语音的 功率谱,获得了高质量的语音合成效果。其逐渐成为目前主流的语音分析合成模 型,广泛应用在语音合成、语音转换等各方面。其采用以VOCODER为原型的源 滤波器的思想来表征语音信号,把语音信号看作激励信号通过时变线性滤波器 后输出的结果。在分析得到各帧的语音功率谱后,对该功率谱进行时频域上的 平滑处理,同时在时间轴和频率轴上进行过采样,保证合成阶段对语音的高质 量重构。

STRAIGHT模型本身也存在一些缺陷。STRAIGHT模型一开始是针对宽带语音 合成提出的,其在多方面进行了较为精密的计算。如在非周期成分参数的提取 过程中就包含相位弯曲映射,功率谱计算,功率谱上下边包络提取,上下边包 络等价直角带宽(ERB)域计算,下边包络增强等一系列复杂的计算。因此, STRAIGHT模型的高计算量成为制约该模型进一步应用和发展的一个重要问题。

发明内容

本发明的目的是实现在保持合成语音质量基本不变的同时,使STRAIGHT模 型输出参数种类个数的减少,减小STRAIGHT模型计算量,简化非周期成分参数 的分析和输出。

本发明的技术方案从以下方面考虑:STRAIGHT模型是一种基于功率谱的语 音模型。其平滑功率谱参数为一种经过时频域补偿后的功率谱,而非周期成分 参数为对功率谱上下边包络处理后所提取的参数。从本质上说,两者都是原始 功率谱的一种表现形式,存在一定相关性,因此可通过GMM模型构建两者的相 关性,并最终达到从平滑功率谱参数中估计出非周期成分参数的目的。

本发明的主要技术内容如下:

一种基于简化自适应内插加权谱模型的语音转换及重构方法,其特征在于, 在分析部分省略了原STRAIGHT模型中的非周期成分参数提取模块,在合成部分 增加非周期成分参数重构过程。

所述的非周期成分参数重构过程,其包括美尔倒谱系数(MFCC)获取模块, 高斯混合模型模块,美尔倒谱系数分类模块,平滑功率谱分类模块,非周期成 分分类及其估计模块。

所述的非周期成分参数重构过程,包含以下步骤:

(1)、训练阶段:

(1a)、在美尔倒谱系数MFCC获取模块中输入平滑功率谱参数的训练集 {Pi(w)},1≤i≤T,获得对应的美尔倒谱MFCC系数集{Mi},其中Mi=DCT{logΦPi(w)}, Φ为人类听觉感知的权重函数,DCT{.}表示离散余弦变换,T为语音总帧数;

(1b)、在高斯混合模型GMM模块中对MFCC系数集采用进行最大期望值EM 算法训练,更新高斯混合模型GMM中各状态参数,直至参数稳定为止,并记录 GMM中的各状态参数,备重构阶段使用;

对于高斯混合模型GMM,设输入参数集为{xi}={Mi},1≤i≤T,设输入参数为x的概 率分布p(x)为:

p(x)=Σq=1QαqN(x;μq;Σq),    约束条件为Σq=1Qαq=1,αq≥0,

其中,Q,αq分别为高斯成分数量及对应权重系数,μq,∑q分别为第q个D维高斯 正态分布N(x;μq;∑q)的均值和协方差矩阵,1≤q≤Q,正态分布N(x;μq;∑q)定义为:

N(x;μq;Σq)=1(2π)D/2|Σq|1/2exp[-12(x-μq)TΣq-1(x-μq)],其中,(.)T和(.)-1分别代表矩阵转置和求逆,

对第i个输入参数xi,利用最大期望值EM算法的更新准则:

βq(xi)=αqN(xi;μq;Σq)Σj=1QαjN(xi;μj;Σj),

μq=Σi=1Tβq(xi)xiΣi=1Tβq(xi),

Σq=Σi=1Tβq(xi)(xi-μq)T(xi-μq)DΣi=1Tβq(xi),

αq=1TΣi=1Tβq(xi),

其中,βq(xi)为xi所属为第q类时的后验概率,αj,μj,∑j分别对应为第j个高斯成 分的权重系数,第j个D维高斯正态分布N(x;μj;∑j)的均值和协方差矩阵;

(1c)、美尔倒谱系数分类模块中,对输入美尔倒谱系数MFCC集按高斯混 合模型GMM中的最大后验概率准则进行分类;对输入参数xi=Mi,则将Mi分入第 J类,准则为在所有的类中,1≤q≤Q,寻找后验概率最大的βq(xi),获取此时对应 的q,并将q的数值赋给J,即

(1d)、平滑功率谱分类模块中,对与美尔倒谱系数MFCC相对应的各平滑 功率谱参数进行分类,若美尔倒谱系数MFCC的Mi分入第J类,则对应的平滑功 率谱参数Pi(w)也分入第J类;

(1e)、非周期成分分类及其估计模块中,对与平滑功率谱参数Pi(w)相对应 的训练非周期成分参数api进行分类,计算各类的中心数值,并作为各类非周期 成分参数的估计值,若平滑功率谱参数Pi(w)分入第J类,则对应的非周期成分参 数api也分入第J类,其第J类的非周期成分的中心数值为

(2)、重构阶段:

(2a)、在美尔倒谱系数MFCC获取模块中输入所需重构的非周期成分参数 对应的平滑功率谱参数Pi(w),获得对应的MFCC系数Mi

(2b)、在高斯混合模型GMM模块中,对输入MFCC系数,xi=Mi,计算各高 斯成分所对应的概率βq(xi)=αqN(xi;μq;Σq)Σj=1QαjN(xi;μj;Σj);

(2c)、美尔倒谱系数分类模块中,对输入MFCC系数Mi按GMM中的最大后 验概率确定其所属第J类,

(2d)、平滑功率谱分类模块中,对与MFCC系数Mi相对应的平滑功率谱参 数Pi(w)确定其所属第J类;

(2e)、非周期成分分类及其估计模块中,将平滑功率谱参数Pi(w)所属第J 类对应的非周期成分参数的估计值作为该非周期成分参数的重构数值,

本发明所达到的有益效果:

本发明将高斯混合模型(GMM)与简化的自适应内插加权谱的语音转换及重 构(STRAIGHT)模型相结合,利用语音平滑功率谱和非周期成分的相关性,通 过平滑功率谱对非周期成分进行估计和重构。该简化STRAIGHT模型与传统模型 相比,其合成语音质量总体相当,在男声语音方面甚至更优于传统模型。此外, 由于在分析阶段中省略了复杂的非周期成分提取过程,使得简化模型的计算量 大为减小。

附图说明

图1是本发明的一种基于非周期成分参数简化的基于自适应内插加权谱的 语音转换及重构模型的框架图,图(a)是分析部分,图(b)是合成部分;

图2是本发明的基于语音平滑功率谱的非周期成分估计框图;

图3是本发明中对男女声合成语音的语谱图;

图4是本发明中不同高斯成分数目时合成语音质量统计图。

具体实施方式

下面结合附图,对本发明的一种基于非周期成分参数简化的基于自适应内 插加权谱的语音转换及重构(STRAIGHT)模型作进一步阐述。

如图1所示,一种基于非周期成分参数简化的自适应内插加权谱的语音转 换及重构(STRAIGHT)模型。其在分析部分简化并省略了原STRAIGHT模型中的 非周期成分参数提取模块,在合成部分增加非周期成分参数重构模块。

如图2所示,非周期成分参数重构模块,其包括美尔倒谱系数(MFCC)获 取模块,高斯混合模型模块,美尔倒谱系数分类模块,平滑功率谱分类模块, 非周期成分分类及其估计模块。

如图2所示,所述的非周期成分参数重构模块,包含以下步骤:

(1)、训练阶段(实线及虚线流程部分):

(1a)、在美尔倒谱系数(MFCC)获取模块中输入平滑功率谱参数的训练集 {Pi(w)},1≤i≤T,获得对应的MFCC系数集{Mi},其中Mi=DCT{logΦPi(w)},Φ为人类 听觉感知的权重函数,DCT{.}表示离散余弦变换,MFCC系数的个数取为20;

(1b)、在高斯混合模型(GMM)模块中对MFCC系数集采用进行最大期望值 (EM)算法训练,更新GMM中各状态参数,直至参数稳定为止,并记录GMM中 的各状态参数,备重构阶段使用;

对于GMM模型,设输入参数集为{xi}={Mi},1≤i≤T,设输入参数为x的概率 分布p(x)为:

p(x)=Σq=1QαqN(x;μq;Σq),约束条件为Σq=1Qαq=1,αq≥0,

其中,Q,αq分别为高斯成分数量及对应权重系数,Q=150,μq,∑q分别为第q个D 维高斯正态分布N(x;μq;∑q)的均值和协方差矩阵,1≤q≤Q,正态分布N(x;μq;∑q)定义 为:

N(x;μq;Σq)=1(2π)D/2|Σq|1/2exp[-12(x-μq)TΣq-1(x-μq)].

其中,(.)T和(.)-1

别代表矩阵转置和求逆。

则利用EM算法的更新准则:

βq(xi)=αqN(xi;μq;Σq)Σj=1QαjN(xi;μj;Σj),

μq=Σi=1Tβq(xi)xiΣi=1Tβq(xi),

Σq=Σi=1Tβq(xi)(xi-μq)T(xi-μq)DΣi=1Tβq(xi),

αq=1TΣi=1Tβq(xi),

其中,βq(xi)为xi所属为第q类时的后验概率,αj,μj,∑j分别对应为第j个高斯成 分的权重系数,第j个D维高斯正态分布N(x;μj;∑j)的均值和协方差矩阵;

(1c)、美尔倒谱系数分类模块中,对输入MFCC系数集按GMM中的最大后 验概率准则进行分类;对输入参数xi=Mi,则将其分入第J类,准则为 J=argqmaxβq(xi).

(1d)、平滑功率谱分类模块中,对与MFCC系数相对应的各平滑功率谱参 数进行分类。若MFCC系数Mi分入第J类,则对应的平滑功率谱参数Pi(w)也分入 第J类;

(1e)、非周期成分分类及其估计模块中,对与平滑功率谱参数相对应的训 练非周期成分参数进行分类,计算各类的中心的数值,并作为各类非周期成分 参数的估计值。若平滑功率谱参数Pi(w)分入第J类,则对应的非周期成分参数api也分入第J类。其第J类的非周期成分的中心为

(2)、重构阶段(实线流程部分):

(2a)、在美尔倒谱系数(MFCC)获取模块中输入所需重构的非周期成分参 数对应的平滑功率谱参数Pi(w),获得对应的MFCC系数Mi

(2b)、在高斯混合模型(GMM)模块中,对输入MFCC系数,xi=Mi,计算 各高斯成分所对应的概率,βq(xi)=αqN(xi;μq;Σq)Σj=1QαjN(xi;μj;Σj);

(2c)、美尔倒谱系数分类模块中,对输入MFCC系数Mi按GMM中的最大后 验概率确定其所属第J类,

(2d)、平滑功率谱分类模块中,对与MFCC系数Mi相对应的平滑功率谱参 数Pi(w)确定其所属第J类;

(2e)、非周期成分分类及其估计模块中,将平滑功率谱参数Pi(w)所属第J 类对应的非周期成分参数的估计值作为该非周期成分参数的重构数值,

本发明的效果可以通过以下实验进一步说明:

1)实验条件

本实验采用TIMIT语音库中语音作为实验数据,语音采样速率为8kHz,语音 帧长为30ms,帧移位1ms,频谱分析采用1024点的快速傅里叶变换。采用Matlab R2010a作为仿真工具,计算机配置为Intel酷睿i2410/2G。

2)实验内容

分别利用原STRAIGHT模型和本发明的简化的STRAIGHT模型,对男女声语 音进行语音参数分解和基于该参数的语音合成。其中,原STRAIGHT模型分解出 的语音参数为基音,平滑功率谱和非周期成分三参数,简化的STRAIGHT模型分 解出的语音参数为基音和平滑功率谱两参数。

首先,对合成男女声语音进行语谱图比较,结果如图3所示,其中图3(a), (d)分别为原始男﹑女声语音,图3(b),(e)分别为原STRAIGHT模型的合成 语音,图3(c),(f)分别为简化的STRAIGHT模型的合成语音,其中GMM中高 斯成分数目设为150;

其次,对不同高斯成分数目时的男女声合成语音质量比较,结果如图4所 示。

3)实验结果分析

从图3可以看出,本发明由于进行了非周期成分估计,使得语音的谐波性 能增强,如图中画圈处指示。对于谐波性较强且规律的男声语音,本发明能增 强其语音质量;对于谐波性变化较大的女声语音,谐波性能增强可能使得女生 合成语音变得机械,因此本发明产生的女生语音质量可能略差与原STRAIGHT模 型产生的女生语音;

从图4可以看出,在不同的高斯成分数目时,本发明的简化STRAIGHT模型 合成语音质量的性能不同,对男女声的合成质量也有所差异。语音质量的评定 采用语音感受质量评估(PESQ)为客观评价指标。图中可见,对于男声语音, 采用150个高斯成分重构非周期成分参数时,其合成语音质量最佳,比原 STRAIGHT模型高出约0.1左右。其后,因为GMM产生了过适应(over-fitting) 问题,高斯成分数目的增加反而造成了语音质量的下降。对于女声语音,本发明 的简化的模型合成语音质量略差于原STRAIGHT模型,但随着高斯成分的增加, 其合成质量性能趋近于原STRAIGHT模型。这是由于女声语音的频谱动态变化范 围较大,较少的高斯成分数目很难通过平滑功率谱对非周期成分进行准确分类, 从而影响的合成语音质量。但总体说来,本发明的简化STRAIGHT模型与原传统 模型相比,其合成语音质量总体相当,在男声语音方面甚至更优于传统模型。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变 形,这些改进和变形也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号