首页> 中国专利> 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法

基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明属于语音信号处理领域，公开了一种基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法,该方法充分考虑了模型参数的数据压缩问题,在语音分析阶段提取出平滑功率谱之后,利用Mel-KSVD的方法对提取的平滑功率谱参数进行相关稀疏系数的表示,同时，在稀疏表示时通过字典自适应学习的策略不断更新字典，最优化稀疏系数。仿真结果表明，该模型与传统的稀疏系数较少的模型相比，其合成语音质量总体相当或者更好，在男声语音方面甚至更优于传统KSVD稀疏表示的模型。此外，该方法比美尔倒谱系数压缩模型相比，语音合成质量更好。

著录项

公开/公告号CN103345920A

专利类型发明专利
公开/公告日2013-10-09

原文格式PDF
申请/专利权人河海大学常州校区;
展开▼

申请/专利号CN201310211046.3
发明设计人汤一彬;沈媛;朱昌平;周浩;高远;单鸣雷;姚澄;
展开▼

申请日2013-05-29
分类号G10L13/02;G10L21/047;
代理机构南京纵横知识产权代理有限公司;
代理人董建林
地址 213022 江苏省常州市晋陵北路200号
入库时间 2024-02-19 20:08:03

法律信息

法律状态公告日

法律状态信息

法律状态
2015-07-15

授权

授权
2013-11-06

实质审查的生效 IPC(主分类):G10L13/02 申请日:20130529

实质审查的生效
2013-10-09

公开

公开

说明书

技术领域

本发明属于语音信号处理领域，涉及一种语音转换和重构模型，特别涉及一种基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法。

背景技术

语音参数化和重构是一个重要且具有一定挑战性的问题,其对应的语音分析-合成系统被广泛用于各种领域，如语音编码、转换等。

在H.Kawahara等人在1999年4月发表的“基于自适应内插加权谱模型的语音转换及重构方法”文献中表明，基于自适应内插加权谱的语音转换及重构模型，抛弃了传统语音模型中声门、声道的构造，直接提取语音的功率谱,获得了高质量的语音合成效果。其逐渐成为目前主流的语音分析合成模型，广泛应用在语音合成、语音转换等各方面。其采用以VOCODER为原型的源滤波器的思想来表征语音信号，把语音信号看作激励信号通过时变线性滤波器后输出的结果。在分析得到各帧的语音功率谱后，对该功率谱进行时频域上的平滑处理，同时在时间轴和频率轴上进行过采样，保证合成阶段对语音的高质量重构。

近几年来，稀疏表示理论得到了很快的发展，并应用于诸多领域，如：图像降噪、盲源分离、语音增强等。上述的应用都是为了获得稀疏域的相关稀疏系数，来表征语音信号的内在特征。STRAIGHT模型本身也存在一些缺陷。经过STRAIGHT模型提取出的平滑功率谱包络参数具有相当的冗余信息，该模型值得更进一步的完善。但是，学者们很少关注STRAIGHT模型的改进，因此，如何将STRAIGHT模型与稀疏表示理论相结合，进一步压缩模型参数，成为制约该模型进一步应用和发展的一个重要问题。

发明内容

本发明的目的在于克服上述问题，提供一种基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法，实现在保持合成语音质量基本不变的同时，将STRAIGHT模型与稀疏表示理论相结合，使模型输出参数得到进一步的压缩，减少参数的传递的个数，减小STRAIGHT模型计算量，从而提高语音的合成质量。

本发明的技术方案从以下方面考虑：STRAIGHT模型是一种基于功率谱的语音模型。其平滑功率谱参数为一种经过时频域补偿后的功率谱，具有一定的冗余信息。因此可通过Mel-KSVD的方法压缩模型的输出参数，对其进行稀疏表示，根据得到的稀疏系数合成语音并最终达到减少参数的传递的个数，减小STRAIGHT模型计算量的目的。

本发明的技术方案如下：

基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法，其特征在于，利用Mel-KSVD的方法对经过STRAIGHT分析模型提取的平滑功率谱参数进行稀疏表示，包含以下步骤：

(1)输入待合成语音信号，将语音信号通过STRAIGHT分析模型提取平滑谱：首先采用时频补偿法提取功率谱，接着再对功率谱进行低频带补偿和过平滑补偿，最后对功率谱的无音帧进行处理，以得到平滑功率谱，平滑功率谱的参数构成一数据矩阵，设为Y＝[y₁,...,y_M]；

（2）提取出的平滑功率谱参数通过美尔滤波器后进行字典的训练，再利用Mel-KSVD算法对式：约束条件为进行参数D和X的优化求解，

其中M为美尔滤波器组的系数矩阵，Y＝[y₁,...,y_M]表示功率谱参数矩阵，D＝[d₁,...,d_K]为目标训练字典，d_i表示字典的一个原子，x_k为y_k在D上投影的稀疏矢量，X＝[x₁,...,x_M]，||·||_F为Frobenius范数，||·||₀为0范数；

（3）利用优化出的目标训练字典和通过美尔滤波器和Mel-KSVD算法对STRAIGHT分析模型得到的待合成语音的平滑谱参数进行稀疏表示得到的稀疏矢量x_k，并将得到的稀疏系数矩阵X＝[x₁,...,x_M]通过STRAIGHT合成模型进行语音的合成；通过对功率谱参数矩阵进行估计来进行语音的合成，估计矩阵为求解公式为k＝1,2,...,M。

进一步的技术方案包括：

步骤（2）所述的算法对式约束条件为进行D和X的优化求解，按如下步骤进行：

（2a）在字典训练阶段,目标字典D与重构误差相关；在目标函数中的MD被看成一个复杂的字典D_eq,字典D_eq中的原子d_k的优化问题归为如下公式：

$< d_{eq, k}, δ_{k} > = \underset{d_{k}, x_{k}}{\arg \min} {| | E}_{eq, k} - d_{eq, k} δ_{k} {| |}_{F}^{2},$

其中d_eq,k是D_eq的第k列，δ_k是X的第k行；

(2b)采用奇异值分解算法对上式处理，得

E_eq,k＝UΣV^T，

${\tilde{d}}_{eq, k} = U (:, 1),$

${\tilde{δ}}_{k} = Σ (1,1) * V (:, 1),$

其中，U和V是酉矩阵,Σ是对角阵，其第k个对角元素为E_k的奇异值,U(:,1)和V(:,1)分别表示U和V的第一列,Σ(1,1)是Σ最大的奇异值；

得到最佳的字典原子优化为

当对于所有k＝1,2,...,M，进行稀疏系数和字典更新的迭代，直到且基本保持不变时，停止对D的优化求解，此时得到的字典为最佳字典输出稀疏系数矩阵X＝[x₁,...,x_M]和对应字典进入所述的步骤（3），否则重复步骤(2a)与(2b)。

本发明所达到的有益效果：

本发明将Mel-KSVD稀疏表示方法与自适应内插加权谱的语音转换及重构（STRAIGHT）模型相结合，通过对经过STRAIGHT分析模型提取的语音平滑功率谱参数进行进一步压缩，将利用Mel-KSVD稀疏表示得到的稀疏系数传递给STRAIGHT合成模型重构和合成语音信号。本发明提出的模型与传统的K-SVD模型相比，其合成语音质量总体相当，在男声语音方面甚至更优于传统模型。此外，由于在分析阶段后对平滑功率谱参数进行压缩，减少了模型的传递参数，使得模型的计算量大为减小。

附图说明

图1是本发明的一种基于Mel-KSVD稀疏表示的自适应内插加权谱的语音转换及重构模型的框架图；

图2是本发明对男女声合成语音的语谱图，第一行为男声语音语谱图，第二行为女声语音语谱图；

图3是本发明的方法与其它两种方法比较的语音质量统计图；

图4是本发明中不同字典原子数目时的合成语音质量统计图。

具体实施方式

下面结合附图，对本发明的一种基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法作进一步阐述。

如图1所示，一种基于稀疏表示的自适应内插加权谱模型的语音转换及重构方法，首先基于STRAIGHT分析模型提取训练语音信号的功率谱参数，接着利用Mel-KSVD的方法自适应地训练字典D，同时利用Mel-KSVD的方法对功率谱参数进行稀疏表示，通过不断地迭代更新字典D和稀疏矢量x_k，直至重构误差值基本保持稳定且小于一定的门限值为止，输出目标字典和稀疏矢量x_k。进而将获得的目标字典和稀疏矢量x_k传递给STRAIGHT合成模型，进行语音的合成。

如图1所示，基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法，包含以下步骤：

(1)输入待合成语音信号，将其通过STRAIGHT分析模型提取平滑谱，即首先采用时频补偿法提取功率谱，接着再对其进行低频带补偿、过平滑补偿，最后对其无音帧进行处理，便得到了平滑功率谱，其参数构成一数据矩阵，设为Y＝[y₁,...,y_M]。

（2）提取出的平滑功率谱通过美尔滤波器后，再利用Mel-KSVD算法对式： $\min_{D, X} ({| | M (Y - DX) | |}_{F}^{2} + λ Σ_{i = 1}^{M} {| | x_{i} | |}_{0}),$ 约束条件为 ${| | M (Y - DX) | |}_{F}^{2} \leq ϵ,$ 进行参数D和X的优化求解，

其中M为美尔滤波器组的系数矩阵，Y＝[y₁,...,y_M]表示功率谱参数矩阵，D＝[d₁,...,d_K]为目标训练字典，d_i表示字典的一个原子，x_k为y_k在D上投影的稀疏矢量，X＝[x₁,...,x_M]，.||·||_F为Frobenius范数，||·||₂为0范数。

根据上述步骤（2）所述的利用Mel-KSVD算法对式： $\min_{D, X} ({| | M (Y - DX) | |}_{F}^{2} + λ Σ_{i = 1}^{M} {| | x_{i} | |}_{0}),$ 约束条件为 ${| | M (Y - DX) | |}_{F}^{2} \leq ϵ$ 进行D和X的优化求解，其按如下步骤进行：

（2a）在字典训练阶段,目标字典D只与重构误差相关。在目标函数中的MD在此被看成是一个复杂的字典D_eq,字典D_eq中的原子d_k的优化问题可归为如下公式：

$< d_{eq, k}, δ_{k} > = \underset{d_{k}, x_{k}}{\arg \min} {| | E_{eq, k} - d_{eq, k} | |}_{F}^{2},$

其中d_eq,k是D_eq的第k列，δ_k是X的第k行。

(2b)采用奇异值分解（SVD）算法对上式处理，得

E_eq,k＝UΣV^T，

${\tilde{d}}_{eq, k} = U (:, 1),$

${\tilde{δ}}_{k} = Σ (1,1) * V (:, 1),$

其中，U和V是酉矩阵,Σ是对角阵，其第k个对角元素为E_k的奇异值,U(:,1)和V(:,1)分别表示U和V的第一列,Σ(1,1)是Σ最大的奇异值。

因此，得到最佳的字典其原子优化为

当对于所有k＝1,2,...,M，进行稀疏系数和字典更新的迭代，直到且几乎保持不变时时，停止对字典D的优化求解，此时得到的字典为最佳字典输出稀疏系数矩阵X＝[x₁,...,x_M]和对应字典进入步骤（3），否则重复至步骤(2a)与(2b)。

（3）利用训练字典模块优化出的目标训练字典和稀疏矢量x_k，将其稀疏系数矩阵X＝[x₁,...,x_M]通过STRAIGHT合成模型进行语音的合成。合成时对功率谱参数矩阵进行估计，估计矩阵为其求解公式为k＝1,2,...,M。

本发明的效果可以通过以下实验进一步说明：

1）实验条件

本实验采用TIMIT语音库中语音作为实验数据，语音采样速率为8kHz,语音帧长为30ms，帧移位1ms，频谱分析采用1024点的快速傅里叶变换。采用Matlab R2011b作为仿真工具，计算机配置为Intel酷睿i53210/4G。

2）实验内容

实验分别对利用Mel倒谱系数(MFCC)压缩方法、KSVD稀疏表示算法以及本发明的Mel-KSVD稀疏表示算法的男女声语音分别进行了语音的合成，并对利用上述方法合成的语音的语谱图与原始语音的语谱图作了比较。在作上述方法合成语音质量统计图时，以原STRAIGHT模型合成的语音为基音。最后，还在不同字典原子数目情况下，对本发明提出的Mel-KSVD算法作了语音质量的统计与比较。

首先，对合成男女声语音的语谱图进行了比较，结果如图2所示，其中图2（a），（e）分别为原始男﹑女声语音，图2（b），（f）分别为MFCC压缩方法的合成语音，图2（c），（g）分别为KSVD稀疏表示算法的合成语音，图2（d），（h）分别为本发明的Mel-KSVD稀疏表示算法的合成语音，其中MFCC和Mel-KSVD的滤波器数目设为70，KSVD和Mel-KSVD的字典原子数目设为70；

其次，对分别利用上述三种方法的男女声合成语音质量作了比较，其中MFCC和Mel-KSVD的滤波器数目设为70，KSVD和Mel-KSVD的字典原子数目设为90，结果如图3所示。

最后，对利用本发明的Mel-KSVD算法，在不同字典原子数目时的男女声合成语音质量作了比较，其中Mel-KSVD的滤波器数目设为70，结果如图4所示。

3)实验结果分析

从图2可以看出，本发明的Mel-KSVD方法、传统的KSVD算法的合成语音分别与MFCC压缩方法相比时，前面两种方法的低频带语音的合成效果更佳，如图中画圈处指示。如图2，Mel-KSVD方法与传统的KSVD算法的在低频带的合成语音效果相当，这主要是因为Mel滤波器在低频带排列相对紧密。但是，对于谐波性较强且规律的男声语音，本发明在高频带的效果优于传统的KSVD算法；对于谐波性变化较大的女声语音，谐波性能增强可能使得女生合成语音变得机械，因此本发明产生的女生语音质量只略高于传统的KSVD算法合成的语音；

在图3的不同方法合成的语音质量统计图中，语音质量的评定采用语音感受质量评估（PESQ）为客观评价指标。从图3可以看出，与原始的STRAIGHT模型相比，无论男女声语音，本发明的Mel-KSVD算法获得了更高的PESQ得分，均提高0.05左右。因为经过STRAIGHT模型出来的平滑谱是一个精确的语谱，其中噪声是根据相邻谐波来估计，即在提取出来的平滑谱中引入了噪声。而且，稀疏表示理论的目标在于恢复信号的主成分，忽视类似噪声的成分，与降噪处理过程相似，所以本发明的算法对平滑谱中引入的噪声处理地相对更好。如图3所示，与MFCC压缩方法相比，本发明的合成语音质量更好，尤其是男声语音，其PESQ得分提高了接近0.1，对女声语音来说，其PESQ得分提高近0.05。如图3，由于本发明引入人耳感知的Mel滤波器，与传统的KSVD方法相比，本发明的合成语音质量也略有提高。

从图4可以看出，在不同的字典原子数目时（字典原子数目分别为30,50,70,90），本发明基于Mel-KSVD算法表示的STRAIGHT模型合成语音质量的性能亦不同，对男女声的合成质量也有所差异。如图4所示，随着字典原子数目的增加，男声语音合成质量一直在提高，采用90个字典原子更新字典稀疏表示功率谱参数时，其合成语音质量最佳，比原子数为30时提高了近0.1。这是因为随着原子数的增加，稀疏表示越来越精确。图4中可见，但对于女声语音，当原子数70时，合成效果最佳，当原子数超过70后，原子数目的增加反而造成了合成语音质量的下降。这是因为过度精确的稀疏引入了过多的噪声成分的稀疏表示。

以上所述仅是本发明的优选实施方式，这里应当特别指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应当视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法 [P] . 中国专利： CN103345920B . 2015.07.15
2. 一种基于简化自适应内插加权谱模型的语音转换及重构方法 [P] . 中国专利： CN102930863B . 2014.05.28
3. TARGET SPEAKER ADAPTIVE VOICE CONVERSION METHOD USING DEEP LEARNING MODEL AND VOICE CONVERSION DEVICE IMPLEMENTING SAME [P] . 韩国专利： KR101666930B1 . 2016-10-24

机译：基于深度学习模型和语音转换装置实现相同的目标说话人自适应语音转换方法
4. Method and apparatus for providing intra-field interpolation of video signals with adaptive weighting based on gradients of temporally adjacent fields [P] . 美国专利： US5444493A . 1995-08-22

机译：用于基于时间相邻场的梯度为视频信号的场内插值提供自适应加权的方法和装置
5. DISTANCE-WEIGHTED SPARSE REPRESENTATION PRIORI-BASED IMAGE RESTORATION AND MATCHING INTEGRATION METHOD [P] . 世界知识产权组织专利： WO2019174068A1 . 2019-09-19

机译：基于距离加权的稀疏表示基于先验的图像恢复和匹配集成方法