首页> 中国专利> 基于自适应算法的非对称语料库条件下的语音转换方法

基于自适应算法的非对称语料库条件下的语音转换方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法，首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后，利用自适应说话人模型中的参数，分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果，进而提出了将高斯归一化方法和均值转换融合的方法。同时，由于训练语句有限，必然影响自适应模型的准确性，本发明提出了KL散度的方法在转换时对说话人模型进行优化，主客观实验结果表明：无论是频谱失真度，还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。

著录项

公开/公告号CN103280224A

专利类型发明专利
公开/公告日2013-09-04

原文格式PDF
申请/专利权人东南大学;
展开▼

申请/专利号CN201310146293.X
发明设计人宋鹏;包永强;赵力;刘健刚;
展开▼

申请日2013-04-24
分类号G10L21/00(20130101);G10L15/07(20130101);
代理机构南京苏高专利商标事务所(普通合伙);
代理人李玉平
地址 210096 江苏省南京市玄武区四牌楼2号
入库时间 2024-02-19 20:08:03

法律信息

法律状态公告日

法律状态信息

法律状态
2019-01-29

专利权的转移 IPC(主分类):G10L21/00 登记生效日:20190109 变更前: 变更后: 申请日:20130424

专利申请权、专利权的转移
2018-07-27

专利权的转移 IPC(主分类):G10L21/00 登记生效日:20180709 变更前: 变更后: 申请日:20130424

专利申请权、专利权的转移
2018-07-03

专利权的转移 IPC(主分类):G10L21/00 登记生效日:20180614 变更前: 变更后: 申请日:20130424

专利申请权、专利权的转移
2015-09-16

授权

授权
2013-10-09

实质审查的生效 IPC(主分类):G10L21/00 申请日:20130424

实质审查的生效
2013-09-04

公开

公开

查看全部

说明书

技术领域

本发明涉及一种基于自适应算法的非对称语料库条件下的语音转换方法，属于语音信号处理技术领域。

背景技术

语音转换指的是将一个人的说话特征转换成另一个人的说话特征，而保持语义内容不变的一种技术。它有着非常广泛的应用：如用于个性化的语音合成；低比特率的语音通信；医学上受损语音的恢复等。在过去几十年中，语音转换技术获得了长足的发展。出现了以码本映射、高斯混合模型、神经网络等方法为代表的一系列语音转换方法。这些方法在很大程度上实现了说话人语音个性特征的转换。然而，这些方法主要将目光集中在基于对称语料库（相同语句）条件下的语音转换。而忽视了非对称语料库（不同语句）下的情况。换而言之，尽管之前的基于对称语料库条件下的语音转换取得了较为满意的转换语音质量，得到了广泛的应用，但并不能直接应用于在实际环境中更多的非对称语料库的情况。因此，我们需要进一步研究基于非对称语料库条件下的语音转换方法。

在国外相关文献当中，已经有一些针对非对称语料库提出的语音转换方法。如基于最大似然双线型回归的方法、基于双线型变换的文本和内容分离的方法和基于最近邻循环迭代的转换函数的训练方法等。但是这些方法存在很多缺陷：如最大似然双线性回归法依赖于预先准备的由对称语料库训练得到的转换函数；双线型变换法需要大量的源说话人和目标说话人的训练语句来保证转换的准确性；最近邻循环迭代法是建立在最近临的频谱特征对应着相同的音素，并且同时需要大量的训练语句。因此，上述这些方法在实际应用中实现难度大，不易于操作。

发明内容

发明目的：为了解决非对称语料库下的语音转换方法存在的缺陷，本发明提供一种基于自适应算法的非对称语料库条件下的语音转换方法。

技术方案：一种基于自适应算法的非对称语料库条件下的语音转换方法，首先通过预先准备的参考说话人语句训练得到背景说话人模型；然后通过MAP （Maximum a posteriori）自适应技术，将源说话人和目标说话人的语句分别训练得到源说话人和目标说话人模型；接着通过自适应源说话人和目标说话人模型中的均值和方差训练得到语音转换函数，分别提出了高斯归一化和均值转换的方法，为了进一步提高转换效果，进而提出了高斯归一化和均值转换融合的方法。此外，由于源说话人和目标说话人的训练语句有限，很难训练得到准确的说话人模型，在本发明中，我们提出了通过KL散度（Kullback-Leibler divergence）的方法来解决这一问题。

1）说话人模型的自适应

在所述的基于自适应技术的语音转换方法中，背景说话人模型通过GMM （Gaussian mixture model）来描述，如下所示：

$p (z) = Σ_{i = 1}^{M} ω_{i} N (z, μ_{i}^{B}, Σ_{i}^{B})$ 式（1）

其中N(.)表示高斯分布，z为语音频谱特征向量，M表示高斯分量的个数，ω_i为第i个高斯分量所占的权重，满足和分别表示第i个高斯分量的均值向量和方差矩阵。给定观测频谱特征向量的序列O＝[o₁,o₂,...,o_T]，运用MAP （Maximum a posteriori）自适应算法对均值和方差进行更新，公式如下所示：

${\hat{μ}}_{i}^{B} = γ_{i} E_{i} (o) + (1 - γ_{i}) μ_{i}^{B}$ 式（2）

${\hat{Σ}}_{i}^{B} = γ_{i} E_{i} (o^{2}) + (1 - γ_{i}) [{(μ_{i}^{B})}^{2} + Σ_{i}^{B}] - {({\hat{μ}}_{i}^{B})}^{2}$ 式（3）

其中和分别表示第i个高斯分量均值和方差的中间更新值，E_i(o)和E_i(o²)表示第i个高斯分量的均值和方差统计量，γ_i是自适应因子，用于对新旧统计量自适应程度的平衡，满足

$γ_{i} = \frac{n_{i}}{n_{i} + ρ}$ 式（4）

其中ρ为自适应说话人模型和参考模型的相关系数，n_i表示权重统计量。最终分别得到源说话人x和目标说话人y模型的权重、均值及方差：和

2）基于高斯归一化的语音转换方法

在本发明中，首先提出了基于高斯归一化的语音转换方法，在转换阶段，计算源说话人的每一帧频谱特征参数x_t在源说话人模型上的后验概率，表示为：

$m = \arg \underset{i}{\max p (i | x_{t}), i = 1,2, . . ., M}$ 式（5）

其中p(i|x_t)表示x_t属于第i个高斯分量的后验概率，满足根据GMM聚类的性质，源说话人和目标说话人同一高斯分量可以认为属于同一音素，满足：

$\frac{x - μ_{m}^{x}}{σ_{m}^{x}} = \frac{\hat{y} - μ_{m}^{y}}{σ_{m}^{y}}$ 式（6）

其中和分别表示源说话人和目标说话人的第m个高斯分量的均值和方差，则可以得到转换函数如下所示：

$F (x) = \hat{y} = \frac{σ_{m}^{y}}{σ_{m}^{x}} x + μ_{m}^{y} - \frac{σ_{m}^{y}}{σ_{m}^{x}} μ_{m}^{x}$ 式（7）

3）基于均值转换的语音转换方法

在本发明中，我们提出了另外一种基于均值转换的语音转换方法，给定源说话人和目标说话人的模型均值向量序列：和则μ_x和 μ_y之间的映射函数如下式所示：

μ_y＝F(μ_x)＝Aμ_x+b式（8）

设定运用最小二乘法可以得到未知参数A和 b：

$A = {\hat{μ}}_{y} {\hat{μ}}_{x}^{T} {({\hat{μ}}_{x} {\hat{μ}}_{x}^{T})}^{- 1}, b = {\overline{μ}}_{y} - A {\overline{μ}}_{x}$ 式（9）

其中将式（8）所示的转换函数可以直接用于频谱特征的转换，则转换函数如下所示：

F(x)＝Ax+b式（10）

4）基于高斯归一化和均值转换融合的语音转换方法

在第2和第3）两部分中分别给出了基于高斯归一化和均值转换的语音转换方法。其中高斯归一化方法可以被看作是一种局部线性回归方法，而均值转换方法可以认为是一种全局映射方法。为了进一步提升转换效果，本发明提出了一种将这两种方法进行融合的转换方法。转换函数如下式所示：

F(x)＝θF_g(x)+(1-θ)F_m(x)式（11）

其中F_g(x)和F_m(x)分别表示由高斯归一化和均值转换方法训练得到的转换函数， θ是加权系数满足0≤θ≤1。

5）模型优化

本发明中采用了MAP自适应算法对说话人模型进行建模，但是由于自适应训练语句有限，并不是说话人模型的每一个高斯分量的参数都会被更新。这必然会影响语音转换的效果。本发明引入了KL散度来减少这一问题的影响。KL散度用来描述不同分布之间的距离，假设f_i(x)和f_j(x)分别表示两个高斯分量的分布，则二者之间的KL散度表示为

$D (f_{i} (x) | | f_{j} (x)) = \underset{x}{Σ} f_{i} (x) \log \frac{f_{i} (x)}{f_{j} (x)}$ 式（12）

式（12）具有非对称性，这里我们重新定义KL散度如下所示：

$D_{ij} (x) = \frac{1}{2} [D (f_{i} (x) | | f_{j} (x)) + D (f_{j} (x) | | f_{i} (x))]$ 式（13）

在转换过程中，如果当前分量的均值或者方差未被更新，则选用距离最近的高斯分量的均值或方差来代替。

有益效果：与现有技术相比，本发明提供的基于自适应算法的非对称语料库条件下的语音转换方法，优点和效果在于：

1）实现了基于非对称语料库的语音转换，可以有效避免对于训练语料对称性的要求。

2）采用MAP自适应算法对说话人模型进行建模，可以通过极少量的训练语句得到说话人模型，减少了对说话人训练语句数量的需求。

3）分别提出了基于高斯归一化和均值转换的语音转换方法，并进而提出了二者融合的方法，一方面避免了对于对称语料库的需求，另一方面很大程度上减少了转换函数训练的计算量。

4）通过KL散度方法对自适应说话人模型进行优化，通过对说话人模型中未被更新的高斯分量的参数进行优化，能够在一定程度上提高语音转换的效果。

附图说明

图1为本发明实施例中基于高斯归一化的方法得到转换函数的流程图；

图2为本发明实施例中基于均值映射的方法得到转换函数的流程图；

图3为本发明实施例中得到融合转换函数的流程图；

图4为本发明实施例与现有技术关于男声到女声的转换对比图；

图5为本发明实施例与现有技术关于女声到男声的转换对比图；

图6为本发明实施例与基于对称语料库条件下的经典GMM方法采用平均意见得分法得到的结果对比图；

图7为本发明实施例与基于对称语料库条件下的经典GMM方法得到的相似度测试结果对比图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于自适应算法的非对称语料库条件下的语音转换方法，包括如下步骤：

1）对所有说话人的语句运用STRAIGHT模型进行特征提取，分别提取美尔倒谱系数（Mel-cepstrum coefficients,MCC）和基音频率（F0）。

2）由预先准备的第三方参考说话人的训练语句提取的频谱特征MCC训练生成满足GMM分布的背景模型；背景模型的描述，如下所示：

$p (z) = Σ_{i = 1}^{M} ω_{i} N (z, μ_{i}^{B}, Σ_{i}^{B})$ 式（1）

其中N(.)表示高斯分布，z为语音频谱特征向量，M表示高斯分量的个数，ω_i为第i个高斯分量所占的权重，满足和分别表示第i个高斯分量的均值向量和方差矩阵。

3）与说话人识别中的说话人自适应相类似，选择MAP算法分别自适应训练得到源说话人和目标说话人的模型。

给定观测频谱特征向量的序列O＝[o₁,o₂,...,o_T]，运用MAP自适应算法对均值和方差进行更新，公式如下所示：

${\hat{μ}}_{i}^{B} = γ_{i} E_{i} (o) + (1 - γ_{i}) μ_{i}^{B}$ 式（2）

${\hat{Σ}}_{i}^{B} = γ_{i} E_{i} (o^{2}) + (1 - γ_{i}) [{(μ_{i}^{B})}^{2} + Σ_{i}^{B}] - {({\hat{μ}}_{i}^{B})}^{2}$ 式（3）

其中和分别表示第i个高斯分量均值和方差的中间更新值，E_i(o)和E_i(o²)表示第i个高斯分量的均值和方差统计量，γ_i是自适应因子，用于对新旧统计量自适应程度的平衡。满足

$γ_{i} = \frac{n_{i}}{n_{i} + ρ}$ 式（4）

其中ρ为自适应说话人模型和参考模型的相关系数，n_i表示权重统计量；最终分别得到源说话人x和目标说话人y模型的权重、均值及方差：和

4）运用KL散度分别计算每个说话人模型中不同分量之间的距离。

假设f_i(x)和f_j(x)分别表示两个高斯分量的分布，则二者之间的KL散度表示为

$D (f_{i} (x) | | f_{j} (x)) = \underset{x}{Σ} f_{i} (x) \log \frac{f_{i} (x)}{f_{j} (x)}$ 式（12）

式（12）具有非对称性，这里我们重新定义KL散度如下所示：

$D_{ij} (x) = \frac{1}{2} [D (f_{i} (x) | | f_{j} (x)) + D (f_{j} (x) | | f_{i} (x))]$ 式（13）

5）对于每一帧测试语音的频谱特征矢量，计算其在源说话人模型中高斯分量上的后验概率，接着选择后验概率最大的高斯分量。

$m = \arg \max_{i} p (i | x_{t}), i = 1,2, . . ., M$ 式（5）

其中p(i|x)表示后验概率，满足 $p (i | x) = \frac{ω_{i} N (x, μ_{i}^{x}, Σ_{i}^{xx})}{Σ_{j = 1}^{M} ω_{j} N (x, μ_{j}^{x}, Σ_{j}^{xx})} .$

根据GMM聚类的性质，源说话人和目标说话人的同一高斯分量可以认为属于同一音素，满足：

$\frac{x - μ_{m}^{x}}{σ_{m}^{x}} = \frac{\hat{y} - μ_{m}^{y}}{σ_{m}^{y}}$ 式（6）

其中和分别表示源说话人和目标说话人的第m个高斯分量的均值和方差，在当前高斯分量中，运用高斯归一化从而得到转换函数F_g(x)。同时，在转换函数的训练过程中，如果当前分量的均值或者方差未被更新，则选用KL距离最近的高斯分量的均值或方差来代替。图1 给出了基于高斯归一化的方法得到转换函数的流程。

6）利用自适应说话人模型中的均值向量，运用基于最小二乘的方法来得到频谱特征转换函数F_m(x)，同时，在转换函数的训练过程中，如果当前分量的均值或者方差未被更新，则选用KL距离最近的高斯分量的均值或方差来代替。图 2给出了基于均值映射的方法得到转换函数的流程。

7）高斯归一化方法可以被看作是一种局部线性回归方法，而均值转换方法可以看作是一种全局映射方法。为了进一步提升转换效果，本发明提出了一种将这两种方法融合的转换方法。则转换函数为F(x)＝θF_g(x)+(1-θ)F_m(x)。图3给出了融合转换函数的得到过程。

8）F0的转换：采用经典的基于高斯归一化的方法对F0进行转换。

9）由转换函数获得的转换后的频谱特征和F0通过STAIGHT模型进行语音的合成，最终得到转换语音。

性能评价：

本实施例选择了CMU ATCTIC英文语音数据库对转换效果进行了评价。分别选择BDL和CLB一男一女两个说话人的500句语句进行背景模型的训练。分别通过RMS和SLT一男一女两个说话人，分别包含120句语句。其中对称的50 句语句用于GMM基准方法，非对称的50句语句用于本发明的方法，另外20 句语句用于评价测试。背景模型的混合分量M的大小被优化设定为256，同时 GMM基准方法的高斯分量的大小被优化设定为16，MCC阶数设为24。

我们首先选择美尔倒谱距离（Mel cepstral distance,MCD）来对转换后的频谱特征进行客观评价。

$MCD = 10 / \log 10 \sqrt{2 Σ_{j = 1}^{D} {({mc}_{j}^{c} - {mc}_{j}^{t})}^{2}}$ 式（14）

其中和分别为转换语音和目标语音的MCC，D为MCC的阶数，MCD 值越小表示转换效果越好。

图4和图5给出了本发明提出的几种方法与基于对称语料库条件下的经典 GMM方法比较得到的MCD结果，图4给出了男声到女声的转换，图5给出了女声到男声的转换。其中GN表示高斯归一化法、MT表示均值转换法、GNMT 表示融合法。可以发现，随着训练语句的增加，本发明提出的方法的MCD曲线呈现出相同的趋势，都逐渐靠近GMM基准方法的结果。并且采用GNMT方法总能获得比GN或MT方法更好的效果。这表明融合方法可以有效地提高高斯归一化方法和均值转换法的效果。

接着我们选择平均意见得分（Mean opinion score,MOS）和相似度测试等方法分别对转换语音的质量以及转换语音和目标语音的相似度进行了主观评价。图 6是用本发明提出的方法与基于对称语料库条件下的经典GMM方法采用平均意见得分（Mean opinion score,MOS）法得到的结果，采用的是5分制的打分原则（其中1分为“差”，5分为“非常好”）来对转换语音的质量进行打分。图7是用本发明方法与基于对称语料库条件下的经典GMM方法得到的相似度测试结果，采用的同样是5分制（其中1表示“完全不同”，5表示“完全一致”）来判断转换语音和目标语音的相似度。MOS测试和相似度测试都采用5句非对称语句用于说话人自适应，并且通过6个专业研究人员参与了打分，其中图中的“工” 字形表示方差。从图6和图7的结果可以发现，本发明提出的方法可以取得了和 GMM方法相比拟的效果，在一定程度上验证了客观评价MCD的结果。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于自适应算法的非对称语料库条件下的语音转换方法 [P] . 中国专利： CN103280224B . 2015.09.16
2. 基于自适应算法的非对称语料库条件下的语音转换方法 [P] . 中国专利： CN103280224A . 2013-09-04
3. TARGET SPEAKER ADAPTIVE VOICE CONVERSION METHOD USING DEEP LEARNING MODEL AND VOICE CONVERSION DEVICE IMPLEMENTING SAME [P] . 韩国专利： KR101666930B1 . 2016-10-24

机译：基于深度学习模型和语音转换装置实现相同的目标说话人自适应语音转换方法
4. asymmetric algorithm performs speech compression verwendendes and with very low bitrate based sprachnachrichtensystem [P] . 德国专利： DE69622985D1 . 2002-09-19

机译：非对称算法可以执行语音压缩，并且具有非常低的基于比特率的sprachnachrichten系统
5. SPEECH RECOGNIZING METHOD OF A ROBOT USING MODEL ADAPTIVE ALGORITHM [P] . 韩国专利： KR20120054845A . 2012-05-31

机译：基于模型自适应算法的机器人语音识别方法