法律状态公告日
法律状态信息
法律状态
2019-01-29
专利权的转移 IPC(主分类):G10L21/00 登记生效日:20190109 变更前: 变更后: 申请日:20130424
专利申请权、专利权的转移
2018-07-27
专利权的转移 IPC(主分类):G10L21/00 登记生效日:20180709 变更前: 变更后: 申请日:20130424
专利申请权、专利权的转移
2018-07-03
专利权的转移 IPC(主分类):G10L21/00 登记生效日:20180614 变更前: 变更后: 申请日:20130424
专利申请权、专利权的转移
2015-09-16
授权
授权
2013-10-09
实质审查的生效 IPC(主分类):G10L21/00 申请日:20130424
实质审查的生效
2013-09-04
公开
公开
查看全部
技术领域
本发明涉及一种基于自适应算法的非对称语料库条件下的语音转换方法,属 于语音信号处理技术领域。
背景技术
语音转换指的是将一个人的说话特征转换成另一个人的说话特征,而保持语 义内容不变的一种技术。它有着非常广泛的应用:如用于个性化的语音合成;低 比特率的语音通信;医学上受损语音的恢复等。在过去几十年中,语音转换技术 获得了长足的发展。出现了以码本映射、高斯混合模型、神经网络等方法为代表 的一系列语音转换方法。这些方法在很大程度上实现了说话人语音个性特征的转 换。然而,这些方法主要将目光集中在基于对称语料库(相同语句)条件下的语 音转换。而忽视了非对称语料库(不同语句)下的情况。换而言之,尽管之前的 基于对称语料库条件下的语音转换取得了较为满意的转换语音质量,得到了广泛 的应用,但并不能直接应用于在实际环境中更多的非对称语料库的情况。因此, 我们需要进一步研究基于非对称语料库条件下的语音转换方法。
在国外相关文献当中,已经有一些针对非对称语料库提出的语音转换方法。 如基于最大似然双线型回归的方法、基于双线型变换的文本和内容分离的方法和 基于最近邻循环迭代的转换函数的训练方法等。但是这些方法存在很多缺陷:如 最大似然双线性回归法依赖于预先准备的由对称语料库训练得到的转换函数;双 线型变换法需要大量的源说话人和目标说话人的训练语句来保证转换的准确性; 最近邻循环迭代法是建立在最近临的频谱特征对应着相同的音素,并且同时需要 大量的训练语句。因此,上述这些方法在实际应用中实现难度大,不易于操作。
发明内容
发明目的:为了解决非对称语料库下的语音转换方法存在的缺陷,本发明提 供一种基于自适应算法的非对称语料库条件下的语音转换方法。
技术方案:一种基于自适应算法的非对称语料库条件下的语音转换方法,首 先通过预先准备的参考说话人语句训练得到背景说话人模型;然后通过MAP (Maximum a posteriori)自适应技术,将源说话人和目标说话人的语句分别训练 得到源说话人和目标说话人模型;接着通过自适应源说话人和目标说话人模型中 的均值和方差训练得到语音转换函数,分别提出了高斯归一化和均值转换的方 法,为了进一步提高转换效果,进而提出了高斯归一化和均值转换融合的方法。 此外,由于源说话人和目标说话人的训练语句有限,很难训练得到准确的说话人 模型,在本发明中,我们提出了通过KL散度(Kullback-Leibler divergence)的 方法来解决这一问题。
1)说话人模型的自适应
在所述的基于自适应技术的语音转换方法中,背景说话人模型通过GMM (Gaussian mixture model)来描述,如下所示:
其中N(.)表示高斯分布,z为语音频谱特征向量,M表示高斯分量的个数,ωi为 第i个高斯分量所占的权重,满足和分别表示第i个高斯分量的 均值向量和方差矩阵。给定观测频谱特征向量的序列O=[o1,o2,...,oT],运用MAP (Maximum a posteriori)自适应算法对均值和方差进行更新,公式如下所示:
其中和分别表示第i个高斯分量均值和方差的中间更新值,Ei(o)和Ei(o2)表 示第i个高斯分量的均值和方差统计量,γi是自适应因子,用于对新旧统计量自 适应程度的平衡,满足
其中ρ为自适应说话人模型和参考模型的相关系数,ni表示权重统计量。最终分 别得到源说话人x和目标说话人y模型的权重、均值及方差:和
2)基于高斯归一化的语音转换方法
在本发明中,首先提出了基于高斯归一化的语音转换方法,在转换阶段,计 算源说话人的每一帧频谱特征参数xt在源说话人模型上的后验概率,表示为:
其中p(i|xt)表示xt属于第i个高斯分量的后验概率,满足 根据GMM聚类的性质,源说话人和目标说话人同 一高斯分量可以认为属于同一音素,满足:
其中和分别表示源说话人和目标说 话人的第m个高斯分量的均值和方差,则可以得到转换函数如下所示:
3)基于均值转换的语音转换方法
在本发明中,我们提出了另外一种基于均值转换的语音转换方法,给定源说 话人和目标说话人的模型均值向量序列:和则μx和 μy之间的映射函数如下式所示:
μy=F(μx)=Aμx+b式(8)
设定运用最小二乘法可以得到未知参数A和 b:
其中将式(8)所示的转换函数可以直接用于频谱特征 的转换,则转换函数如下所示:
F(x)=Ax+b式(10)
4)基于高斯归一化和均值转换融合的语音转换方法
在第2和第3)两部分中分别给出了基于高斯归一化和均值转换的语音转换 方法。其中高斯归一化方法可以被看作是一种局部线性回归方法,而均值转换方 法可以认为是一种全局映射方法。为了进一步提升转换效果,本发明提出了一种 将这两种方法进行融合的转换方法。转换函数如下式所示:
F(x)=θFg(x)+(1-θ)Fm(x)式(11)
其中Fg(x)和Fm(x)分别表示由高斯归一化和均值转换方法训练得到的转换函数, θ是加权系数满足0≤θ≤1。
5)模型优化
本发明中采用了MAP自适应算法对说话人模型进行建模,但是由于自适应 训练语句有限,并不是说话人模型的每一个高斯分量的参数都会被更新。这必然 会影响语音转换的效果。本发明引入了KL散度来减少这一问题的影响。KL散 度用来描述不同分布之间的距离,假设fi(x)和fj(x)分别表示两个高斯分量的分 布,则二者之间的KL散度表示为
式(12)具有非对称性,这里我们重新定义KL散度如下所示:
在转换过程中,如果当前分量的均值或者方差未被更新,则选用距离最近的 高斯分量的均值或方差来代替。
有益效果:与现有技术相比,本发明提供的基于自适应算法的非对称语料库 条件下的语音转换方法,优点和效果在于:
1)实现了基于非对称语料库的语音转换,可以有效避免对于训练语料对称 性的要求。
2)采用MAP自适应算法对说话人模型进行建模,可以通过极少量的训练 语句得到说话人模型,减少了对说话人训练语句数量的需求。
3)分别提出了基于高斯归一化和均值转换的语音转换方法,并进而提出了 二者融合的方法,一方面避免了对于对称语料库的需求,另一方面很大程度上减 少了转换函数训练的计算量。
4)通过KL散度方法对自适应说话人模型进行优化,通过对说话人模型中 未被更新的高斯分量的参数进行优化,能够在一定程度上提高语音转换的效果。
附图说明
图1为本发明实施例中基于高斯归一化的方法得到转换函数的流程图;
图2为本发明实施例中基于均值映射的方法得到转换函数的流程图;
图3为本发明实施例中得到融合转换函数的流程图;
图4为本发明实施例与现有技术关于男声到女声的转换对比图;
图5为本发明实施例与现有技术关于女声到男声的转换对比图;
图6为本发明实施例与基于对称语料库条件下的经典GMM方法采用平均意 见得分法得到的结果对比图;
图7为本发明实施例与基于对称语料库条件下的经典GMM方法得到的相似 度测试结果对比图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本 发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发 明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于自适应算法的非对称语料库条件下的语音转换方法,包括如下步骤:
1)对所有说话人的语句运用STRAIGHT模型进行特征提取,分别提取美尔 倒谱系数(Mel-cepstrum coefficients,MCC)和基音频率(F0)。
2)由预先准备的第三方参考说话人的训练语句提取的频谱特征MCC训练 生成满足GMM分布的背景模型;背景模型的描述,如下所示:
其中N(.)表示高斯分布,z为语音频谱特征向量,M表示高斯分量的个数,ωi为 第i个高斯分量所占的权重,满足和分别表示第i个高斯分量的 均值向量和方差矩阵。
3)与说话人识别中的说话人自适应相类似,选择MAP算法分别自适应训 练得到源说话人和目标说话人的模型。
给定观测频谱特征向量的序列O=[o1,o2,...,oT],运用MAP自适应算法对均值 和方差进行更新,公式如下所示:
其中和分别表示第i个高斯分量均值和方差的中间更新值,Ei(o)和Ei(o2)表 示第i个高斯分量的均值和方差统计量,γi是自适应因子,用于对新旧统计量自 适应程度的平衡。满足
其中ρ为自适应说话人模型和参考模型的相关系数,ni表示权重统计量;最终分 别得到源说话人x和目标说话人y模型的权重、均值及方差:和
4)运用KL散度分别计算每个说话人模型中不同分量之间的距离。
假设fi(x)和fj(x)分别表示两个高斯分量的分布,则二者之间的KL散度表 示为
式(12)具有非对称性,这里我们重新定义KL散度如下所示:
5)对于每一帧测试语音的频谱特征矢量,计算其在源说话人模型中高斯分 量上的后验概率,接着选择后验概率最大的高斯分量。
其中p(i|x)表示后验概率,满足
根据GMM聚类的性质,源说话人和目标说话人的同一高斯分量可以认为属于同 一音素,满足:
其中和分别表示源说话人和目标说 话人的第m个高斯分量的均值和方差,在当前高斯分量中,运用高斯归一化从 而得到转换函数Fg(x)。同时,在转换函数的训练过程中,如果当前分量的均值 或者方差未被更新,则选用KL距离最近的高斯分量的均值或方差来代替。图1 给出了基于高斯归一化的方法得到转换函数的流程。
6)利用自适应说话人模型中的均值向量,运用基于最小二乘的方法来得到 频谱特征转换函数Fm(x),同时,在转换函数的训练过程中,如果当前分量的均 值或者方差未被更新,则选用KL距离最近的高斯分量的均值或方差来代替。图 2给出了基于均值映射的方法得到转换函数的流程。
7)高斯归一化方法可以被看作是一种局部线性回归方法,而均值转换方法 可以看作是一种全局映射方法。为了进一步提升转换效果,本发明提出了一种将 这两种方法融合的转换方法。则转换函数为F(x)=θFg(x)+(1-θ)Fm(x)。图3给出 了融合转换函数的得到过程。
8)F0的转换:采用经典的基于高斯归一化的方法对F0进行转换。
9)由转换函数获得的转换后的频谱特征和F0通过STAIGHT模型进行语音 的合成,最终得到转换语音。
性能评价:
本实施例选择了CMU ATCTIC英文语音数据库对转换效果进行了评价。分 别选择BDL和CLB一男一女两个说话人的500句语句进行背景模型的训练。分 别通过RMS和SLT一男一女两个说话人,分别包含120句语句。其中对称的50 句语句用于GMM基准方法,非对称的50句语句用于本发明的方法,另外20 句语句用于评价测试。背景模型的混合分量M的大小被优化设定为256,同时 GMM基准方法的高斯分量的大小被优化设定为16,MCC阶数设为24。
我们首先选择美尔倒谱距离(Mel cepstral distance,MCD)来对转换后的频 谱特征进行客观评价。
其中和分别为转换语音和目标语音的MCC,D为MCC的阶数,MCD 值越小表示转换效果越好。
图4和图5给出了本发明提出的几种方法与基于对称语料库条件下的经典 GMM方法比较得到的MCD结果,图4给出了男声到女声的转换,图5给出了 女声到男声的转换。其中GN表示高斯归一化法、MT表示均值转换法、GNMT 表示融合法。可以发现,随着训练语句的增加,本发明提出的方法的MCD曲线 呈现出相同的趋势,都逐渐靠近GMM基准方法的结果。并且采用GNMT方法 总能获得比GN或MT方法更好的效果。这表明融合方法可以有效地提高高斯归 一化方法和均值转换法的效果。
接着我们选择平均意见得分(Mean opinion score,MOS)和相似度测试等方 法分别对转换语音的质量以及转换语音和目标语音的相似度进行了主观评价。图 6是用本发明提出的方法与基于对称语料库条件下的经典GMM方法采用平均意 见得分(Mean opinion score,MOS)法得到的结果,采用的是5分制的打分原则 (其中1分为“差”,5分为“非常好”)来对转换语音的质量进行打分。图7是 用本发明方法与基于对称语料库条件下的经典GMM方法得到的相似度测试结 果,采用的同样是5分制(其中1表示“完全不同”,5表示“完全一致”)来判 断转换语音和目标语音的相似度。MOS测试和相似度测试都采用5句非对称语 句用于说话人自适应,并且通过6个专业研究人员参与了打分,其中图中的“工” 字形表示方差。从图6和图7的结果可以发现,本发明提出的方法可以取得了和 GMM方法相比拟的效果,在一定程度上验证了客观评价MCD的结果。
机译: 基于深度学习模型和语音转换装置实现相同的目标说话人自适应语音转换方法
机译: 非对称算法可以执行语音压缩,并且具有非常低的基于比特率的sprachnachrichten系统
机译: 基于模型自适应算法的机器人语音识别方法