首页> 外文会议>日本音響学会;日本音響学会春季研究発表会 >GGDRMによる双方向変換を考慮したDNN声質変換のための事前学習法
【24h】

GGDRMによる双方向変換を考慮したDNN声質変換のための事前学習法

机译:GGDRM考虑双向转换的DNN语音质量转换的预学习方法

获取原文

摘要

声質変換は,ソース話者の発話を変形することで,ターゲット話者の発話であるかのように認識させる技術である.ソース話者とターゲット話者が同じ内容を発話した音声の対である,パラレルデータを使用するアプローチでは,コードブックに基づく手法が提案されて以来,様々なアプローチが提案されている.その中でも,GMM(Gaussian MixtureModel) に基づく手法やDNN(Deep NeuralNetwork)に基づく手法[6, 7] が盛んに研究されている.GMMに基づく手法 では,ソース話者とターゲット話者の音響特徴量の同時分布をモデル化し,最尤法基準でパラメータを推定する.そして,得られたパラメータをもとにソース話者の音声をターゲット話者の音声へと変換する.GMM に基づく変換法は,その柔軟性の高さから広く用いられている.しかし,同時分布をモデル化する際,ソース話者とターゲット話者の音響特徴量を表すベクトルが結合され,ひとつのベクトルとして扱われる.したがって,2 つの可視変数(ソース話者とターゲット話者)の特徴量空間が明示的に分離されていない.また,2 つの可視変数の特徴量を結合したベクトルを用いて学習を行うため,特徴量空間の次元が大きくなり,モデルの表現能力次第では,より過学習の影響を受けやすいといえる.
机译:语音质量转换是一种转换源扬声器的发音的技术,以便将其识别为目标扬声器的发音。在使用并行数据的方法中,这是一对语音,其中源说话者和目标说话者发出相同的内容,因为提出了基于码本的方法,所以已经提出了各种方法。其中,正在积极研究基于GMM(高斯混合模型)的方法和基于DNN(深度神经网络)的方法[6,7]。在基于GMM的方法中,对源说话者和目标说话者的声学特征的同时分布进行建模,并使用最大似然准则估算参数。然后,基于获得的参数,将源说话者的语音转换为目标说话者的语音。基于GMM的转换方法因其高度的灵活性而被广泛使用。但是,在对联合分布进行建模时,代表源和目标说话者声学特征的向量将被合并并视为一个向量。因此,两个可见变量(源说话者和目标说话者)的特征空间没有明确分开。另外,由于使用组合了两个可见变量的特征的向量进行学习,所以特征空间的维数增大,并且可以说,过度学习更可能受到影响,具体取决于模型的表达能力。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号