首页> 外文期刊>電子情報通信学会技術研究報告 >F0量子化と非パラレル学習に基づく声質変換の評価
【24h】

F0量子化と非パラレル学習に基づく声質変換の評価

机译:基于F0量化和非并行学习的语音质量转换评估

获取原文
获取原文并翻译 | 示例
           

摘要

This paper describes the performance evaluation results of a context-dependent HMM-based voice conversion technique to show its effectiveness by comparing with a GMM-based one. In the HMM-based conversion, first we extract the phonetic and prosodic information from input speech of a source speaker. Then, converted synthetic speech is generated from the pre-trained acoustic model of a target speaker. To appropriately model the pitch information, we use a roughly quantized FO symbol sequence as the prosodic context instead of accent information obtained by manual labeling for training data. By using the phonetically and prosodically context-dependent HMMs, the speaker characteristics appearing in segmental and supra-segmental features can be also converted, which is difficult in conventional GMM-based techniques. Objective and subjective experimental results show that the naturalness and speaker individuality of converted speech are significantly improved by using HMM-based voice conversion.%コンテキスト依存HMMに基づく声質変換法の有効性を示すためにGMMに基づく声質変換法との比較を中心に,客観及び主観評価実験を行った結果を報告する.この手法では元話者の入力音声に対して音韻及び韻律の情報を抽出し,これらの情報に基づいてあらかじめ学習した目標話者の音響モデルから音声を生成することで声質変換を実現している.また韻律のうち,ピッチ情報を適切にモデル化するために,従来HMM音声合成で用いられていた手動ラベリングに基づくアクセント情報ではなく,学習データのF0値自体を粗く量子化したシンボルをコンテキストとして利用することで学習データに対する自動ラベリングが可能である.さらに従来提案されているGMMに基づく声質変換法では音素単位や複数の音素にわたる音響的特徴に含まれる話者の個人性を適切に変換することが困難であったのに対し,HMMに基づく手法では音韻・韻律に関わるコンテキスト依存モデルを利用することにより,このようなセグメンタル・スープラセグメンタル特徴も変換することができる.評価の結果,HMMに基づく手法を用いることにより,従来法よりも自然性が大幅に改善され,また話者性の変換においても従来を上回る結果が得られた.
机译:本文描述了一种基于上下文的基于HMM的语音转换技术的性能评估结果,通过与基于GMM的语音转换技术进行比较来显示其有效性。在基于HMM的转换中,首先,我们从源说话者的输入语音中提取语音和韵律信息。然后,根据目标说话者的预训练声学模型生成转换后的合成语音。为了适当地对音调信息建模,我们使用粗略量化的FO符号序列作为韵律情境,而不是通过手动标记训练数据而获得的重音信息。通过使用语音和语音上下文相关的HMM,还可以转换出现在分段和超分段特征中的说话人特征,这在传统的基于GMM的技术中很难实现。客观和主观的实验结果表明,通过使用基于HMM的语音转换,转换后的语音的自然性和说话人个性得到了显着改善。%比较を中心に,客観及び主観评価実験を行った结果った报告する。この手法では元话者の入力音声に対して音韵及び韵律の情报を抽出し,これらの情报に基づいてあらかじめ学习した目标话者の音响モデルから音声を生成することで声质変换を実现している。また韵律のうち,ピッチ情报を适切にモデル化するために,従来HMM音声合成で用いられていた手动ラベリングに基グにアクセント情报F,学习データのF0値自体を粗く量子化したシンボルボンテキストとして利用することで学习データに対する自动ラベリングが可能である。音素にわたる音响的特徴に含まれる话者の个人性を适切に変换することが困难であったのに対し,HMMに基づく手法では音韵・韵律に关わるコンテキスト依存モデルを利用することにより,このような评価の结果,HMMに基づく手法タ用いることにより,従来法よりも自然性が适合に改善され,また话者性の変换においても従来を上回る结果が得られた。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号