首页> 外文期刊>電子情報通信学会技術研究報告 >F0量子化と非パラレル学習に基づく声質変換の検討
【24h】

F0量子化と非パラレル学習に基づく声質変換の検討

机译:基于F0量化和非并行学习的语音质量转换研究

获取原文
获取原文并翻译 | 示例
           

摘要

HMM音素認識とHMM音声合成を用いた非パラレル学習に基づく声質変換手法を操業する.提案法では,音素認識と基本周波数の量子化を利用し,変換元の話者の入力音声から音素情報,音素継続長,及び基本周波数パターンの大まかな変勤惰報を抽出し合成部に伝達する.合成部では,伝達された各情報からコンテキスト依存ラベルを作成し,これとあらかじめ学習しておいた目標話者の多空間確率分布HMMを用いて,音声を生成する.元話者と目標話者のモデルは独立に学習することが可能であるため,元話者と目標話者が同じ文章を発話したパラレルデータを用意する必要がないという特徴がある.また音素継続長に含まれる話者性の適切な変換のため,入力音声の各音素の継続長に対して線形変換を行う.本稿では,パラレルデータが利用可能でない複合,及び継続長の変換の効果について客観及び主観評価を行い,提案手法である非パラレルデータ学習に基づく声質変換法の有効性を示す.%This paper presents a novel voice conversion technique using HMM-based phoneme recognition and speech synthesis with nonparallel training data. In the proposed technique, a phoneme sequence with durations and a rough FO contour are extracted from input speech of a source speaker using phoneme recognition and FO quantization, and are transmitted to synthesis part. In the synthesis part, a context-dependent label sequence is generated from the transmitted phonemes, durations, and quantized FO symbols. Then, converted speech is generated from the label sequence using a target speaker's pre-trained MSD-HMM. In the model training, the models of the source and the target speakers can be trained separately with nonparallel data. For duration modification, linear transformation is applied to each phone duration of input speech. The objective and subjective experimental results show that the proposed technique works well even if the parallel speech data is not available.
机译:我们使用基于HMM音素识别和HMM语音合成的非并行学习的语音质量转换方法,在该方法中,利用音素识别和基频量化从原始说话人的输入语音中提取音素信息。提取音素持续时间和基本频率模式的基本移位模式,并将其发送到合成器,该合成器从每个发送的信息和预先学习的目标中创建上下文相关的标签。语音是使用说话者的多空间概率分布HMM生成的,由于可以独立学习原始说话者和目标说话者的模型,因此原始说话者和目标说话者会说出相同的句子。不需要准备并行数据,并且为了适当地转换包括在音素持续时间中的说话者特性,对输入语音的每个音素的持续时间执行线性转换。在没有并行数据的情况下,我们在主观上评估了复杂和连续长度转换的效果,并显示了基于非并行数据学习的方法的有效性。该技术采用基于HMM的音素识别和具有非并行训练数据的语音合成技术。该技术中,使用音素识别和FO量化从源说话人的输入语音中提取具有持续时间和粗略FO轮廓的音素序列,并将其传输到在合成部分中,从传输的音素,持续时间和量化的FO符号生成上下文相关的标签序列,然后使用目标说话者的pr从标签序列生成转换后的语音。 e-trained MSD-HMM。在模型训练中,可以使用非并行数据分别训练源说话者和目标说话者的模型。为了进行时长修改,将线性变换应用于输入语音的每个电话时长。结果表明,即使没有并行语音数据,所提出的技术也能很好地工作。

著录项

  • 来源
    《電子情報通信学会技術研究報告》 |2009年第355期|p.171-176|共6页
  • 作者单位

    東京工業大学 大学院総合理工学研究科物理情報システム専攻 〒226-8502 横浜市緑区長津田町4259-G2-4;

    東京工業大学 大学院総合理工学研究科物理情報システム専攻 〒226-8502 横浜市緑区長津田町4259-G2-4;

    東京工業大学 大学院総合理工学研究科物理情報システム専攻 〒226-8502 横浜市緑区長津田町4259-G2-4;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 jpn
  • 中图分类
  • 关键词

    声質変換; 音素認乱 HMM音声合成; F0量子化;

    机译:声质変换;音素认乱 HMM音声合成;F0量子化;

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号