首页> 外文期刊>電子情報通信学会技術研究報告 >HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討
【24h】

HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討

机译:基于动态特征的HMM语音音素持续时间建模研究

获取原文
获取原文并翻译 | 示例
       

摘要

This paper proposes a technique for modeling and generating phone durations using their dynamic features to improve prediction accuracy of phone durations in HMM-based speech synthesis. For the duration modeling, a technique with explicit state-duration modeling based on hidden semi-Markov model (HSMM) has been proposed. However, the HSMM cannot directly model phone durations, and the relation of phone durations among adjacent phonemes are represented only by context labels. In the proposed technique, phone durations are regarded as observable data obtained by manual labeling or forced alignment and are directly modeled using single Gaussian distributions. To explicitly take into account the correlation of phone durtions in the model training and speech synthesis, we use not only static phone durations but also dynamic ones. When synthesizing speech, we generate a phone-duration sequence from the trained duration models using a parameter generation algorithm with static and dynamic features. We evaluate the performance of our duration modeling technique by comparing to other techniques with static or static log-duration features.%HMM 音声合成における音素継続長の推定精度の改善を目的とし,動的特徴量を用いた音素継続長のモデル化および生成手法を提案する.継続長のモデル化については隠れセミマルコフモデル(HSMM)により状態継続長を明示的にモデル化する手法が提案されているが,音素継続長が直接モデル化されておらず,また音素間の継続長の関係はコンテキストのみで表現されている.提案法では,音素継続長を観測データとみなし直接モデル化を行う.モデル化の際には,音素間の継続長の相関を明示的に考慮するために静的特徴量だけでなく音素継続長の動的特徴量も用いて学習を行う.合成時には静的および動的特徴量を用いて音素継続長系列を生成することにより音素間の継続長の相関を合成音声に反映させることが可能となる.静的特徴量のみを用いた場合や対数継続長を用いた場合などとの比較を行い,提案法の有効性を示す.
机译:本文提出了一种利用其动态特征来建模和生成电话持续时间的技术,以提高基于HMM的语音合成中电话持续时间的预测准确性。对于持续时间建模,提出了一种基于隐式半马尔可夫模型(HSMM)的具有显式状态持续时间建模的技术。但是,HSMM无法直接对电话持续时间建模,并且相邻音素之间的电话持续时间关系仅由上下文标签表示。在提出的技术中,电话持续时间被视为通过手动标记或强制对齐获得的可观察数据,并使用单个高斯分布直接建模。为了在模型训练和语音合成中明确考虑电话持续时间的相关性,我们不仅使用静态电话持续时间,还使用动态电话持续时间。合成语音时,我们使用具有静态和动态功能的参数生成算法,从训练后的时长模型生成电话持续时间序列。我们通过与具有静态或静态对数持续时间功能的其他技术进行比较来评估我们的持续时间建模技术的性能。%HMM音声合成における音素継続长の推定精度の改善を目的とし,动的特徴量を用いた音素継続长継続长のモデル化につ生成ては隠れセミマ法ては隠れセミマ实行デ。实行法では,音素継続长を観测データとみなし直接モデル化を行う。モデル化の际には,音素间のの合成时には静的および动的特徴量を用いて音素継続长系列静的特徴量のみを用いた场合た数や対长を用いた场合などとの比较を行い,实行法の有效性を示す。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号