首页> 外文期刊>電子情報通信学会技術研究報告 >平均声に基づく対話音声合成に関する検討
【24h】

平均声に基づく対話音声合成に関する検討

机译:基于平均语音的对话语音合成研究

获取原文
获取原文并翻译 | 示例
           

摘要

少量の音声データから自然な対話音声を合成することを目的とし,平均声と話者適応を用いた隠れセミマルコフモデルに基づく音声合成手法について検討を行う,対話音声は自発性が高く,朗読音声と異なり音声の音響的特徴が話者や発話様式・発話意図などの影響を受け多様に変化するため,目標話者の限られた音声データのみで自然性の高い合成音声を生成することは容易ではない.提案法ではあらかじめ複数の話者の音声データを用いて学習された平均声モデルに対して話者適応を行うことにより,目標話者の音声データが数分以下とごく限られている場合でも目標話者の音響モデルを学習することが可能である.本研究では,対話音声,読上げ音声をそれぞれ用いて学習した平均声モデルを話者適応したモデルから得られた合成音声を客観実験により評価した.実験結果から,提案法による合成音声は従来の話者依存モデルに比べて良好な結果が得られ,また読上げ音声よりも対話音声を用いて学習した平均声モデルを用いた方が,客観評価において優れた結果となった.%This paper describes a conversational speech synthesis technique using average voice model and model adaptation based on hidden semi-Markov model (HSMM). In conversational speech, the acoustic features are affected by various factors such as speaker individuality, speaking style, and speaker's intention, and it is not easy to generate natural sounding speech using a small amount of speech data of a target speaker. To overcome this problem, the proposed technique utilizes an average voice model trained in advance using multiple speakers' speech data and adapts the model to the target speaker's one using a speaker adaptation technique. We can generate synthetic speech even if the available speech data of the target speaker is very limited. In this study, we evaluate the performance of the proposed technique by objective measures. We use two types of average voice models, one is trained with read speech, and the other with conversational speech. The experimental results show that the distortion of spectral and pitch features between synthetic and original speech samples decreases when using the proposed technique.
机译:为了从少量语音数据中合成自然的会话语音,我们研究了一种基于隐藏式半马尔可夫模型的语音合成方法,该方法使用平均语音和说话人自适应功能,对话语音是高度自发的,可以大声朗读。与上述不同,语音的声学特性根据说话者,发声风格,发声意图等以各种方式改变,因此易于仅使用目标讲话者的语音数据来生成高度自然的合成语音。在提出的方法中,通过使用多个说话者的语音数据对预先学习的平均语音模型进行说话者自适应,将目标说话者的语音数据限制在几分钟或更短的时间内。即使在这种情况下,也有可能学习目标说话者的声学模型,在这项研究中,我们对通过使用对话语音和阅读语音学习的平均语音模型的说话人自适应模型获得的合成语音进行了客观实验。从实验结果来看,所提出的方法合成的语音比常规的说话者依赖模型具有更好的效果,并且使用会话语音而不是朗读语音学习的平均语音模型更好。 ,本文介绍了一种基于平均语音模型和基于隐式半马尔可夫模型(HSMM)的模型自适应的会话语音合成技术,在会话语音中,声学特征受多种因素的影响。例如说话人的个性,说话风格和说话人的意图,并且使用目标说话人的少量语音数据来生成自然的发声并不容易。为克服此问题,该技术利用了预先训练的平均语音模型使用多个说话者的语音数据和即使目标说话人的可用语音数据非常有限,我们也可以生成合成语音。在这项研究中,我们通过客观的方法来评估所提出技术的性能。我们使用说话人自适应技术将模型适应目标说话人的模型。使用两种类型的平均语音模型,一种是使用朗读语音训练的,另一种是会话语音训练的。实验结果表明,使用所提出的技术时,合成语音样本和原始语音样本之间的频谱和音高特征的失真减少了。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号