平均声に基づく対話音声合成に関する検討

郡山　知樹; 能勢　隆; 小林　隆夫

首页> 外文期刊>電子情報通信学会技術研究報告 >平均声に基づく対話音声合成に関する検討

【24h】

平均声に基づく対話音声合成に関する検討

机译：基于平均语音的对话语音合成研究

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

少量の音声データから自然な対話音声を合成することを目的とし，平均声と話者適応を用いた隠れセミマルコフモデルに基づく音声合成手法について検討を行う，対話音声は自発性が高く，朗読音声と異なり音声の音響的特徴が話者や発話様式・発話意図などの影響を受け多様に変化するため，目標話者の限られた音声データのみで自然性の高い合成音声を生成することは容易ではない.提案法ではあらかじめ複数の話者の音声データを用いて学習された平均声モデルに対して話者適応を行うことにより，目標話者の音声データが数分以下とごく限られている場合でも目標話者の音響モデルを学習することが可能である.本研究では，対話音声，読上げ音声をそれぞれ用いて学習した平均声モデルを話者適応したモデルから得られた合成音声を客観実験により評価した.実験結果から，提案法による合成音声は従来の話者依存モデルに比べて良好な結果が得られ，また読上げ音声よりも対話音声を用いて学習した平均声モデルを用いた方が，客観評価において優れた結果となった.%This paper describes a conversational speech synthesis technique using average voice model and model adaptation based on hidden semi-Markov model (HSMM). In conversational speech, the acoustic features are affected by various factors such as speaker individuality, speaking style, and speaker's intention, and it is not easy to generate natural sounding speech using a small amount of speech data of a target speaker. To overcome this problem, the proposed technique utilizes an average voice model trained in advance using multiple speakers' speech data and adapts the model to the target speaker's one using a speaker adaptation technique. We can generate synthetic speech even if the available speech data of the target speaker is very limited. In this study, we evaluate the performance of the proposed technique by objective measures. We use two types of average voice models, one is trained with read speech, and the other with conversational speech. The experimental results show that the distortion of spectral and pitch features between synthetic and original speech samples decreases when using the proposed technique.

机译：为了从少量语音数据中合成自然的会话语音，我们研究了一种基于隐藏式半马尔可夫模型的语音合成方法，该方法使用平均语音和说话人自适应功能，对话语音是高度自发的，可以大声朗读。与上述不同，语音的声学特性根据说话者，发声风格，发声意图等以各种方式改变，因此易于仅使用目标讲话者的语音数据来生成高度自然的合成语音。在提出的方法中，通过使用多个说话者的语音数据对预先学习的平均语音模型进行说话者自适应，将目标说话者的语音数据限制在几分钟或更短的时间内。即使在这种情况下，也有可能学习目标说话者的声学模型，在这项研究中，我们对通过使用对话语音和阅读语音学习的平均语音模型的说话人自适应模型获得的合成语音进行了客观实验。从实验结果来看，所提出的方法合成的语音比常规的说话者依赖模型具有更好的效果，并且使用会话语音而不是朗读语音学习的平均语音模型更好。，本文介绍了一种基于平均语音模型和基于隐式半马尔可夫模型（HSMM）的模型自适应的会话语音合成技术，在会话语音中，声学特征受多种因素的影响。例如说话人的个性，说话风格和说话人的意图，并且使用目标说话人的少量语音数据来生成自然的发声并不容易。为克服此问题，该技术利用了预先训练的平均语音模型使用多个说话者的语音数据和即使目标说话人的可用语音数据非常有限，我们也可以生成合成语音。在这项研究中，我们通过客观的方法来评估所提出技术的性能。我们使用说话人自适应技术将模型适应目标说话人的模型。使用两种类型的平均语音模型，一种是使用朗读语音训练的，另一种是会话语音训练的。实验结果表明，使用所提出的技术时，合成语音样本和原始语音样本之间的频谱和音高特征的失真减少了。

著录项

来源
《電子情報通信学会技術研究報告》 |2010年第376期|p.33-38|共6页
作者
郡山　知樹; 能勢　隆; 小林　隆夫;
展开▼
作者单位

東京工業大学　大学院総合理工学研究科　〒226-8502　横浜市緑区長津田町4259-G2-4;

東京工業大学　大学院総合理工学研究科　〒226-8502　横浜市緑区長津田町4259-G2-4;

東京工業大学　大学院総合理工学研究科　〒226-8502　横浜市緑区長津田町4259-G2-4;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
対話音声; 話し言葉音声; HMM音声合成; 平均声モデル; 話者適応.スタイル適応;

机译：对话语音;口语语音;HMM语音合成;平均语音模型;说话人适应;风格适应;

相似文献

外文文献
中文文献
专利

1. 平均声に基づく対話音声合成に関する検討 [J] . 郡山　知樹, 能勢　隆, 小林　隆夫電子情報通信学会技術研究報告 . 2010,第375期

机译：基于平均语音的对话语音合成研究
2. 平均声に基づく対話音声合成に関する検討 [J] . 郡山　知樹, 能勢　隆, 小林　隆夫電子情報通信学会技術研究報告 . 2010,第373期

机译：基于平均语音的对话语音合成研究
3. 平均声に基づく対話音声合成に関する検討 [J] . 郡山　知樹, 能勢　隆, 小林　隆夫電子情報通信学会技術研究報告 . 2010,第374期

机译：基于平均语音的对话语音合成研究
4. 母語話者シャドーイングに基づく非母語話者音声の了解性計測に関する予備的検討 [C] . 井上雄介, 椛島優, 齋藤大輔, 日本音響学会;日本音響学会春季研究発表会 . 2018

机译：基于母语者遮蔽性的非母语者的清晰度测量的初步研究
5. 硬変肝における急性相蛋白合成障害に関する臨床的?実験的検討 : IL-6および手術侵襲に対する反応を中心に利用統計を見る [D] . 住田敏之 1994

机译：肝硬化肝急性期蛋白质合成异常的临床和实验研究：查看侧重于对IL-6和外科手术侵袭的用法统计
6. 話者照合システムに対する音声合成法に基づくウルフ攻撃とその対策に関する研究 [O] . 林祥平 2013

机译：基于语音合成方法的Wolf攻击研究及其说话人验证系统的对策

平均声に基づく対話音声合成に関する検討

摘要

著录项

相似文献

相关主题

期刊订阅