首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >可変長の音素環境依存音素列を単位とする波形接続型音声合成
【24h】

可変長の音素環境依存音素列を単位とする波形接続型音声合成

机译:可变长度语音环境相关波形连接类型的声音合成,以声音元素字符串为单位

获取原文
获取原文并翻译 | 示例
           

摘要

筆者らはさきに86時間分の大規模な音声データベースを基本とした音声合成システムで利用する探索単位として,単語とクラスタリングされたトライフォンを提案した。 しかし,はとんどの単語は音声データベース内に存在する場合でも,前後の音素環境を満たし,なおかつ十分なデータ数が存在する単語は,評価用オープンデータのテキストに使われる単語の2割程度しかなかった。 そこで,本稿では,単語に制限されない音素環境依存音素列を用いることにより,前後の音素環境を満たす音声素片で接続する音声合成手法を提案する。 提案法によって得られた合成音声に対して,自然性に関する主観評価実験を行なった結果,1)平均評価が3.6となり,「不自然な部分はあるが気にならない」と「少し気になる」の間の自然性を持つ合成音声が得られること,2)音声データベースが大きくなると自然性も向上するが43時間を越えたところでほぼ飽和すること,3)音声データベースの規模を大きくしても合成処理時間はそれほど増加しないこと,を明らかにした。
机译:作者先前提出了一种以单词为簇的三音电话作为搜索单元,该搜索单元用于基于大型语音数据库的语音合成系统中长达86个小时。但是,即使语音数据库中存在大多数单词,开放数据文本中用于评估的单词中也只有大约20%满足了前后的语音环境,并具有足够数量的数据。没有。因此,在本文中,我们提出了一种语音合成方法,该方法通过使用不限于单词的依赖于语音环境的语音字符串来连接满足前后语音环境的语音元素。对通过该方法获得的合成语音的自然性进行主观评估实验的结果是:1)平均评估为3.6,“我不在乎某些不自然的部分”和“我有点担心”。可以获得在“成为”之间自然的合成语音,2)随着语音数据库变大,自然度提高,但在43小时后自然饱和,3)语音数据库的规模增加。然而,已经阐明,合成处理时间没有增加太多。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号