首页> 外文会议>日本音響学会研究発表会 >アニメソングの統計的歌声合成に向けた歌唱データベースの構築
【24h】

アニメソングの統計的歌声合成に向けた歌唱データベースの構築

机译:统计歌唱语音合成动画歌曲唱歌数据库的构建

获取原文

摘要

統計的音声合成により生成された音声合成の品質は,Hidden Markov model 音声合成時代では肉声と明確に区別できる音質であったが,Deep Neural Networkの利用により飛躍的な進歩を遂げている.Deep Voice3 やWaveNet などは,人間と区別ができないほどの音声を生成することができると言われている.このようなニューラルネットワークを学習するに当たり,音声データベースの規模は非常に重要である.WaveNet では,44 時間の音声を含hでいるVCTK や820 時間の音声を含むLibriSpeech などを学習データとして使用することで,高い品質の音声合成を実現している.統計的音声合成のための音声データベースはすでに複数公開されており,学術用途であればフリーで使える状況にある.
机译:统计语音合成产生的语音合成的质量是隐马尔可夫模型语音合成时代静音和清晰它是一种声音质量,可以通过深度神经网络区分我们通过使用了戏剧性的进步。低沉的声音3或Wavenet无法区分人类据说你可以产生更多的演讲。学习这样的神经网络或者音频数据库的规模非常重要。在Wavenet,VCTK有44小时的音频学习LibRispeech,包括820小时的声音使用作为数据的高质量语音合成已经意识到了。统计语音合成的语音日多个Tabas已经发布和这是一种可以自由使用的情况。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号