首页> 外文期刊>電子情報通信学会技術研究報告. 信号処理. Signal Processing >落語音声合成におけるTacotronおよびコンテキスト特徴量の使用とその評価
【24h】

落語音声合成におけるTacotronおよびコンテキスト特徴量の使用とその評価

机译:使用塔克罗伦和上下文特征在原始语言语音合成及其评价中

获取原文
获取原文并翻译 | 示例
           

摘要

人を楽しませる音声合成を目指して,落語の音声合成の構築に取り組hでいる.本稿では音声合成のモデルとして,Sequence to sequenceのモデルであるTacotronを新たに導入した.また,落語は一人の演者(噺家)が複数の登場人物を演じ分け,主にそれらの会話によって物語を進行させる.そのため,役や発話スタイルが区別できることは,落語を聞いて理解する上で重要であると考えられる.そこで,登場人物の属性や発話スタイルに対応するコンテキスト特微量を使用することで,落語として聞けるものに近づくことを目指した.現状では,特に長い文でアラインメントが取れずに合成に失敗したり,学習速度が遅かったりするなど様々な問題を抱えているが,それらの問題についても議論する.
机译:针对致辞综合来招待人们,接近建立原始语音合成。 在本文中,我们介绍了一种新的塔克罗伦,这是一种序列序列的模型作为语音合成的模型。 此外,Rakugo是一个单一的表演者(噺噺)播放多个字符,主要导致故事通过这些对话进行。 结果,听到和理解罗尔纳人认为很重要。 因此,我们的目标是通过使用角色的属性和与语音样式对应的上下文特征量来接近一个可以称为Rakugo的一个。 目前,对齐具有各种问题,例如特别长的句子,并且有各种问题,例如慢的学习速度,而且还讨论了问题。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号