首页> 中文期刊> 《现代计算机:下半月版》 >不同粒度嵌入单元的端到端语音合成技术研究

不同粒度嵌入单元的端到端语音合成技术研究

     

摘要

语音合成是人机交互、人工智能领域的核心技术,传统的语音合成技术相对复杂,需要大量领域专业知识,设计和实现的门槛较高。深度学习方法的应用,像WaveNet、Tacotron等提出降低了语音合成的实现难度。针对维吾尔语语音合成中的复杂前端,采用Tacotron端到端语音合成技术,使用文本以及所对应的音频数据作为学习模型,简化了语音合成的过程,成功实现了低资源语言维吾尔语的语音合成。为了选出最佳粒度单元进一步提高语音合成效果,在原本的Tacotron模型的基础上分别对维吾尔语词、词素、字符为不同粒度单元的文本进行语音合成实验,对结果进行主观及客观评价,得出了基于Tacotron的端到端模型中以字符为粒度单元的语音合成效果优于词和词素粒度单元的结论。这一结论有助于维吾尔语语音合成技术的更进一步发展。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号