首页> 中文学位 >基于端到端蒙古语语音合成方法的研究
【6h】

基于端到端蒙古语语音合成方法的研究

代理获取

目录

声明

第一章 引言

1.1 研究背景及意义

1.2 语音合成的发展历史和研究现状

1.3 关于蒙古语语音合成方法的概述

1.4 论文主要内容及组织结构

第二章 蒙古语语音合成相关技术

2.1 蒙古语特点

2.2 基于深度神经网络的蒙古语语音合成方法

2.3端到端蒙古语语音合成方法

2.4 本章小结

第三章 基于混合方法的蒙古语字母转音素方法

3.1传统的蒙古语字母转音素转换方法

3.2基于Encoder-Decoder+Attention模型的蒙古语字母转音素方法

3.3基于混合方法的蒙古语字母转音素方法

3.4实验

3.5 本章小结

第四章 改进的端到端蒙古语语音合成方法

4.1 改进方法的整体结构

4.2 Griffin-Lim算法

4.3 WaveNet声码器

4.4 实验

4.5 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻读硕士期间发表的学术论文

展开▼

摘要

近年来,随着专家学者对蒙古语智能化信息处理技术的深入研究,蒙古语语音合成技术作为其中的重要组成部分得到了很大的发展。但是,相对于汉语、英语等其它大众语言,蒙古语语音合成技术还不够成熟,需要更深层次的研究来满足合成语音质量的实用需求。 首先,本文针对蒙古语语音合成方法中前端处理部分中的字母转音素(Grapheme to Phoneme,G2P)模块进行研究,首次采用了带有注意力机制的编码器-解码器(Encoder-Decoder+Attention)深度神经网络模型结构处理蒙古语字母转音素问题。考虑到仅使用基于统计方法的蒙古语字母转音素方法无法完全正确地转换词表中所有集内词的缺陷和蒙古语单词构词形式及发音的多变性等特性,本文在Encoder-Decoder+Attention模型的基础上,添加了规则处理,提出了一种基于规则与统计相结合的混合方法用来处理蒙古语字母转音素问题。通过实验结果对比,基于混合方法的蒙古语字母转音素方法相比与传统的基于联合序列的蒙古语字母转音素方法词错误率(Word Error Rate,WER)降低了12.1%,音素错误率(Phoneme Error Rate,PER)降低了2.8%。 其次,针对于现有端到端蒙古语语音合成方法合成的语音存在某些单词错读、漏读及音质与原始音频差别较大等问题,本文分别对其前端处理部分和梅尔频谱转换语音波形部分进行了改进,提出了一种改进的端到端蒙古语语音合成方法。在前端处理部分,添加了上述本文提出的基于混合方法的蒙古语字母转音素模块,把原有字符序列作为预测梅尔频谱模型的输入转换为相应的音素序列作为预测梅尔频谱模型的输入。在梅尔频谱转换语音波形部分,使用WaveNet声码器替换了原有的梅尔频谱预测频谱幅度模型与Griffin-Lim算法。实验结果表明,改进的端到端蒙古语语音合成方法合成的蒙古语语音平均主观意见得分(Mean Opinion Score,MOS)达到了4.26,满足了实用要求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号