基于端到端蒙古语语音合成方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着专家学者对蒙古语智能化信息处理技术的深入研究，蒙古语语音合成技术作为其中的重要组成部分得到了很大的发展。但是，相对于汉语、英语等其它大众语言，蒙古语语音合成技术还不够成熟，需要更深层次的研究来满足合成语音质量的实用需求。首先，本文针对蒙古语语音合成方法中前端处理部分中的字母转音素(Grapheme to Phoneme,G2P)模块进行研究，首次采用了带有注意力机制的编码器-解码器(Encoder-Decoder+Attention)深度神经网络模型结构处理蒙古语字母转音素问题。考虑到仅使用基于统计方法的蒙古语字母转音素方法无法完全正确地转换词表中所有集内词的缺陷和蒙古语单词构词形式及发音的多变性等特性，本文在Encoder-Decoder+Attention模型的基础上，添加了规则处理，提出了一种基于规则与统计相结合的混合方法用来处理蒙古语字母转音素问题。通过实验结果对比，基于混合方法的蒙古语字母转音素方法相比与传统的基于联合序列的蒙古语字母转音素方法词错误率(Word Error Rate,WER)降低了12.1%，音素错误率(Phoneme Error Rate,PER)降低了2.8%。其次，针对于现有端到端蒙古语语音合成方法合成的语音存在某些单词错读、漏读及音质与原始音频差别较大等问题，本文分别对其前端处理部分和梅尔频谱转换语音波形部分进行了改进，提出了一种改进的端到端蒙古语语音合成方法。在前端处理部分，添加了上述本文提出的基于混合方法的蒙古语字母转音素模块，把原有字符序列作为预测梅尔频谱模型的输入转换为相应的音素序列作为预测梅尔频谱模型的输入。在梅尔频谱转换语音波形部分，使用WaveNet声码器替换了原有的梅尔频谱预测频谱幅度模型与Griffin-Lim算法。实验结果表明，改进的端到端蒙古语语音合成方法合成的蒙古语语音平均主观意见得分(Mean Opinion Score,MOS)达到了4.26，满足了实用要求。

著录项

作者
刘郅楠;
展开▼
作者单位

内蒙古大学;

展开▼
授予单位内蒙古大学;
学科计算机科学与技术
授予学位硕士
导师姓名高光来;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;自动化技术及设备;
关键词
端到端; 蒙古语;

相似文献

中文文献
外文文献
专利

1. 基于WaveNet的端到端语音合成方法 [J] . 邱泽宇 ,屈丹 ,张连海 . 计算机应用 . 2019,第005期
2. 基于端到端语音识别的关键词检索技术研究 [J] . 杨润延 ,程高峰 ,刘建 . 计算机科学 . 2022,第1期
3. 基于对抗训练的端到端语音翻译研究 [J] . 何文龙 ,高长丰 ,黎塔 . 信号处理 . 2021,第005期
4. 基于端到端深度神经网络的语音情感识别研究 [J] . 吕惠炼 ,胡维平 . 广西师范大学学报（自然科学版） . 2021,第003期
5. 基于端到端的多语种语音识别研究 [J] . 胡文轩 ,王秋林 ,李松 . 信号处理 . 2021,第010期
6. 基于端到端保障机制的高铁VoLTE语音MOS优化提升思路及方法研究 [C] . 原振升 ,李庆伟 ,彭中峰 . 2019广东通信青年论坛 . 2019
7. 基于自注意力机制的端到端语音识别方法研究 [A] . 雷志超 . 2020

基于端到端蒙古语语音合成方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅