声明
摘要
第1章 绪论
1.1 语音合成技术概述
1.2 语音信号生成机理
1.3 现阶段主流语音合成方法
1.3.1 单元挑选与波形拼接语音合成
1.3.2 统计参数语音合成
1.4 语音合成声码器
1.4.1 线性预测分析合成器
1.4.2 共振峰合成器
1.4.3 STRAIGHT分析合成算法
1.5 本论文的研究目标和内容概述
第2章 基于卷积神经网络的话者相关语音合成声码器
2.1 WaveNet简介
2.1.1 卷积神经网络简介
2.1.2 扩张因果卷积
2.1.3 门控激活函数及残差网络结构
2.1.4 波形量化与softmax输出
2.2 基于卷积神经网络的语音合成声码器
2.2.1 网络结构及时域分辨率调整
2.2.2 采样方式
2.3 实验
2.3.1 实验配置
2.3.2 实验结果及分析
2.4 本章小结
第3章 基于卷积神经网络的声码器话者无关与自适应训练方法研究
3.1 说话人自适应历史回顾
3.2 话者无关与自适应训练
3.3 实验
3.3.1 实验配置
3.3.2 实验结果及分析
3.4 本章小结
第4章 基于卷积神经网络的声码器改进方法研究
4.1 语音频带扩展
4.2 多分辨率层级化生成方法
4.3 网络训练与语音生成的采样方式
4.4 实验
4.4.1 实验配置
4.4.2 实验结果及分析
4.5 本章小结
第5章 总结
5.1 本文主要贡献与创新点
5.2 后续研究工作
参考文献
致谢
在读期间发表的学术论文与取得的研究成果