1 绪论
1.1 语音风格转移的研究背景和意义
1.2 语音风格转移国内外发展及研究现状
1.3 论文的主要内容
1.4 论文的章节安排
1.5 本章小结
2 语音风格转移方法概述及评价标准
2.1 语音克隆
2.1.1 说话人自适应
2.1.2 说话人编码
2.2 多说话人风格迁移
2.3 语音转换方法
2.3.1 基于矢量量化算法
2.3.2 基于混合高斯模型
2.3.3 基于深度置信网络
2.3.4 基于长短时记忆网络
2.4 语音质量评价标准
2.4.1 主观评价
2.4.2 客观评价
2.4.3 语谱图
2.5 语音风格转移中存在的问题
2.6 本章小结
3 基于生成对抗网络的风格转移
3.1 生成对抗网络模型
3.2 生成对抗网络的优势
3.3 基于生成对抗网络的风格转移研究
3.3.1 条件生成对抗网络
3.3.2 基于CGAN的图像转换
3.3.3 深度卷积生成对抗网络生成图像
3.3.4 基于DCGAN的音频生成
3.4 本章小结
4 基于GAN语音风格转移的问题和方法
4.1 生成对抗网络存在的问题
4.2 高速路神经网络
4.3 基于高速路网络的语音转换
4.4 拟提出的解决方法
4.4.1 对现有方法的分析
4.4.2 本文提出的VSTGAN方法
4.5 语音风格转移的关键技术点
4.5.1 梅尔倒谱特征的意义
4.5.2 对齐方法
4.5.3 特征转换框架
4.5.4 特征到语音的合成
4.6 本章小结
5 VSTGAN的实现过程
5.1 数据准备和特征提取
5.1.1 数据准备
5.1.2 特征计算
5.2 生成对抗网络模型训练
5.3 语音合成
5.4 本章小结
6 VSTGAN的实验结果和分析
6.1 实验结果
6.1.1 中文女性到女性
6.1.2 中文男性到女性
6.2 分析和评价
6.3 应用构想
6.4 本章小结
7 总结和展望
7.1 工作总结
7.2 工作展望
致谢
参考文献
附录
个人简历、在学期间发表的学术论文及取得的研究成果
重庆理工大学;