声明
致谢
1 引言
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 语音驱动的人脸动画生成研究现状
1.2.2 视频与音频映射的研究现状
1.3 研究目标以及内容
1.3.1 研究目标
1.3.2 研究内容
1.4 本文组织结构
2 本文相关的深度神经网络理论基础
2.1 卷积神经网络基本原理
2.1.1 卷积神经网络的网络结构
2.2 循环神经网络基本原理
2.2.1 循环神经网络的网络结构
2.2.2 长短时记忆网络
2.3 CGAN 网络基本原理
2.4 本章小结
3 项目总体设计及数据集设计
3.1 语音驱动的人脸动画项目总体设计
3.2 数据集设计
3.2.1 FFFmepg 处理视频与音频数据
3.2.2 语音数据特征提取
3.2.3 提取面部特征点
3.3 数据集划分
3.4 本章小结
4 CNN-LSTM 网络的设计与实现
4.1 CNN-LSTM 网络设计
4.1.1 CNN-LSTM 网络的流程设计
4.1.2 CNN-LSTM 网络的结构设计
4.2 CNN-LSTM网络参数调整
4.3 实验结果以及分析
4.3.1 实验环境
4.3.2 实验评价方法
4.3.3 实验结果
4.4 实验结果分析
4.5 本章小结
5 条件生成对抗网络的设计与实现
5.1 条件生成对抗网络设计
5.2 生成器与判别器的实现
5.2.1 生成网络的实现
5.2.2 判别网络的实现
5.3 实验环境
5.4 实验结果以及分析
5.4.1 实验评价方法
5.4.2 实验结果
5.5 本章小结
6 结论与未来展望
6.1 结论
6.2 未来展望
参考文献
作者简历及攻读硕士/博士学位期间取得的研究成果
独创性声明
学位论文数据集
北京交通大学;