首页> 中文学位 >基于3D卷积的唇语识别的研究与设计
【6h】

基于3D卷积的唇语识别的研究与设计

代理获取

目录

声明

第一章 绪论

1.1 研究工作的背景与意义

1.2 唇语识别在国内外研究历史与现状

1.3 本文的主要贡献与创新

1.3.1 研究内容和创新点

1.4 本论文的结构安排

第二章 深度学习相关概念

2.1 人工神经网络

2.2 卷积神经网络CNN

2.2.1 卷积计算层

2.2.2 ReLU激励层

2.2.3 池化层

2.2.4 全连接层

2.2.5 3D卷积神经网络

2.3 循环神经网络RNN

2.4 本章小结

第三章 中文唇语识别基础与解决方案

3.1 唇语识别基础

3.2 中文唇语识别所面临的问题及挑战

3.3 中文唇语识别解决方案与系统介绍

3.3.1 数据采集

3.3.2 PTP拼音序列识别网络简介

3.3.3 PTC汉字序列识别网络简介

3.4 拼音序列识别模块

3.4.1 拼音序列识别模块基本设计思想

3.4.2 数据标准化/归一化

3.4.3 CTC简介

3.4.4 拼音序列识别模型

3.4.5 训练PTP拼音序列识别网络介绍

3.5 汉字序列识别模块

3.5.1 语言模型

3.5.2 GRU

3.5.3 PTC汉字识别模型

3.5.4 PTC汉字序列识别网络的训练

3.6 本章小结

第四章 中文唇语识别网络实验分析

4.1 数据集介绍

4.2.1 CCTVDS原始数据集

4.2.2 CCTVDS原始数据集的进一步处理

4.3 中文唇语识别

4.3.1 网络整体结构及训练技巧

4.4.1 实验方案及基础介绍

4.4.2 PTP汉语拼音序列识别模型实验分析

4.4.3 PTC汉字序列识别模型实验分析

4.4.4 PC-LipNet实验分析

4.5 本章小结

第五章 全文总结与展望

5.1 全文总结

5.2 后续工作展望

参考文献

展开▼

摘要

随着深度学习技术的日渐成熟,可以应用到的场景也就越来越广阔。因为唇语识别需要从讲话者运动中的唇部提取所需要的信息来获取讲话者所想要表达的内容。但是由于语言种类的多样性以及唇部运动变化的微妙性,使得唇语识别的发展一直以来都不是像有的技术那样可以飞速发展。不像其他的仅仅只是由字母组成的语言,汉字更加的复杂,汉语拼音有超过1000多个的发音,而汉字的个数也超过了9000多个,这些就使得中文唇语识别更加地困难。 在本文唇语识别的研究过程中,将网络模型分解为两个部分,图像模型和语言模型,这种分解的做法有助于本文实验的进行。在图像方面本文首先采用3D卷积神经网络来提取包含有时空信息的图片特征。第二个部分本文采用基于语言模型的Encoder-Decoder神经网络模型来处理。在第一个部分当中,本文使用经过改造的3D卷积网络来提取输入图片序列的时空信息,接着本文将3D ConvNet的输出输入到一层结构的GRU当中,在拼音序列识别网络的最后本文使用CTC来作为本文网络的损失函数来对网络进行训练,上面的这一个网络的构建过程就构成了本文的汉语拼音序列识别网络PTP(Pictures to Pin Ying)网络模型。之后,本文使用Encoder-Decoder编码模块,使用这样的语言模型来处理本文上个网络所输出的数据,输入的汉语拼音序列先经过Encoder编码模块的处置,然后再是经过Decoder解码模块进行解码,最终才会输出输入图片所对应的汉字序列,上面所述的网络构建步骤就是本文网络的汉字序列识别模块PTC(Pin Yin to Chinese Characters)网络模块。在研究当中本文使用了数据较为丰富的自制中文唇语数据集,数据集的大小为20.95GB,并且对该数据集进行了处理,对其中的每一个样本都增加了其梯度图和光流图。实验结果表明本文使用3D卷积实验所得句子准确率为47.3%,而原有的基于2D卷积实验得到44.9%句子准确率,系统模型整体准确率有了较为显著的提高。根据我们的实验结果,我们的方式不仅能够加快网络的训练,也能够在一定程度上避免过拟合,并且为后续的相关研究提供了一个最基本的衡量标准。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号