基于3D卷积的唇语识别的研究与设计

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着深度学习技术的日渐成熟，可以应用到的场景也就越来越广阔。因为唇语识别需要从讲话者运动中的唇部提取所需要的信息来获取讲话者所想要表达的内容。但是由于语言种类的多样性以及唇部运动变化的微妙性，使得唇语识别的发展一直以来都不是像有的技术那样可以飞速发展。不像其他的仅仅只是由字母组成的语言，汉字更加的复杂，汉语拼音有超过1000多个的发音，而汉字的个数也超过了9000多个，这些就使得中文唇语识别更加地困难。在本文唇语识别的研究过程中，将网络模型分解为两个部分，图像模型和语言模型，这种分解的做法有助于本文实验的进行。在图像方面本文首先采用3D卷积神经网络来提取包含有时空信息的图片特征。第二个部分本文采用基于语言模型的Encoder-Decoder神经网络模型来处理。在第一个部分当中，本文使用经过改造的3D卷积网络来提取输入图片序列的时空信息，接着本文将3D ConvNet的输出输入到一层结构的GRU当中，在拼音序列识别网络的最后本文使用CTC来作为本文网络的损失函数来对网络进行训练，上面的这一个网络的构建过程就构成了本文的汉语拼音序列识别网络PTP（Pictures to Pin Ying）网络模型。之后，本文使用Encoder-Decoder编码模块，使用这样的语言模型来处理本文上个网络所输出的数据，输入的汉语拼音序列先经过Encoder编码模块的处置，然后再是经过Decoder解码模块进行解码，最终才会输出输入图片所对应的汉字序列，上面所述的网络构建步骤就是本文网络的汉字序列识别模块PTC（Pin Yin to Chinese Characters）网络模块。在研究当中本文使用了数据较为丰富的自制中文唇语数据集，数据集的大小为20.95GB，并且对该数据集进行了处理，对其中的每一个样本都增加了其梯度图和光流图。实验结果表明本文使用3D卷积实验所得句子准确率为47.3％，而原有的基于2D卷积实验得到44.9％句子准确率，系统模型整体准确率有了较为显著的提高。根据我们的实验结果，我们的方式不仅能够加快网络的训练，也能够在一定程度上避免过拟合，并且为后续的相关研究提供了一个最基本的衡量标准。

著录项

作者
王丹;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机科学与技术
授予学位硕士
导师姓名刘明;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;基本电子电路;
关键词
卷积; 唇语识别;

相似文献

中文文献
外文文献
专利

1. 基于卷积神经网络的人脸识别研究与设计 [J] . 王立凯 . 通信电源技术 . 2019,第007期
2. 基于3D⁃CNN和时空注意力⁃卷积LSTM的抑郁症识别研究 [J] . 何浪 . 首都师范大学学报（自然科学版） . 2021,第002期
3. 基于3D卷积神经网络的手语动作识别 [J] . 赵金龙 ,陈春雨 ,于德海 . 通信技术 . 2021,第002期
4. 基于多尺度3D卷积神经网络的行为识别方法 [J] . 胡凯 ,陈旭 ,朱俊 . 重庆邮电大学学报（自然科学版） . 2021,第006期
5. 一种基于双流融合3D卷积神经网络的动态头势识别方法 [J] . 谢佳龙 ,张波涛 ,吕强 . 电子学报 . 2021,第007期
6. 基于特征向量夹角最小法则的唇语识别 [C] . 叶茂锹 ,周武能 ,詹司佳 . 上海科协第五届学术年会“信息化与工业化”上海研究生学术论坛 . 2007
7. 基于时空卷积神经网络和双向门循环单元的唇语识别 [A] . 申一帆 . 2019

基于3D卷积的唇语识别的研究与设计

目录

摘要

著录项

相似文献

相关主题

期刊订阅