首页> 中文学位 >深度自编码网络特征提取实现基于超声的无声语音识别
【6h】

深度自编码网络特征提取实现基于超声的无声语音识别

代理获取

目录

声明

第1章 绪论

1.1课题背景

1.2研究现状

1.3论文创新工作

1.4论文结构

第2章 相关背景综述

2.1无声语音接口

2.2语音识别

2.3深度神经网络(DNN)

2.4本章小结

第3章 无声语音识别系统

3.1数据采集

3.2非声学特征提取

3.3无声语音识别

3.4本章小结

第4章 实验与分析

4.1数据集

4.2特征提取

4.3无声语音识别

4.4本章小结

第5章 网络参数对模型训练的影响

5.1 DAE训练迭代次数对图像重构的影响

5.2高斯数对单音素模型的影响

5.3回归树叶节点数和高斯数对三音素模型的影响

5.4 DNN训练层数和隐层节点数对识别结果的影响

5.5本章小结

第6章 总结与展望

6.1总结

6.2展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

无声语音交流是指在没有发出声音的情况下,仅通过声道发声器官的运动就能判断对方想要表达的内容并进行反馈,最常见的就是唇语。对于后天发音障碍患者,无声语音识别和合成系统能有效解决他们交流的问题。在这种情况下,无声语音接口(SilentSpeech Interface,SSI)应运而生,它是一种基于非声学信号捕获的,在安静或嘈杂环境中提供安全可靠语音通信的系统。目前非声学信号的采集解决方案有超声舌头成像和视频嘴唇图像、面部放置的肌电信号传感器以及贴于发音器官如唇、齿、舌表面的电磁发音仪线圈传感器等。本文采用基于超声成像和视频图像的SSI,建立了一套无声语音识别系统,实现了从无声信号到文本结果的转换。
  近年来,随着深度神经网络(DeepNeural Network,DNN)的提出与发展,传统语音识别借助该技术在识别率上有了非常明显的提高。本文首次提出将DNN技术应用于基于超声成像的SSI中,对比基准系统识别率有了较大提高。识别系统主要分为两部分:非声学特征提取和语音识别。在非声学特征提取中,不同于以往线性变换方法,本文采用基于深度学习的自编码网络(Autoencoder)实现数据降维并提取特征,重构效果优于离散余弦变换(Discrete Cosine Transform,DCT);将提取的非声学特征作为输入,训练DNN-HMM模型,解码得到无声语音识别文本,识别率较对比基准有较大提高,同时基于自编码网络提取的深层特征也在识别率及信息压缩方面体现出了相对传统线性方法的优越性。目前,Autoencoder特征也加入了Silent Speech Challenge数据库中,成为基于超声成像SSI的新一种非声学特征。
  随着移动计算的飞速发展,以无声语音识别为核心引擎的SSI的应用前景将越来越广阔。在实现无声语音实时在线识别后,无声语音信号采集装置可以集成在移动设备中,实现公共场合私密通话、安静场所无声交流等非常实用的功能。此外,还可以通过分析发音器官运动信息,向人们提供健康监测数据和专业分析报告,成为时下热门的可穿戴式健康监测设备。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号