首页> 中文学位 >基于卷积神经网络的连续语音识别算法研究
【6h】

基于卷积神经网络的连续语音识别算法研究

代理获取

目录

第一个书签之前

摘要

ABSTRACT

3.3.1短时能量属性特征

5.3实验结果与分析

攻读硕士期间发表的学术论文及科研成果

第一章绪论

1.2国内外研究现状

1.2.2声学模型

1.2.3训练方法

1.3论文主要研究内容

1.4论文的组织结构

第二章相关理论

2.1语音识别常用方法

2.2语音预处理

2.2.3端点检测

2.3卷积神经网络的工作原理

2.4基于卷积神经网络的参数训练准则

2.4.1BP训练算法

2.4.3基于CNN的误差反向传播算法

2.5本章小结

第三章语音端点检测

3.2差异性数据集加噪处理

3.3增强短时能量的双门限端点检测法

3.3.1短时能量属性特征

3.3.2自相关函数余弦角值属性特征

3.3.3增强语音短时能量

3.4实验及结果分析

3.5本章小结

第四章基于卷积神经网络的反向传播算法改进

4.1训练算法的效率问题

4.2复杂卷积神经网络下NWBP算法

4.2.1可变学习速率反向传播算法

4.2.2利用K-means算法原理获取种子点

4.2.3缩小误差范围的算法原理

4.3实验环境和实验数据

4.4实验结果与分析

4.4.2复杂卷积神经网络

4.5本章小结

第五章语音识别原型系统

5.1原型系统分析

5.1.2关键类设计

5.1.3语音识别流程

5.2语音识别实现

5.2.1语音音素标记

5.2.2实验数据集预处理

5.2.3声学模型结构设计

5.2.4训练算法

5.3实验结果与分析

5.4本章小结

第六章总结与展望

6.1总结

6.2展望

参考文献

致谢

展开▼

摘要

目前,语音识别日渐成为优质服务行业产品的必备功能,因此语音识别的准确度及高效性成为产品走向应用的关键。业内研究表明,识别高效性与训练效率的高低有着直接的关系,而导致训练效率高低的主要原因在于声学模型权值的适应性调整是否能完全契合训练误差变化而带来的冗余计算及拟合程度低的问题。另外,要提高语音识别的准确率,改进端点检测方法与进行数据集增噪是其关键。 结合国内外的研究成果,分析研究语音与噪声的属性特征差异来增强短时能量,用以提高门限判决灵敏度;采用对差异性数据集进行加噪处理,增强识别鲁棒性。通过改进反向传播算法来约束权值变化范围,避免振荡现象,缩短训练时间。最后,搭建语音识别原型系统,验证算法有效性。本文的主要工作如下: (1)提出增强短时能量的双门限端点检测法和差异性数据集加噪法。针对背景噪声的随机性而导致端点检测准确度不高和模型在特定环境下语音识别率低的问题,本文通过分析短时能量和自相关函数余弦角值之间的特征属性异同点,计算经自相关函数余弦角值端点检测法得到的语音段短时能量,将有效语音短时能量与自相关函数余弦角值相比,达到增强语音短时能量的目的,从而增强阈值判决端点位置的能力。又从谱减法的逆向角度出发,将具有环境特殊性的背景噪声加入经端点检测后的训练集语音中,通过训练集的频谱域来补偿数据集,减少了训练集与应用环境下语音的差异,增加了训练数据量并提高了模型对含噪语音识别的鲁棒性。 (2)提出一种缩小权值范围反向传播(NWBP)算法。在真实音识别系统中,存在着海量训练数据和卷积神经网络的超大规模模型参数导致的训练效率低等问题,针对这些问题,NWBP算法围绕网络参数训练后期寻找误差极小值时易出现的振荡现象,采用K-MEANS算法获取逼近误差极小值的种子节点,利用边界值规则缩小权值变化范围来减少振荡现象发生,使得网络误差尽快收敛,提高训练效率。通过仿真实验,NWBP算法在复杂卷积神经网络的权值训练过程中相比其他算法拟合程度和收敛速度得到提升,一定程度上减少了冗余计算,缩短了训练时间,且该算法相比在简单网络中更能体现加快网络收敛的优势。 (3)搭建语音识别原型系统。在SRILM语言模型训练工具和PocketSphinx解码器工具的基础上,设计并实现原型系统的各模块功能,采用不同环境下的语料来验证提出算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号