首页> 中文学位 >语音识别系统中的VTS特征补偿算法优化
【6h】

语音识别系统中的VTS特征补偿算法优化

代理获取

目录

声明

摘要

第一章 绪论

1.1 语音识别的研究背景

1.2 国内外研究现状

1.2.1 国外的发展历程及研究现状

1.2.2 国内的发展历程及研究现状

1.3 语音识别研究难点及发展前景

1.3.1 语音识别的难点

1.3.2 发展前景

1.4 语音识别系统的性能评估

1.5 本文的主要内容和章节结构

第二章 鲁棒语音识别中的关键技术

2.1 语音识别系统的结构

2.1.1 预处理

2.1.2 端点检测

2.1.3 特征参数提取

2.2 鲁棒语音识别算法

2.2.1 特征补偿

2.2.2 模型补偿

2.2.3 DNN-HMM声学模型

2.3 基于VTS特征补偿的识别算法分析

2.3.1 VTS算法

2.3.2 VTS算法改进

第三章 基于双层GMM结构和VTS特征补偿的孤立词识别

3.1 引言

3.2 基于VTS特征补偿算法概述

3.2.1 基于矢量泰勒级数的倒谱域特征补偿算法

3.2.2 GMM模型介绍

3.2.3 GMM模型描述语音信号

3.3 基于VTS特征补偿算法的结构优化

3.3.1 基于双层GMM的特征补偿概述

3.3.2 基于双层GMM的特征补偿过程

3.3.3 基于双层GMM结构的识别系统

3.4 基于MATLAB的仿真实验

3.4.1 数据库介绍

3.4.2 GMM模型混合数的选择

3.4.3 实验结果及分析

3.5 基于C平台的实时测试

3.5.1 C平台双层GMM结构VTS系统实现

3.5.2 实时测试方案设计

3.5.3 实验结果与分析

3.6 本章小结

第四章 基于多环境模型的算法优化

4.1 基于双层GMM结构VTS的多环境模型特征补偿

4.1.1 基于双层GMM结构VTS的多环境模型特征补偿概述

4.1.2 噪声参数估计

4.1.3 多环境模型特征映射

4.2 噪声参数估计初始值优化

4.2.1 最优模型初始值优化对噪声参数估计的影响

4.2.2 初始值优化对系统误识率的影响

4.3 训练噪声与测试噪声失配

4.3.1 不同噪声功率谱比较

4.3.2 训练噪声与测试噪声失配对参数估计的影响

4.3.3 C平台多环境模型系统优化

4.4 最佳迭代次数的优化

4.5 本章小结

第五章 总结与展望

5.1 工作总结

5.2 工作展望

致谢

参考文献

攻读硕士学位期间参加的科研项目和完成的论文

展开▼

摘要

在实际环境中,由于环境噪声的干扰,语音识别系统的识别性能并不理想。矢量泰勒级数(VTS: Vector Taylor Series)特征补偿是一种基于模型的特征补偿算法,具有很强的鲁棒性,能够有效解决训练环境与测试环境失配导致的识别性能下降问题。
  针对VTS计算量大、在低信噪比环境下性能急剧下降的问题,论文将对基于VTS的孤立词识别系统进行优化,主要包括基于双层高斯混合模型(GMM: Gaussian MixtureModel)结构的VTS特征补偿优化,以及针对多环境模型的噪声参数估计的初始值优化,通过优化提高系统的识别速度和识别率,增强语音识别系统的实用性。主要工作如下:
  (1)鲁棒语音识别系统结构分析。重点分析鲁棒语音识别中的关键技术,包括基于加权子带谱熵的端点检测算法,VTS特征补偿算法,以及声学模型。声学模型包括用于特征补偿的GMM模型和模式识别的隐马尔可夫模型(HMM: Hidden Markov Model)。
  (2)基于双层GMM模型的VTS补偿算法优化。针对VTS特征补偿计算量大的问题,本文提出了双层GMM的VTS算法结构,将特征补偿中的噪声参数估计过程和特征映射过程分开进行。在训练阶段,分别得到高斯单元混合数个数较少的GMM1模型和混合高斯个数较多的GMM2模型。特征补偿过程中,先用GMM1模型估计测试语音中噪声的均值和方差,再利用GMM2模型基于最小均方误差准则,将测试语音的含噪特征参数映射成纯净的语音特征参数。算法优化大幅降低了计算量,同时保持了识别性能。
  (3)基于多环境模型VTS算法的噪声参数估计初始值优化。基于多环境模型VTS语音识别从基本环境模型集中选出与当前环境最匹配的声学模型,用于特征补偿,能够有效降低训练环境与测试环境之间的失配性。根据最优GMM模型设置噪声参数的初始值,在噪声参数迭代求解过程中可以有效的避免最大期望(EM: Expectation-maximization)算法陷入局部收敛,使得EM算法能够以更少的迭代次数收敛到更为准确的估计值,从而提高语音识别性能。
  (4)实现了基于MATLAB的离线仿真测试和基于C平台的实时测试。在MATLAB平台和C平台进行大量实验,验证本文所提出优化算法的有效性。实验证明,本文所提出的双层GMM结构优化算法在中文语音库下识别速度提升38%左右,噪声参数估计EM迭代初始值优化算法能够更加准确的估计出噪声参数,从而使系统误识率下降,特别是在低信噪比环境下效果更加明显。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号