首页> 中文学位 >基于人耳听觉特性的语音识别及在人机交互上的应用
【6h】

基于人耳听觉特性的语音识别及在人机交互上的应用

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题研究背景及意义

1.2 国内外发展历史及研究现状

1.3 课题来源以及本文研究的主要内容

1.3.1 课题来源

1.3.2 本课题研究的主要内容

1.4 本章小结

第二章 基于人耳听觉特性的语音识别原理

2.1 人耳语音接收过程的生理学基础

2.2 语音信号的听觉处理机制

2.2.1 耳蜗的信号处理机制

2.2.2 毛细胞的信号处理机制

2.2.3 听觉神经纤维的信号处理机制

2.3 语音感知特性和噪声特性

2.3.1 语音特性

2.3.2 噪声特性

2.4 典型的基于人耳听觉的语音识别系统

2.5 本章小结

第三章 基于语音分离的语音信号预处理研究及实现

3.1 语音信号预处理的研究及选定

3.1.1 基于端点检测和语音增强的预处理

3.1.2 基于语音分离技术的预处理的选定

3.2 语音分离技术的研究与选定

3.2.1 盲源语音分离

3.2.2 计算听觉场景分析

3.2.3 语音分离算法的选定

3.3 基于人耳听觉特性的语音分离的语音信号预处理建模

3.3.1 改进的CASA语音分离的整体模型设计

3.3.2 听觉外周模型

3.3.3 语音信号定位信息提取

3.3.4 重合神经元模型

3.4 本章小结

第四章 基于人耳听觉特性的特征提取研究及实现

4.1 语音特征参数研究及选定

4.1.1 线性预测倒谱系数LPCC

4.1.2 美尔频率倒谱系数MFCC

4.1.3 过零峰值幅度特征ZCPA

4.1.4 基于人耳听觉特性的特征提取方法选定

4.2 基于人耳听觉特性的特征提取方法及实现

4.2.1 人耳听觉特性

4.2.2 人耳听觉滤波器的研究及比较

4.2.3 听觉滤波器的选定

4.2.4 GT滤波器的设计改进及实现

4.2.5 GC滤波器的设计改进及实现

4.2.6 改进的MFCC特征提取方法及实现

4.2.7 改进的ZCPA特征提取方法及实现

4.3 本章小结

第五章 基于人耳听觉特性的语音人机交互系统设计及实现

5.1 人耳听觉特性模拟和语音识别的仿真结果与分析

5.1.1 用GT-4和GC-4模拟人耳听觉特性

5.1.2 语音信号预处理实验与结果分析

5.1.3 不同特征参数的识别结果分析

5.2 智能轮椅语音人机交互系统的设计

5.2.1 智能轮椅语音人机交互系统硬件配置

5.2.2 软件设计与实现

5.3 智能轮椅人机交互系统识别结果与分析

5.3.1 实验路径规划

5.3.2 实验结果与分析

5.4 本章小结

第六章 总结与展望

6.1 完成的主要工作

6.2 进一步的工作展望

致谢

参考文献

附录

展开▼

摘要

随着噪声的增加,机器语音识别性能急剧恶化,而人类听觉系统的识别效果却是相对稳定的,这就启发了我们从仿生的角度来研究语音识别,而基于听觉特性的语音识别研究也是目前的研究热点和难点之一。因此,基于人耳听觉特性的语音识别人机交互具有非常重要的理论研究意义和较高的实际应用价值。
   首先,对基于人耳听觉特性的语音识别原理进行了深入的理论研究,掌握了人耳语音接收过程的生理学和人耳听觉系统对语音信号的信号处理机制,总结了语音感知特性和噪声特性,并给出了典型的基于人耳听觉特性的语音识别系统,为以后的研究打下的扎实的理论基础。
   接着,本文研究了基于语音分离的预处理。本文对传统基于端点检测和语音增强的预处理方法进行了研究,发现其只适用于较为简单的噪声(如:高斯白噪声)环境下,且随着信噪比的下降,语音识别系统的识别率直线下滑。因此,我们将基于人耳的听觉选择能力即“鸡尾酒会效应”的语音分离技术应用到前端,更有利于提高语音识别系统在多声源和复杂噪声环境下的识别性能。
   然后,本文研究了基于入耳听觉特性的语音特征提取。本文阐述了几种常见的语音特征LPCC、MFCC和ZCPA,并对其优缺点进行了比较。同时,本文对人耳听觉模型进行了研究和对比,在原有的人耳听觉滤波器GT和GC滤波器的基础上,针对GT和GC滤波器频率选择特性不够尖锐的问题,提出了GT-4和GC-4滤波器;同时,针对Mel刻度不符合听觉特性中临界带宽的问题,将改进的滤波器按ERB刻度排列。随后将GT-4,GC-4滤波器与MFCC,ZCPA结合,获得了改进的MFCC、ZCPA特征提取方法。
   最后,本文做了大量的验证实验,结果表明:在不同的声压级和不同信噪比的多种噪声环境下,所提算法性能较之MFCC均有不同程度的提高,随着声压级从40dB降到-20dB,MFCC的识别率降低了22.83%,而ERBCC-GC4和ZCPA-GC4分别只降低了2.60%和3.47%;随着信噪比从30dB降到0dB,MFCC的识别率降低了18.52%,而ERBCC-GC4和ZCPA-GC4分别只降低了6.55%和4.38%;特别是当信噪比为0dB时,ERBCC-GC4和ZCPA-GC4比MFCC的识别率分别高出16.28%和19.64%,体现出了较好的噪声鲁棒性。最后,本文在智能轮椅人机交互平台上进行了基于语音人机交互的控制实验,实验表明,智能轮椅能按照指定路线行走。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号