首页> 中文学位 >基于计算听觉场景分析和深度神经网络的混响语音分离
【6h】

基于计算听觉场景分析和深度神经网络的混响语音分离

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景和意义

1.2研究现状

1.3本文的组织结构

第二章混响的基本知识

2.1房间混响

2.1.1混响的影响

2.1.2混响的特征参数

2.1.3混响的特点

2.2混响的模型

2.2.1数学模型

2.2.2仿真模型

2.3混响语音分离质量的评测指标

2.3.1主观评测指标

2.3.2客观评测指标

2.4本章小结

第三章 基于计算听觉场景分析的混响语音分离

3.1引言

3.2算法框架

3.2.1听觉外围处理

3.2.2特征提取

3.2.3多基音检测

3.2.4时频单元标记

3.2.5听觉分割和听觉重组

3.2.6语音合成

3.3实验结果与分析

3.4本章小结

第四章基于深度神经网络的混响语音分离

4.1深度神经网络

4.1.1深度神经网络的结构

4.1.2深度神经网络的训练

4.2基于DNN学习的单声道混响语音分离

4.2.1特征提取

4.2.2 DNN的模型训练

4.2.3后期处理

4.3基于DNN分类的双声道混响语音分离

4.3.1算法原理

4.3.2特征提取

4.3.3 DNN分类

4.4实验结果与分析

4.5本章小结

第五章 总结与展望

5.1全文总结

5.2研究展望

参考文献

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

在自然听觉环境中,语音信号被噪声源和混响所污染,人类拥有强大的听觉感知能力,在各种不利的条件下,也能够分辨出自己感兴趣的声音。利用计算机模拟这一感知能力是语音信号处理领域的热点课题。解决真实环境中语音分离的问题对很多应用必不可少,比如自动语音识别,音频信息检索和听觉恢复技术。
  封闭空间中,声音信号在各墙面或障碍物发生反射和衍射形成混响。到达麦克风的信号不仅有直达声还有前期反射和后期反射。混响相当于直达声和房间脉冲响应的卷积,在时域和频域扭曲了语音的声谱。启发于人类听觉场景分析,基于感知原则的计算听觉场景分析可用来处理语音分离问题。
  本文对混响环境下的语音分离问题进行研究,针对混响环境下语音信号谐波结构被破坏,传统的语音分离算法不稳定的问题,提出了两种混响语音分离的系统模型。本文的创新点主要有:
  1.计算听觉场景分析模拟人类听觉感知能力,根据理想二值模原理,可以提取出目标语音信号。混响条件下,基音的检测准确率降低,导致系统的性能变差。针对这一问题,本文提出基于隐马尔可夫模型的多基音检测算法,并在时频单元标记环节采用似然比检验选择正确的训练模型,提高单元标记的准确性。
  2.深度神经网络在语音识别和人工智能上展现出强大的学习能力,本文提出通过训练DNN模型学习“污染”语音和纯净语音之间的频谱映射进行反混响和去噪。通过提取一连串的频谱特征,融合相邻帧时间动态信息,利用DNN进行编码频谱转换,恢复纯净语音量级频谱图,最后重构时域信号。此外,本文还提出使用DNN的特征分类能力完成双声道混响语音分离。双声道特征ITD和ILD与单声道特征GFCC融合组成长特征向量,通过RBM对DNN预训练,以完成分类任务。
  实验结果表明,本文提出的模型提高了分离语音的质量和可懂度,增强了系统的稳定性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号