首页> 中文学位 >复杂环境下基于深度学习的语音信号预处理方法研究
【6h】

复杂环境下基于深度学习的语音信号预处理方法研究

代理获取

目录

声明

摘要

第1章绪论

1.1.1.研究意义

1.1.2.语音增强的定义及分类

1.1.3.语音分离的定义及分类

1.2语音增强的研究概况及算法概述

1.2.1.语音增强的研究概况

1.2.2.语音增强算法概述

1.3语音分离的研究概况及算法概述

1.3.1.语音分离的研究概况

1.3.2.语音分离算法概述

1.4本文的研究内容和组织安排

1.4.1.本文的研究内容

1.4.2.本文的组织安排

第2章 基于深度学习的语音信号预处理方法回顾

2.1基于深度学习的有监督训练

2.1.1.基本要素

2.1.2.常用深度神经网络介绍

2.2基于深度学习的语音增强

2.2.1.输入特征

2.2.2.模型结构

2.2.3.目标优化

2.3基于深度学习的语音分离

2.3.1.说话人相关的语音分离

2.3.2.说话人无关的语音分离

2.4本章小结

第3章低信噪比下联合VAD的DNN语音增强

3.1 引言

3.2联合VAD的DNN语音增强

3.2.1.系统介绍

3.2.2.语音增强模型训练

3.2.3.语音端点检测(VAD)模型训练

3.2.4.模型融合

3.3.1.实验配置

3.3.2.说话人无关的语音增强

3.3.3.说话人相关的语音增强

3.4本章小结

第4章基于渐进式学习的语音增强

4.1 引言

4.2渐进式语音增强

4.3改进的渐进式语音增强

4.3.1.密集连接的渐进式语音增强

4.3.2.后处理

4.4实验和结果

4.4.1.语音增强实验

4.4.2. 语音识别实验

4.5本章总结

第5章噪声环境下说话人相关的语音分离

5.1 引言

5.2语音增强和语音分离的联合建模

5.3实验和结果

5.4本章小结

第6章真实复杂环境下语音信号预处理的应用

6.1 引言

6.2渐进式语音增强

6.3资源受限场景下说话人相关的语音分离

6.4总结

第7章总结

7.1 本文的主要贡献与创新点

7.2后续的研究工作

参考文献

在读期间发表的学术论文与取得的研究成果

致谢

展开▼

摘要

近年来,由深度学习引发的人工智能热潮正在影响和改变着人们的生活方式,人们不再满足单一文本、指令的人机交互,而是期待语音交互这种更加方便、快捷的交流方式。语音则成为其中不可或缺的信息媒介。然而语音在实际的传输过程中,背景噪声和人声干扰都会对语音造成一定的影响,使得语音的质量和可懂度下降,同时也给后续的应用带来挑战,比如语音识别、说话人识别等。在复杂的应用环境下,作为语音类应用的前端接口,语音信号预处理显得尤为重要,其可以细分出处理噪声干扰的语音增强和处理人声干扰的语音分离。语音增强是指语音信号被噪声干扰时,对噪声进行抑制,从混合信号中提取有用的语音信号的技术。一般的,语音增强所考虑的噪声类型是不涵盖类人声的干扰信号的。语音分离则是用来处理人声干扰的前端处理技术,旨在多说话人的场景下提取出目标说话人的语音信号而去除其他说话人的语音信号,应用场景如“鸡尾酒会问题”。 对于语音增强任务来说,可分为传统语音增强算法和基于深度学习的语音增强算法。传统语音增强算法多是无监督的,通常需要对语音信号和噪声信号各自的特性及彼此之间的作用关系做出一定的假设。传统的无监督语音增强算法可以较好地处理平稳噪声,但是却难以处理非平稳噪声。近几年来,深度学习技术在多个领域得到了成功应用,也在语音增强领域得到了较多的关注和研究。早期研究发现,基于DNN(Deep Neural Network)的语音增强算法相较于传统语音增强算法可以取得很大的性能提升,尤其是在处理非平稳噪声的情况下。然而,基于DNN的有监督语音增强算法在实际应用中面对真实噪声场景、说话风格差异、低信噪比(Signal-to-Noise Ratio)时存在着推广性问题,如语音丢失、低可懂度等。针对这些问题,本文将围绕着训练数据构造、模型融合和新型模型结构设计来提升基于深度学习的语音增强算法在复杂的实际环境下的推广能力,着力解决低信噪比下的语音失真问题和对噪声类型的泛化问题。 首先,在已有的DNN语音增强算法框架下,基于对低信噪比下训练数据的分析,利用语音端点检测(Voice Activity Detection,VAD)算法对训练数据进行处理,得到侧重点不同的两个DNN语音增强模型。测试阶段基于不同增强模型之间的互补性,通过VAD对两个DNN增强模型进行融合,来提升低信噪比下的语音增强性能,使得模型既能消除噪声又能保留必要的目标语音。 其次,针对基于深度学习的语音增强模型的推广性问题,本文提出了全新的渐进式语音增强框架。该框架下的渐进式学习能够按照信噪比逐步递增的方式对语音增强问题进行分解,使得网络内部的功能得以明确,这有别于传统的“黑箱子”式的神经网络训练。在渐进式学习框架下,近一步提出密集连接的网络结构来提升模型的学习能力,使之能够训练出更深层、更好的语音增强模型。渐进式学习在DNN和长短时记忆网络(Long Short-Term Memory)两种网络结构中都取得了成功应用,提升了语音增强模型在实际应用场景下的推广能力。 对于语音分离任务来说,也可分为传统的语音分离算法和基于深度学习的语音分离算法。传统的语音分离算法多是基于计算听觉场景分析(CASA),CASA是建立在听觉场景分析的感知理论基础上,利用聚类约束(grouping cue)如基音频率(pitch)等特征线索对同一说话人的语音进行追踪。基于深度学习的语音分离算法可以细分为说话人相关的语音分离和说话人无关的语音分离。基于深度学习的说话人相关模型具有较好的分离效果,本文在说话人相关的场景下研究噪声环境下的语音分离和目标说话人训练数据受限情况下的语音分离。首先,在噪声环境下,基于深度学习的说话人相关语音分离模型把噪声干扰和人声干扰统一看作是对目标语音的干扰,利用神经网络对二者联合建模处理,实验过程中发现两个干扰之间存在互补性。其次,针对目标说话人训练数据不足的应用场景,本文提出两阶段的语音分离方案来解决数据问题,并在CHiME-5比赛的真实数据上进行了实验验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号