复杂环境下基于深度学习的语音信号预处理方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，由深度学习引发的人工智能热潮正在影响和改变着人们的生活方式，人们不再满足单一文本、指令的人机交互，而是期待语音交互这种更加方便、快捷的交流方式。语音则成为其中不可或缺的信息媒介。然而语音在实际的传输过程中，背景噪声和人声干扰都会对语音造成一定的影响，使得语音的质量和可懂度下降，同时也给后续的应用带来挑战，比如语音识别、说话人识别等。在复杂的应用环境下，作为语音类应用的前端接口，语音信号预处理显得尤为重要，其可以细分出处理噪声干扰的语音增强和处理人声干扰的语音分离。语音增强是指语音信号被噪声干扰时，对噪声进行抑制，从混合信号中提取有用的语音信号的技术。一般的，语音增强所考虑的噪声类型是不涵盖类人声的干扰信号的。语音分离则是用来处理人声干扰的前端处理技术，旨在多说话人的场景下提取出目标说话人的语音信号而去除其他说话人的语音信号，应用场景如“鸡尾酒会问题”。对于语音增强任务来说，可分为传统语音增强算法和基于深度学习的语音增强算法。传统语音增强算法多是无监督的，通常需要对语音信号和噪声信号各自的特性及彼此之间的作用关系做出一定的假设。传统的无监督语音增强算法可以较好地处理平稳噪声，但是却难以处理非平稳噪声。近几年来，深度学习技术在多个领域得到了成功应用，也在语音增强领域得到了较多的关注和研究。早期研究发现，基于DNN（Deep Neural Network）的语音增强算法相较于传统语音增强算法可以取得很大的性能提升，尤其是在处理非平稳噪声的情况下。然而，基于DNN的有监督语音增强算法在实际应用中面对真实噪声场景、说话风格差异、低信噪比（Signal-to-Noise Ratio）时存在着推广性问题，如语音丢失、低可懂度等。针对这些问题，本文将围绕着训练数据构造、模型融合和新型模型结构设计来提升基于深度学习的语音增强算法在复杂的实际环境下的推广能力，着力解决低信噪比下的语音失真问题和对噪声类型的泛化问题。首先，在已有的DNN语音增强算法框架下，基于对低信噪比下训练数据的分析，利用语音端点检测（Voice Activity Detection,VAD）算法对训练数据进行处理，得到侧重点不同的两个DNN语音增强模型。测试阶段基于不同增强模型之间的互补性，通过VAD对两个DNN增强模型进行融合，来提升低信噪比下的语音增强性能，使得模型既能消除噪声又能保留必要的目标语音。其次，针对基于深度学习的语音增强模型的推广性问题，本文提出了全新的渐进式语音增强框架。该框架下的渐进式学习能够按照信噪比逐步递增的方式对语音增强问题进行分解，使得网络内部的功能得以明确，这有别于传统的“黑箱子”式的神经网络训练。在渐进式学习框架下，近一步提出密集连接的网络结构来提升模型的学习能力，使之能够训练出更深层、更好的语音增强模型。渐进式学习在DNN和长短时记忆网络（Long Short-Term Memory）两种网络结构中都取得了成功应用，提升了语音增强模型在实际应用场景下的推广能力。对于语音分离任务来说，也可分为传统的语音分离算法和基于深度学习的语音分离算法。传统的语音分离算法多是基于计算听觉场景分析(CASA)，CASA是建立在听觉场景分析的感知理论基础上，利用聚类约束(grouping cue)如基音频率(pitch)等特征线索对同一说话人的语音进行追踪。基于深度学习的语音分离算法可以细分为说话人相关的语音分离和说话人无关的语音分离。基于深度学习的说话人相关模型具有较好的分离效果，本文在说话人相关的场景下研究噪声环境下的语音分离和目标说话人训练数据受限情况下的语音分离。首先，在噪声环境下，基于深度学习的说话人相关语音分离模型把噪声干扰和人声干扰统一看作是对目标语音的干扰，利用神经网络对二者联合建模处理，实验过程中发现两个干扰之间存在互补性。其次，针对目标说话人训练数据不足的应用场景，本文提出两阶段的语音分离方案来解决数据问题，并在CHiME-5比赛的真实数据上进行了实验验证。

著录项

作者
高天;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科信息与通信工程
授予学位博士
导师姓名刘庆峰,杜俊;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
复杂环境; 深度学习; 语音信号预处理;

相似文献

中文文献
外文文献
专利

1. 基于深度学习的复杂环境下交通信号灯检测算法研究 [J] . 李昊 ,孙佳佳 . 信息通信 . 2021,第009期
2. 基于深度学习的漏洞检测中样本集预处理的方法研究 [J] . 王于叶 ,张皓天 ,许泽遥 . 无线互联科技 . 2020,第009期
3. 不平衡样本下基于变分自编码器预处理深度学习和DGA的变压器故障诊断方法 [J] . 张弛 ,吴东 ,王伟 . 南方电网技术 . 2021,第003期
4. 复杂环境下基于相关滤波的行人跟踪方法研究 [J] . 张亚须 ,云利军 ,龙晖 . 电脑知识与技术 . 2018,第009期
5. 基于Matlab的语音信号预处理技术研究 [J] . 刘琦 ,尹国祥 . 电子技术与软件工程 . 2014,第001期
6. 基于Kalman滤波预处理和动态增益调节的晃动基座下SINS罗经对准方法研究 [C] . 李宗涛 ,杨云春 ,吴铁军 . 第二届中国卫星导航学术年会（CSNC2011) . 2011
7. 基于深度学习的复杂环境目标检测方法研究 [A] . 马金涛 . 2021

复杂环境下基于深度学习的语音信号预处理方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅