首页> 中文学位 >监督性语音分离中训练目标的研究
【6h】

监督性语音分离中训练目标的研究

代理获取

目录

声明

摘要

图目录

表目录

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.3 本论文主要内容

第二章 基本概念及原理介绍

2.1.1 噪声类型

2.1.2 监督性语音分离

2.1.3 训练目标

2.2 去混晌基本概念及原理

2.3 评价指标

2.3.1 STOI

2.3.2 PESQ

2.4 本章小结

第三章 基于DNN的语音分离与去混晌框架

3.1.1 深度神经网络的发展

3.1.2 深度神经网络的工作机制

3.2 基于深度神经网络的系统框架

3.2.1 时频分解

3.2.2 特征提取

3.2.3 波形合成

3.2.4 神经网络结构设置

3.3 本章小结

第四章 ORM与其他常用训练目标

4.1 优化浮值掩蔽

4.2 其他常用训练目标

4.2.1 傅里叶变换域的理想二值掩蔽(FFT Ideal Binary Mask,IBM_FFT)

4.2.2 傅里叶变换域的理想浮值掩蔽(FFT Ideal Ratio Mask,IRM_FFT)

4.2.3 复数域的理想浮值掩蔽(Complex Ideal Ratio Mask,cIRM)

4.2.4 相敏掩蔽(Phase Sensitive Mask,PSM)

4.3 本章小结

第五章 实验结果及分析

5.1.1 实验数据

5.1.2 实验设置

5.1.3 实验结果与分析

5.2.1 实验数据

5.2.2 实验结果与分析

5.3.1 实验数据

5.3.2 实验结果与分析

5.4 本章小结

第六章 总结与展望

参考文献

致谢

攻读硕士期间录用的学术论文

展开▼

摘要

语音分离是指从带有噪声的混合语音信号中提取出需要的目标语音信号,应用于鲁棒性语音识别、助听器设计和移动语音通信等领域。当前的语音分离技术在真实场景中的语音分离性能仍有待进一步提升。语音分离问题按照通道数分为单通道和多通道语音分离,本文主要研究单通道语音分离问题。
  语音分离问题可以被看做一个监督性学习问题,通过监督性学习算法加以解决。而对于监督性语音分离算法,训练目标是其中的关键环节之一,对分离性能有着重要影响。目前最常用的训练目标有理想二值掩蔽和理想浮值掩蔽,二者都是在假设纯净语音与噪声相互独立的条件下成立,在真实场景中难以满足。而复数域上的理想浮值掩蔽和相敏掩蔽考虑了语音信号的相位信息,不易于估计,因而实际分离效果仍不甚理想。
  相较于这些常用的时频掩蔽,本文所采用的优化浮值掩蔽,考虑了纯净语音与噪声间的相关性,符合真实场景中语音分离的条件。本文将其与监督性语音分离技术相结合,以优化浮值掩蔽作为分离目标,提出了解决语音分离问题的新方案。本文在多种噪声环境和信噪比条件下进行了仿真实验,并与几种目前常用训练目标进行对比分析,实验结果表明,本文所提出的方法进一步改善了语音分离的效果,更加适用于真实场景中的语音分离问题。考虑到优化浮值掩蔽是基于纯净语音与噪声的相关性信息,本文中进一步对更具有挑战性的不同人声之间的语音分离做了仿真实验,实验结果表明本文提出的分离方法对于不同说话人语音的分离同样具有性能优势。
  单通道语音去混响问题也是语音信号处理领域的研究重点之一。近年随着深度学习的推进,研究者们将深度学习应用于语音去混响问题,取得了不错的效果。本文将提出的语音分离方法用于实现语音去混响,实验结果表明去混响效果得到了一定程度的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号