基于计算听觉场景分析和深度神经网络的混响语音分离

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在自然听觉环境中，语音信号被噪声源和混响所污染，人类拥有强大的听觉感知能力，在各种不利的条件下，也能够分辨出自己感兴趣的声音。利用计算机模拟这一感知能力是语音信号处理领域的热点课题。解决真实环境中语音分离的问题对很多应用必不可少，比如自动语音识别，音频信息检索和听觉恢复技术。
　　封闭空间中，声音信号在各墙面或障碍物发生反射和衍射形成混响。到达麦克风的信号不仅有直达声还有前期反射和后期反射。混响相当于直达声和房间脉冲响应的卷积，在时域和频域扭曲了语音的声谱。启发于人类听觉场景分析，基于感知原则的计算听觉场景分析可用来处理语音分离问题。
　　本文对混响环境下的语音分离问题进行研究，针对混响环境下语音信号谐波结构被破坏，传统的语音分离算法不稳定的问题，提出了两种混响语音分离的系统模型。本文的创新点主要有：
　　1．计算听觉场景分析模拟人类听觉感知能力，根据理想二值模原理，可以提取出目标语音信号。混响条件下，基音的检测准确率降低，导致系统的性能变差。针对这一问题，本文提出基于隐马尔可夫模型的多基音检测算法，并在时频单元标记环节采用似然比检验选择正确的训练模型，提高单元标记的准确性。
　　2．深度神经网络在语音识别和人工智能上展现出强大的学习能力，本文提出通过训练DNN模型学习“污染”语音和纯净语音之间的频谱映射进行反混响和去噪。通过提取一连串的频谱特征，融合相邻帧时间动态信息，利用DNN进行编码频谱转换，恢复纯净语音量级频谱图，最后重构时域信号。此外，本文还提出使用DNN的特征分类能力完成双声道混响语音分离。双声道特征ITD和ILD与单声道特征GFCC融合组成长特征向量，通过RBM对DNN预训练，以完成分类任务。
　　实验结果表明，本文提出的模型提高了分离语音的质量和可懂度，增强了系统的稳定性。

著录项

作者
曹猛;
展开▼
作者单位

太原理工大学;

展开▼
授予单位太原理工大学;
学科信息与通信工程
授予学位硕士
导师姓名李鸿燕;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
混响环境; 计算听觉场景; 语音分离; 隐马尔可夫模型; 深度神经网络; 频谱特征;

相似文献

中文文献
外文文献
专利

1. 基于计算听觉场景分析的单声道语音分离研究 [J] . 钱政 . 北京印刷学院学报 . 2020,第0z2期
2. 基于计算听觉场景分析的混合语音信号分离算法研究 [J] . 屈俊玲 ,李鸿燕 . 计算机应用研究 . 2014,第012期
3. 基于计算听觉场景分析的混合语音分离 [J] . 张磊 ,刘继芳 ,项学智 . 计算机工程 . 2010,第014期
4. 基于计算听觉场景分析的语音盲分离方法准确无误 [J] . 王卫华 ,黄凤岗 . 哈尔滨工程大学学报 . 2008,第004期
5. 基于计算听觉场景分析的混叠语音分离算法 [J] . 王忠文 ,谢莉萍 ,梁杰豪 . 电声技术 . 2008,第010期
6. 基于onset/offset的计算听觉场景分析语音盲分离方法 [C] . Li Hongyan ,李鸿燕 ,Zhang Xueying . 第十三届全国人机语音通讯学术会议 . 2015
7. 基于计算听觉场景分析的单通道混合语音分离算法研究 [A] . 冯起斌 . 2019

基于计算听觉场景分析和深度神经网络的混响语音分离

目录

摘要

著录项

相似文献

相关主题

期刊订阅