首页> 中文学位 >鲁棒的双耳语音分离算法的研究
【6h】

鲁棒的双耳语音分离算法的研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 语音分离技术的研究背景及意义

1.2 语音分离技术的研究现状

1.3 本文的主要研究内容

1.3.1 基于频点归类的改进双耳语音分离算法

1.3.2 基于子带的语音分离算法

1.4 本文的组织结构

第二章 基于双耳空间信息的语音分离方法综述

2.1 人类听觉的生物学基础

2.1.1 人耳的生理构造和特点

2.1.2 听觉特性

2.1.3 空间坐标系

2.2 双耳的空间线索

2.2.1 耳间时间差

2.2.2 耳间强度差

2.3 耳周听觉处理

2.3.1 Gammatone滤波器组

2.3.2 神经传递函数模型

2.4 双通道语音信号采集

2.4.1 与头相关传递函数

2.4.2 双耳声信号的计算机合成

2.4.3 双耳声信号的人工头采集

2.5 基于空间线索的鲁棒语音分离研究概述

2.5.1 已有的语音分离算法

2.5.2 鲁棒的语音分离算法

2.5.3 仿真算法的性能评估

2.6 本章小结

第三章 基于DUET双耳分离算法的改进

3.1 空间线索提取

3.1.1 预处理

3.1.2 耳间空间线索提取

3.2 基于Gammatone滤波器组的平滑

3.2.1 基于时频点分离的原理

3.2.2 子带平滑模块

3.3 基于逻辑回归函数的平滑

3.3.1 逻辑回归函数介绍

3.3.2 Sigmoid函数平滑

3.4 两种平滑模块的实验与仿真

3.4.1 仿真测试环境

3.4.2 算法性能对比

3.5 本章小结

第四章 基于子带的双耳分离算法

4.1 子带特征分析

4.1.1 听觉外周模型

4.1.2 子带特征提取

4.1.3 特征分布分析

4.2 基于概率密度估计的分离模型

4.2.1 核密度估计原理

4.2.2 训练样本的获取

4.2.3 基于核密度估计的分离模型

4.3 基于支持向量机的分离模型

4.3.1 支持向量机原理

4.3.2 语音分离模型

4.4 基于子带的语音分离算法的实验与分析

4.4.1 仿真环境配置

4.4.2 算法性能评估指标

4.4.3 基于核密度估计的分离模型

4.4.4 基于支持向量机的分离模型

4.4.5 两种分离模型分析

4.5 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

致谢

参考文献

攻读硕士学位期间参加的科研项目和完成的论文

展开▼

摘要

语音分离的研究在语音通信、信号增强等领域有着重要意义。语音分离作为语音信号处理的前端模块,其性能的好坏直接决定整个语音系统的性能优劣。基于人的双耳听觉机制,双耳语音分离比单声道语音分离有着更加鲁棒的特性。因此,本文探讨鲁棒的双耳语音分离问题,基于空间线索和时频分析特性,提出了多声源混合语音的双耳语音分离算法。论文提出的算法包括两个方面:基于改进DUET(Degenerate Unmixing Estimation Technique)算法的平滑分离技术、基于计算机听觉场景分析CASA(Computational Auditory Scene Analysis)的子带分离算法。
  (1)基于DUET算法的平滑技术。传统的DUET分离算法基于语音信号的频域稀疏性,生成不同声源语音的二值掩膜,然而,这种硬编码的方式会产生目标声源频域频点成分丢失的问题。本文提出构建概率形式的掩膜,利用两种思路实现软编码。一种是基于Gammatone滤波器组的子带平滑,利用已有的二值掩膜和子带的频谱函数,计算各个子带的比重系数,推导出每个时频点的软编码值。另一种是基于Sigmoid函数的平滑,Sigmoid函数对于分布概率密度函数呈倒钟形的信号有着优秀的拟合能力,将候选方位的匹配距离转换成分离语音的软编码形式的掩膜。本文采用PES Q(Perceptual Evaluation of Speech Quality)值作为评价指标,仿真实验表明两种平滑技术在多种环境下均能取得了鲁棒的提升。
  (2)基于计算机听觉场景分析CASA的子带分离算法。混合语音经过子带滤波和分帧加窗,得到时频单元,即T-F(Time-Frequence)单元。双耳语音分离问题演变成T-F单元的归属问题。本文提出两种算法得到T-F单元的掩膜矩阵。其一为基于核密度估计KDE(Kernel Density Estimation)的生成模型。训练阶段,利用核密度估计函数计算得到不同方位角各个子带的特征分布的概率密度函数库,测试阶段,通过比较混合语音的T-F单元的特征矢量在不同角度的概率密度大小,确定T-F单元的归属;其二为基于支持向量机SVM(Support Vector Machine)的判别模型。这里将双耳语音分离问题看成多分类问题,在特征空间,训练一个SVM多分类器,从而计算混合语音的T-F单元对应的特征矢量的归属。两种算法采用的双耳特征均为耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)。本文采用HIT-FA(HIT rate minus False-Alarm rate)和SDR(Source to Distortion Ratio)、SAR(Sources to Artifacts Ratio)、SIR(Source to Interferences Ratio)为评价指标,实验结果显示,两种基于子带的分离算法与实验室已有的算法相比,均有显著提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号