首页> 中国专利> 一种非平稳噪声环境下传声器阵列的语音增强方法

一种非平稳噪声环境下传声器阵列的语音增强方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种在非平稳噪声环境下传声器阵列的语音增强方法，通过利用通道之间的相位信息，准确判断有效信号的概率，以提高抗非平稳噪声干扰的性能。该方法估计出有效信号存在概率具体包括如下步骤：(51)根据所需波束宽度计算门限T1＝NL sin(θ)/Fs，其中N表示帧长，L表示传声器单元间距，θ表示波束宽度，Fs为采样频率；(52)计算各通道输入信号在各频率点相位差ω的和值pd(n，ω)；(53)当pd(n，ω)＞ω(M-1)T1时，该频率点存在有效信号概率p1(n，ω)＝1，否则p1(n，ω)＝0，其中，M表示传声器个数。本发明由于利用了通道之间的相位信息，使得对有效信号的概率判断更加准确，提高了拾取语音的信噪比，提高了整体性能，特别是抗非平稳噪声干扰性能。

著录项

公开/公告号CN103165137A

专利类型发明专利
公开/公告日2013-06-19

原文格式PDF
申请/专利权人中国科学院声学研究所;
展开▼

申请/专利号CN201110427329.2
发明设计人吴鸣;杨飞然;杨军;
展开▼

申请日2011-12-19
分类号G10L21/0208(20130101);
代理机构11318 北京法思腾知识产权代理有限公司;
代理人杨小蓉;高宇
地址 100190 北京市海淀区北四环西路21号
入库时间 2024-02-19 19:28:57

法律信息

法律状态公告日

法律状态信息

法律状态
2018-03-30

专利权的转移 IPC(主分类):G10L21/0208 登记生效日:20180313 变更前: 变更后: 申请日:20111219

专利申请权、专利权的转移
2015-05-06

授权

授权
2013-07-24

实质审查的生效 IPC(主分类):G10L21/0208 申请日:20111219

实质审查的生效
2013-06-19

公开

公开

说明书

技术领域

本发明涉及传声器阵列语音增强领域，特别涉及一种在非平稳噪声环境下传声器阵列的语音增强方法。

背景技术

在视频会议系统、车载免提系统、语音识别系统等应用场合，通常需要在较远距离拾取目标语音。然而，由于背景噪声、干扰噪声及回声的存在，拾取的语音信噪比通常较低，而基于传声器阵列的语音增强技术是提高接收语音信噪比的常用手段之一。

目前，传声器阵列语音增强技术主要有两类，一类是基于常规波束形成的方法，这种方法的波束形状是固定的，不会随着干扰声信号的变化而变化，其对非方向性噪声如混响声有较好的抑制效果，语音增强性能随着传声器数量增多而提高，但是，对方向性干扰噪声，其抑制效果有限；另一类是基于自适应波束形成算法，其波束形状会随着干扰语音的变化而发生改变，自适应波束形成算法能够有效的抑制方向性干扰噪声但在弱相关噪声场或在散射噪声场中，性能不如传统波束形成算法。上述两种算法通常均需要干扰噪声是平稳过程，然而在实际使用环境下，干扰噪声通常是突发非平稳的，如语音干扰，在这种情况下，目前大部分的语音增强技术性能有限。

发明内容

本发明的目的在于，针对现有技术中存在的不足局限性，从而提供一种在非平稳噪声环境下传声器阵列的语音增强方法。

为实现上述发明目的，本发明提供的一种在非平稳噪声环境下传声器阵列的语音增强方法，通过利用通道之间的相位信息，准确判断有效信号的概率，以提高抗非平稳噪声干扰的性能。

该方法的步骤包括：

(1)根据传声器阵列的输入信号估计出噪声参考信号r(n)；

(2)采用自适应算法初步滤除各通道的输入信号中所含的噪声信号；

(3)对各通道中自适应滤波器的输出信号进行分帧加窗，再采用快速傅立叶变换变换至频域；

(4)估计背景噪声功率谱n(ω)，并由此得到当前帧的信噪比SNR(n，ω)；

(5)利用各通道之间的相位信息，再进一步根据和值与预定义门限T₁的关系得到有效语音信号存在概率p₁(n，ω)；

(6)估计出当前帧是有效语音帧的概率p_f(n)；

(7)计算出输出信号在各个频率点增益G(n，ω)；

(8)把处理后的频谱信号通过反傅里叶变换变换到时间域，作为输出信号；

所述步骤(5)中的估计出有效信号存在概率具体包括如下步骤：

(51)根据所需波束宽度计算门限T₁＝NL sin(θ)/Fs，其中N表示帧长，L表示传声器单元间距，θ表示波束宽度，Fs为采样频率；

(52)计算各通道输入信号在各频率点相位差ω的和值pd(n，ω)；

(53)当pd(n，ω)＞ω(M-1)T₁时，该频率点存在有效信号概率p₁(n，ω)＝1，否则p₁(n，ω)＝0，其中，M表示传声器个数。

作为上述技术方案的一种改进，所述的步骤(6)中的估计当前帧是有效语音帧的概率具体包括如下步骤：

(61)当前帧能量判断当前帧为背景噪声帧；

(62)计算满足pd(n，ω)＞ω(M-1)T₁频率点个数C；

(63)如果当前帧为背景噪声帧，计算α为平滑系数；

(64)当时，p_f(n)＝0，否则p_f(n)＝1。

作为上述技术方案的一种选择，所述的传声器阵列为两个传声器单元，该方法的具体步骤包括：

(1)根据两个传声器输入信号计算参考背景噪声信号：

r(n)＝x₁(n)-x₂(n)

其中，x_i(n)表示第i个传声器在时刻n的输入信号；

(2)以背景噪声信号作为参考信号对传声器信号进行自适应滤波初步去除传声器输入信号中的噪声，所述的自适应滤波算法采用NLMS算法，具体描述如下：

w_i(k，n)＝w_i(k，n-1)-μ(n)e_i(n)n(n) k＝0...K-1；

$μ (n) = \frac{μ}{Σ_{m - 0}^{K - 1} {| r (n - m) |}^{2}};$

${\hat{x}}_{i} (n) = x_{i} (n) - Σ_{m = 0}^{K - 1} w (k - m, n - 1) r (n - m);$

式中，K＝20为自适应滤波器阶数，w_i(k，n)为自适应滤波器系数，μ为归一化收敛系数，μ(n)为收敛系数。

(3)对自适应滤波器输出信号进行分帧加窗，再采用快速傅立叶转换求得对应的频域信号并计算波束输出：

$y (n, ω) = {\hat{x}}_{1} (n, ω) + {\hat{x}}_{2} (n, ω);$

(4)采用MCRA方法估计出背景噪声功率谱n(ω)，并由此得到信号信噪比：

$SNR (n, ω) = {| \frac{y (n, ω)}{n (ω)} |}^{2};$

(5)根据两个传声器单元在各频率点的相位差：

$pd (n, ω) = ∠ [\frac{x_{1}^{f} (n, ω)}{x_{2}^{f} (n, ω)}];$

其中，∠表示求取复数相位，

再进一步根据和值与预定义门限T₁的关系得到有效语音信号存在概率：

其中，预定义门限T₁为：

T₁＝NL sin(θ)/Fs，

式中，L表示传声器单元间距，θ表示波束宽度，Fs为采样频率；

(6)首先，计算满足pd(n，ω)＞ω(M-1)T₁频率点个数C；并计算当前帧总体能量：

$E (n) = Σ_{k = 0}^{N - 1} {| y (n, k) |}^{2};$

如果判断当前帧为背景噪声帧，更新

最后，得到当前帧为有效语音帧概率：

(7)计算总体增益：

$G (n, ω) = \frac{SNG (n, ω)}{1 + SNR (n, ω)} p_{1} (n, ω) p_{f} (n);$

增强后信号为：z(n，ω)＝G(n，ω)y(n，ω)；

(8)通过反傅里叶变换转为时域信号。

本发明的优点在于，本发明的传声器阵列语音增强具有如下优点：相比于其他方法，由于利用了通道之间的相位信息，使得对有效信号的概率判断更加准确，提高了拾取语音的信噪比，提高了整体性能，特别是抗非平稳噪声干扰性能。

附图说明

图1是为本发明传声器阵列的语音增强方法的流程示意图。

具体实施方式

以一个具体实施例对本发明的传声器阵列语音增强方法进行说明。实施例中传声器阵列单元个数为2，间距为8cm，波束宽度设为10度，采样频率为16000Hz。

如图1所示，首先，根据两个传声器输入信号计算参考背景噪声信号：

r(n)＝x₁(n)-x₂(n)；

其中，x_i(n)表示第i个传声器在时刻n的输入信号。以背景噪声信号作为参考信号对传声器信号进行自适应滤波，初步去除传声器输入信号中的噪声，自适应滤波算法可采用常用的NLMS算法，具体描述如下：

w_i(k，n)＝w_i(k，n-1)-μ(n)e_i(n)n(n) k＝0...K-1

$μ (n) = \frac{μ}{Σ_{m - 0}^{K - 1} {| r (n - m) |}^{2}}$

${\hat{x}}_{i} (n) = x_{i} (n) - Σ_{m = 0}^{K - 1} w (k - m, n - 1) r (n - m)$

其中K＝20为自适应滤波器阶数，w_i(k，n)为自适应滤波器系数。对自适应滤波器输出信号进行分帧加窗，最后采用快速傅立叶转换(FFT)求得对应的频域信号计算波束输出

$y (n, ω) = {\hat{x}}_{1} (n, ω) + {\hat{x}}_{2} (n, ω)$

采用Israel Cohen提出的MCRA方法估计出背景噪声率谱n(ω)，从而信号信噪比

$SNR (n, ω) = {| \frac{y (n, ω)}{n (ω)} |}^{2}$

计算两个传声器单元在各频率点的相位差

$pd (n, ω) = ∠ [\frac{x_{1}^{f} (n, ω)}{x_{2}^{f} (n, ω)}]$

其中∠表示求取复数相位。根据和值与预定义门限T₁的关系得到有效语音信号存在概率

预定义门限T₁通常选取为

T₁＝NL sin(θ)/Fs，

其中L＝0.08表示传声器单元间距，θ＝10°表示波束宽度，Fs＝16000为采样频率。

计算满足pd(n，ω)＞ω(M-1)T₁频率点个数C；计算当前帧总体能量

$E (n) = Σ_{k = 0}^{N - 1} {| y (n, k) |}^{2}$

判断判断当前帧为背景噪声帧，更新

$\overline{C} = 0.98 \overline{C} + 0.02 C$

计算当前帧为有效语音帧概率

计算总体增益

$G (n, ω) = \frac{SNG (n, ω)}{1 + SNR (n, ω)} p_{1} (n, ω) p_{f} (n)$

增强后信号

z(n，ω)＝G(n，ω)y(n，ω)

最后通过反傅里叶变换转为时域信号。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种非平稳噪声环境下传声器阵列的语音增强方法 [P] . 中国专利： CN103165137B . 2015.05.06
2. 一种适用于非平稳噪声环境下的在线语音增强方法 [P] . 中国专利： CN106340304B . 2019.09.06
3. Speech Enhancement and Audio Event Detection for an Environment with Non-Stationary Noise [P] . 美国专利： US2017323653A1 . 2017-11-09

机译：非平稳噪声环境下的语音增强和音频事件检测
4. A SPEECH REINFORCEMENT METHOD USING SOFT DECISION UNDER FRA-END NOISE ENVIRONMENTS [P] . 韩国专利： KR20100073150A . 2010-07-01

机译：前端噪声环境下基于软决策的语音增强方法
5. SPEECH PROCESSING METHOD FOR SPEECH ENHANCEMENT IN HIGHLY NONSTATIONARY NOISE ENVIRONMENTS [P] . 韩国专利： KR100798056B1 . 2008-01-28

机译：高度非平稳噪声环境中语音增强的语音处理方法