首页> 中国专利> 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法

基于多模型和听觉特性的麦克风阵列后滤波语音增强方法

摘要

本发明公开了一种基于多模型和听觉特性的麦克风阵列后滤波语音增强方法。针对影响麦克风阵列后滤波语音增强性能的两个重要因素:对于信号参数的准确估计和在增加降噪性能与减少语音畸变之间合适的折中,本发明的方案包括下列步骤:对麦克风阵列采集到的信号进行时域对齐,短时傅里叶变换和功率谱的特征值分解;通过极大化带噪语音信号中目标语音信号的存在概率,来确定信号子空间的维度;基于谱的平稳性,自适应选择带噪语音信号中噪声功率谱的分布模型;利用条件概率估计噪声功率谱;基于信号子空间估计听觉掩蔽阈值;根据听觉感知特性,结合拉格朗日乘子估计后滤波器。

著录项

  • 公开/公告号CN101778322A

    专利类型发明专利

  • 公开/公告日2010-07-14

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN200910250393.0

  • 发明设计人 刘文举;程宁;李超;

    申请日2009-12-07

  • 分类号H04R1/20(20060101);H04R3/00(20060101);G10L21/02(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人梁爱荣

  • 地址 100080 北京市海淀区中关村东路95号

  • 入库时间 2023-12-18 00:10:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-09-25

    授权

    授权

  • 2010-09-15

    实质审查的生效 IPC(主分类):H04R1/20 申请日:20091207

    实质审查的生效

  • 2010-07-14

    公开

    公开

说明书

技术领域

本发明涉及麦克风阵列的信号子空间方法、听觉掩蔽效应及后滤波器的设计。

背景技术

现实生活中的语音常常受到环境中噪声的影响,多通道语音增强方法在近些年来受到了广泛的关注。麦克风阵列语音增强方法相对于单通道语音增强方法的优势在于它可以利用多路信号之间的相关性更准确地估计信号的特性,从而达到更好的语音增强效果。其中,麦克风阵列后滤波语音增强方法更是由于其出色的降噪性能近年来得到了广泛的使用。Simmer等(参考文献1:K.Uwe Simmer,et al,“Post-filtering techniques”,inMicrophone Arrays,M.Brandstein and D.Ward,Eds.New York:Springer,ch.3,pp.36-60,2001.)证明了最小均方误差意义下的最优多通道语音增强解可分解为一个最小方差非畸变响应波束形成器加上一个单通道的维纳后滤波器的形式。尽管理论上证明了后滤波方法的最优性,但在实际应用中,由于很难精确地估计出语音信号和噪声信号的功率谱来得到理想的后滤波器,限制了后滤波方法的性能。所以,合理的后滤波器设计,准确的信号功率谱估计都可以使得语音增强方法的性能得到大幅的提高。Zelinski(参考文献2:R.Zelinski,“A microphone array with adaptive post-filteringfor noise reduction in reverberant rooms”,in Proc.of ICASSP-88,1988,Vol.5,pp.2578-2581.)假设各个阵元上的噪声信号是不相关的,提出了一种后滤波器设计方法。但由于实际环境中,阵元噪声之间是存在一定相关性的,所以该方法性能较差。McCowan(参考文献3:Iain A.McCowan,HervéBourlard,“Microphone array post-filter based on noise field coherence”,IEEETransaction on Speech and Audio Processing,Vol.11,pp.709-715,Nov.2003.)考虑了噪声之间的相关性,利用散射噪声场的特性,提出了一种后滤波器设计方法,具有较好的语音增强性能。但由于其方法是基于散射噪声场假设的,所以,当实际场合中的噪声场不符合散射噪声场时,该方法性能会有明显的下降。本发明利用人耳的听觉掩蔽效应,提出了一种基于听觉感知特性的后滤波器设计方法。为了更准确地估计噪声功率谱,本发明将带噪信号空间分解为信号子空间和噪声子空间,提出了用目标语音信号信号存在概率最大化来估计子空间维度的方法,合理地估计出信号子空间和噪声子空间的维度,在噪声子空间上,提出了用条件概率估计噪声功率谱的方法。实验证明,本发明所提出的噪声估计方法比以往的噪声估计方法更为准确,所提出的基于听觉感知特性的后滤波器也比传统的后滤波器更为有效。

假设由L个麦克风组成的阵列上接收到的带噪语音信号向量的频域表示为:X=[X1,…,XL]H。由阵列输入信号的加权相加得到的增强后的语音信号的频域表示如下:

Y=wHX=wH[Sd+N]    (1)

其中,模型w是阵列加权系数,S是目标信号,d=[d1,…,dL]T是传播向量,N=[N1,…,NL]H是噪声信号向量,[·]H为共轭转置算子。

误差信号e=S-wHX的功率为:

φee=E[{S-wHX}{SH-XHw}]=φSS-wHφXS-φXSHw+wHΦXXw---(2)

其中,ΦXX是多通道带噪语音信号X的交叉功率谱矩阵,φXS是多通道带噪语音信号X与单通道目标信号S的互功率谱,φSS是单通道目标语音信号S的功率谱。

令φee对权值w求导数,使其为零,可得最优加权系数:

wopt=ΦXX-1φXS---(3)

在目标语音信号与噪声不相关的假设下,(3)式变为:

wopt=ΦXX-1φSSd=[φSSddH+ΦNN]-1φSSd---(4)

应用Sherman-Morrison-Woodbury恒等式,上式又可表示为:

wopt=[φSSφSS+(dHΦNN-1d)-1]ΦNN-1ddHΦNN-1d=[φSSφSS+φNN]ΦNN-1ddHΦNN-1d---(5)

其中,φNN分别是单通道噪声的自功率谱,ΦNN是多通道噪声交叉功率谱矩阵。式(5)可看成一个最小方差非畸变响应波束形成器加上一个单通道的维纳后滤波器φSS/(φSSNN)。

发明内容

为了解决现有技术的问题,本发明的目的在于对单通道后滤波器进行设计,利用多分布模型自适应选择方法和听觉特性设计一种新的后滤波器。单通道后滤波器设计需要考虑的问题包括两个方面:好的降噪性能和较小的目标语音信号畸变。通常而言,后滤波器在降噪的同时,也可能会增加目标语音信号的畸变。所以,对这两者进行合理的折中是后滤波器设计必须考虑的问题。

为达成所述目的,本发明提供一种基于多模型和听觉特性的麦克风阵列后滤波语音增强方法,该方法的具体步骤如下:

步骤a:通过L个麦克风组成的麦克风阵列采集带噪声的多路语音信号,把各路带噪声的语音信号进行时域对齐,使用短时离散傅里叶变换将对齐后的各路信号表示成复数值的频率信号形式,计算麦克风阵列多路信号的功率谱矩阵并对此功率谱矩阵进行特征值分解得到特征值矩阵和特征向量矩阵;

步骤b:通过极大化带噪语音信号中目标语音信号的存在概率,确定信号子空间的维度Q,且Q≤L;

步骤c:基于谱的平稳性,自适应选择带噪语音信号中噪声功率谱分布模型;

步骤d:利用条件概率估计噪声功率谱;

步骤e:根据信号子空间维度和噪声功率谱估计,利用听觉掩蔽效应,基于信号子空间估计得到各频点的听觉掩蔽阈值;

步骤f:根据噪声功率谱、听觉掩蔽阈值,结合拉格朗日乘子估计后滤波器,使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值,从而消除残余噪声影响,并使目标语音信号的畸变尽可能的小,完成麦克风阵列后滤波语音增强。

其中,所述对功率谱矩阵进行特征值分解,包括:

利用特征值分解将带噪语音信号空间分为两个子空间,即信号子空间:包含目标语音信号和噪声;噪声子空间:只包含噪声;把带噪语音信号X在时帧t和频率k的功率谱矩阵ΦXX(k,t)特征值分解为:

ΦXX(k,t)=UΛXXUH=U(ΛSSNN(k,t)I)UH

其中,X=S+N,X为带噪语音信号,S为目标语音信号,N为噪声;ΛXX为特征值降序排列的带噪语音信号功率谱特征值矩阵,ΛSS为特征值降序排列的目标语音信号功率谱特征值矩阵,U为特征向量矩阵,φNN(k,t)为时帧t和频率k的噪声功率,I为L阶单位阵,[·]H为共轭转置算子。

其中,所述确定信号子空间维度是取最合适的Q值使得带噪语音中目标语音信号存在的概率最大;利用条件概率计算,步骤包括:

定义互斥事件H0和H1

事件H0:带噪语音信号中,只存在噪声,不存在目标语音信号;

事件H1:带噪语音信号中,目标语音信号与噪声同时存在;

信号子空间维度Q定义为:

argmaxQP(S(k,t)|H1)

其中,S(k,t)是目标语音信号信号在第t帧的第k个频率点上的功率谱,P(·)是目标语音信号谱的分布函数,argmax(·)是寻找具有最大评分的参数值的算子。

其中,所述基于谱的平稳性,自适应选择带噪语音信号中噪声功率谱分布模型,包括以下步骤:

步骤c1:定义一个用来表述功率谱的平稳性的判别函数Ω:

Ω=Πi=Q+1LλXi(L-Q)1L-QΣi=Q+1LλXi

即,Ω为几何平均对算术平均的比值,其中,是带噪语音信号功率谱特征值矩阵ΛXX的第i个特征值,i∈{Q+1,…,L}是特征值的下标,Ω的值在0到1之间;

步骤c2:根据判别函数值与预设阈值比较,确定适用在带噪语音信号中的噪声功率谱分布模型。

其中,所述根据判别函数值与预设阈值的比较步骤包括:

步骤c21:确定两个预设阈值Ω1和Ω2,Ω1<Ω2

步骤c22:比较判别函数与预设阈值,特别地,如果判别函数小于预设阈值Ω1,则选用零均值高斯分布;如果判别大于预设阈值Ω2,则选用伽玛分布;否则选用拉普拉斯分布。

其中,利用条件概率估计噪声功率谱的步骤包括:

对于每一帧带噪语音信号,它只含有噪声的概率是P(H0|X),即含有噪声又含有目标语音信号的概率是P(H1|X);针对这两种情况,分别估计噪声功率谱如下:

H0:φNN0=1LΣi=1LλXiH1:φNN1=1L-QΣi=Q+1LλXi

其中,和分别是噪声在互斥事件H0和H1发生情况下的功率谱,i∈{1,…,L}是特征值的下标;

根据条件概率公式,噪声功率谱估计如下:

φ~NN=P(H0|X)φNN0+P(H1|X)φNN1.

其中,所述估计听觉掩蔽阈值的步骤包括:

步骤f1:将听觉频率范围0-15500Hz划分为若干个关键子频带;

步骤f2:分别计算每个子频带中的听觉掩蔽阈值。

其中,所述计算每个子频带中的听觉掩蔽阈值是计算各子频带上各频点的能量,计算人耳基膜对于各频段声音的传播系数,然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值,再根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系计算得到掩蔽阈值。

其中,所述结合拉格朗日乘子估计后滤波器G的步骤如下:

步骤fa:在残余噪声功率小于掩蔽阈值的约束条件下,最小化目标语音信号的畸变,以此建立最优化问题;

步骤fb:结合拉格朗日乘子求解,得到后滤波器的最优估计;

步骤fc:带入听觉掩蔽阈值和噪声功率谱估计,完成后滤波器的设计。

本发明的有益效果:本发明利用人耳的听觉掩蔽效应提出了一种合理的折中方案,设计了一种新的基于听觉感知特性的后滤波器。传统的噪声估计方法是基于VAD的噪声估计方法,也就是检测出带噪语音中的纯噪声帧,用这些帧上的平均功率谱来估计语音与噪声混合帧上的噪声功率谱。由于噪声是变化的,各帧上的噪声实际上是不同的。所以,基于VAD的噪声估计方法用纯噪声帧上的平均噪声功率谱来估计所有帧上的噪声功率谱会导致较大的估计误差。针对这一情况,本发明提出了一种基于带噪信号子空间分解的噪声功率谱估计方法,在每一帧信号上都估计噪声功率谱,极大的减少了噪声估计误差。接着,本发明利用人耳的听觉掩蔽效应设计后滤波器,使得增强后语音中的残余噪声被目标语音所掩蔽,在降噪的同时也减少了目标语音的失真。

附图说明

本发明进一步的特色和优点将参考说明性的附图在下面描述。

图1示出一个应用基于多模型和听觉特性的麦克风阵列后滤波语音增强方法的示例流程图;

图2是一个确定信号子空间维度方法的流程图;

图3是一个确定带噪语音信号中噪声功率谱分布模型的流程图;

图4是一个利用条件概率估计噪声功率谱的流程图;

图5是一个计算听觉掩蔽阈值的流程图;

图6是一个设计后滤波器的流程图。

具体实施方式

应当理解,不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例;被描述的说明性实施例仅仅是例证本发明的各个步骤,其范围由附加的权利要求来定义。

本发明利用人耳的听觉掩蔽效应提出了一种合理的折中方案,设计了一种新的基于听觉感知特性的后滤波器。人耳的听觉掩蔽效应是指,在通常情况下,目标语音信号信号是强信号,而背景噪声相对较弱,这样听觉系统会根据具体的目标语音信号信号确定频域上的听觉掩蔽阈值,如果使滤波后的残余噪声限制在人耳的听觉掩蔽阈值之下,那么该噪声就不会被人耳感知,从而实现对带噪语音信号的增强。具体的步骤如下:

一种新的基于多模型和听觉特性的麦克风阵列后滤波语音增强方法,包括下列步骤:

步骤a:通过L个麦克风组成的麦克风阵列采集带噪声的多路语音信号,把各路带噪声的语音信号进行时域对齐,使用短时离散傅里叶变换将对齐后的各路信号表示成复数值的频率信号形式,计算麦克风阵列多路信号的功率谱矩阵并对此功率谱矩阵进行特征值分解得到特征值矩阵和特征向量矩阵;

步骤b:通过极大化带噪语音信号中目标语音信号的存在概率,确定信号子空间的维度Q;

步骤c:基于谱的平稳性,自适应选择带噪语音信号中噪声功率谱分布模型;

步骤d:利用条件概率估计噪声功率谱;

步骤e:根据信号子空间维度和噪声功率谱估计,利用听觉掩蔽效应,基于信号子空间估计得到各频点的听觉掩蔽阈值;

步骤f:根据噪声功率谱、听觉掩蔽阈值,结合拉格朗日乘子估计后滤波器,使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值,从而消除残余噪声影响,并使目标语音信号的畸变尽可能的小,完成麦克风阵列后滤波语音增强。

通常使用的噪声估计方法是基于VAD的噪声估计方法。也就是检测出带噪语音中的纯噪声帧,用这些帧上的平均功率谱来估计语音与噪声混合帧上的噪声功率谱。由于噪声是变化的,各帧上的噪声实际上是不同的。所以,基于VAD的噪声估计方法用纯噪声帧上的平均噪声功率谱来估计所有帧上的噪声功率谱会导致较大的估计误差。

针对这一情况,本发明步骤b)和步骤d)采用了一种基于带噪信号子空间分解的方法来估计噪声子空间的维度和噪声功率谱,在每一帧信号上都估计噪声功率谱,极大地减少了噪声估计误差。

在目标语音信号与噪声不相关的假设下,带噪语音信号在时帧t和频率k的功率谱矩阵ΦXX(k,t)可表示为目标语音信号信号功率谱矩阵ΦSS(k,t)和噪声信号功率谱矩阵ΦNN(k,t)之和:

ΦXX(k,t)=ΦSS(k,t)+ΦNN(k,t)    (6)

对于麦克风阵列信号而言,可假设各阵元上噪声信号的自功率谱相等,而阵元间噪声信号不相关,则下式成立:

ΦNN(k,t)=φNN(k,t)I    (7)

其中,I为L阶单位矩阵,φNN(k,t)为单通道噪声的自功率谱。

令目标语音信号功率谱矩阵的特征值分解为:

ΦSS(k,t)=UΛSSUH    (8)

其中,ΛSS为特征值降序排列的特征值矩阵,U为对应的特征向量矩阵,Q为矩阵的秩,且Q≤L。

利用特征值分解可将带噪信号空间分为两个子空间:信号子空间(包含目标语音信号和噪声)和噪声子空间(只包含噪声)。设带噪信号功率谱矩阵特征值分解为:

ΦXX(k,t)=UΛXXUH=U(ΛSSNN(k,t)I)UH    (9)

ΛXX为特征值降序排列的带噪语音信号功率谱特征值矩阵,I为L阶单位阵。

本发明提出了从噪声子空间中估计得到噪声自功率谱φNN的方法。首先需要确定信号子空间的维度Q和噪声子空间维度P。

在步骤b)中,提供了一种通过极大化带噪语音信号中目标语音信号的存在概率来确定Q的方法,即取最合适的Q值使得目标语音信号存在的概率最大。

利用条件概率计算,定义互斥事件H0和H1

事件H0:带噪语音信号中,只存在噪声,不存在目标语音信号;

事件H1:带噪语音信号中,目标语音信号与噪声同时存在;

信号子空间维度Q定义为:

argmaxQP(S(k,t)|H1)---(10)

其中,S(k,t)是目标语音信号信号在第t帧的第k个频率点上的功率谱,P(·)是目标语音信号谱的分布函数,argmax(·)是寻找具有最大评分的参数值的算子。

步骤c)提供了一种基于谱的平稳性选择带噪语音信号中噪声功率谱分布模型的自适应方法。该方法包括下列步骤:

首先,定义判别函数Ω

Ω=Πi=Q+1LλXi(L-Q)1L-QΣi=Q+1LλXi---(11)

即,Ω为几何平均对算术平均的比值其中,是带噪语音信号功率谱特征值矩阵ΛXX的第i个特征值,i∈{Q+1,…,L}是特征值的下标,Ω的值在0到1之间。

然后,确定两个预设阈值,Ω1和Ω21<Ω2),比较判别函数与预设阈值,特别地,如果判别函数小于预设阈值Ω1,则选用零均值高斯分布;如果判别大于预设阈值Ω2,则选用伽玛分布;否则选用拉普拉斯分布。

在步骤d)中,提供了一种利用条件概率估计噪声功率谱的方法。对于每一帧带噪语音信号,它只含有噪声的概率是P(H0|X),即含有噪声又含有目标语音信号的概率是P(H1|X);针对这两种情况,分别估计噪声功率谱如下:

H0:φNN0=1LΣi=1LλXiH1:φNN1=1L-QΣi=Q+1LλXi---(12)

其中,i∈{1,…,L}是特征值的下标,和分别是噪声在互斥事件H0和H1发生情况下的功率谱。

根据条件概率公式,噪声功率谱估计方法如下:

φ~NN=P(H0|X)·φNN0+P(H1|X)·φNN1---(13)

步骤e)提供了一种根据信号子空间维度和噪声功率谱估计,利用听觉掩蔽效应,基于信号子空间估计得到各频点的听觉掩蔽阈值的方法。

听觉频率范围是0到15500Hz,覆盖了24个临界子频带,需要在每个子频带中计算听觉掩蔽阈值。首先计算各子频带上各频点的能量,再计算人耳基膜对于各频段声音的传播系数,然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值。最后,根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系,再进一步计算得到掩蔽阈值。

步骤f)提供了一种根据噪声功率谱、听觉掩蔽阈值,结合拉格朗日乘子估计后滤波器G(e)的方法。使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值,从而消除残余噪声影响,并使目标语音信号的畸变尽可能的小。完成麦克风阵列后滤波语音增强。

假设最小方差非畸变响应波束形成器的输出信号为目标语音信号信号为S(e),后滤波增强后的语音信号与目标语音信号信号的误差可表述如下:

E(e)=G(e)S~(e)-S(e)=[G(e)-1]S(e)+G(e)N~(e)---(14)

其中,为中的噪音。

式(14)中的第一项描述了增强语音中目标语音信号的畸变,第二项描述了增强语音中残余噪声的大小。可计算出一个合适的后滤波器G(e)使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值,从而消除其影响。针对式(14),本发明提出如下目标约束:

minET=[G(e)-1]2S(e)2+G(e)2N~(e)2---(15)

约束条件:

G(e)2N~(e)2Cthr---(16)

其中,Cthr为听觉掩蔽阈值。

用拉格朗日乘子法求解,令:

J=ET+μ(G(e)2N~(e)2-Cthr)---(17)

其中,μ是拉格朗日乘子。

令J对G(e)求导,并使其为零,可得:

G(e)=S(e)2S(e)2+(1+μ)N~(e)2---(18)

由式(18)可看出在本发明的目标约束下,基于听觉感知特性的后滤波器在表达形式上就是更合理地估计了噪声的维纳滤波器。

令J对μ求导,并使其为零,可得:

G(e)=CthrN~(e)2---(19)

由(18)和(19)两式相等,可得:

1+μ=S(e)2N~(e)2max(N~(e)2Cthr-1,0)---(20)

将(20)带入(18),并用式(13)中的代替得到本文所提的基于听觉感知特性的后滤波器如下:

G(e)=11+max(φ~NNCthr-1,0)---(21)

在图1中出一个应用基于多模型和听觉特性的麦克风阵列后滤波语音增强方法流程图。系统包括至少两个麦克风101的麦克风阵列。

麦克风阵列的麦克风可能有不同的排列,特别地,麦克风101被置于一排,其中每个麦克风和相邻近的麦克风有预设距离。例如,两个麦克风之间的距离可能大约是5厘米。对于不同的应用环境和技术要求,麦克风阵列可能被安装在适当的位置。

从麦克风101采集的语音信号被送到信号处理单元102。在送往信号处理单元之前,语音信号可以经过低通滤波器来预处理语音信号。

信号处理单元102对不同麦克风输采集的语音信号进行延迟补偿以实现时域对齐。使用短时离散傅里叶变换将对齐后的各麦克风信号表示成复数值的频率信号形式,计算麦克风阵列采集的多路带噪语音信号在时帧t、频率k的功率谱矩阵ΦXX(k,t)并对此矩阵进行特征值分解,得到特征值矩阵ΛXX和特征向量矩阵U。

在接下来的步骤103中,利用特征值矩阵ΛXX,通过极大化带噪语音信号中目标语音信号的存在概率的方法,确定信号子空间的维度Q。

接着,步骤104利用信号子空间的维度Q,基于谱的平稳性,自适应选择带噪语音信号中噪声功率谱分布模型。

步骤105利用信号子空间维度Q和噪声功率谱分布模型,根据条件概率估计噪声功率谱。

步骤106利用信号子空间维度和噪声功率谱估计,根据听觉掩蔽效应,基于信号子空间估计得到各频点的听觉掩蔽阈值。

最后,步骤107利用噪声功率谱估计和听觉掩蔽阈值,结合拉格朗日乘子设计后滤波器。

在图2,说明了一个确定信号子空间维度的方法的流程,该方法对应于图1中的步骤103。

经过步骤101和步骤102,麦克风阵列采集的语音信号已经通过时域对齐,短时傅里叶变换。并对多路带噪语音信号的功率谱ΦXX进行特征值分解,得到特征值矩阵ΛXX和特征向量矩阵U。由(9)式,带噪信号功率谱特征值矩阵被分解为信号功率谱特征值与噪声功率谱特征值的和,Q是信号子空间的维度。

在第一步骤201中,初始化信号子空间的维度Q,令其为1。

接下来,步骤202更新噪声功率谱和目标语音信号功率谱。由于带噪语音信号功率谱特征值矩阵ΛXX是降序排列,并假设信号强度大于噪声,所以当信号子空间的维度为Q时,噪声的功率为

φNN=1L-QΣi=Q+1LλXi---(22)

其中,i∈{Q+1,…,L}是特征值的下标。

而目标语音信号的功率为

S=1QΣi=1Q(λXi-φNN)12---(23)

其中,i∈{1,…,Q}是特征值的下标。

那么,目标语音信号的方差为

vs=λX1-φNNQ=11QΣi=1Q[(λXi-φNN)12-S]2Q>1---(24)

其中,其中,i∈{1,…,Q}是特征值的下标。

步骤203从高斯模型、拉普拉斯模型和伽玛模型中任意选择一个来描述目标语音信号的谱分布。计算目标语音信号的条件概率PG(S(k,t)|H1),特别地,当选择高斯模型时,

PG(S(k,t)|H1)=12πvs(k,t)exp{-S2(k,t)2vs(k,t)}

步骤204实现变量Q和j的自加运算:

Q=Q+1

接着步骤205判断循环终止条件Q>L,特别地,当条件不满足时,返回步骤202;否则进行步骤206。

步骤206利用本发明的(10)式,最终确定了信号子空间的维度Q,即

argmaxQP(S(k,t)|H1).

在图3中,说明了一个确定带噪语音信号中噪声功率谱分布模型的流程图。该方法对应于图1中的步骤104。

高斯模型、拉普拉斯模型和伽玛模型都可以被用来描述语音信号和噪声信号的谱系数,但是对于不同的噪声类型其噪声特性也会有所不同,所以模型选择应根据目标噪声的特性有针对性的进行。在本示例中,根据计算机风扇噪声的统计数据给出了一种基于谱的平稳性进行模型选择的方法。

在步骤301中,由(11)式计算出判别函数值Ω。

步骤302判断判别函数值Ω是否小于Ω1,如果判断结果为真,则选择高斯模型;否则执行步骤303,判断判别函数值Ω是否小于Ω2,如果判断结果为真,则选择拉普拉斯模型;否则选择伽玛模型。

本发明体现的模型自适应选择算法,是基于在对大量计算机风扇噪声实验数据统计的结果。实验发现高斯模型在Ω取较小值时为最优模型,在Ω值较大时,拉普拉斯模型最优,而伽玛模型总的平均噪声估计误差是最小的。据此,本发明进行模型选择如下:

在图4中,说明了一个利用条件概率估计噪声功率谱的方法流程图。该方法对应于图1中的步骤105。

步骤401计算带噪语音信号起始段纯噪声帧的平均功率谱

步骤402计算计算当前帧的功率谱

φNNcur=1LΣi=1LλXi

其中,i∈{1,…,L}是特征值的下标。

接下来步骤403计算当前帧功率谱与纯噪声功率谱的比值

r=φNNcurφNNpre

步骤403到步骤408共同完成了条件概率P(H0|X)的计算。首先比较r与设定阈值α的大小,α取略大于1的较小值,特别地,α取为1.2。当r<α时,当前帧更可能为纯噪声帧,所以P(H0|X)应取较大的值,本发明设置其下限为0.8。如果当r>α,当前帧更可能是语音帧,此时P(H0|X)应取一个合适的值。由于信号的能量在各个频率上分布式不均匀的,所以,这里根据不同的频率取不同的P(H0|X)值。在低频时,P(H0|X)的值应大于高频的值,因为信号的能量大多集中在低频区域。即

P(H0|X)=max(11+rβ1,0.8)r1.211+rβ2ifffthr11+rβ3iff>fthrr>1.2---(26)

其中,fthr是高低频的界限频率,β1和β2是加权系数。

步骤409计算条件概率P(H1|X)=1-P(H0|X)。

得到条件概率P(H0|X)和P(H1|X)以后,步骤410利用(13)式得到噪声功率谱的估计值

在图5中,说明了一种计算听觉掩蔽阈值的方法的流程图。该方法对应于图1中的步骤106。为了将信号中的噪声掩蔽掉,从而实现对目标语音信号信号的增强,需要将噪声限制在该阈值以下。

步骤501将0到15500Hz的人耳听觉范围划分为24个子频带,以便于在每个子频带中计算听觉掩蔽阈值。

在步骤502中,利用步骤206所得的信号子空间维度,计算了各频点的能量。H(j,b)表示的是第j个子频带内第b个频点上的能量,可根据信号子空间特征值和特征向量计算出来。

H(j,b)=mean(1LΣi=1QλSi|U1,i|2)---(27)

其中,为目标语音信号功率谱矩阵的特征值估计,U1,i为信号子空间的第i个基,i∈{1,…,Q}是特征值的下标mean(·)为取均值算子。

SF(j)是表达第j个子频带上人耳基膜传播特性的函数,j∈{1,…,24}。

在步骤503中,计算每个子频带的传播函数

SF(j)=15.81+7.5(j+0.474)-17.51+(j+0.474)2,j∈{1,…,24}    (28)

接下来,步骤504计算表征人耳基膜上能量的激励能量值

C(j,b)=SF(j)*H(j,b),j∈{1,…,24}    (29)

步骤505,计算听觉掩蔽阈值

Cthr=10log10|C(j,b)|-|O(j)10|-|φ~NN10|---(30)

其中,O(j)是偏移量,j∈{1,…,24}表示第j个子频带。

在图6中,说明了一个设计后滤波器的流程图。该方法对应于图1中的步骤107。

在保证增强后的语音中残余噪声的功率低于听觉掩蔽阈值的条件下,为使目标语音信号信号的畸变达到最小。

步骤601描述有约束的最优化问题,如下:

目标:

minET=[G(e)-1]2S(e)2+G(e)2N~(e)2

约束条件:

G(e)2N~(e)2Cthr

步骤602利用拉格朗日乘子法求解,令:

J=ET+μ(G(e)2N~(e)2-Cthr)

令J对G(e)和μ分别求导,并使其为零,可得:

G(e)=S(e)2S(e)2+(1+μ)N~(e)2G(e)=CthrN~(e)2

步骤603求解此方程子,得到后滤波器的最优估计,即:

G(e)=11+max(φ~NNCthr-1,0)

再将步骤410得到的噪声功率谱估计和505得到的听觉掩蔽阈值Cthr带入,步骤604完成后滤波器的设计。

根据本说明书,本发明进一步的修改和变化对于所述领域的技术人员是显而易见的。因此,本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解,本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号