首页> 中国专利> 用于自动地选择阈值以分离声音源的信号分离系统和方法

用于自动地选择阈值以分离声音源的信号分离系统和方法

摘要

提供了一种用于自动地选择阈值以分离声音源的信号分离系统和方法。所述信号分离系统基于从多个话筒接收的信号,使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;对目标信号幂序列和干扰信号幂序列应用非线性;计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;设置最小化相关系数的噪声掩饰阈值。

著录项

  • 公开/公告号CN102142259A

    专利类型发明专利

  • 公开/公告日2011-08-03

    原文格式PDF

  • 申请/专利权人 三星电子株式会社;

    申请/专利号CN201110037394.4

  • 申请日2011-01-28

  • 分类号G10L21/02(20060101);

  • 代理机构11286 北京铭硕知识产权代理有限公司;

  • 代理人郭鸿禧;罗延红

  • 地址 韩国京畿道水原市

  • 入库时间 2023-12-18 03:00:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-07-15

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20110128

    实质审查的生效

  • 2011-08-03

    公开

    公开

说明书

本申请要求2010年1月28日提交到韩国知识产权局第10-2010-0007751号韩国专利申请的优先权,该申请全部公开于此以资所有目的的参考。

技术领域

以下描述涉及一种用于自动地选择阈值以分离声音源的信号分离系统和方法。

背景技术

虽然语音识别技术的性能已经极大地提高,但是语音识别的准确性通常在噪声环境中降低。因此,需要有效地解决在消费产品中实际使用的语音识别系统中,语音识别的准确性减小的问题。

因此,需要一种用于从干扰声音源中有效地分离目标声音的系统和方法。

发明内容

在一个总体方面,一种信号分离系统包括:幂序列计算器,基于从多个话筒接收的信号使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;阈值设置单元,对目标信号幂序列和干扰信号幂序列应用非线性,计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数,以及设置最小化相关系数的噪声掩饰阈值。

幂序列计算器可基于从接收的信号的耳间时间差值(ITD)、接收的信号的耳间相位差值(IPD)和接收的信号的耳间强度差值(IID)中选择的至少一个差值,来产生目标掩码和补充掩码。

信号分离系统还可包括:差值计算器,将短时傅里叶变换(STFT)应用于每个接收的信号;以及基于STFT变换的信号计算所述至少一个差值。

阈值设置单元可基于非线性目标信号幂序列、非线性干扰信号幂序列以及从接收的信号的耳间时间差值(ITD)、接收的信号的耳间相位差值(IPD)和接收的信号的耳间强度差值(IID)中选择的至少一个差值,来计算相关系数。

阈值设置单元可将所述至少一个差值设置为最小化相关系数的噪声掩饰阈值。

非线性可以是对数非线性或幂法则非线性。

目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。

在另一总体方面,一种信号分离方法包括:基于从多个话筒接收的信号使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;对目标信号幂序列和干扰信号幂序列应用非线性;计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;以及设置最小化相关系数的噪声掩饰阈值。

在另一总体方面,一种信号分离系统包括:掩饰单元,使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;阈值设置单元,设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。

在另一总体方面,一种信号分离方法包括:使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;以及设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。

在另一总体方面,一种信号分离系统包括:掩饰频谱产生器,使用目标掩码和补充掩码从多个话筒接收的信号中产生掩饰的目标信号频谱和掩饰的干扰信号频谱;阈值设置单元,基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂序列之间的相关性。

在另一总体方面,一种信号分离方法包括:使用目标掩码和补充掩码从多个话筒接收的信号产生掩饰的目标信号频谱和掩饰的干扰信号频谱;以及基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂序列之间的相关性。

通过以下详细描述、附图和权利要求,其它特点和方面将会变得更加清楚。

附图说明

图1示出左话筒、右话筒、目标声音源和干扰声音源的示例。

图2示出选择用于声音源分离的最优掩饰耳间时间差值(ITD)阈值的过程的示例。

图3示出信号分离系统的示例。

图4示出信号分离方法的示例。

图5示出信号分离系统的示例。

图6示出信号分离方法的示例。

贯穿附图和详细描述,除非另外说明,相同的附图标号将被理解为表示相同的元件、特征和结构。为了清楚、示出和方便的目的,可夸大这些元件的相对大小和描述。

具体实施方式

提供以下详细描述以助于读者获得对在此描述的方法、设备和/或系统的全面理解。因此,在此描述的方法、设备和/或系统的各种改变、修改和/或等同物将被建议给本领域的普通技术人员。另外,为了增加清楚和简明的目的,可省略已知功能和结构的描述。

即使在混合有各种声音的噪声环境中,人类双耳系统也具有分离期望的声音的能力。这往往称为双耳鸡尾酒会效应。

在用于声音分离的技术中,可基于每种声音的唯一频率、关于声音到来的方向的信息以及用于掩饰除了期望的声音之外的声音的听觉特征,来分离声音。

已经使用耳间时间差值(ITD)、耳间相位差值(IPD)和耳间强度差值(IID)开发了基于声音产生方向的信息的分离信号的各种方法。耳间强度差值(IID)也被称为耳间声级差值(ILD)。由于通过频率分析容易获得相位信息,故相位信息可被广泛用于双耳处理。

在基于如上所述的技术的许多算法中,二进制掩饰方案或连续掩饰方案可被用于选择由目标声音源控制的时频bin。这里,时频表示针对时间变化的频率成分变化,bin表示与各个频率相对应的值(或信息),时频bin表示相关时间中的各个频率成分。连续掩饰方案通常呈现优于二进制掩饰方案的性能,但是通常需要知道噪声源的地点。然而,二进制掩饰方案可用于全向噪声环境或当事先没有关于噪声源的位置或特性的信息的情况中。然而,二进制掩饰方案的性能取决于如何选择阈值,最优阈值取决于非已知的噪声源的位置和强度。另外,如果噪声源的位置和强度可变,则最优阈值可随时间而改变。

以下描述是ITD、IPD和IID中的ITD被设置为阈值时的二进制掩饰方案。大体上,可从一组潜在的ITD候选中选择合适的ITD阈值。然而,最优ITD阈值将取决于噪声源的数量和噪声源的位置,并可随时间而改变。例如,当来自噪声源的声音的方向与来自目标声音源的声音的方向极大地不同时,包括更大范围的ITD的ITD阈值会提供更好的结果。然而,如果当噪声源的位置与目标声音源很接近时使用这样的包括更大范围的ITD的ITD阈值,则干扰声音源信号和目标声音源信号均会被ITD阈值允许通过。当存在多于一个噪声源和/或当噪声源移动时,这个问题可变的更加复杂。

因此,如下所述,可使用采用二进制阈值的两个补充掩码。当使用两个补充掩码时,可获得两个不同频谱:目标声音源的频谱和干扰声音源的频谱。还可从所述两个频谱获得用于目标声音源和干扰声音源的多个短时幂作为短时幂序列。可将非线性应用于短时幂序列。可使用应用的非线性从幂序列计算相关系数,并可选择最小化相关系数的ITD阈值。

下面描述从相位信息中获得ITD的过程。假设xL[n]和xR[n]表示分别从左话筒和右话筒接收的信号。

图1示出左话筒101、右话筒102、目标声音源103和干扰声音源104的示例。如图1所示,目标声音源103位于两个话筒之间的中垂线105上,干扰声音源104位于从中垂线105以顺时针方向旋转角θ的线106上。两个话筒分离距离Δ。从干扰声音源104到左话筒101的距离长于从干扰声音源104到右话筒102的距离,这使来自干扰声音源104的声音相比到达左话筒101更早地到达右话筒102,产生耳间时间差值(ITD)和耳间相位差值(IPD)。在从干扰声音源104到左话筒101的距离与从干扰声音源104到右话筒102的距离之间的差是Δsinθ。由于声音的强度随着距离而减小,故所述距离的差值使在右话筒102的声音的强度大于在左话筒101的声音的强度,从而产生耳间强度差值(IID)。当干扰声音源的总数是S时,单独的声音源s具有各自的ITDδ(s)。S和δ(s)两者通常是未知的。通过上述构想,可通过以下等式1来表示分别从左话筒101和右话筒102接收的由xL[n]和xR[n]表示的信号:

xL[n]=x0[n]+Σs=1Sxs[n]

xR[n]=x0[n]+Σs=1Sxs[n-δ(s)]---(1)

其中,x0[n]表示目标信号,xs[n]表示从每个干扰声音源s接收的信号,其中s的范围从1到S。

为了执行频谱分析,将等式1与汉明窗w[n]相乘,以获得由以下等式2表示的短时信号:

xL[n;m]=xL[n-mLfp]w[n]

其中0≤n≤Lfl-1            (2)

xR[n;m]=xR[n-mLfp]w[n]

其中,m表示帧索引,Lfp表示帧周期,Lfl表示帧长,w[n]表示具有长度Lfl的汉明窗。汉明窗在本领域中公知,因此不在此进行详细描述。另外,n表示数字信号中的取样索引,xL[n;m]和xR[n;m]表示通过左话筒101和右话筒102接收的信号中,在第m帧中的第n个取样的信号。换句话说,由于n和m具有不同特征,故取代于逗号,使用分号来分类n和m。

图2示出选择用于声音源分离的最优掩饰ITD阈值的过程的示例。在操作201a和201b,使用以下等式3对使用等式2从通过左话筒101和右话筒102接收的信号(由等式1表示)中获得的短时信号执行短时傅里叶变换(STFT)。换句话说,可由以下等式3表示与等式1相应的STFT:

XL[mejωk)=Σs=0SXs[m,ejωk)

XR[m,ek)=Σs=0Se-kds[m,k]Xs[m,ek)---(3)

其中,ωk=2πk/N(0≤ωk≤N/2-1)表示快速傅里叶变换(FFT)尺寸。[m,k]表示特定时频bin。k表示N个频率bin中具有与ωk相应的正频率取样的一个频率bin。另外,在中,“[”可指示m表示离散信号,“)”可指示表示连续信号。

假设s*[m,k]是用于特定时频bin[m,k]的最强的声音源,则可从等式3获得以下等式4:

XL[m,ek)Xs*[m,k][m,e-k)(4)

XR[m,ek)e-jωkds*[m,k][m,k]×Xs*[m,k][m,e-k)

最强的声音源s*[m,k]可以是指示目标声音源的0或指示任何干扰声音源的

在操作202,从等式4,由以下等式5给出来自用于特定时频bin[m,k]的信号和的相位的ITD:

|ds*[m,k][m,k]|1|ωk|minr|XR[m,e-k)-XL[m,e-k)-2πr|---(5)

其中,r表示最小整数倍。

因此,基于从等式5获得的ITD是否在目标ITD(是0)的特定范围内,来确定时频bin[m,k]是否可能属于目标话筒。

在操作203,估计的ITD被平滑。所有频率声道上的平滑可以是有用的。平滑是本领域公知的,因此在此不进行详细描述。

下面,可获得两个补充二进制掩码。两个补充二进制掩码中的一个可识别被认为属于目标信号的时频分量,另一个可识别被认为属于干扰信号(即,除了目标信号之外的所有信号)的分量。两个补充二进制掩码可被用于构造与表示目标源和干扰源的幂序列相应的两个不同频谱。压缩非线性可被应用于幂序列,(非线性之后)最优ITD阈值可被定义为最小化在这两个输出序列之间的互相相关性的阈值。

有限组T的潜在的ITD候选的一个元素τ0可被认为是最优ITD阈值。如以下等式7所表示的,所述元素τ0可用于获得目标掩码μT[m,k]和补充掩码μI[m,k]:

其中0≤k≤N/2。

对于N/2≤k≤N-1,可通过以下等式8来使用对称条件:

μT[m,k]=μT[m,N-k],N/2≤k≤M-1

(8)

μI[m,k]=μI[m,N-k],N/2≤k≤M-1

换句话说,仅具有|d[m,k]|≤τ0的时频bin被理解为属于目标声音源,仅具有|d[m,k]|>τ0的时频bin被理解为属于噪声源。

在操作204a和204b,使用等式7所述的掩码分别选择目标时频bin和补充时频bin。对于属于噪声源(即,干扰声音源)的时频bin,可通过将时频bin与值0相乘来去除干扰声音。此外,由于干扰声音频谱通常包含目标声音频谱的一些部分,故具有很小值的最低常数(floor constant)η可用于保留干扰声音频谱中的目标声音频谱的部分。例如,值0.01可用于最低常数η,尽管也可使用其它的值。等式7所述的目标掩码μT[m,k]和补充掩码μI[m,k]被应用于该是左声道和右声道的平均信号光谱图。可由以下等式9表示平均信号光谱图:

X[m,ejωk)=12{XL[m,ek)+XR[m,ek)}---(9)

使用如上所述的程序,可由以下等式10表示目标频谱和干扰频谱

XT(m,ek|τ0)=X(m,ek)μ~T(m,k)

XI(m,ek|τ0)=X(m,ek)μ~I(m,k)---(10)

等式9明确地包括ITD阈值τ0,以指示目标频谱和干扰频谱将取决于ITD阈值τ0

在操作205a和205b,可通过以下等式11获得目标频谱和干扰频谱的帧幂:

PT[m|τ0)=Σk=0N-1|XT(m,ek)|2

PI[m|τ0)=Σk=0N-1|XI(m,ek)|2---(11)

其中,PT[m|τ0)表示目标声音的幂,PI[m|τ0)表示干扰声音的幂。

在操作206a和206b,非线性被应用于在操作205a和205b中计算的每个幂。声音源的感知的响度不与声音源的强度成比例是公知的。已经提出了许多非线性模型用于表述声音源的感知的响度与强度之间的关系。对数非线性和幂法则非线性被广泛地用作非线性模型。可由以下等式12表示将幂法则非线性应用于在操作205a和205b中计算的幂的结果:

RT[m|τ0)=PT[m|τ0)α0

RI[m|τ0)=PI[m|τ0)α0---(12)

其中,α0表示幂系数,并可具有例如1/15的值。

在操作207,从使用等式11获得的结果计算相关系数。可由以下等式13表示相关系数:

ρT,I(τ0)=1NΣm=1MRT[m|τ0)RI[m|τ0)-μRTμRIσRTσRI---(13)

其中,和分别表示RT[m|τ0)和RI[m|τ0)的标准偏差,和分别表示RT[m|τ0)和RI[m|τ0)的平均。

随后,使用以下等式14确定最小化由等式12表述的相关系数ρT,I0)的ITD阈值

τ^0=argminτ0|ρT,I(τ0)|---(14)

在操作208,通过使用在操作204a中选择的目标时频bin和最小化在操作207中获得的相关系数的ITD阈值将快速傅里叶逆变换(IFFT)应用于每频率单元的幂中,以产生基本没有干扰信号的分离的目标信号。

在操作209,对在操作208中获得的分离的目标信号执行叠加(overlap-addition,OLA)方法,以增加分离的目标信号的质量。OLA方法在本领域中是公知的,因此在此将不作详细描述。

图3示出信号分离系统300的示例。在图3中,信号分离系统300包括差值计算器310、幂序列计算器320和阈值设置单元330。

差值计算器310将STFT应用于从多个话筒接收的多个信号的每一个,并计算三个差值ITD、IPD和IID中的至少一个差值。虽然上述已经参照图1和图2描述了使用ITD的示例,但是可基于噪声环境使用IPD或IID,或者ITD、IPD和IID中的任意两个,或者ITD、IPD和IID三者来自动地设置用于噪声掩饰的阈值。以上已经描述了使用等式5获得ITD的示例。还可以以与ITD相似的方式将IPD或IID应用于所述示例。所述示例与如何使用计算的差值来设置最优阈值有关,从而在此将不对如何获得IPD或IID进行详细的描述。

幂序列计算器320从接收的信号使用目标掩码和补充掩码计算两个幂序列,一个用于目标信号,另一个用于干扰信号。基于由差值计算器310计算的差值来产生目标掩码和补充掩码。例如,基于ITD使用如上所述的等式11来计算用于目标信号的幂和用于干扰信号的幂。目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。

阈值设置单元330设置用于噪声掩饰的阈值,从而相关系数具有最小值。在将非线性应用于两个幂序列之后计算相关系数。具体地,从应用了非线性的两个幂序列以及由差值计算器310计算的差值计算相关系数。阈值设置单元330将最小化相关系数的差值设置为阈值。非线性可以是对数非线性或幂法则非线性。例如,使用如上所述的等式12到等式14,幂法则非线性可被应用于两个幂序列,并可随后确定ITD,从而相关系数具有最小值。确定的ITD被设置为用于噪声掩饰的最优阈值。在初始声音周期设置最优阈值之后,可确定是否在初始声音周期随后的声音周期使用最优阈值,或者,由于用于掩饰的阈值没有根本改变,故可基于阈值的改变模式来改变搜索范围。

图4示出信号分离方法的示例。图4的信号分离方法可由图3的信号分离系统300执行。以下参照图4描述信号分离方法。

在操作410,信号分离系统300将STFT应用于从多个话筒接收的多个信号的每一个,并计算三个差值ITD、IPD和IID中的至少一个差值。以上已经描述了使用等式5获得ITD的示例,因此在此将不进行详细描述。

在操作420,信号分离系统300基于在操作410中计算的差值来产生目标掩码和补充掩码。目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。

在操作430,信号分离系统300相对于接收的信号使用目标掩码和补充掩码计算两个幂序列,一个用于目标信号,另一个用于干扰信号。基于在操作410中计算的差值来产生目标掩码和补充掩码。例如,基于ITD使用如上所述的等式11来计算用于目标信号的幂和用于干扰信号的幂。

在操作440,信号分离系统300设置用于噪声掩饰的阈值,从而相关系数具有最小值。在将非线性应用于两个幂序列之后计算相关系数。具体地,基于应用了非线性的两个幂序列以及在操作410中计算的差值来计算相关系数。信号分离系统300将最小化相关系数的差值设置为阈值。非线性可以是对数非线性或幂法则非线性。例如,使用如上所述的等式12到等式14,幂法则非线性可被应用于两个幂序列,并可随后确定ITD,从而相关系数具有最小值。确定的ITD被设置为用于噪声掩饰的最优阈值。在初始声音周期设置最优阈值之后,可确定是否在初始声音周期随后的声音周期使用最优阈值,或者,由于用于掩饰的阈值没有显著改变,故可基于阈值的改变模式来改变搜索范围。

图5示出信号分离系统500的示例。在图5中,信号分离系统500包括掩饰单元510和阈值设置单元520。

掩饰单元510使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号。目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。以上已经参照等式7详细描述了目标掩码和补充掩码,因此在此将不进行详细描述。

阈值设置单元520设置用于噪声掩饰的阈值,从而最小化在掩饰的信号之间的相关性。具体地,可分别使用目标掩码和补充掩码来掩饰从多个话筒接收的信号,以获得用于目标信号的信号和用于干扰信号的信号。随后,最小化两个信号之间的相关性的阈值可被设置以用于噪声掩饰。例如,阈值设置单元520可设置阈值,从而在将非线性应用到掩饰的信号的每一个之后计算的相关系数具有最小值。或者,阈值设置单元520可设置最小化两个信号之间的相互信息的阈值以执行噪声掩饰。这里,相互信息是关于单独发生两个因素的概率与同时发生两个因素的概率的统计比率。换句话说,用于最小化相互信息的阈值可以指用于最小化指示两个信号之间的相互依赖的比率的阈值。

图6示出信号分离方法的示例。图6的信号分离方法可由图5的信号分离系统500执行。以下参照图6描述信号分离方法。

在操作610,信号分离系统500使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号。目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。以上已经参照等式7详细描述了目标掩码和补充掩码,因此在此将不进行详细描述。

在操作620,信号分离系统500设置用于噪声掩饰的阈值,从而最小化在掩饰的信号之间的相关性。具体地,可分别使用目标掩码和补充掩码来掩饰从多个话筒接收的信号,以获得用于目标信号的信号和用于干扰信号的信号。随后,最小化两个信号之间的相关性的阈值可被设置以用于噪声掩饰。例如,信号分离系统500可设置阈值,从而在将非线性应用到掩饰的信号的每一个之后计算的相关系数具有最小值。或者,信号分离系统500可设置最小化两个信号之间的相互信息的阈值以执行噪声掩饰。这里,相互信息是关于单独发生两个因素的概率与同时发生两个因素的概率的统计比率。换句话说,用于最小化相互信息的阈值可以指用于最小化指示两个信号之间的相互依赖的比率的阈值。

根据如上所述的示例,在基于多个话筒的信号分离系统和信号分离方法中,可基于噪声环境自动地设置用于噪声掩饰的阈值,从而能够自适应地响应于在其中使用所述系统和方法的环境的改变。

上述的信号分离方法可被记录、存储或固定在包括由计算机执行以引起处理器执行程序指令的所述程序指令的一个或多个非临时计算机可读存储介质中。非临时计算机可读存储介质还可单独或结合程序指令包括数据文件、数据结构等。非临时计算机可读存储介质和程序指令可以是特别设计和构造的,或者可以是对计算机软件领域的技术人员公知的和可用的。非临时计算机可读存储介质的示例包括磁性介质(诸如硬盘、软盘和磁带)、光学介质(诸如CD-ROM/±R/±RW、DVD-ROM/RAM/±R/±RW和BD(蓝光)-ROM/-R/-RW)、磁光介质和特别配置用于存储和执行程序指令的硬件装置(诸如只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。程序指令的示例包括机器代码(诸如由编译器产生)和包含可使用解释器由计算机执行的高级代码的文件。所述硬件装置可被配置作为一个或多个软件模块,以执行如上所述的操作和方法。此外,非临时计算机可读存储介质可分布于联网的计算机系统,并且计算机可读代码或程序指令可以以分散方式存储和执行。

上面已经示出了一些示例。然而,应该理解可以做出各种修改。例如,如果所述的技术被以不同顺序执行和/或如果在描述的系统、构架、装置或电路中的组件以不同的方式组合和/或被其它组件或等同物替代或补充,则可获得合适的结果。因此,其它实现落入权利要求及其等同物的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号