首页> 中国专利> 用于提高噪声环境中话音的可理解性的系统和方法

用于提高噪声环境中话音的可理解性的系统和方法

摘要

本发明的一方面提供了一种在有噪收听环境中增强电-声换能器输出的话音的方法。在一些实施例中,该方法包括:使用滤波器H(z)对输入音频信号x(t)进行滤波,以产生滤波后的音频信号x(t)公式(I),其中x(t)公式(I)-H(z)x(t);向电-声换能器提供与滤波后的音频信号x(t)公式(I)相对应的信号,以产生与滤波后的音频信号相对应的声波;以及在使用所述滤波器对所述音频信号进行滤波之前,将所述滤波器配置为使得,对于一个或多个频率,滤波后的音频信号具有高于输入音频信号的信号电平,并且使得滤波后的音频信号的总信号电平(slf)与输入信号的总信号电平(slr)实质上相关,使得slf=slf×c。

著录项

  • 公开/公告号CN102246230A

    专利类型发明专利

  • 公开/公告日2011-11-16

    原文格式PDF

  • 申请/专利权人 艾利森电话股份有限公司;

    申请/专利号CN200880132348.9

  • 申请日2008-12-19

  • 分类号G10L21/02(20060101);H03G3/32(20060101);H03G7/00(20060101);H04R3/04(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人王玮

  • 地址 瑞典斯德哥尔摩

  • 入库时间 2023-12-18 03:43:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-03-20

    授权

    授权

  • 2012-02-08

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20081219

    实质审查的生效

  • 2011-11-16

    公开

    公开

说明书

技术领域

本发明涉及用于在存在周围噪声的情况下提高话音的可理解性的 系统和方法。

背景技术

在噪声环境中说话时,说话者基于周围噪声的水平来调整他/她的话 音的声级和频谱成分,以使他/她的话音更易理解。这被称为Lombard 效应(参见例如J.C.Junqua,“The Lombard reflex and its role on human  listeners and automatic speech recognizer,”J.Acoustic Soc.Amer.,Vol.93, 1993,510-524)。在噪声环境中使用移动终端时,期望终端以类似方式操 作,即应当对接收的下行信号中的话音进行处理,使得从终端的电-声换 能器(例如扬声器)发射的结果话音在到达终端用户的耳朵时尽可能易 于理解。

在多项研究中,通过提高话音信号的功率来改进话音的可理解性(参 见例如“The influence of first and second formants on the intelligibility of  clipped speech,”J.Audio Eng.Soc.,vol.16,pp.182-185,1968;R.J. Niederjohn和J.H.Grotelueschen,“The enhancement of speech  intelligibility in high noise levels by high-pass filtering followed by rapid  amplitude compression,”IEEE Trans.Acoust.,Speech,Signal Processing, vol.ASSP-24,pp.277-282,Aug.1976;J.Lynch,“A methodology for  evaluating the performance of dynamic range control algorithms for speech  enhancement”,Acoustics,Speech,and Signal Processing,IEEE International  Conference on ICASSP′87.Volume 12,Apr 1987第153-156页)。进行 这种操作的应用的示例是自适应声级控制器和压缩器(参见例如J.Lynch, “A methodology for evaluating the performance of dynamic range control  algorithms for speech enhancement”,Acoustics,Speech,and Signal  Processing,IEEE International Conference on ICASSP′87.Volume12,Apr 1987第153-156页)。

然而,对于已经接近于其数字过载电平的信号而言,不能通过提高 话音的功率电平来提高可理解性,因为这将导致数字限幅从而导致信号 失真。相应地,需要一种保持话音的声级同时优化频谱特性的方法。

研究已经表明,相对于第一共振峰突出话音的第二共振峰可以提高 话音的可理解性,同时保持总信号功率(参见例如J.C.Junqua,“The  Lombard reflex and its role on human listeners and automatic speech  recognizer,”J.Acoustic Soc.Amer.,Vol.93,1993,510-524;I.B.Thomas, “The second formant and speech intelligibility,”in Proc.Nut.Electronics  Conf.,vol.23,1967,pp.544-548;以及“The influence of first and second  formants on the intelligibility of clipped speech,”J.Audio Eng.Soc.,vol.16, pp.182-185,1968)。

在B Sauert,G Enzner和P.Vary,“Near end listening enhancement with  strict loudspeaker output power constraining“,International Workshop on  Acoustic Echo and Noise Control,IWAENC 2006,September 12-14,Paris, France中讨论了基于线性滤波来提高可理解性的方法。提出了在所有频 率处产生相等SNR的方法,以及进行相反操作的方法(即,衰减不可听 频率处的信号并放大可听频率)。

应注意的是,改变信号的频谱特性的方法可以与提高总电平的方法 相结合来使用。在改变频谱特性之前,如果未达到过载点,则可以应用 与频率无关的增益来提高总信号电平。

改变发射话音的频谱特性的方法的问题在于,不能以受控的方式获 得最大期望效果。因此,期望改进系统和方法,用于提高噪声环境中话 音的可理解性。

发明内容

一方面,本发明提供了一种在有噪收听环境中增强电-声换能器(例 如扬声器)输出的话音的方法。在一些实施例中,该方法包括以下步骤: 使用滤波器H(z)(例如,在一些实施例中为FIR滤波器)对输入音频信 号x(t)进行滤波(在频域或时域中),以产生滤波后的音频信号其 中向电-声换能器提供与滤波后的音频信号相对应的 信号,以产生与滤波后的音频信号相对应的声波;以及在使用所述滤波 器对所述音频信号进行滤波之前,将所述滤波器配置为使得,对于一个 或多个频率,滤波后的音频信号具有高于输入音频信号的信号电平,并 且使得滤波后的音频信号的总信号电平(slf)与输入信号的总信号电平(slr) 实质上相关,使得slf=slf×c,其中c是常数(在一些实施例中,c等 于或约等于1)。在一些实施例中,所述滤波器被配置为使得滤波后的音 频信号的总信号电平实质上等于输入音频信号的总信号电平。在所述滤 波器为FIR滤波器的实施例中,所述FIR滤波器是根据针对多个离散频 率中的每一个而确定的增益来获得的。

在一些实施例中,所述滤波器被配置为使得:由于向电-声换能器提 供与滤波后的音频信号相对应的信号而产生的声波与背景噪声的信噪比 (SNR)最大化,同时限制滤波后的音频信号在不同频率处的最大值和 最小值改变。可以针对不同频率以不同权重对SNR的最大化进行加权。

在一些实施例中,配置滤波器的步骤包括:基于输入音频信号的至 少一部分来估计信号频谱Px(f);基于与声-电换能器(例如麦克风)接收 的信号相对应的音频信号的至少一部分来估计噪声频谱Py(f);以及对于 多个频率中的每一个f,至少部分基于所估计的频谱Px(f)和Py(f)来确定 所述滤波器的增益γ(f)。确定γ(f)的步骤可以包括:对于每个所述频率f, 确定Φs(f)/Φn(f),其中Φs(f)是Px(f)的函数,Φn(f)是Py(f)的函数;以及在 服从于以下约束(i)和(ii)的前提下最大化(∑γ(f)·SNR(f)·W(f)):(i) ∑γ(f)·Px(f)等于或实质上等于c∑Px(f),其中c是常数或者是时变的,以 及(ii)γ(f)大于或等于第一值(例如最小阈值γmin(f))和/或小于或等于 第二值(例如最大阈值γmax(f)),其中SNR(f)=Φs(f)/Φn(f),W(f)是针对频 率f的预定权重。在一些实施例中,γmin(f)=min(1,max(c1,SNR(f)/c2)), 其中c1和c2是预定值。在一些实施例中,确定γ(f)的步骤包括:确定 γER(f),其中,对于f<ft,γER(f)=min(1,max(c1,SNR(f)/c2)),其中ft、 c1和c2是预定值,SNR(f)=Φs(f)/Φn(f)。在一些实施例中,Φs(f)=Λrx(f)· Ps(f),其中Ps(f)是Px(f)的函数,Λrx(f)是电-声换能器的函数;以及Φn(f)= Λtx(f)·Pn(f),其中Pn(f)是Py(f)的函数,Λtx(f)是声-电换能器的函数。

在另一方面,本发明提供了一种用于输出音频信号的设备。在一些 实施例中,所述设备包括:电-声换能器,用于将电子信号转换为在收听 点可听的声学能量;声-电换能器,用于将在收听点处或在收听点附近的 声学能量转换为噪声信号;可适配滤波器,用于对输入音频信号进行滤 波,以产生滤波后的音频信号;数模转换器,用于将滤波后的音频信号 转换为模拟音频信号,其中,数模转换器的输出耦合至电-声换能器,使 得电-声换能器接收模拟信号;以及控制器模块,适于将可适配滤波器配 置为使得,对于一个或多个频率,滤波后的音频信号具有高于输入音频 信号的信号电平,并且使得滤波后的音频信号的总信号电平(slf)与输入音 频信号的总信号电平(slr)实质上相关,使得slf=slf×c,其中c是常数。

以下参照附图来描述上述和其他方面以及实施例。

附图说明

附图被并入此处并形成说明书的一部分,附图示意了本发明的各个 实施例,并与描述一起还用于解释本发明的原理,使相关领域技术人员 能够实现和使用本发明。在附图中,相似的参考标记指示相同或功能相 似的元件。

图1是根据本发明一些实施例的设备的功能框图。

图2是示意了根据本发明一些实施例的过程的流程图。

图3是示意了根据本发明一些实施例的过程的流程图。

图4是根据本发明一些实施例的移动终端的功能框图。

具体实施方式

现在参照图1,图1示意了根据本发明一些实施例的设备100,设备 100能够产生话音,并且能够提高噪声环境中话音的可理解性。

设备100产生或接收输入音频信号x(t),并使用滤波器系统102来对 音频信号x(t)进行滤波,以产生滤波后的音频信号其中H(z)是滤波器系统使用的可适配滤波器191。向电-声换能器(例 如扬声器)106提供滤波后的音频信号以产生与滤波后的音频信号 相对应的声波(即发射话音)。更具体地,在一些实施例中,向数模转换 器104提供滤波后的音频信号数模转换器104接收滤波后的音频信 号并产生与滤波后的音频信号相对应的模拟信号,将该模拟信 号提供给电-声换能器106,电-声换能器106基于该模拟信号来产生声波。

滤波器H(z)191被配置为对发射话音与周围环境噪声的信噪比进行 优化。此外,该滤波器可以被配置为不增大发射话音的总信号电平。可 以使用有限冲激响应滤波器(FIR)H(z),在频域或时域中实现滤波操作 其中使用例如在美国专利No.7,251,271中描述的技术, 根据在离散频率处的期望增益函数γ(f)来获得H(z)。

相应地,在利用滤波器102对输入音频信号x(t)进行滤波之前,滤波 器系统102的控制器模块192将可适配滤波器191(即H(z))配置为使得, 对于一个或多个频率,滤波后的音频信号具有高于输入音频信号x(t) 的信号电平。此外,滤波器H(z)可以被配置为使得滤波后的音频信号的总信号电平(slf)与输入信号x(t)的总信号电平(slr)实质上相关,使得slf=slf×c,其中c是常数。在一些实施例中,c等于或约等于1。

控制器模块192被配置为基于人耳参考点(ERP)108处的可听噪声 (Φn)和输入信号x(t)来配置可适配滤波器191。声-电换能器110(例如 麦克风)将可听噪声Φn转换为电信号y(t)。噪声估计器模块114接收信号 y(t),噪声估计器模块114被配置为产生信号y(t)的估计频谱Py(f),其中f 表示离散频率。例如,噪声估计器模块114可以被配置为使用离散傅立叶 变换,根据信号y(t)来产生频谱Py(f)。即,在一些实施例中,Py(f)=|Y(f)|2, 其中Y(f)=DFT(y(t))。类似地,控制器模块192被配置为产生输入信号x(t) 的估计频谱Px(f)。即,在一些实施例中,Px(f)=|X(f)|2,其中X(f)= DFT(x(t))。控制器模块192被配置为使用频谱Py(f)和Px(f)来配置滤波器 H(z)(例如计算滤波器H(z)的频率特性,以获得期望目的)。

图2中示意了上述过程。现在参照图2,图2是示意了根据本发明一 些实施例的过程200的流程图。过程200可以开始于步骤202,在步骤202, 控制器模块192配置滤波器H(z)以优化发射话音与周围环境噪声的信噪 比。接下来(步骤204),使用滤波器H(z)来对输入音频信号x(t)进行滤波, 以产生滤波后的音频信号接下来(步骤206),使用数模转换器104 将滤波后的音频信号转换为模拟信号。接下来(步骤207),将模拟 信号提供给电-声换能器106,电-声换能器106产生与滤波后的音频信号 相对应的声波。由于所产生的声波与滤波后的音频信号而不是输 入音频信号x(t)相对应,因此与对应于输入音频信号x(t)的情况相比,声 波将更加易于理解。接下来(步骤208),接收表示ERP 108处的噪声的 噪声信号。在步骤208之后,该过程返回步骤202,在步骤202,控制器模 块192再次基于接收的噪声信号和输入音频信号x(t)来配置滤波器H(z)。 按照这种方式,本发明提供了一种通过基于背景噪声信号和输入音频信 号来配置滤波器,从而提高电-声换能器106产生的信号的可听度的方法。

如上所述,控制器模块192被配置为使用频谱Py(f)和Px(f)来配置滤波 器H(z)。更具体地,在一些实施例中,控制器模块192使用所计算的频谱 Py(f)和Px(f),分别导出下行链路话音和ERP 108处的近端噪声的频谱Φs(f) 和Φn(f)。例如,在一些实施例中,Φs(f)=ΛRX(f)·Ps(f), Φn(f)=ΛTX(f)·Pn(f),其中ΛRX(f)是电-声换能器106的转移函数,ΛTX(f) 是声-电换能器110的转移函数,Ps(f)是Px(f)的函数,Pn(f)是Py(f)的函数。 因此,在一些实施例中,控制器模块192使用Φs(f)和Φn(f)来配置滤波器 H(z)。

可以通过将数字信号电平与声学声压相关的校准过程来预先计算 电-声接口的转移函数,ΛRX(f)和ΛTX(f)。典型地,可以通过同时测量声 学声压和信号的数字电平来执行上述操作。

由于话音信号的非平稳特性,期望的滤波器特性H(z)是时间相关的, 并在任何给定时刻基于频谱估计。为了方便,在标记中省略了这种时间 依赖性。典型地,该处理基于与20ms相对应的采样帧,对于8kHz采样率 得到160个采样,对于16kHz采样率得到320个采样。

在一些实施例中,分别使用例如基于话音采样x(t)和y(t)的帧的快速 傅立叶变换(FFT)的周期图估计,来估计频率Px(f)和Py(f)(参见例如P. Stoica和R.Moses,“Introduction to spectral analysis”,Prentice Hall)。对于 20ms的帧长,FFT的合适长度分别为256和512,其中对原始帧填充零或 者利用来自先前帧的采样来扩展原始帧。在一些实施例中,估计得到的 话音和噪声频谱Ps(f)和Py(f)分别基于以下对基于帧的频谱估计进行平 均:

Ps(k,f)=(1-λs)Ps(k-1,f)+λsPx(k,f)以及

Pn(k,f)=(1-λn)Pn(k-1,f)+λnPy(k,f),其中索引k表示针对特定帧的估 计。平均常数λs和λn可以是时变的,并且经由语音活动性检测来控制, 以在x(t)中存在话音时更新话音频谱Ps(f),并在y(t)仅包含噪声时更新 Pn(f)。可以在例如3GPP TS 26.094,Adaptive Multi-Rate(AMR)speech  codec;Voice Activity Detector中找到语音活动性检测算法的示例。

如上所述,控制器模块192使用Φs(f)和Φn(f)来配置滤波器H(z)。例 如,在一些实施例中,控制器模块192使用Φs(f)和Φn(f)来计算滤波器H(z) 的期望增益函数γ(f)。更具体地,在一些实施例中,控制器模块192通过 在服从于以下约束(1)和(2)

(1)ΣfCγ(f)·Px(f)=cΣfCPx(f)ψTγ=K;以及

(2)γmin(f)γ(f)γmax(f)f-γ-γminγγmax

的前提下最大化

来确定γ(f),其中

γ(f)=|H(ei2πf)|2,c是常数或者是时变的。

参数W(f)、γmin和γmax可能依赖于信号x(t)和y(t)的特性。例如,γmin和 γmax可以是SNR(f)的函数。

作为限制期望增益的最大和最小值的备选,可以指定增益函数中的 最大差值。这可以用公式表示为以下约束:

αγ(f)β,βγdiffα-γ-αγββγdiff·α

上述优化问题可以被视为线性编程问题,可以使用单纯形算法来获 得对该优化问题的解(参见例如M.S.Bazaraa,H.D.Sherali,C.M.Shetty, “Nonlinear programming”,John Wiley & Sons)。该线性编程问题等于在服 从于以下约束的前提下最小化

ψT·γ=K

-II·γ-γminγmax.

备选地,采用对增益的最小值和最大值之间的差值的限制,在服从 于以下约束的前提下最小化

ψT00·γαβ=K

-I10I0-10T-γdiff1·γαβ000

在一些实施例中,滤波器H(z)应当仅在未处理的电-声换能器信号的 可理解性将降低的条件下影响发射话音。因此,在原始话音已经可听的 任何频率或频率范围处,滤波器不应减小信号电平。这可以通过使阈值 γmin(f)依赖于给定频率处的SNR来实现。选择 γmin(f)=min(1.0,max(γlower_limit,SNR(f)/SNRthreshold)),将导致在SNR小于 SNRthreshold的频率处逐渐引入该效果。

此外,为了减小不同时刻之间H(z)的频率特性的波动,可以通过将 来自用于计算离散时间傅立叶变换的FFT的相邻槽(bin)进行组合,来 减小H(z)的频率分辨率γ(f)。此外,由于对于较高频率,话音频谱随时 间的波动较大,因此,对于特定阈值频率(ft)以上的频率,可以仅确定一 个增益。该阈值频率ft可以大约为1-2kHz,并且可以根据信号特性而变化。

如上所述,可以使用单纯形算法来获得上述优化问题的解。然而, 对于特定应用,单纯形算法的计算要求可能过高。为了降低计算复杂度, 可以实现近似。例如,对于ft以下的频率,可以使用例如 γER(f)=min(1.0,max(γlower_linit,SNR(f)/SNRthreshold))来计算增益函数。接下来, 通过计算γER(fT)将针对f<fT已经移除的功率重新分配给频率f≥fT,所 述γER(fT)给出针对f≥fT的功率增加,该功率增加等于针对f<fT给出的 功率减少:

γER(fT)=(ΣffTPs(t,ω))+(Σf<fT(1-γER(f))·Ps(f))ΣffTPs(f).

上述计算确保了γER(fT)不改变平均话音功率,从而固定了f<fT与 f≥fT之间的功率重新分布的形状。为了确保下行链路信号的功率保持 不变,可以根据以下等式来对γER(fT)进行缩放:

γ(f)=γER(f)ΣfPx(f)ΣfγER(f)·Px(f).

现在参照图3,图3是示意了用于配置滤波器H(z)的上述步骤中的一 些步骤的流程图300。过程300可以开始于步骤302,在步骤302,控制器 模块192估计输入音频信号x(t)的频谱Px(f)。接下来(步骤304),模块114 估计音频信号y(t)的频谱Py(f),y(t)与声-电换能器110输出的信号相对应。 接下来(步骤306),控制器模块192计算SNR(f)=Φs(f)Φn(f).

接下来(步骤308),控制器模块192通过在服从于以下约束(i)和 (ii)的前提下最大化(∑γ(f)·SNR(f)·W(f))来确定γ(f):(i)∑γ(f)·Px(f)等于 或实质上等于∑Px(f),以及(ii)γ(f)大于或等于第一值和/或小于或等于 第二值,其中W(f)是针对频率f的预定权重。接下来(步骤310),模块基 于步骤308中确定的γ(f)来计算滤波器H(z)。

现在参照图4,图4是根据本发明一些实施例的设备100的功能框图。 如图所示,设备100可以包括:数据处理系统402(例如一个或多个微处 理器和/或数字信号处理器);数据存储系统406(例如一个或多个非易失 性存储设备);以及存储在存储系统406上的计算机软件408。还可以将配 置参数410存储在存储系统406中。在设备100是移动通信终端(例如移动 电话)的实施例中,设备100可以包括:发送/接收(Tx/Rx)电路404, 用于向基站发送数据和从基站接收数据。在一些实施例中,软件408被配 置为使得当处理器402执行软件408时,设备执行以上参照图3所示的流程 图描述的步骤。例如,控制器模块192可以以软件实现(即软件408可以 包括控制器模块192)。

尽管以上已经描述了本发明的各个实施例,但是应理解,这些实施 例仅以示例而非限制方式呈现。因此,本发明的宽度和范围不应限于上 述任一示例实施例。

此外,尽管以上描述和在附图中示意的过程被示为步骤序列,但是 这仅仅是为了示意。相应地,可以想到,可以添加一些步骤,可以省去 一些步骤,可以重新布置步骤的顺序,可以并行执行一些步骤。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号