首页> 中国专利> 处理能力要求降低的回波消除器

处理能力要求降低的回波消除器

摘要

本发明揭示了一种经改良的音频回波消除器。该音频回波消除器用于在一个较狭窄的、但是仍可理解的频带内处理回波、噪声和近端谈话,以此减少所需的处理能力和复杂性。在本发明的一优选实施例中,在音频通信系统中被捕获声音的输入音频信号被抽选,然后由分析滤波器分割成许多子带。通过在各子带内将带回波估计值的信号从声信号模型中减去,每个子带都如传统音频回波消除过程中那样地处理,除非信号被旁路、被滤波器调整以及从被处理信号中减去。由此生成的信号接着被合成滤波器重组并被插值到原始的采样速率和带宽。最后,合成滤波器的输出被加到输入音频信号,该输入音频信号已被滤波器延迟和调整。滤波器被检测近端声、远端声和噪声的控制算法所控制,以在只有近端声被检测到时滤波器(以及由此得到的回波消除器的高通滤波器)只允许高频(高于低频)通过。

著录项

  • 公开/公告号CN1810015A

    专利类型发明专利

  • 公开/公告日2006-07-26

    原文格式PDF

  • 申请/专利权人 坦德伯格电信公司;

    申请/专利号CN200380110129.8

  • 发明设计人 T·F·马顿;I·F·阿内斯;

    申请日2003-11-11

  • 分类号H04M1/58(20060101);H04M1/60(20060101);H04B3/20(20060101);H04B3/23(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人杨凯;刘杰

  • 地址 挪威吕萨科

  • 入库时间 2023-12-17 17:33:59

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-05-23

    专利权的转移 IPC(主分类):H04M1/58 变更前: 变更后: 登记生效日:20120417 申请日:20031111

    专利申请权、专利权的转移

  • 2009-07-29

    授权

    授权

  • 2006-09-20

    实质审查的生效

    实质审查的生效

  • 2006-07-26

    公开

    公开

说明书

发明领域

本发明涉及具备改良的声学特性的音频通信系统和方法,尤其涉及包括有改良的音频回波消除系统的电视会议系统。

发明背景

在使用扬声器的传统会议系统结构中,两个或多个通信部件被放置在不同的地点。利用会议系统将信号从一个地点传输到另一个地点要经历若干个延迟,这些延迟包括传输延迟和处理延迟。对于一个电视会议系统来说,与音频信号的处理延迟相比,视频信号的处理延迟是相当大的。由于视频信号和音频信号要同步、同相位地呈现,因此,为了补偿较长的视频信号延迟,在传输和接收信号路径中有目的地将唇同步延迟加入音频信号。

在传统的会议系统中,一个或多个麦克风在地点A处捕获声波,并将声波转换成第一音频信号。第一音频信号被传输至地点B,在地点B处有一台电视机或一个放大器和扬声器,通过将地点A处生成的第一音频信号转换成声波从而再现原始的声波。在地点B处产生的声波部分地被地点B处的音频捕获系统捕获,并被转换成第二音频信号,而后被回传给地点A处的系统。这个使声波在一处被捕获、并被传输至另一处、而后又被回传至初始地点的问题被称为回声。在其最严格的表现形式当中,当环路增益超过1时,回声可引起反馈声音。特别是如果系统结构当中存在延迟的话,回声还可造成在地点A和B处的参会者听到他们自己的声音,使得参会者通过会议系统进行对话变得困难,这种情形在电视会议系统中很常见,尤其是由于上述的唇同步延迟所造成的情形。通常使用回波消除器(如下面所描述的)来解决回声问题。

图1显示的是一个传统会议系统的结构。为简便起见,图1显示了分布在两个地点A和B的会议系统结构。这两个地点通过发送信道1300被连接,每个地点各有一个扬声器1100和1200、各有一个麦克风1111和1211。图1中的箭头表示声音信号的传播方向,通常箭头方向由麦克风指向扬声器。

图2是电视会议系统的整个视图。这个系统分布在A和B两个地点。就会议系统结构方面来说,一个电视会议模块可被分配至两个以上的地点,并且在只有一个地点拥有扬声器的时候,系统结构也能发挥作用。在地点A处,视频模块带有一个可捕获视频图像的视频捕获系统2141和一个可对视频图像编码的视频子系统2150。相应地,声波被一个音频捕获系统2111所捕获,并且音频子系统2130将声波编码为声信号。由于视频编码系统中的处理延迟,通过使用唇同步延迟2163,控制系统2160可将附加延迟引入音频信号,这样可以达到视频信号和音频信号之间的同步。在多路复用器2161中,视频信号和音频信号被混合在一起,由此生成的信号(视听信号)通过发送信道2300被传递至地点B。在地点B处,附加的唇同步延迟2262被插入。另外,在地点B处,由音频提供设备2221所呈现的音频信号被具体为声波。在地点B处所呈现的声波部分可作为直接声波或作为反射声波到达音频捕获设备2211。在地点B处捕获声音并将这个声音传回地点A连同相关的延迟一起构成了回声。将所有描述的延迟加起来,其值是相当大的,因此电视会议系统中回波消除器的质量要求特别高。

图3表示一例回波消除器子系统,该回波消除器子系统可以是图2所示电视会议系统中音频系统的一部分。为了减少通信系统中的回声,在参会地点中,至少有一处要配备回波消除器子系统。回波消除器子系统3100是一个全带模式的数字回波消除器。全带模式直接对音频信号的整个音频频带(例如,一直到20KHz;对于电视会议系统,频带通常可达7KHz;在音频会议系统中,频带可达3.4KHz)进行处理。

正如已经提到的,通常可通过一个回波消除器来达到回声补偿。回波消除器是一个可独立应用的设备或者是通信系统中的一个集成部分。利用如线性/非线性数学模型,回波消除器对从地点A传输至地点B的声信号进行转换处理,然后从由地点B传输至地点A的声信号中减去经过数学调整的声信号。更具体地说,关于如地点B处的回波消除器子系统3100,回波消除器使来自地点A的第一声信号3131经过声学系统3121的数学模型器、计算回声信号的估计值3133、从地点B处捕获到的第二音频信号3132中减去估计的回声信号、并且将减去了估计回声的第二音频信号3135传回地点A。图3的回波消除器子系统还包括一个估计误差(即估计回声与实际回声之间的差异),用于在声音被音频捕获设备捕获的位置处修正数学模型或使数学模型适应背景噪声和环境的变化。

在大多数回波消除器中使用的声学系统3121的模型是一个FIR(有限冲激响应)滤波器,它逼近一个房间中直达声和大多数反射的传递函数。在信号被扬声器捕获后,主要是由于处理能力的缘故,FIR滤波器最好不要在一个无限长的时间内提供回波消除。相反,将采用以下作法:在一个给定时间之后的回声(即所谓的尾长)将不被抵消,而是作为剩余回声的形式出现。

为了估计完整尾长中的回声,FIR滤波器需要一个长度L=Fs*尾长,其中Fs为取样频率(单位:赫兹Hz),尾长的单位为秒。

计算滤波器单个信号样本输出的乘法和加法各自所需的数目等于滤波器长度,对每个样本都应当计算一次滤波器的输出,也就是说,乘法和加法的总数为Fs*L=Fs*Fs*尾长=尾长*Fs2

尾长的典型值为0.25秒。对于Fs=8KHz的系统来说,乘法和加法的数目将为1.6×107;对于Fs=16KHz的系统来说,乘法和加法的数目将为6.4×107;对于Fs=48KHz的系统来说,乘法和加法的数目将为5.76×108

类似的计算可以用于滤波器修正算法。最简单的算法LMS(最小二乘法)有一个与滤波器长度成正比的复杂性,它意味着与Fs2成正比的处理能力需求;而较复杂的算法拥有与滤波器长度的平方成正比的处理能力,这意味着与Fs3成正比的处理能力需求。

一种减少回波消除器的处理能力需求的方法是引入子带处理,即将信号分割成具有较小带宽的频带,所述较小带宽可用较低的取样频率来表示。这种系统的一个示例将在图4中说明。

分析滤波器4125、4131分别将来自近端和远端的全带信号按N个子带分离。在每个子带中执行回波消除和混杂子带处理(一般是这样,但不限于非线性处理和噪声抑制),然后合成滤波器5127重建经过修改的全带信号。值得注意的是,在以下复杂性计算中,许多次级处理单元被省略,因为它们对整个处理能力需求的贡献很小。

分析滤波器4125、4131包括一个滤波器组和抽选器,而合成滤波器5127包括一个滤波器组和插补器。全带信号包含取样频率Fsfullband。子带信号包含取样频率Fssub-band=K/N*Fsfullband。所引入的K为过度取样因数,用于简化和减少滤波器组的处理能力需求。K总是大于1,但在大多数情况下相对较小,通常小于2。

子带的过滤和适应(假定FIR和LMS)处理能力是:0sub-band=C1*尾长*Fssub-band2=C1*尾长*(K/N*Fsfullband)2(C1是一个比例常数)。所以,对于较高的N而言,可以减少滤波的处理能力需求;然而,对于总的处理能力而言,分析和合成滤波器的开销必须增加。

分析和合成信号的有效方法是以变换(例如,快速傅里叶变换FFT)为基础的。这些方法具有复杂性0overhead=C2*N*log2N,其中N为子带数目,C2为比例常数。子带数目和Fsfullband成正比,因而0overhead=C3*Fsfullband*log2Fsfullband

也就是说,总复杂性为:

0=0subband+0overhead=C1*尾长*(K/N*Fsfullband)2+C3*Fsfullband*log2Fsfullband

回声过滤/适应与Fsfullband2成正比。通过增加子带数目来减少过滤/适应部分是可能的,但是要以增加计算子带信号的总开销为代价。可是,通过利用许多子带,即利用大量的快速变换,可能得到一个随Fsfullband*log2Fsfullband增加的复杂性。

由于在实施大量变换时信号处理过程中高速缓存无效,尽管上述方法在理论上是可行的,但是要在实践中得以实现可能是很困难的。

因此,已经为提供一个不增加子带带宽地使子带数目减少的系统进行了一些工作。

发明内容

本发明的目标是提供一个在不增加子带带宽的条件下可以使子带数目减少的系统。

在所附的、独立的权利要求书中所定义的特征描述了该系统的特性。

特别是,本发明揭示了一个音频回波消除器。该音频回波消除器包括一个至少用于实现回声模型的模块,该回声模型可提供回波估计值并从来自第一抽选器的第一信号中减去该估计值;除此之外,该音频回波消除器还包括一个插补器,用于对来自模块的第二信号进行插值处理。该音频回波消除器包括一个减法装置,适于用被第一滤波器调整过的第一信号减去所述模块的输出从而提供所述第二信号;包括一个加法装置,适于将被第二滤波器调整过的所述抽选器的输入信号和所述插补器的输出信号相加。

附图简介

为了使本发明更容易理解,下面的讨论将参考如下附图,

图1是传统会议系统结构的概略结构图,

图2是传统会议系统结构的较详细结构图,

图3是回波消除器子系统的更详细视图,

图4是用子带处理实现的、相应的回波消除器子系统的结构图,

图5是由本发明的子带处理实现的回波消除器子系统的结构图。

具体实施方案

下面,通过描述优选实施例并参考附图对本发明进行讨论。然而,即使只对特定的实施例与电视会议相联系地进行了描述,本领域技术人员也应当了解所附的独立权利要求规定的本发明范围涵盖其它的应用和修改。

本发明利用了以下事实:在高频回波消除系统中,并非所有频率都是同等重要的。

约7KHz以上的频率对于语音的可理解性并无太大贡献。然而,这些频率对于逼真度和所体验的接近度的影响是相当大的。

经验表明:即使当某个确定事件中返回信号被低通滤波并向下取样时,语音的可理解性和听觉感受仍可维持。换句话说,音频回波消除系统可便利地设计成具备:

a)以对语音的可理解性有贡献的频率进行的全双工通信(包括回波消除),以确保在两方交谈期间没有信息损失,以及

b)在单方讲话期间的全带带宽和增强的逼真度。

通过适当地体现上面的限制,可减少完备的取样频率对处理能力要求的影响,而且仍能获得完整的音频带宽声音的好处。

本发明提供了一个系统,其中的回波消除和噪声抑制按照现有技术水平下的通信临界频带来处理,虽然有上述的这种限制,最好将声音转换用于提供高保真语音,并且同时避免回波和反馈。

图5是本发明的一个优选实施例。该优选实施例以图4所示的子带回波消除系统为基础。优选实施例的整个系统在采样速率Fshigh下操作,回波消除器在采样速率Fslow下工作,处理声音时的频率低于Fslow/2。要注意的是,方框5000内的处理在全部子带内重复进行。

在经回波消除器处理之前,来自地点B的信号(包括回声、远端声和/或噪声)被抽选,即用因数n低通滤波并向下取样。信号还被抽头并转送作进一步的处理,并构成具有高频(Fslow/2以上)的输出信号部分。经过低通滤波和向下取样的信号被分析滤波器分成N个子带。因为在本发明的优选实施例中将被分割的信号要经过低通滤波,所以所需N的大小将相应地减小。

然后,子带信号5132被加到由声学系统的一个(子)模型5121生成的反相子带回波估计值5133上。如现有技术中,该模型最好包括一个FIR滤波器和一个相关的滤波器更新算法(例如LMS算法),以该模型包含来自地点A的音频信号的相应子带信号和来自上述相加5134的结果的的反馈环路作为输入。由此生成的信号5134最好再经过多种处理,例如:剩余回声掩蔽(由于FIR滤波器的有限性质和任何其它模型缺点)、噪声抑制和舒适噪声附加。经过多种处理后产生的信号,将包括降低的噪声和不含来自地点B子带信号的回声,以及舒适噪声。

应当以某种方式使这些被抽头信号高通滤波,因为上述被抽头的信号预定会对输出信号的高频部分有贡献。依据本发明,仅从原始信号中减去经低通滤波的信号就可以达到这个目的。在刚通过抽选器中的低通滤波器之后进行抽头是可以提供低通滤波信号的(通过适当量的样本T来延迟麦克风信号),但是这不是最佳做法,因为它阻止了低通滤波和向下取样结合,从而使抽选器处理效率下降。最优方法是用刚通过合成滤波器之后的被处理子带信号减去刚通过分析滤波器之后被抽头的干净子带信号。仅仅提供地点B信号的低频为子带处理部分开辟了一条路径,借助于已述的减法可将地点B的信号用于对旁路信号执行高通滤波处理。

低通滤波器5142、5139和向下取样器5141以及向上取样器5140连同Hs5136和Hf5138规定了高通滤波器的曲线。下面会对所述的Hs5136和Hf5138作进一步的解释。当然使旁路信号具有适当的延迟对这种滤波而言是非常关键的,无论是通过Hf过滤之前和过滤之后都必须添加这个延迟,因为Hf的大小必须与Hs相对应。这些延迟应当代表低通滤波器、分析滤波器和合成滤波器中的延迟以及任何附加延迟。

本发明提供了低频下的回波消除和噪声抑制而不改变高频的麦克风声音的方法。这种方法对于近端谈话的情形是符合要求的,也就是说,在地点B以最小的噪声量讲话。然而,若没有任何程度的调整,可能会产生反馈,并且高频回声恰好可以通过;反馈甚至可以损害听力。因此,有必要分辨出全音频带宽声音被需求的情形和高频应当被衰减的情形。在本发明的优选实施例中,控制算法5137可识别这些情形,通常根据(但不限于)全带扬声器和麦克风信号、其子带信号、子带回波估计值以及回波消除的子带信号来识别。

控制算法5137应当至少提供确定以下情形的信息:a)近端谈话,或b)远端谈话、两方交谈或只有背景噪声。在情形b)中,声音的高频部分应通过调整Hs和Hf的增益值使之接近零而被衰减。远端谈话将产生回声,而且只有噪声将包含高频成分并可能触发反馈。两方交谈的情形可被无高频声地处理,因为耳朵对声重发过程中的高保真度不太敏感,而在人们同时讲话时音景(soundscape)是混乱的。

判定控制算法经常生成以下值,如针对情形a)为1,针对情形b)为0。判定控制算法被解释并用作高频声电平的基础,具体而言就是调整高通滤波器轮廓曲线的滤波器Hs和Hf。这是滤波器Hs和Hf最重要的功能,也就是对高频率量值的调整。下面揭示一例对一个判定(即从a)过渡到b),反之亦然)的高频增益变化解释。

假定将声音分割成持续时间为10ms、采样速率Fshig=48000KS/s、n=3,于是Fslow=16000KS/s的声音包。当回波消除器对子带进行操作时,判定通常一次只对一个包,因此对每个声音包,滤波器调整最多只能做一次。因为子带样本中的每一个表示在一个窄频带内的10ms,而另一方面来自地点B的信号样本中的每一个表示在一个相对较宽的频带内的较小时间量,对于本领域技术人员而言,显然在较低频率(由Hs的量值提供)内增益调整的结果应相应地在高频率(即相应的Hf的量值)上处理。

如果抽选器、分析滤波器、合成滤波器和插补器一同构成一个线性相位系统,Hs可以简化为时间不变增益Gs,而此时Hf可被适当的延迟和时间不变增益Gf代替。Gs中的任何变化必须由随时间分布变化的Gf反映。只有小的误差通过计算Gf而作为连续Gf值的线性插值引入。

在稳定的情形下,即沉默(只有噪声)或远端谈话的情形下,滤波器Hs和Hf的增益在值为0(无高频声音/噪声)时应当是稳定的。近端谈话将不是一个非常稳定的情形,因为语音包括声音(短语)和沉默(短语之间)。尽管如此,在短语期间,最好使Hs和Hf的增益(最大高频增益)尽可能保持恒定并等于1,因而产生全音频带宽的声音。

值得注意的是,也许存在有大量背景噪声的情形,这时最大高频增益最好为低电平(0和1之间)。当然,最大高频增益的减小将使设备的功能恶化,可能时应当通过降低高频背景噪声来解决这个问题。

即使本发明是与电视会议相联系地进行描述的,本领域技术人员应当了解:本发明还可用于其它等效的应用(如电话会议和呼叫、移动电话会议和呼叫、网络会议等)。

本发明的主要优点是:与现有技术相比,由于只有较少的子带,本发明只要求较低的处理能力。其复杂性为0=C4*Fslow*log2Fslow+C5*Fshigh。也就是说,当带宽增加到高于上面的通信临界频率频带时,复杂性只是随带宽线性地改变。

另外,本发明的系统可作为一种框架加到已存在的回波消除器的周围,并且只对已存在的消除器进行很少的或者不作调整。所以,本发明提供了一种增加现有回波消除器系统带宽的有效(在开发资源方面)方法。本发明可用于子带和全带回波消除器。

另外,本发明可为单方谈话期间的近端信号提供改善的音频质量。当Hf的量值为1时,被传输至远端地点的近端信号未通过分析/合成(在子带的情形下)滤波器处理。所以,在该处理过程中的任何失真或其它质量退化都未被加到近端信号中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号