首页> 中国专利> 包含晚期混响成分的模型化的回声抑制技术

包含晚期混响成分的模型化的回声抑制技术

摘要

本发明公开了用于计算自适应滤波器(210)的滤波器系数(H[k,m])的设备(200)。该自适应滤波器用来滤波麦克风信号(140,430)以抑制因扬声器信(130,420)号所致的回声。该设备(200)包含:回声衰减模型化装置(465),用于模型化声音环境的衰减表现及用于提供相对应的回声衰减参数(τ;α

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-01-20

    授权

    授权

  • 2015-12-30

    著录事项变更 IPC(主分类):G10L21/0208 变更前: 变更后: 申请日:20111006

    著录事项变更

  • 2013-09-18

    实质审查的生效 IPC(主分类):G10L21/0208 申请日:20111006

    实质审查的生效

  • 2013-08-21

    公开

    公开

说明书

技术领域

本发明的实施例涉及计算用于滤波麦克风信号以抑制因扬声器信号 所致的回声的自适应滤波器的滤波器系数的设备和方法,如可在会议系统 的环境下所采用的那样。会议系统的实例包括电话会议系统、视频会议系 统或其它双向会议系统。

背景技术

每当来自扬声器的音调、声响及噪声被位于同一房间内或在相同声音 环境的麦克风获取时就产生声学回声。在电信系统中,这种声音反馈信号 被发射返回远程客户,客户注意到存在一个自己语音的延迟版本。在该环 境中,回声信号表示极为令人分心的干扰,甚至可能妨碍互动全双工通信。 此外,声学回声可能导致啸声效应及声音反馈送路的其它不稳定性。

WO 2006/111370 A1涉及用于移除多声道音频信号中的回声的方法及 设备。声学回声控制及噪声抑制乃任何无需动手(hands-free)电信系统诸 如电话、音频或视频会议系统的重要部分。文件中描述的在此环境的处理 多声道音频扬声器信号及至少一个麦克风信号的方法包括下列步骤:将输 入麦克风信号变换成输入麦克风短时间频谱,从扬声器信号计算组合扬声 器信号短时间频谱,从输入麦克风信号计算组合麦克风信号短时间频谱, 估计在组合麦克风信号短时间频谱中的回声的振幅频谱或功率频谱,计算 增益滤波器用于输入麦克风短时间频谱的振幅修改,施加增益滤波器至至 少一个输入麦克风频谱,及将经滤波的输入麦克风频谱变换至时域。

回声抑制与回声消除系统在当今被采用且亦可概要地被称作为回声 去除系统,经常存在无法以最佳方式应付不同的声音、音调、噪声成分及 回声成分的问题,尽管使用自适应滤波器也如此。若一个成分比较另一成 分更具优势,则例如在这种通信系统的麦克风信号中可能出现扬声器信号 回声的非最佳抑制。另一方面,在偏离不同来源的成分组成的情况下,由 于利用回声抑制与回声消除系统可能产生音调假声,这些音调假声也可能 让人感觉极为烦恼。

EP 1 429 315 A1涉及在可变声音状况以及大比例的反馈状况下,抑制 环境里的回声及噪声的方法及系统。在具有可变声音状况及高反馈环境里 诸如汽车内部消除回声及噪声允许人员间可听闻的通信的系统包含一或 多个语音信号用的麦克风信号及A/D、D/A转换器、产生可通过扬声器再 现为声音信号的放大与滤波装置、及一回声消除器,该回声消除器运用该 信号及来自麦克风的电气信号整合该信号的反馈信号、另一语音信号及由 麦克风而捕获的噪声。该系统系应用来消除反馈,消除方式在信号处理后, 提供该消除设备的电气输出信号的额外滤波,该系统包含时间可变滤波 器,该时间可变滤波器抑制未被系统抵消的残余声学回声及通过麦克风所 捕获的噪声。

WO 2009/095161涉及用于计算回声抑制的滤波器系数的设备及方法。 滤波器系数意图用在自适应滤波器来滤波麦克风信号,因而遏止扬声器信 号所致的回声。该设备包含提取装置,该提取装置用于从扬声器信号或从 扬声器信号所导出的信号中提取固定成分信号或非固定成分信号。该设备 也包含计算装置用于基于所提取的固定成分信号或非固定成分信号而计 算该自适应滤波器的这些滤波器系数。WO 2009/095161公开的设备及方法 关于组成扬声器信号的成分信号的统计性质而检验远程信号。

始于该先前技术,因此本发明的目的以合理的计算努力来改良回声抑 制系统或回声消除系统的声音质量。

此目的通过权利要求1所述的设备、权利要求14所述的方法、或如权 利要求17所述的程序来实现。

发明内容

一种用于计算用来滤波由一麦克风所捕获的一麦克风信号以抑制由 于一扬声器所输出的一扬声器信号造成的一回声的自适应滤波器的滤波 器系数的设备,该设备的一个实施例包含:一回声衰减模型化装置,用来 模型化一声音环境的一衰减表现及用来提供一相对应的回声衰减参数;及 计算装置,用于基于该回声衰减参数来计算该自适应滤波器的滤波器系 数。

一种用于计算用来滤波一麦克风信号以抑制由于一扬声器信号造成 的回声的自适应滤波器的滤波器系数的方法的一个实施例包含:利用回声 衰减模型化装置而提供回声衰减参数;及基于回声衰减参数而计算自适应 滤波器的滤波器系数。

依据本文公开的教导的设备、方法、及计算机程序的实施例基于发现 通过回声衰减模型来尤其将晚期回声成分模型化,可达成音频质量的改良 及/或计算努力的减少。回声衰减模型可仰赖只需要相当少的计算努力的递 归计算。其中使用自适应滤波器的声音环境的回声衰减可能呈现变动性 质,这些性质可从麦克风信号及/或扬声器信号样本中估计。

虽然早期回声成分典型地相当类似原始声音,但晚期回声成分变得愈 来愈模糊且愈不像原始的声音。依据本文公开的教导的设备、方法、及计 算机程序可将要求较高准确度的早期回声成分的抑制与在整个混响时间 可较不准确地估计的晚期回声成分的抑制进行区别。与探索原始麦克风信 号和扬声器信号的相对应组成分特有的(亦即不受声音环境影响的)多个 信号组成分诸如固定或非固定的不同统计性质相反地,本文公开的教导利 用由扬声器信号所引起的回声性质。这些回声相关性质与声音环境120关 联,由此当变更或重新组配声音环境时改变。但例如就固定成分与非固定 成分间之比而言,当扬声器信号或麦克风信号改变时,回声相关性质不会 改变或至少不会以显著方式改变。

在本文说明的进一步进程中,额外实施例将就其结构及操作模式作描 述。取决于特定实施例,回声衰减参数可从个别信号中进行估计,例如已 经受声音环境的系统响应所影响的麦克风信号。依据本文教导的实施例, 设备可进一步包含被配置为基于滤波器系数而滤波麦克风信号的回声抑 制滤波装置。依据本文献教导的设备可包含用于估计麦克风信号里的回声 的回声频率频谱或回声功率频谱的回声估计装置。回声频率频谱或回声功 率频谱的估计可被分割为早期回声成分的估计及晚期回声成分的估计。早 期回声成分的估计与晚期回声成分的估计有别。以相对低的计算努力,晚 期回声成分的估计可跨越原始声音后的相当长时间区间。早期回声成分的 估计可能相对精准且涵盖原始声音后的相当短时间区间。

附图说明

图1示出了声音回声去除问题的一般性配置;

图2示出了典型室内脉冲响应的一般结构;

图3示出了短时间频域声音回声抑制器的基本框图;

图4示出了混响的指数衰减;

图5示出了依据本文献教导的各个实施例一种设备的示意框图;

图6示出了依据本文献教导的又一个实施例的示意框图;

图7示出了依据本文献教导的又一个实施例的示意框图;

图8示出了依据本文献教导的又一个实施例的示意框图;

图9示出了依据本文献教导的又一个实施例的示意框图;

图10示出了图解原始脉冲和相对应的晚期混响的时间图;

图11示出了回声估计和混响模型化的时间图;以及

图12示出了本文献中公开教导的实施例用于多声道体现的框图。

具体实施方式

在本文说明中,相同参考标号表示作用、功能、结构相同的或作用、 功能或结构相似的装置、单元、及对象。除非明确地排除,由于说明章节 内容可从一个实施例移转至另一个实施例,由此允许本发明的实施例更短 且更精简的呈现。

此外,在本说明部分中,概要参考标号将用在一个图式或实施例中出 现多于一次的装置、结构及对象。举例言之,图1示出的两条间接路径 180-1、180-2确实在图1中具有给定不同参考标号,但若描述间接路径本身, 或若描述其一般特征,则于本说明中将只使用概要参考标号180。如此也 用来改进对本文说明的了解与精简。

在参考图2至图12描述本文公开教导的多个实施例前,其允许声音回 声的抑制,同时使用固定与非固定信号成分的分离,声音回声去除问题的 一般性配置将参考图1初步说明。

在全双工适合无需动手电信系统中,典型要求回声控制来抑制扬声器 与麦克风间的耦合。

图1示出扬声器100,可连同麦克风110设置于声音环境120,例如可以 是室内。同理,声音环境120也可以是车辆内部。

在本情形中,扬声器信号130系为扬声器100可用,该信号在图1中也 被标示为具有整数时间指数n的x[n]。麦克风110拾取从声音环境120产生的 噪声、声音及音调,并产生麦克风信号140,该扬声器信号在图1中也被标 示为y[n]。扬声器信号130及麦克风信号140二者皆提供作为回声去除处理 单元150的输入信号,该信号在输出端提供麦克风信号140的回声抑制信号 160,该回声抑制信号在图1中也被标示为e[n]。

因此,图1基本上图解在双向通信系统中可能产生的声音回声问题。 电信系统远程由扬声器所输出的信号在直接路径170上及经由反射路径 180-1、180-2到达麦克风,反射路径又称间接路径。为此,麦克风110不仅 拾取在本地近端的语音,同时也暂存回声,然后馈送回在远程的用户。

换言之,扬声器信号x[n]被馈送至麦克风信号y[n]。在回声去除处理 单元150中执行的回声去除处理程序理想上去除了该回声,同时允许电信 系统本地近端的语音通过。

常规应付该回声方法将声音回声消除器(AEC)平行回声信号的传播 路径设置,如参考文献[1]所述。在这种声音回声消除器中,回声信号的数 字复本被估计且随后从所测量或观察到的麦克风信号中去除。消除声音回 声的标准办法依赖假设回声路径可通过线性FIR滤波器(FIR=有限脉冲响 应)加以模型化,并据此而体现声音回声消除器,如也在参考文献[1]描述 的那样。因回声路径典型为未知,及此外,可在操作时间期间变更,这种 声音回声消除器的线性滤波器典型地自适应地实现。为了模型化典型回声 路径,使用典型具有数百毫秒长度的FIR滤波器,该长度与个别取样率有 关,同时也暗示高度计算复杂度。

实际上,这些常规办法所能达成的回声衰减由于各项理由故经常为不 足。各项理由包括例如长混响时间(回声尾效应)结果导致回声路径的模 型化不足,例如因特别低成本音频硬件的振动效应或非线性表现引起非线 性回声成分,并在有关回声路径的高时间变化率的情况下的收敛问题,如 参考文献[2]所述。因此,声音回声消除器组合非线性后处理器来去除回声 消除器所无法去除的残余回声及回声成分,如参考文献[3]所述。常见,残 余回声的遏止以频率选择方式进行,如参考文献[4]所述。确实,实质上全 部声音回声消除器利用这种后处理器,原因在于该声音回声消除器经常无 法充分减低回声,使回声变成听不见。

近年来,针对子带定义域的多个声音回声消除器已经在参考文献[5、 6]中提及,其载有与前述非线性后处理器的相似性,但无需用于声音回声 消除器及用于估计回声路径脉冲响应。这些系统被要求具有低运算复杂度 且稳健,同时达成高度双工性。

参考文献[6]提及的回声抑制器体应用短时间傅里叶变换(STFT)来 计算扬声器信号及麦克风信号的频谱。两个信号中经短时间傅里叶变换的 一者间的延迟值d施加至相对应扬声器信号,该延迟值经选择使得将回声 路径脉冲响应的大部分效应列入考虑。

然后,对真实值回声估计函数估计,该函数仿真初回声路径效应。为 了获得估计回声振幅频谱,估计延迟值及回声估计函数被施加至扬声器频 谱。使用回声振幅频谱的估值,真实值回声抑制滤波器被计算且被施加至 麦克风信号频谱来抑制回声。

当估计回声功率频谱时,前述声音回声抑制系统考虑室内延迟混响效 应,亦即晚期混响效应系以回声路径早期反射效应的相同方式考虑,但晚 期混响显然具有与早期反射不同性质。为了应付来自晚期混响的回声成 分,偶尔使用回声去除滤波器的时间性平滑化。实际上这种办法可能增加 非期望的近端失真。

此外,晚期混响典型地倾向于比早期反射更为随机,原因可能在于声 音环境120里扬声器与麦克风间的不同传播路径与反射路径重迭。

扬声器所发射的远程信号x[n]直接地及经由反射路径二者而行进至麦 克风。麦克风信号y[n]包含本地近端语音及噪声w[n]及如此反馈给远程用 户的回声,

y[n]=h[n]*x[n]+w[n], (1)

Y[k,m]=G[k,m]Xd[k,m]+W[k,m],

本文,h为室内脉冲响应及*表示卷积。

如图2的所示,室内脉冲响应h可被分解成直接声音、早期反射(或若 干早期反射)、及晚期混响。后者也被称作为回声尾。在如参考文献[6]所 述的先前提出的方法中,唯有通用延迟参数d及回声估计函数g系用来模型 5化回声路径而捕获直接声音及早期反射。晚期反射并不在先前提及的方法 模型化,而由回声抑制滤波器的时间平滑化考虑。如此麦克风信号y[n]可 表示为:

y[n]=h[n]*x[n]+w[n],(2)

通用延迟参数d可通过下述事实解释,扬声器信号至麦克风的最短距 离路径系通过扬声器至麦克风的距离给定,换言之,扬声器信号需经由直 接路径行进扬声器至麦克风的距离。早期反射典型地相当类似原始扬声器 信号及直接声音,原因在于早期反射相对应于多条一次反射路径180(图 1),在普通声音环境里该数目典型地相当小。回声尾由多个效应引起,诸 如声音散射、共振效应及多点反射,只列举数者。在麦克风110,出现在 声音环境120里已经行进多个不同路径的扬声器信号x[n]。由于随着传播延 迟的增加,扬声器100与麦克风110间可能的传播路径数目也增加(换言之, 只有单一直接路径170及只有有限数目的单反射路径180,但有大量数目的 多反射路径),在直接声音到达后通过一给定时间区间,到达麦克风110的 重迭扬声器信号可被视为实质上随机。声音环境120的阻尼效应造成晚期 混响的衰减,可经模型化为指数衰减。

如图3所示,短时间离散傅里叶变换(STFT)频谱系从扬声器信号420 及麦克风信号430计算。针对扬声器信号420及麦克风信号430的STFT变换 所考虑的时间区间在图3中分别系以参考标号440及450表示。延迟d(参考 标号460)被导入在扬声器信号420与麦克风信号430之间,原因在于扬声 器100所发射的声音信号需要某个最短时间来传播至麦克风110。施加至扬 声器信号420的STFT窗间的延迟d经选择使得回声路径的脉冲响应的的大 部分能都被捕获。方程式(2)的STFT定义域表示型态系以下式给定,

Y[k,m]=G[k,m]Xd[k,m]+W[k,m],(3)

这里,k为区块时间指数,并且m表示频率指数,Xd[k,m]为延迟扬声 器信号x[n-d]的STFT定义域对应关系。从方程式(3)中,也清楚可见, 声音回声路径的晚期混响并非捕获在该模型,原因在于G[k,m]所涵盖的时 间跨幅相对应于一个STFT区域的区块长度。典型地,这些区块具有10毫 秒至30毫秒长度,该长度比高达数百毫秒的常见混响时间远更短。

实际声音回声抑制通过修改麦克风信号的STFT振幅Y[k,m]同时维持 其相位不变执行。这点可以表示成:

E[k,m]=H[k,m]Y[k,m], (4)

本文回声抑制滤波器(ESF)370输出真实值正增益因子H[k,m]。于时 间与频率离散体现中(如同具短时间傅里叶变换的情况),H[k,m]的值典 型为矩阵H的一个组件,用在目前考虑的STFT区块是有效的。

真实值正增益因子H[k,m]被提供给实际自适应滤波器210(SM:频谱 修改),后者提供于STFT定义域的回声抑制麦克风信号E[k,m]。从STFT定 义域变换回时域系通过反短时间傅里叶变换(ISTFT)300执行来输出信号 e[n]。

回头参考图3的框图,回声抑制滤波器370运用声音环境的转移函数 G[k,m]的估值,该估值系标示以回声抑制滤波器370及其输出H[k,m] 的最佳值可通过将均方差(MSE)定义里的回声成分对输出信号E[k,m]的 贡献变最小化而导算出。回声功率频谱的估值通过将估计的延迟及估计的 回声估计函数(EEF)470施加至扬声器信号功率频谱而获得,例如

|Y^[k,m]|2=|G^[k,m]|2|Xd[k,m]|2.---(5)

。注意,实际上,回声功率转移函数|G[k,m]|2为未知而须以其估值亦 即置换。

回声转移函数G[k,m]或在回声估计函数470内部其功率转移函数的估 计例如可如参考文献[11]所述执行。该估值可从扬声器信号420及麦克风信 号430个别的功率频谱的相关性估计得。

|G^[k,m]|2=E{|Xd[k,m]|2|Y[k,m]|2}E{|Xd[k,m]|2|Xd[k,m]|2}.---(6)

。注意实际上本文使用的数学期望值E{}可以相对应的短时间平均值 置换。举个实例,发明人考虑

ΦAB[k,m]=E{A[k,m]B[k,m]}. (7)

相对应于ΦAB[k,m]的短时间平均值例如可依据下式通过递归 平滑化获得

Φ^AB[k,m]=(1-αavg)Φ^AB[k-1,m]+αavgA[k,m]B[k,m].---(8)

。因子αavg确定随时间的平滑化程度,可调整为任何给定要求。

例如已经于参考文献[6]提及用于回声抑制滤波器370计算的实用办 法:

H[k,m]=|Y[k,m]|2-β|Y^[k,m]|2|Y[k,m]|2,---(9)

这里,β表示控制欲抑制的回声量的设计参数,如参考文献[12]所述。

下段摘述依据本文公开的教导的相对详尽阐释实施例设备200的结 构。该实施例可能包含比较对所公开教导的基本体现要求的更多组件及/ 或特征。

回声衰减模型提供回声衰减参数给回声估计函数确定装置。这种回声 估计函数确定装置确定回声估计函数其将回声衰减参数列入考虑。然后回 声估计函数施加至来当回声出现在实际声音环境时确定回声估值。然后回 声估值可由回声抑制滤波器确定装置(在本文描述中也称作为计算装置 270)使用。回声抑制滤波器确定装置系经体现来确定滤波器,该滤波器 当施加至麦克风信号时,抑制了麦克风信号中因扬声器信号所致的回声成 分。为了达成此项目的,组成回声抑制滤波器的滤波器系数系供给相对应 滤波器结构,该滤波器结构接收麦克风信号作为输入且提供回声抑制信号 作为输出。

在图4中,若假设指数衰减模型,示出室内脉冲响应的晚期混响部分 的波封q[n]:

q[n]=e-nτ.---(10)

考虑两个时间样本dτ及dτ+△dτ,及分别的相对应值q[dτ]及q[dτ+△dτ], 时间常数τ可基于下述比估计

Δq=q[dτ+Δdτ]q[dτ],---(11)

可写成

Δq=e-Δdττ.---(12)

解出时间常数τ获得

τ=-ΔdτlnΔq.---(13)

当波封值q系在例如短时间傅里叶变换(STFT)后于时频域表示的情 况下,各个频带可具有个别时间常数τm称作区块时间常数。如用在后文解 说的依据方程式(29)的STFT定义域模型的区块时间常数τm的计算可以类 似方式进行。

Q[k,m]=e-kFsτm.---(14)

。考虑两个时间样本dτ及dτ+△dτ,及分别的相对应波封值Q[dτ,m]及 Q[dτ+△dτ,m],时间常数τm可基于下述比估计

ΔQ[m]=Q[dτ+Δdτ,m]Q[dτ,m],---(15)

ΔQ[m]=e-ΔdτFsτm,---(16)

τm=-ΔdτFsln(ΔQ[m])15.---(17)

如下章节中将针对△dτ的给定值而呈示确定△Q[m]的方法。该方法基于 与用来确定方程式(6)中的回声估计函数的相似办法:

|Q^dτ[k,m]|2=E{Xdτ[k,m]Y[k,m]}E{Xdτ[k,m]Xdτ[k,m]},---(18)

|Q^dτ+Δdτ[k,m]|2=E{Xdτ+Δdτ[k,m]Y[k,m]}E{Xdτ+Δdτ[k,m]Xdτ+Δdτ[k,m]}.---(19)

。发明人由此式计算

ΔQ[k,m]=|Q^dτ+Δdτ[k,m]|2|Q^dτ[k,m]|2.---(20)

针对指数衰减模型的混响时间RT60可计算作为时间n,本文方程式 (10)中的q[n]减少达-60分贝(dB):

e-RT60τ=10-6.---(21)

解出期望的时间常数τ获得

τ=RT60ln(106).---(22)

使用该时间常数τ,可确定适当比例因子α。从混响时间RT60计算相对 应STFT定义域比例因子αm可以类似方式进行。

替代如前述通过观察两个时间样本dτ及dτ+△dτ,及分别的相对应波封 值Q[dτ,m]及Q[dτ+△dτ,m],来测量混响时间RT60,也可提供混响时间RT60的先验值(a-priori value)。先验值可提供为声音环境120例如汽车内部、 办公室、会议室、礼堂、或音乐厅的型别的函数。音乐厅的混响时间(2 秒至4秒)典型比汽车内部的混响时间(约40毫秒)更长两个次幂或幅值。 即便并未针对给定声音环境测量实际混响时间RT60,但先验值典型地获得 相对应型别声音环境的良好近似值。用于计算滤波器系数的设备200可包 含选择开关等,通过此装置用户可选择例如短混响时间、中混响时间、及 长混响时间。

针对在STFT定义域模型中考虑的各个频带,可确定个别时间常数τm。 针对各个频带确定个别时间常数τm反映出下述实:在各个频带观察得的混 响时间因声音环境120的频率相依性响应而彼此有别。举例言之,大房间 可观察得低至中频带的长混响时间,而较高频率倾向于具有较短混响时 间。另外,也可确定单一时间常数τ作为全部频带的平均值。

图5示出了用于计算自适应滤波器210的滤波器系数的设备200的第一 实施例,恰似关联的方法,该设备利用回声衰减模型化装置465来改良回 声抑制,并由此改良可达成的音频质量。因此,本发明的实施例允许依据 其回声性质及特征的不同种处理信号的抑制,结果导致更不易有假声而更 有效的回声抑制。

作为引言,在就本发明的多个实施例关联图6至图8解释进一步体现细 节前,初始将解说依据本发明的实施例设备200的框图。在本情形中,有 用地可指出即便在图式中示出与描述依据本发明的实施例的设备的框图, 该框图也可被了解为相对应的方法流程图,该图阐释相对应的方法的步 骤,同时指示流程方向。换言之,关联本文描述阐明的框图也可了解为反 映个别装置及单元的个别方法步骤的相对应流程图。

设备200例如可在图1所示回声去除处理单元150内体现。

在以进一步细节解说图5所示设备200的实施例的操作模式前,也值得 一提:本发明的实施例基本上可在离散电路内部及集成电路内部二者或其 它更复杂电路体现。举例言之,本发明的实施例也可在数据处理装置亦即 处理器、集成系统(SOC=单芯片系统)、特定应用集成电路(ASIC)或其 它集成电路及特定用途处理器体现。于本环境中,相当可能个别数据处理 装置的相同电路部件以时间上接续方式被采用在不同装置。举例言之,处 理器的算术逻辑单元(ALU)的相同逻辑闸,首先可用在回声衰减模型化 装置465的函数环境,及其次,可用在计算装置270的函数环境。虽言如此, 两个装置特别系就其它特征而言有别,诸如于前述情况下,有关例如与不 同装置共同界定的不同控制指令。因此相当可能不同装置的电路工程体现 有部分或完全重迭。

特别由在该项理由于本文描述中,彼此耦合的装置、组件及结构须了 解为间接地或直接地互连的装置、组件及结构。若有基于数据处理装置的 体现,其被配置为可利用内存的储存位置进行耦合,该位置具有呈信号形 式的中间结果储存于其中。

但此外,本发明的实施例基本上不受限于数字体现,即使将在进一频 描述过程描述主要数字体现亦如此。举例言之,数字体现或包含类似及数 字成分的混合体现原则上可行。在这种情况下,例如可采用额外A/D或D/A 转换器(模拟/数字及数字/模拟转换器),故可能执行一型信号至另一型的 变换。

图5示出了依据本文献教导的各个实施例一种设备200的示意框图。设 备200包含回声衰减模型化装置465。在图5所示的实施例中,回声衰减模 型化装置465提供回声衰减参数τ给计算装置270。回声衰减参数τ模式化声 音环境120的混响时间。计算装置270确定通过滤波器系数H[k,m]表示的滤 波器函数。滤波器系数H[k,m]提交给自适应滤波器210,该滤波器将所得 滤波器施加至麦克风信号y[n]。回声抑制信号e[n]由自适应滤波器210提供 作为输出给自适应滤波器210下游的信号处理装置。虽然麦克风信号y[n]、 回声抑制信号e[n]、及滤波器系数H[k,m]在图5中系呈示为时间离散的数字 信号,但也可以是连续时间的模拟信号。

至于图5所示的设备200的操作模式,扬声器信号可通过选择性地存在 (图6)的时/频转换器装置而变换成频率相关定义域。在数据区块(帧) 上体现操作的情况下,时/频转换器装置确保转换成个别数据区块的频谱表 示型态,故提供在时/频转换器装置230(图6)的输出的频谱表示型态系相 对应于时域的数据区块。取决于特定体现,在时/频转换器装置内部可使用 于傅里叶变换为基础的转换器装置、以子带为基础的转换器装置、或以 QMF为基础的转换器装置(QMF=正交镜像滤波器)。与所体现的时/频转 换器装置的精准操作模式无关,该转换器装置将在其输入端提供的信号 (存在于时域)转换成多个带通信号。各个带通信号具有关联的特性频率, 该特性频率例如可以为中心频率、个别频带的下截止频率、或个别频带的 上截止频率。取决于特定体现,个别带通信号可具有多于一个特性频率或 其它关联的特性参数。

在以进一步细节结合图6至图8描述图5所示设备200的框图的个别组 件前,在此点须注意,扬声器信号或从扬声器信号导出的信号的处理通常 在频率相关定义域中进行,因而个别关联的带通信号、多个带通信号、许 多带通信号、或全部带通信号皆据本文理。

例如,也须注意,取决于特定体现,各个装置及滤波器在使用能量相 关值(energy-related value)的同时可操作。能量相关值是被形成为具有偶 数指数的实数底数值的倍率或被形成为具任何倍率的一值的幅值(绝对 值)倍率的一个数值。举例言之,若短时间频谱在各个滤波器或在各个装 置中处理,该频谱可在能量相关值上操作,例如在形成为关联的频谱系数 的振幅平方的能量值上操作。同理,振幅频谱,也即个别频谱系数的绝对 值可用于指数1。换言之,与|z|m成正比的值,m可以为正数,例如自然数, 可使用作为能量相关值,始于任何值z,z可以为真实值或复合值。在真实 值z的情况下,与z2m成正比的值可额外地用作为能量相关值。

有关信号模型化,欲说明使用回声估计函数进行回声贡献频谱或回声 功率频谱的估计典型地在实际情况下并非极为正确,原因在于只考虑真正 回声路径长度的分量。为了防止残余回声这些不准确结果,计算回声去除 滤波器,使其积极地遏止回声,因而不会残留任何残余回声。此点通过高 估回声功率频谱并通过执行有利于小型增益滤波器值的时间平滑化而达 成。

前述积极回声抑制滤波器经常导致危害(固定)近端噪声及近端语音。

本文提及的办法通过针对早期及晚期回声成分分别地使用两个不同 回声抑制模型而缓和此项问题,也如图6所示的那样。

图6示出了依据本文献教导的实施例的设备200示意框图,该设备200 包含扬声器100及麦克风110。扬声器100具有可利用的扬声器信号x[n]。 DFT区块230将扬声器信号x[n]转换成DFT版本X[k,m]。此外,计算装置270 也具有其可利用的麦克风110的信号y[n],再一次以自DFT区块290的相对 应DFT定义域表示型态Y[k,m]的形式。

在各个情况中,基于可用信号,抑制滤波器计算装置270对滤波器系 数H[k,m]进行计算。滤波器系数H[k,m]被提供给自适应滤波器210。

为了最终从麦克风信号y[n]获得回声抑制信号e[n],自适应滤波器210 额外地耦接至麦克风因而在输入端接收麦克风信号。自适应滤波器210的 输系连接至反离散傅里叶变换(IDFT)300来提供回声抑制信号的DFT表 示型态给IDFT300。回声抑制信号e[n]系出现在反离散傅里叶变换区块300 的输出。替代使用离散傅里叶变换,在区块230及290须使用短时间傅里叶 变换(STFT)。同理,可使用反短时间傅里叶变换(ISTFT)来替代反离 散傅里叶变换。

有关回声功率估计,依据下式,通过施加回声估计函数至扬声 器功率频谱的时间延迟版本,可达成回声信号的回声频谱估值

|Y^[k,m]|2=G^[k,m]2|X[k-d,m]|2,---(23)

,这里,表示麦克风信号内部回声功率频谱的估值。

取决于例如连接图6至图8阐释的本发明的实施例的特定体现,方程式 (23)所述函数例如可在回声抑制滤波器270体现。

至于回声去除滤波器,关联的回声去除滤波器H[k,m]系经求出且施加 至麦克风信号来遏止回声信号。此点系依据下式执行

E[k,m]=H[k,m]Y[k,m]. (24)

。回声去除滤波器的滤波器成分例如可依据下式求出

H[k,m]=[max(|Y[k,m]|γ-β|Y^[k,m]|γ,10γL20)|Y[k,m]|γ]1γ.---(25)

设计参数β及γ可用来控制回声去除滤波器的期望效能。取决于本发明 的实施例的特定体现,这些设计参数可经选择为固定,设计成以任何其它 方式可调整、可编程、或可修改。指数参数的典型选择例如为γ=2。

所谓高估因子β系用来控制回声衰减的积极性。举例言之,相对应回 声去除滤波器的积极性可通过增加高估因子而提高。因此,有关参数β的 回声去除滤波器H[k,m]的典型选择为β=2来只施加中度回声衰减。

另一方面,回声去除滤波器可以高度积极方式设计来有效地衰减回声 信号中的干扰语音成分。然后高估因子β例如可选择为β=4。

极限值L确定容许的最大回声衰减,以分贝(dB)表示。回声去除滤 波器用于实质上固定噪声的典型值为L=-10分贝或-15分贝,其权宜地限制 固定回声的衰减因而减少意外假声。在远程非固定语音的情况下,衰减须 确保相对应回声成分的完全衰减,相对应于非固定成分信号约为-60分贝 的极限值L。

如通过方程式(25)表示的函数可于滤波器计算装置270环境,在图5 至图8所示出的实施例中体现与实现。

在本发明的若干实施例中,实际回声抑制并非如方程式(25)描述系 通过施加回声去除滤波器直接执行。反而,相对应回声去除基于相对应时 间平滑化版本来执行。时间平滑化回声去除滤波器可用来防止太过突然变 化的发生,可能干扰收听者。如同于前述设计参数的情况下,时间平滑化 参数典型地系通过手动调整且分别地针对早期反射及晚期混响回声抑制 而分开最佳化。但当采用本文公开的教导时,典型地不再需要这种时间平 滑化,或至少不再需要至先前回声抑制系统体现的程度。

这种时间平滑化函数例如可于滤波器计算装置270本身环境内部或于 其下游的任何装置执行。若有所需,也可在自适应滤波器210环境内部直 接执行这种时间平滑化。

下个章节提供混响模型化与晚期回声混响回声的估计的潜在基本构 思,可用于了解本文公开的教导。提及一种方法考虑室内声学的特定性质 来调整回声抑制强度,使得不残留因晚期混响回声成分所致的残余回声。 所谓回声尾系因室内晚期反射所引起。反射位准可经由混响时间RT60估 计,亦即直接声音反射衰减低于直接声音位准达60分贝所需时间。现在叙 述模型化混响对回声信号位准及混响时间估计的影响的办法。

混响模型化

合理地假设室内混响声音功率系以近似指数方式衰减。针对晚期混响 成分,也合理地假设到达麦克风的反射被视为随机且为统计上独立。以这 种假设为基础,示意地作图于图3的室内室内脉冲响应h的晚期混响可模型 化为通过指数衰减函数加权的白噪声序列b[n]:

hrev[n]=b[n]e-nτ.---(26)

。时间常数τ确定衰减程度。后文中,发明人关注在脉冲状声音后的 回声位准的衰减。并未丧失普及性,发明人假设脉冲系在n=0发射。然后, 遵照(26)相对应于晚期混响的观察信号系相对应于

y[n]=y0b[n]e-nτ.---(27)

。当系数b[k]表示白噪声序列时,混响成分功率通过下式给定

E{y2[n]}=y02σb2e-2nτ,---(28)

本文σb2表示噪声模型b[n]的变量。

通过施加类似模型于频域获得(28)的STFT版本:

E{|Y[k,m]|2}=Y02(m)σb2e-2kFsτm,---(29)

,类似(27)里的τ,τm表示施用于第m个频带的区块时间衰减常数。 Fs表示STFT的区块相关取样率,亦即

Fs=fsKSTFT,---(30)

,本文fs为取样频率及KSTFT为STFT窗交换大小。窗交换大小又称帧大 小,表示针对新STFT值计算所考虑的新时间样本数目。

与本发明相对,相对应于晚期混响的回声成分模型系遵照(29)。回 声功率频谱的晚期混响成分系通过瞬间实现(29)获得:

|Y^rev[k,m]|2=Y02(m)σb2e-2kFsτm.---(31)

。从(31)即刻于区块时间瞬间k的晚期混响成分功率可从在前一个 时间瞬间k-1的相对应估值估算得:

|Y^rev[k,m]|2=|Y^rev[k-1,m]|2e-2Fsτm.---(32)

晚期混响回声的估计

前文讨论引领发明入至考虑直接路径及早期反射连同晚期混响成分 来估计回声功率频谱的程序:设表示晚期混响回声的功率频谱估 值,及设表示直接路径及早期反射的功率频谱估值。总回声功率 估值系以标示。直接路径及早期反射的功率频谱估值估算系依据 (5)执行。为求方便,在此重复:

|Y^[k,m]|2=|G^[k,m]|2|Xd[k,m]|2.---(33)

。晚期混响成分系通过递归方程式以类似(32)的方式确定

|Y^rev[k,m]|2=αm|Y^tot[k-1,m]|2.---(34)

。比例因子αm例如可依据指数衰减模型选择

αm=e-2Fsτm.---(35)

。如此所需比例因子αm可得自方程式(17)及(35)。

虽然αm里的指数m指示针对各个频带比例因子系差异择定,但针对全 部频带比例因子也可皆相等。

注意与(32)相反,针对所提及方法(34)混响回声的递归计算系植 基于前一个帧的总回声功率估值此点系例示说明于图8且以 进一步细节解释于描述中的相对应部分。

回声功率频谱的总估值从考虑下述二者来确定,(晚期混响 回声的功率频谱估值)及(直接路径及早期反射的功率频谱估值)。 适当的办法使用二者中的最大者作为总回声功率频谱的估值:

|Y^tot[k,m]|2=max{|Y^[k,m]|2,|Y^rev[k,m]|2}.---(36)

注意(36)连同(34)一起暗示在直接回声成分被视为在总回声估值 中占优势后,用于估计混响回声成分的递归模型经常性地复置为新直接回 声成分:递归估值经常性地将前一个总回声功率频谱估值列入考虑,也即 并非受限于混响回声成分的先前估值。

然后回声功率频谱估值用来类似(9)而确定回声抑制滤波器

H[k,m]=|Y[k,m]|2-β|Y^tot[k,m]|2|Y[k,m]|2.---(37)

为了区别只有远程语音系通过扬声器信号输出的情况,可求出两个不 同参数。如此初步包括所谓预测增益,相对应于扬声器信道与麦克风通常 间的相干性函数的全带平均值。至于第二参数,可利用在扬声器信道内部 的语音活动,该参数例如可从扬声器信号的时间信号位准的比较导算出, 或从例如特别用于适合语音传输的编译码器的编译码器特定参数导算出。 这些编译码器例如包括以LPC为基础的编译码器或以CELP为基础的编译 码器(CELP=代码激励线性预测、或码簿激励线性预测),编译码器乃人 造词,系将英文术语编码器及译码器的缩写组合而产生。

预测增益或回声预测增益ω[k]描述麦克风信号与延迟扬声器信号间 的相似性程度。预测增益ω[k]的计算系依据下式,基于扬声器信号的延迟 功率频谱|Xd[k,m]|2与麦克风信号的功率频谱|Y[k,m]|2间的平方相干性函数 进行

Γd[k,m]=(E{|Xd[k,m]|2|Y[k,m]|2})2E{|Xd[k,m]|2|Xd[k,m]|2}E{|Y[k,m]|2|Y[k,m]|2},---(38)

本文E{…}表示数学期望值。该数学期望值可依据下式,通过计算或 估算E{|Xd[k,m]|2|Y[k,m]|2}的期望值而在相干性函数Гd[k,m]的短时间估计 环境内部获得

E{|Xd[k,m]|2|Y[k,m]|2}=α|Xd[k,m]|2|Y[k,m]|2+(1-α)E{|Xd[k-1,m]|2|Y[k-1,m]|2}.---(39)

在预测增益计算的环境中,因子α确定随时间的估计平滑化度。因方 程式(39)粗略相对应于指数衰减,故该因子具有连接的时间常数。指数 衰减的时间常数Tα,以秒计,系近似

Ta1αfs,---(40)

本文fs标示取样频率。换言之,比例关系(40)例示说明实际上无单 位的因子(本文以α表示)如何与可指示为时间常数(本文以Tα表示)的 取样率fs相关联。

然后,预测增益ω[k]系依据下式计算为相对于频率的相干性函数 Гd[k,m]的平均值,频率系以指数m=0,…,M-1指示

ω[k]=1MΣm=0M-1Γd[k,m],---(41)

这里,M表示频带数目。

回声增益因子接近1表明麦克风信号可基于延迟扬声器信号(几乎) 完全预测。因此,麦克风信号只含远程语音的可能性倾向于接近1。相关 预测增益ω,然后可控制控制参数β。每当预测增益高时,只存在有远程语 音,回声衰减须够激烈来去除全部(回声)信号。如此,噪声系以下限值 L去除,以分贝(dB)为单位表示,原因在于选择控制参数β=0。每当预 测增益低时,可存在有近端及远程语音二者,故回声抑制须较不激烈来不 致于导入假声。在这种情况下,噪声经处理及去除,具有极限值L,以分 贝(dB)为单位表示。

但在这种情况下,须注意若扬声器信号只含由麦克风所拾取的噪声而 不存在有语音,则预测增益可以是高。在这种情况下,为了防止控制参数 β值选择为过大,可能导致回声的过度抑制,运用第二控制参数,亦即扬 声器信道里的语音活动。因此,以预测增益ω的函数计算控制参数β的前述 规则只适用于扬声器信道里的语音为作用态的情况。

在图6所示出的实施例中,通过方程式(38)至(41)描述的函数可 通过计算装置270执行。

回忆图6例示说明的设备200包括扬声器100或扬声器100的终端或相 对应扬声器信号x[n]的输入端。该扬声器信号x[n]系在时/频转换器装置230 环境里变换成扬声器信号的频谱表示型态X[k,m],称作为DFT(离散傅里 叶变换)。该扬声器信号系提供给延迟装置480,其产生该X[k-d(k,m),m] 的延迟版本,d(k,m)为相对应延迟值。

然后通过延迟装置480所延迟的信号提供给第一回声估计函数240,该 第一回声估计函数系基于滤波器系数而产生回声估计信号该回声估计信号系提供给分离装置250,其系基在该一回声估计信 号而产生该信号的早期及晚期功率频谱作为扬声器信号的(导出)成分信 号。如此,提取装置250输出信号(估算得的早期回声成分的功率 频谱)及(估算得的晚期回声成分的功率频谱)给计算装置270。 至于图6所示实施例的替代之道,回声估计函数240可直接输出估算得的早 期回声成分及估算得的晚期回声成分在该种情况下不需 要有分离装置25。

麦克风110的麦克风信号y[n]也提供给被组配为DFT的时/频转换器装 置290,该装置从该信号中产生时间信号y[n]的频谱表示型态Y[k,m]。该信 号系经由能量值计算装置490供给,该装置490系基于麦克风信号的频谱成 分而通过将个别数值的(绝对值)幅值求平方而确定该频谱成分的功率频 谱。如此所得功率频谱也提供给计算装置270,该功率频谱连同前述功率 频谱计算两个回声去除滤波器He[k,m]及Hl[k,m],亦即实际自适应滤波器 H[k,m]的滤波系数,及前传给自适应滤波器210。例如通过取He[k,m]及 Hl[k,m]中的最小者,基于两个回声去除滤波器He[k,m]及Hl[k,m]可确定实 际自适应滤波器H[k,m]。如前文就方程式(37)所述,两个回声去除滤波 器He[k,m]及Hl[k,m]可以类似方式确定:

He[k,m]=|Y[k,m]|2-β|Y^e[k,m]|2|Y[k,m]|2---(42)

Hl[k,m]=|Y[k,m]|2-β|Y^l[k,m]|2|Y[k,m]|2.---(43)

如前述,然后实际自适应滤波器H[k,m]可确定为两个回声去除滤波器 He[k,m]及Hl[k,m]中的最小者:

H[k,m]=min(He[k,m],Hl[k,m]) (44)

自适应滤波器210也系耦接至时/频转换器装置290的输出,如此也接收 麦克风信号y[n]的频谱成分Y[k,m],从该频谱成分产生于频域或频率相关 定义域E[k,m]的回声抑制信号,同时也考虑滤波器系数H[k,m]。然后该回 声抑制信号提供给组配成IDFT(反DFT)的频/时转换器装置300,该装置 300最终将该信号转回时域,获得信号e[n]。

为了确定延迟装置480的延迟值d(k,m),及为了确定回声估计函数240 的回声估计系数,扬声器信号的频谱表示型态X[k,m]及麦克风信号的频谱 表示型态Y[k,m]二者被发射至相对应能量值计算装置500、510,能量值计 算装置500、510耦接至两个时/频转换器装置230、290的输出端。能量值计 算装置500耦接至时/频转换器装置230的输出端,及能量值计算装置510耦 接至频/时转换器装置300的输出端。

能量值计算装置500、510二者各自通过类似能量值计算装置490的方 式,经由平方个别频谱成分的幅值而计算功率频谱,及提供这些值给额外 计算装置520。该额外计算装置520或其一部分为回声衰减模型化装置465 的组件。然后,额外计算装置520基于可取得的数值而确定回声估计函数 240的衰减估值d(k,m)及系数值然后相对应的前述数值一方面 发射至延迟装置480,及另一方面发射至回声估计函数240,额外计算装置 520也耦接其中。

从图6所示实施例可知,如此个别成分信号(及)的 分开可基于回声估计信号的估算执行,后者系根据下式计算

Y^[k,m]=G^[k,m]X[k-d,m].---(45)

该计算在回声估计函数240执行。

依据方程式(25)两个回声去除滤波器He[k,m]及Hl[k,m]的定义维持 不变。同样适用于组合回声去除滤波器H[k,m]的确定。注意取决于实施例, 两个回声去除滤波器He[k,m]及Hl[k,m]的组合可体现为基于目前观察回声 状况,两个回声去除滤波器中的一者的暂时选择。更明确言之,目前作用 态回声去除滤波器的选择可基于估计目前是早期回声成分或晚期回声成 分占优势。回声去除滤波器(He[k,m]或Hl[k,m])的选择可如下间接体现, 经由选择估算得的早期回声成分的功率频谱或估算得的晚期回声 成分的功率频谱作为方程式(37)里的数量通过此求出 滤波器系数H[k,m]。

须注意在此点图6所示实施例涉及下述情况,本文估算得回声信号频 谱已可利用。当然,当依据方程式(23)只有估算得回声信号的估 计功率频谱为已知时,相对应方法也适用。该方法将就图7所示实 施例以进一步细节描述。

虽然图6示出声音回声衰减办法的框图,但图7所示的框图图解相似办 法。但相反地,后者基于声音回声衰减办法,该办法以估算得回声信号功 率频谱为基础发挥功能的。

结果,不只图6及图7所示两个实施例的操作模式极为相似,同时其结 构也相似,容后详述。

更明确言之,图7所示实施例与图6所示实施例的差异主要在于能量值 计算装置500就转移至频域的扬声器信号x[n]而言不再排它地连接额外计 算装置520上游,反而直接连接至时/频转换器装置230的输出端,装置230 再度系组配为DFT。通过此方式,不仅额外计算装置520,同时延迟装置 480、回声估计函数240、及分离装置250不再设置有实际频谱组件,反而 设置有实际频谱组件的功率频谱。

但除此之外,图6及图7所示的二个实施例的区别只在于个别计算可能 系在个别组件及装置内部彼此有边际差异进行。举例言之,个别频谱组件 的能量相关值的相对应计算不再在分离装置250进行,原因在于先前已经 通过能量值计算装置500进行。

图8示出了依据本文公开的教导的设备或方法的又一实施例。早期回 声函数确定装置472输出声音环境120的功率转移函数的估值估 值可通过麦克风信号与扬声器信号间的相关性确定。晚期回声估 计函数确定装置475输出回声衰减参数αm。估值提供给函数区块 240,亦即回声估计函数。函数区块240使用声音环境120的系统响应的功 率转移函数的估值及扬声器信号功率频谱|X[k,m]|2来确定估算得 的麦克风功率频谱作为声音环境120当被扬声器信号激励时的目 前系统响应。典型地目前考虑的系统响应对扬声器信号的估值实 质上涵盖早期反射,只有:估值及的时间范围有限。估值 提供作为最大值选择器550的两个输入中的一者。最大值选择器 550的另一个输入由最大值选择器550的先前一个输出提供,可能通过因子 αm定标,该因子αm表示晚期混响回声成分最大 值选择器550的输出为回声功率频谱的总估值该估值从考虑二 者及而确定。第二项利用衰减组件 560及参数αm的定标因子570而从最大值选择器550的输出求出。配置衰减 组件560及定标因子570表示晚期回声估计装置241,及提供基于总回声混 响部分的指数模型的混响回声递进计算,如前文已经说明。在最大值选择 器550的输入中使用最大值表示发现:在声音环境120激励后的第一时间区 间期间,早期反射典型占优势。这些早期反射可运用估算得的回声响应转 移功率频谱算出,早期反射主要是在此第一时间区间期间回声消 除的标的。确实,早期反射典型地在激励后第一阶段期间占优势,使得其 它回声成分(晚期混响成分)可以忽略。在对声音环境120不再存在有额 外激励的情况下,早期反射的振幅减小,及最后终于随时间而完全消失。 从估算得早期反射消失的另一项理由为:转移函数典型地 只有有限长度。当估计早期反射的振幅已经降至某个量时,输入最大值选 择器550的其它输入(亦即的输入)可载有一信号,该信号具有比 早期估计反射的功率频谱更大的振幅。如前述,利用衰减组件560 及定标因子570估计混响回声成分的递归模型经常性地系复置为新的直接 回声成分但限制条件为新的直接回声成分具有比混响回声成分 更大的振幅。换言之,混响回声成分不受限于混响回声成分的前一个估值。

然后,最大值选择器550的输出用于来类似方程式(9)的方 法确定回声抑制滤波器。更明确言之,回声功率频谱的估值乘以 定标因子βm(参考标号580),然后,从麦克风信号的功率频谱|Y[k,m]|2中 减去。最大值选择器550的作用可视为组合早期回声成分及晚 期回声成分的一项可能体现。早期与晚期成分组合的另一体现 包含计算加权平均。

然后,所得差异标准化成为麦克风信号的功率频谱,如区块590指示。 定标因子580、加总点、及标准化区块590一起形成计算装置270(或至少 为其一部分),其提供自适应滤波器210滤波器系数(H[k,m])。

操纵用在定标因子570的指数衰减模型速率的参数αm可通过晚期回声 估计函数确定装置475确定。然后,定标因子570可依据参数αm值调整,该 参数值由晚期回声估计函数475基于扬声器信号功率频谱及麦克风信号功 率频谱确定。混响时间估计及其与指数衰减参数的关系已经如前解释。

晚期回声估计函数确定装置475在输入端例如可从回声衰减模型化装 置465接收回声衰减时间常数τ(或其它测量值、参数等)。回声衰减模型 化装置465可连接至能量值计算装置500、510,如此接收麦克风及扬声器 信号的功率频谱。回声衰减模型化装置465例如可确定麦克风与扬声器信 号的功率频谱间的相关性来确定回声衰减参数。另外,只观察麦克风信号 即足。晚期回声估计函数475也可被提供以麦克风及扬声器信号的选择性 输入(未示出于图8)。

图8以虚线框示出回声处理装置340,该装置包含回声衰减模型化装置 465、回声函数确定装置472及475、回声估计函数240、最大值选择器550、 及晚期回声估计装置241。回声处理装置340提供由声音环境120响应于给 定扬声器信号所产生的回声估值。如通过晚期回声估计装置241体现,回 声估值可基于早期回声函数确定装置472或基于混响回声成分的递归模型 化计算。

在图8所示出的实施例中,最大值选择器550使用估算得的早期回声成 分的功率频谱及估算得的晚期回声成分的功率频谱作为 输入值,结果也在其输出产生总回声的功率频谱另外,可使用 频率频谱(亦即及)来替代功率频谱。用在相 对应从属权利要求的术语“早期回声成分”和“晚期回声成分”意图涵盖 二者亦即频率频谱及功率频谱。

图9示出类似图8所示的实施例的示意框图。直到回声估计函数240, 图和图9的框图为实质上相同。回声估计函数240输出早期估算得的回声成 分的功率频谱然后分配至第一计算装置270e及分配至选择器 553。计算装置270e相对应于图8所示的计算装置270。图8与图9间的差异为 图9中,计算装置270e经常性地考虑估算得的早期回声成分的功率频谱 作为输入。如此,图9中计算装置270e的输出可视为针对早期回声 成分的回声去除滤波器He[k,m]。除了计算装置270e外,估算得的早期回声 成分的功率频谱也分配至选择器553的第一输入端。选择器553的 一输出端连接至第二计算装置270l并且也连接至晚期回声估计装置241,类 似图8所示。据此,晚期回声估计装置241包含衰减组件560及定标因子αm。 晚期回声估计装置241的输出连接至选择器553的第二输入端。当选择器 553系在其第二输入端经择定的组态时,如前文参考图8解释,执行(晚期) 回声成分的递归计算。当选择器553在其第一输入端经择定的组态时,递 归计算系经复置或重新启动至估算得的早期回声成分的功率频谱的目前值。

第二计算装置270l接收晚期混响回声成分|Yrev[k,m]|2及执行第一计算装 置270e的类似运算,结果获得晚期回声成分的回声去除滤波器估 值。早期回声去除滤波器及晚期回声去除滤波器皆提供给 滤波器设定装置551及提供给比较器552。滤波器设定装置551基于早期回 声去除滤波器及晚期回声去除滤波器而确定自适应滤波器 210的滤波器系数H[k,m]。换言之,进一步设置计算装置270来确定早期回 声去除滤波器及晚期回声去除滤波器设备200进一步包含 滤波器设定装置551,该装置551被配置为基于早期回声去除滤波器及晚期回声去除滤波器的滤波器系数的组合而确定自适应滤波器 210的滤波器系数H[k,m]。早期回声去除滤波器与晚期回声去除滤 波器的组合可以是线性组合,从早期回声去除滤波器及晚 期回声去除滤波器的逐一系数的滤波器系数选择,或二回声去除滤 波器及的另一种适当组合。在图9所示出的实施例中,滤波 器设定装置551被配置作为最小值选择器,从早期回声去除滤波器及晚期回声去除滤波器中选出最小值及然后提供给自适应滤波器 210。换言之且如前所述,计算装置270(包含第一计算装置270e及第二计 算装置270l)进一步被配置为确定早期回声去除滤波器及晚期回声 去除滤波器设备200进一步包含呈最小值选择器形式的滤波器设 定装置551,该装置551被配置为基于早期回声去除滤波器及晚期回 声去除滤波器间的最小值选择而确定自适应滤波器210的滤波器系 数H[k,m]。

比较器552系基于早期回声去除滤波器与晚期回声去除滤波器 间的比较而产生用于选择器553的控制信号。在具体阐释的实施例 中,若早期回声去除滤波器小于晚期回声去除滤波器则 控制信号(图9中标记「RESET」的虚线)为高,造成选择器553选择其第 一输入端,亦即连接至回声估计函数240的该输入端。通过此方式,混响 回声成分的计算经复置或重新启动至早期回声成分的目 前估值。

进一步处理类似就图8所示的实施例阐释及描述的处理。

图10示出了由声音环境120内部若干脉冲所引起的晚期混响如何重 迭。三个不同幅值的脉冲在不同时间输出至声音环境120。为求清晰早期 反射未例示说明于图10。但示出脉冲的晚期混响。更明确言之,可知当相 对应于第二脉冲的第二指数衰减函数重迭至第一指数衰减晚期混响时,相 对应于第一脉冲的晚期混响的指数衰减函数尚未消失。类似效应出现在相 对应于第三脉冲的第三指数衰减晚期混响。此外,即便原始脉冲及直接声 音的持续时间相当短,晚期混响延长历经较长的时间区间。注意,为了图 解说明,晚期混响的幅值已经夸大。典型地,晚期混响比原始脉冲大了约 一或数个次幂幅度。

图11示出回声模型化如何从早期回声模型切换至指数衰减模型。如已 经在图8的环境解释的,在早期回声估计与指数衰减模型间可确定最大值。 直至图11以n切换指示的瞬间,早期回声估计的振幅系比通过指数衰减模型 估算得的回声振幅更大。因此,早期回声估计系用来模型化声音环境120 的回声响应。在瞬间n切换之后,通过指数衰减模型估计的回声大于任何剩 余回声估计。典型地,早期回声估计函数系未体现来计算超过预定时间范 围的回声估计以便维持计算努力在合理范围内。如此表示超过该时间范 围,指数衰减模型乃针对晚期回声成分提供非零估计的唯一回声模型。在 此时间范围之前,二回声模型可获得非零回声估计,并选定具较大幅值者。

图11中可知指数衰减模型经常性复置为早期回声估计的幅值,但限制 条件为早期回声估计具有振幅大于通过指估计得回声的目前振幅。另外, 可在例如由原始脉冲所引起的直接声音测量指数衰减模型。

图12示出本发明的又一实施例,其中,例如多于一个扬声器信号或多 在一个麦克风信号提供给个别设备200。换言之,图12阐释的实施例乃多 信道设备。

虽然前文讨论及描述的本发明实施例只针对个别信道或一个别信道 情况,其中只有一个扬声器信号及一个麦克风信号,但本发明的实施例并 非限于一个别通道情况,如后详述。同理,这些实施例也适用于可多通道 声音回声衰减系统。

因图12所示出的设备200的实施例系类似图6所示结构,有关操作模 式、连接及其它构面,以下将参考图6至图8的说明。

图12示出设备200的多信道变化版本包含多个输入端220-1、220-2、…, 本文数个扬声器信号可耦合入设备200。据此,设备200也包含相对应多个 选择性时/频转换器装置230-1、230-2、…,可能执行相对应扬声器信号从 时域转译或转换至频率相关定义域。

多个时/频转换器装置230耦接至成束装置530的相对应数目输入端,这 些输入端基于输入扬声器信号,形成共享衍生扬声器信号,取决于是否存 在有选择性第一回声估计函数240,该信号然后前传至第一回声估计函数 240或分离装置250。分离装置250可能耦接至选择性第二回声估计函数260 或直接地耦接至计算装置270。最后该装置在其输出端输出计算得的滤波 器系数。

图12中设备200的多信道变化例进一步包含额外成束装置540,该装置 在输入端系经由选择性时/频转换器装置290-1、290-2、…而耦接至针对相 对应麦克风信号的相对应数目输入端280-1、280-2、…。类似成束装置530, 基于存在于时域或频率相关定义域且可利用的麦克风信号,额外成束装置 540确定导算出的有效或共享麦克风信号,该麦克风信号选择性地为分离 装置250或计算装置270可资利用。

图12中设备200的多信道变化例针对各个麦克风信号或各个麦克风信 号输入端,进一步包含自适应滤波器210-1、210-2、…,该自适应滤波器 210-1、210-2、…可能系经由选择性时/频转换器装置290-1、290-2、…而 耦接至个别输入端280-1、280-2、…。据此,自适应滤波器210-1、210-2、… 可能系经由多个选择性频/时转换器装置300-1、300-2、…而耦接至个别输 出端310-1、310-2、…。通过自适应滤波器210滤波的输出信号不含回声或 经频谱修改,然后在输出端310为设备200所可用。

自适应滤波器210-1、210-2、…全部皆并联耦接计算装置270的输出端, 在该输出端计算装置270提供自适应滤波器的滤波器系数。换言之,在图 12阐释的本发明的实施例中,从功能观点,亦即基于相同滤波器系数,多 个麦克风信号的全部麦克风信号系以相同自适应滤波器滤波来获得相对 应于麦克风信号的频谱经修改或回声消除的版本。

如此,若xw[n]为第w个扬声器的信号,本文w为0至W-1的范围的整数, 及本文W表示不同扬声器或扬声器信号数目,则可算出第w个扬声器信号 的STFT定义域表示型态Xw[k,m]。

然后,通过组合个别扬声器信号频谱的频谱而计算全部扬声器通道的 联合功率频谱:

|X[k,m]|2=Σw=0W-1|Yw[k,m]|2,---(46)

这里,W表示扬声器通道数目。

同理,也依据下式计算麦克风信道的共享或成束功率频谱

|Y[k,m]|2=Σp=0P-1|Yp[k,m]|2,---(47)

这里,Yp[k,m]标示第p个麦克风110的信号,及P表示麦克风数目。指 数p再度为0至P-1的整数。于图12所示实施例中,该计算可能系通过额外 成束装置540进行。

为了确定依据方程式(25)的回声去除滤波器,在额外算法步骤期间, 使用依据方程式(46)的扬声器(功率)频谱|X[k,m]|2及依据方程式(47) 的麦克风(功率)频谱|Y[k,m]|2,如于描述中先前段落的解说。依据方程 式(38)至(41)关联效能控制所述控制参数β的确定也可依据方程式(46) 及(47)基于共享或成束频谱进行。

在频谱修改环境内部的实际回声抑制然后针对各个麦克风信号个别 地进行,但依据下式,针对各个麦克风信道使用相同自适应滤波器210

Ep[k,m]=H[k,m]Yp[k,m] (4g)

针对p=0、1、…、P-1。同理,自适应滤波器210也可以差异方式体现, 如前文解说。

在本上下文中,值得注意者例如如于图12示出,在设备200的多信道 变化例环境中,扬声器信号数目W及麦克风信号数目P须皆彼此相同及相 异。原则上,针对扬声器信号及麦克风信号二者可设置任何输入端数目。 又,但非绝对需要以相对应成束装置530、540配置多个扬声器信号输入端 及麦克风信号输入端。在本发明的实施例中,相当可能以相对应成束装置 530只体现多个扬声器信号输入端,而无需以相对应额外成束装置540只体 现多个麦克风信号输入端。这种系统例如可运用在有单一麦克风但有多个 扬声器时,举例言之,因远程用户的通信信号系经由包括数个扬声器的声 音系统而再现,例如如同在机动车辆体现。

此外,当例如于会议系统环境中只体现一个中央扬声器时,以相对应 成束装置530并非必然可能体现多于一个扬声器信号输入端,反而多个扬 声器各自有其本身的麦克风。在这种情况下,只推荐采用额外成束装置540 体现。

此外,在此点,值得注意者成束装置530当然可被配置为使其系设计 用于比较最终提供者更多个扬声器信号或麦克风信号。据此,设备200可 包含比最终使用者更多个相对应输入端220、280。在这种情况下,例如上 游电路诸如选择性时/频转换器装置230、290或成束装置530、540本身可确 定作用态通道数目,及据此而选择参数W及P。当然也可体现考虑外部供 给信道数目及麦克风信号及扬声器信号数目。

在此点,也须注意若相对应参数W及P系发射至成束装置530、540, 则图12所示实施例当然也可应用在只有单一个扬声器信号及单一个麦克 风信号。原则上,方程式(46)及(47)也适用于P=1及/或W=1的情况。 如此,图12所示实施例表示本公开文例如第6至8图所示实施例的“向下可 兼容的”扩充。

功率频谱的时间性起伏波动

在参考文献[11]已经提及针对用在声音回声抑制用途的改良参数估 计,使用功率频谱的时间性起伏波动。就相对应平均值而言,确定功率频 谱的时间性起伏波动作为取中(centered)版本:

Y~[k,m]=|Y[k,m]|2-E{|Y[k,m]|2}

X~d[k,m]=|Xd[k,m]|2-E{|Xd[k,m]|2}.---(49)

实际上,例如根据方程式(8),预期操作数被时间平均值所置换。然 后延迟扬声器信号及麦克风信号的功率频谱的时间性起伏 波动用在方程式(18)及(19)来估计衰减时间常数τm

|Q^dτ[k,m]|2=E{X~dτ[k,m]Y~[k,m]}E{X~dτ[k,m]X~dτ[k,m]},---(50)

|Q^dτ+Δdτ[k,m]|2=E{X~dτ+Δdτ[k,m]Y~[k,m]}E{X~dτ+Δdτ[k,m]X~dτ+Δdτ[k,m]}.---(51)

短时间傅里叶变换的替代之道

有关频率分辨率,可能建议偏离STFT频率分辨率。STFT的均一频率 分辨率与人类知觉的频率分辨率略有别。因此可能优异地将间隔一致的系 数|X[k,m]|2及|Y[k,m]|2集合成多个非重迭区隔或群组,如也示出在参考文献 [9],这些区隔或群组包含仿真人类听觉系统的频率分辨率的带宽,例如呈 示于参考文献[10]。

用于16kHz取样率,针对STFT512样本及15群组或区隔的DFT区块长 度乃合理选择,各个区隔具有带宽粗略相对应于相当矩形带宽(ERB), 如参考文献[10]所述。

如本发明的实施例的先前描述示出,在某些情况下,本发明的实施例 包含功能单元,其包括下列步骤作为简短概要。若干本发明的实施例体现 接收至少一个扬声器信号,接收至少一个麦克风信号,将扬声器信号及麦 克风信号转换成短时间频谱,计算相对应扬声器及麦克风功率频谱,从预 定回声衰减模型或动态估计的回声衰减模型提供回声衰减参数,考虑回声 衰减参数计算回声去除增益滤波器模型化回声,施加增益滤波器至麦克风 频谱来抑制回声,及将回声经抑制的麦克风频谱转换成时域。

虽然已经就设备环境描述若干构面,但这些构面也表示相对应方法的 描述,本文区块或设备相对应于方法步骤或方法步骤的特征。同理,在方 法步骤环境中描述的构面也表示相对应区块或相对应设备的项或特征的 描述。部分或全部方法步骤可通过(或使用)硬件设备例如微处理器、可 编程计算机、或电子电路执行。在若干实施例中,某一个或某多个最重要 的方法步骤可通过这种设备执行。

取决于某些体现需求,本发明的实施例可于硬件或软件体现。体现可 使用下列数字储存媒介执行,例如具有可电子读取控制信号储存其上的, 这些控制信号与可编程计算机系统协作(或可协作)来执行个别方法的软 盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM、或闪存。 因此数字储存媒介可以是可计算机读取式。

依据本发明的若干实施例包含具有可电子读取控制信号的数据载体, 这些控制信号可与可编程计算机系统协作来执行本文所述方法中的一者。

大致上,本发明的实施例可体现为具有程序代码的计算机程序产品, 该程序代码可操作用来当计算机程序产品在计算机上运行时执行这些方 法中的一者。程序代码例如可储存在机器可读取载体上。

其它实施例包含储存在机器可读取载体上用于执行本文所述方法中 的一者的计算机程序。

因此换言之,本发明的实施例包含具有程序代码当该计算机程序在计 算机上运行时用于执行本文所述方法中的一者的计算机程序。

因此本发明方法的又一实施例为数据载体(或数字储存媒介,或计算 机可读取媒介)包含用于执行本文所述方法中的一者的计算机程序记录于 其上。该数据载体、数字储存媒介、或记录媒介典型为具体有形及/或非暂 时性。

因此本发明方法的又一实施例为表示用于执行本文所述方法中一者 的计算机程序的数据串流或一序列信号。该数据串流或序列信号。例如可 被配置为经由数据通信连接,例如经由因特网转移。

又一实施例包含被配置为或适用于执行本文所述方法中的一者的处 理装置,例如计算机或可编程逻辑设备。

又一实施例包含其上安装用于执行本文所述方法中的一者的计算机 程序的计算机。

依据本发明的又一实施例被配置为转移(例如电子式或光学式)用于 执行本文所述方法中的一者的计算机程序给接收器的设备或系统。接收器 例如可以是计算机、行动装置、内存装置等。设备或系统例如可包含用于 转移计算机程序给接收器的文件服务器。

在若干实施例中,可编程逻辑设备(例如现场可编程门阵列)可用来 执行本文所述方法的部分或全部功能。在若干实施例中,现场可编程门阵 列可与微处理器协作来执行本文所述方法中的一者。一般而言,这些方法 较佳系通过任一种硬件设备执行。

前述实施例仅供举例说明本发明的原理。须了解,本文描述的配置及 细节的修改与变更为本领域技术人员显然易知。因此,其旨在仅受随附的 权利要求所限,而非受图片美国高本文实施例的描述及解说所呈现的特定 细节所限制。

处理器可包含计算机、芯片卡(智能卡)、集成系统(SOC=单芯片系 统)、特定应用集成电路(ASIC)或任何其它集成电路(IC)。

参考文献

[1]C.Breining,P.Dreiseitel,A.Mader,B.Nitsch,H.Puder,T.Schertler,G. Schmidt,and J.Tilp.Acoustic echo control.IEEE Signal Processing Magazine, 16(4):42–69,July1999.

[2]A.N.Birkett and R.A.Goubran.Limitations of handsfree acoustic echo cancellers  due to nonlinear loudspeaker distortion and enclosure vibration effects.In Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,pp.13 –16,New Paltz,Oct.1995.

[3]G.Schmidt andAcoustic echo and noise control:a practical approach. Hoboken:Wiley,2004.

[4]W.L.B.Jeannes,P.Scalart,G.Faucon,and C.Beaugeant.Combined noise and echo  reduction in hands-free systems:a survey.IEEE Transactions on Speech and Audio  Processing,9(8):808–820,Nov.2001.

[5]C.Faller and J.Chen.Suppressing acoustic echo in a sampled auditory envelope  space.IEEE Trans.on Speech and Audio Proc.,13(5):1.048–1.062,Sept.2005.

[6]C.Faller and C.Tournery.Estimating the delay and coloration effect of the acoustic  echo path for low complexity echo suppression.In Proc.Intl.Works.on Acoust. Echo and Noise Control(IWAENC),Sept.2005.

[7]W.Etter and G.S.Moschytz.Noise reduction by noise-adaptive spectral magnitude  expansion.J.Audio Eng.Soc.,42:341–349,May1994.

[8]O.Capp′e.Elimination of the musical noise phenomenon with the ephrain and  malah noise suppressor.IEEE Trans.Speech and Audio Processing,2(2):345–349, April1994.

[9]C.Faller and F.Baumgarte.Binaural Cue Coding-Part II:Schemes and applications. IEEE Trans.on Speech and Audio Proc.,11(6):520–531,Nov.2003.

[10]B.R.Glasberg and B.C.J.Moore.Derivation of auditory filter shapes from  notched-noise data.Hear.Res.,47:103–138,1990.

[11]A.Favrot,C.Faller,M.Kallinger,F.Kuech,and M.Schmidt.Acoustic echo control  based on temporal fluctuations of short-time spectra.In Proc.Intl.Works.on Acoust. Echo and Noise Control(IWAENC),Sept.2008.

[12]M.Berouti,R.Schwartz,and J.Makhoul.Enhancement of speech corrupted by  musical noise.In Proc.ICASSP,pages208–211,1979.

参考标号列表

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号