首页> 中国专利> 数字音频信号中的有效前回声衰减

数字音频信号中的有效前回声衰减

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种用于处理从变换编码生成的数字音频信号中的前回声衰减的方法，其中在解码点处，该方法包括以下步骤：检测(Detect.)已解码信号中的冲击位置；确定(ZPE)在该已解码信号中检测的冲击位置之前的前回声区；根据至少其中已检测到冲击的帧和前一帧，来计算(F.Att.)该前回声区的每一子块的衰减因子；和将该前回声区的子块中的前回声衰减(Att.)对应衰减因子。该方法还包括：对当前帧应用用于前回声区的谱整形的滤波(F)，直到所检测的冲击的位置为止。本发明还涉及实现所述方法的装置以及包括这样的装置的解码器。

著录项

公开/公告号CN104395958A

专利类型发明专利
公开/公告日2015-03-04

原文格式PDF
申请/专利权人奥林奇公司;
展开▼

申请/专利号CN201380034828.2
发明设计人 B.科维西;S.拉戈特;
展开▼

申请日2013-06-28
分类号G10L21/0364;G10L19/26;
代理机构北京市柳沈律师事务所;
代理人李芳华
地址法国巴黎
入库时间 2023-12-17 05:01:28

法律信息

法律状态公告日

法律状态信息

法律状态
2017-09-05

授权

授权
2015-06-17

实质审查的生效 IPC(主分类):G10L21/0364 申请日:20130628

实质审查的生效
2015-03-04

公开

公开

说明书

技术领域

本发明涉及用于在数字音频信号的解码期间处理前回声的衰减的方法和装置。

背景技术

关于数字音频信号通过传送网络(它们例如是固定或移动网络)的传输、或者关于信号的存储，利用实现基于变换的频率编码或时间编码类型的编码系统的压缩(或源编码)处理。

由此，作为本发明的主题的方法和装置的应用领域是声音信号的压缩，特别是通过频率变换所编码的数字音频信号的压缩。

图1作为图示表示了根据现有技术的通过相加/重叠的包括分析-合成的数字音频信号的基于变换的编码和解码的基本图。

某些音乐序列，诸如打击乐和比如爆破音(/k/,/t/,…)的某些语音片段，的特征在于几个样本的空间内的、信号的力度变化的非常快的转变和非常强的变化(variation)所表明的极端陡峭(abrupt)的冲击。图1中给出了样本410前面的示范转变。

对于编码/解码处理，输入信号被分离为长度L的样本块，在图1中由垂直虚线表示。输入信号被表示为x(n)，其中n是样本的索引。连续块的限幅导致这些块由X_N(n)＝[x(N.L)…x(N.L+L-1)]＝[x_N(0)…x_N(L-1)]定义，其中N是帧的索引，并且L是帧的长度。在图1中，我们具有L＝160个样本。在修改余弦调制变换MDCT(代表“修改离散余弦变换”)的情况下，联合分析两个块X_N(n)和X_N+1(n)，以给出与索引N的帧关联的变换系数的块。

基于变换的编码而操作的划分为块(也称为帧)完全独立于声音信号，并且转变所以能在分析窗口的任意点处出现。现在，在基于变换的解码之后，通过量化(Q)-逆量化(Q^-1)操作所造成的“噪声”(或失真)混合(marred)重构的信号。该编码噪声按照相对均匀的方式在时间上分布在变换块的全部时间支持上(也就是说，样本的长度2L的窗口的全部长度上(具有L个样本的重叠)。编码噪声的能量一般与块的能量成比例，并取决于编码/解码比特率。

对于包括冲击的块(诸如图1的块320－480)，信号的能量高，并所以噪声具有高电平。

在基于变换的编码中，编码噪声的电平典型低于紧靠转变之后的高能量片段的信号的电平，但是该电平高于低能量片段的信号的电平，特别是在转变之前的部分上(图1的样本160–410)。关于前述部分，信噪比是负的，并且得到的降级在收听期间能似乎是非常烦人的。转变之前的编码噪声被称为前回声，并且转变之后的噪声被称为后回声。

在图1中可以观察到，前回声影响转变之前的帧、以及其中发生转变的帧。

心理声学的经验已示出了人耳执行声音的几毫秒等级的相当有限的时间前掩蔽(pre-masking)。当前回声的持续时间大于前掩蔽的持续时间时，冲击之前的噪声或前回声是可听见的。

当从高能量序列转换(pass)为低能量序列时，人耳也执行较长持续时间(从5到60毫秒)的后掩蔽。后回声可接受的讨厌等级或级别所以大于前回声。

块的长度在样本数目方面越大，更关键的前回声的现象越讨厌。现在，在基于变换的编码中，公知的是，对于固定信号，变换的长度增加越大，编码增益越大。按照固定采样频率和固定比特率，如果窗口的点数(所以变换的长度)增加，则每帧更多的比特将可用于对心理声学模型认为有用的频谱线进行编码，由此实现使用大长度块的优点。MPEG AAC编码(先进音频编码)例如使用包括固定数目样本(2048)的大长度的窗口(即，按照32kHz 的采样频率在64ms的持续时间上)；通过使得可能经由中间(转变)窗口从这些长窗口切换到8个短窗口而在这里管理前回声的问题，由此需要编码的特定延迟来检测转变的存在并改编(adapt)窗口。这些短窗口的长度所以是8 ms。按照低比特率，总是可能具有几ms的可听前回声。切换窗口使得可能衰减前回声而不是去除它。用于诸如UIT-T G.722.1、G.722.1C或G.719 的对话应用的基于变换的编码器通常使用在16、32或48kHz处(分别)持续时间40ms并且帧长度20ms的窗口。可注意的是，UIT-T G.719编码器集成用于利用瞬变(transient)检测切换窗口的机制，然而在低比特率(典型地 32 k比特/秒)处前回声没有完全降低。

带着降低前述前回声现象的讨厌效果的目的，已在编码器和/或解码器级别提出各种解决方案。

上面阐明了窗口的切换。另一解决方案在于应用自适应滤波。在冲击之前的区域中，将重构信号看作原始信号和量化噪声之和。

已在Y.Mahieux和J.P.Petit发表的名为High Quality Audio Transform Coding at 64 kbits,IEEE Trans.on Communications Vol 42,No.11,November 1994的文章中描述了对应滤波技术。

这样的滤波的实现需要参数的知识，这些参数中的一些(如同前回声所破坏的信号的预测系数和方差(variance))基于噪声样本在解码器处被估计。另一方面，诸如原始信号的能量的信息仅能在编码器处得知，并结果必须传送。这使得必须传送附加信息，所述附加信息按照约束比特率减少向基于变换的编码分配的相对预算。当接收的块包括力度变化的突变时，向其应用滤波处理。

前述滤波处理没有使得可能恢复原始信号，而是提供前回声中的大降低。然而，这需要向解码器传送附加参数。

已提出了无需信息的特定传送的各种前回声降低技术。例如，在文章 B.S.Ragot,M.Gartner,H.Taddei,"Pre-echo reduction in the ITU-T G.729.1 embedded coder,"EUSIPCO,Lausanne,Switzerland,August 2008中呈现了分级编码的上下文中的前回声的降低的回顾。

在法国专利申请FR 08 56248中描述了使得前回声衰减的方法的典型示例。在该示例中，在其中已检测到转变或冲击的子块之前的低能量子块中，针对每一子块确定衰减因子。

例如作为最高能量的子块的能量与正讨论的第k子块的能量的比率R(k) 的函数，来计算每一子块的衰减因子g(k)：

g(k)＝f(R(k))

其中f是具有0和1之间的值的递减函数，并且k是子块数目。因子g(k) 的其他定义是可能的，例如作为当前子块中的能量En(k)和前一子块中的能量En(k-1)的函数。

如果能量相对于最大能量的变化低，则没有衰减是必需的。因子g(k) 然后固定为抑制(inhibits)衰减的衰减值(也就是说1)。否则，衰减因子位于0和1之间。

在多数情况下，特别是当前回声烦人时，前回声帧之前的帧具有与低能量的片段(例如，背景噪声)的能量对应的均匀能量。根据经验，在前回声衰减处理之后、信号的能量应低于处理区之前的信号的每一子块的平均能量 (典型地，先前帧的能量或者先前帧的后一半的能量)是没有用甚至没有期望的。

对于要处理的子块k，可能计算因子的限值lim_g(k)，以便精确获得和要处理的子块之前的片段的每一子块的平均能量相同的能量。该值当然限于最大1，因为我们在这里关心衰减值。更精确地：

$\lim_{g} (k) = \min (\sqrt{\frac{\max (\overline{En}, {\overline{En}}^{'})}{En (k)}, 1})$

其中先前片段的平均能量大约为

由此获得的值lim_g(k)充当子块衰减因子的最终计算的下限：

g(k)＝max(g(k),lim_g(k))

每一子块确定的衰减因子(或增益)g(k)其后通过逐样本施加的平滑函数被平滑化，以避免块的边界处的衰减因子的突变。

例如，首先可能将每一样本的增益定义为分段常值函数：

g_pre(n)＝g(k),n＝kL',…,(k+1)L'-1

其中L'代表子块的长度。

该函数其后根据以下等式被平滑化：

g_pre(n):＝αg_pre(n-1)+(1-α)g_pre(n),n＝0,…,L-1

协定为，g_pre(-1)是对于先前子块的最后样本获得的最后衰减因子，并且α是平滑系数，典型地α＝0.85。

其他平滑函数也是可能的。一旦已由此计算了因子g_pre(n)，就通过将每一样本与对应因子相乘，来对当前帧的重构信号x_rec(n)进行前回声衰减：

x_rec,g(n)＝g_pre(n)x_rec(n),n＝0,…,L-1

其中x_rec,g(n)是通过前回声降低而解码和后处理的信号。

图2和3图示了在现有技术的前述专利申请中描述的并且在上面概括的衰减方法的实现。

在这些示例中，按照32kHz采样信号，帧的长度是L＝640个样本，并且每一帧被划分为K＝80个样本的8个子块。

在图2的部分a)中，表示了按照32kHz采样的原始信号的帧。信号中的冲击(转变)位于在索引320处开始的子块中。该信号已通过低比特率(24 k比特/秒)MDCT类型的基于变换的编码器来编码。

在图2的部分b)中，图示了没有前回声处理的解码的结果。可能在包括冲击的子块之前的子块中观察样本160前面(onwards)的前回声。

部分c)示出了通过现有技术的前述专利申请中描述的方法而获得的前回声衰减因子(实线)的演变。虚线代表平滑之前的因子。这里注意的是，估计冲击的位置在样本380附近(样本320和400所划界的块中)。

部分d)图示了在前回声处理的应用之后的解码的结果(信号b)与信号 c)相乘)。看到已事实上衰减了前回声。图2还示出了平滑的因子在冲击时刻不返回到1，由此暗示了冲击的幅度的减小。该减小的可察觉的影响非常小，但是仍然能避免。图3图示了与图2相同的示例，其中，在平滑之前，对于其中冲击位于的子块之前的子块的几个样本，强制使得衰减因子值为1。图 3的部分c)给出了这样的校正的示例。

在该示例中，已向索引364前面的冲击、之前的子块的最后16个样本分派因子值1。由此，平滑函数逐渐增加因子，使得其在冲击时刻具有接近 1的值。然后保护该冲击的幅度，如图3的部分d)中图示的，另一方面，几个前回声样本不被衰减。

在图3的示例中，因为增益的平滑，所以通过衰减的前回声降低不并使得可能将前回声降低直到和冲击的级别一样远。

图4图示了具有和图3的设置相同的设置的另一示例。该图表示了2帧以便更好地示出冲击之前的信号的本质。这里，冲击之前的原始信号的能量比图3中图示的情况高(部分a))，并且冲击之前的信号是可听的(样本0- 850)。在部分b)中，可能观察解码信号上的前回声，而没有区域700-850中的前回声处理。根据先前解释的用于限制衰减的过程，前回声区的信号的能量被衰减和处理区之前的信号的平均能量一样远。观察到，在部分c)中，通过考虑能量限制而计算的衰减因子接近1，并且在应用前回声处理(信号 b)与信号c)相乘)之后在部分d)中仍然存在前回声，而不管已在前回声区中将信号设置为正确级别的事实。事实上可能清楚区分波形上的该前回声，其中注意到高频分量叠加在该区域中的信号上。

该高频分量显然是可听的和烦人的，并且该冲击不太尖锐(图4的部分 d)。

对于该现象的解释如下：在非常陡峭的脉冲冲击(如图4中图示的那样) 的情况下，(包括该冲击的帧中的)信号的谱相当白，并所以还包括许多高频率。由此，量化噪声也白并且包括高频率，这不是用于前回声区之前的信号的情况。所以在谱中存在从一帧到另一帧的突变，这导致可听前回声，而不管能量已被设置为正确级别的事实。

图5a和5b中再次表示该现象，其分别示出了与图4的部分a)中表示的信号对应的5a的原始信号的谱图、以及与图4的部分d)中表示的信号对应的5b的根据现有技术的具有前回声的衰减的信号的谱图。

清楚标注了图5b中描绘轮廓的部分中的静止可听前回声。

所以存在对于解码时的前回声的改进衰减的技术的需求，这使得可能还衰减不期望的高频或假(spurious)前回声，这样做无需编码器传送任何辅助信息。

发明内容

本发明改进现有技术的状况。

为了该目的，本发明处置一种用于处理以基于变换的编码为基础造成的数字音频信号中的前回声的衰减的方法，其中，在解码时，该方法包括以下步骤：

-检测已解码信号中的冲击位置；

-确定在该已解码信号中检测的冲击位置之前的前回声区；

-作为至少其中已检测到冲击的帧和前一帧的函数，来计算该前回声区的每一子块的衰减因子；

-将该前回声区的子块中的前回声衰减对应衰减因子。该方法使得其进一步包括：

-对当前帧应用用于前回声区的谱整形的自适应滤波，直到和所检测的冲击位置一样远。

由此，应用的谱整形使得可能改进前回声衰减。该处理使得可能衰减现有技术中描述的在实现前回声衰减时可持续的前回声分量。

滤波被应用直到和检测的冲击位置一样远为止，这使得可能处理前回声的衰减直到尽可能接近冲击。这所以通过限于不延伸和冲击的位置一样远的区域(例如16个样本的容限(margin))的时间衰减，来补偿回声降低的缺点。

该滤波不需要源自编码器的任何信息。

能在知道或不知道由时间解码引起并用于单声道信号或立体声信号的编码的信号的情况下，实现该前回声衰减处理技术。

该滤波的改编使得可能适应该信号，并仅去除烦人的假分量。

其后提及的各个具体实施例能向上面定义的方法的步骤独立添加或彼此组合添加。

在特定实施例中，该方法进一步包括计算关于要向该前回声区应用的滤波的至少一个判断参数，并且作为所述至少一个判断参数的函数来改编该滤波的系数。

由此，然后仅当必须时在改编的滤波级别处应用该处理。

在一个实施例中，所述至少一个判断参数是所检测的冲击的强度的度量。

该冲击的强度事实上确定前回声区中的可听高频分量的存在。当冲击陡峭时，前回声区中具有烦人假分量的风险大，并且必须设想要根据本发明实现的滤波。

在计算该参数的可能模式中，所检测的冲击的强度的度量具有以下形式：

P＝max(EN(k),EN(k+1)/min(EN(k-1),EN(k-2))，k是其中已检测到冲击的子块的编号，并且EN(k)是第k子块的能量。

该计算具有较少复杂性，并且使得可能正确定义检测的冲击的强度。

所述至少一个判断参数也能是包括冲击位置的子块之前的子块中的衰减因子的值。

事实上，如果该衰减是可察觉到的，则冲击能被看作陡峭的。

在另一实施例中，所述至少一个判断参数基于该前回声区的信号和/或该前回声区之前的信号的谱分布分析。

这使得可能例如确定前回声信号中的高频分量的重要性，并且还知道在前回声区之前的信号中是否已存在这些高频分量。

由此，在其中在前回声区之前已存在高频分量的情况下，不必执行滤波来衰减这些高频分量，然后通过将滤波系数设置为0或接近0的值，来执行滤波系数的改编。

由此，能作为至少一个判断参数与预定阈值的比较的函数，按照离散方式来执行所述滤波系数的改编。

该滤波系数能取根据值的集合而预定的值。值的最小集合是其中仅两个值可能的集合，也就是说，例如滤波和非滤波之间的选择。

在变型实施例中，作为所述至少一个判断参数的函数，按照连续方式来执行所述滤波系数的改编。

该改编然后是更精确和更渐进的。

在特定实施例中，所述滤波是具有以下传递函数的零相位有限脉冲响应滤波：

c(n)z^-1+(1-2c(n))+c(n)z

其中c(n)是位于0和0.25之间的系数。

这类滤波具有低复杂性并此外允许无延迟处理(处理在当前帧的结束之前停止)。依靠其零延迟，该滤波能衰减冲击之前的高频率，而不修改冲击自己。

这类滤波使得可能避免不连续，并使得可能按照渐进方式从非滤波信号转换为滤波信号。

根据一个实施例，通过将所述衰减因子集成到定义所述滤波的系数中，而在与谱整形滤波相同的时间处执行该衰减步骤。

本发明还针对一种用于处理以基于变换的编码器为基础造成的数字音频信号中的前回声的衰减的装置，其中该装置与解码器关联，该装置包括：

-用于检测已解码信号中的冲击位置的检测模块；

-用于确定在该已解码信号中检测的冲击位置之前的前回声区的确定模块；

-用于作为至少其中已检测到冲击的帧和前一帧的函数、来计算该前回声区的每一子块的衰减因子的模块；

-用于将该前回声区的子块中的前回声衰减对应衰减因子的衰减模块。该装置使得其进一步包括：

-自适应滤波模块，用于对当前帧执行前回声区的谱整形，直到和所检测的冲击位置一样远。

本发明针对一种数字音频信号的解码器，包括诸如上述的装置。

此外，本发明针对一种计算机程序，包括代码指令，当这些指令由处理器运行时，用于实现诸如描述的衰减处理方法的步骤。

最后，本发明涉及一种存储介质，处理器可读取、可能集成在处理装置中、可选地可移除、存储实现诸如上述的处理方法的计算机程序。

附图说明

在阅读仅作为非限制性示例并且参考附图给出的以下描述时，本发明的其他特性和优点将更显而易见，其中：

-先前描述的图1图示了根据现有技术的基于变换的编码-解码系统；

-先前描述的图2图示了对于其执行根据现有技术的衰减方案的示范数字音频信号；

-先前描述的图3图示了对于其执行根据现有技术的衰减方案的另一示范数字音频信号；

-先前描述的图4图示了对于其执行根据现有技术的衰减方案的另一示范数字音频信号；

-图5a和5b分别图示了根据现有技术的原始信号的谱图、和具有前回声的衰减的信号的谱图(分别对应于图4的部分a)和d))；

-图6图示了根据本发明实施例的数字音频信号解码器中用于处理前回声的衰减的装置、以及处理方法所实现的步骤；

-图7图示了作为滤波器的参数的函数、根据本发明实施例实现的谱整形滤波器的频率响应；

-图8图示了已对于其实现了根据本发明的处理的示范数字音频信号；

-图9图示了对于其实现根据本发明的处理的、与图4的信号d)对应的信号的谱图；

-图10图示了展示对于其实现根据现有技术的用于衰减前回声的方案的、原点(origin)处的高频分量的示范信号；

-图11图示了和图11相同的信号，展示了已对于其实现根据本发明的处理的、原点处的高频分量，而不考虑用于判断要应用的滤波级别的标准；

-图12图示了根据本发明的衰减处理装置的硬件示例。

具体实施方式

参考图6,描述了前回声衰减处理装置600。在一个实施例中，该装置实现诸如专利申请FR 08 56248中描述的方案的、用于衰减已解码信号中的前回声的方案。其进一步实现用于前回声区的谱整形的滤波。

由此，装置600包括检测模块601，能够实现已解码音频信号中的冲击位置的检测(Detect.)步骤。

冲击(也已知为攻击(onset))是信号的力度变化(或幅度)的快速转变和突变。这类信号能通过更一般的术语“瞬变”指定。其后并且没有丢失一般性，将仅使用术语冲击或转变来也指定瞬变。

在一个实施例中，已解码信号x_rec(n)的L个样本的每一帧被划分为长度 L'的K个子块，例如32kHz处的L＝640个样本(20ms)，L'＝80个样本(2.5 ms)并且K＝8。

使用与UIT-T标准G.718中描述的那些类似的特定低延迟分析-合成窗口，用于MDCT变换的分析部分和合成部分。由此，与在使用传统正弦窗口的情况下的640个样本形成对照的是，MDCT合成窗口包括仅415个非零样本。在该实施例的变型中，能使用其他分析/合成窗口，或者能使用长和短窗口之间的切换。

此外，利用给出将来信号的时间折叠的版本的MDCT存储器x_MDCT(n)。该存储器也被划分为长度L'的子块，并且取决于使用的MDCT窗口，仅保留第一组K'个子块，其中K'取决于使用的窗口-例如对于正弦窗口K'＝4。事实上，图1示出了前回声影响冲击位于的帧之前的帧，并且可期望检测在 MDCT存储器中部分包括的将来帧中的冲击。

前回声降低在这里取决于几个参数：

○长度L的当前帧(潜在包括前回声)中解码的信号，

○与相加-重叠之前在下一帧中部分解码的信号对应的MDCT逆变换的存储器。

○前一帧(或半帧)的中间能量级别。

可注意的是，MDCT存储器中包括的信号包括时间折叠(当接收下一帧时，其被补偿)。如下面解释的，MDCT存储器在这里必须用来估计下一 (将来)帧中的信号的每一子块的能量，并且当利用当前帧处可用的MDCT 存储器、代替将来帧处完全解码的信号、进行估计时，认为该估计对于前回声检测和降低的需求是足够精确的。

当前帧和MDCT存储器能被看作连接信号，形成被分离为(K+K')个连续子块的长度(K+K')L'的信号。在这些条件下，第k子块中的能量被定义为：

$En (k) = Σ_{n = k L^{'}}^{(k + 1) L^{'} - 1} x_{rec} {(n)}^{2}, k = 0, . . ., K - 1$

其中第k子块位于当前帧中，并且当该子块在MDCT存储器中(其代表可用于将来帧的信号)时，被定义为：

$En (k) = Σ_{n = (k - K) L^{'}}^{(k - K + 1) L^{'} - 1} x_{MDCT} {(n)}^{2}, k = K, . . ., K + K^{'} .$

所以当前帧中的子块的平均能量被获得为：

$\overline{En} = \frac{1}{K} Σ_{k = 0}^{K - 1} En (k)$

当前帧的第二部分中的子块的平均能量也被定义为：

${\overline{En}}^{'} = \frac{2}{K} Σ_{k = K / 2}^{K - 1} En (k)$

如果比率超出预定义的阈值，则在考虑的子块之一中检测与前回声关联的转变。其他前回声检测标准是可能的，而不改变本发明的本质。

此外，认为该冲击的位置被定义为

$pos = \min (L^{'} . (\arg \max_{k = 0, K + K^{'}} (En (k))), L)$

其中L的限制确保决不修改MDCT存储器。用于冲击位置的更精确估计的其他方案也是可能的。

在具有窗口的切换的变型实施例中，能利用从子块的等级(scale)直到样本内的位置的范围的精度，来使用给出冲击位置的其他方案。

装置600还包括确定模块602，实现检测的冲击位置之前的前回声区的确定(ZPE)步骤。

能量En(k)按照时间发生顺序连接，首先是已解码信号的时间包络，并且然后是基于MDCT变换的存储器而估计的下一帧的信号的包络。作为该连接时间包络与先前帧的平均能量和的函数，如果比率R(k)足够高，则检测到前回声的存在。

其中已检测到前回声的子块由此构成前回声区，其一般覆盖样本 n＝0,…,pos-1，即，从当前帧的起点到冲击的位置(pos)。

在变型实施例中，前回声区并不必须在帧的起点处开始，并可涉及前回声的长度的估计。如果使用窗口的切换，则前回声区将不得不被定义为考虑使用的窗口。

装置600的模块603实现作为其中已检测到冲击的帧和前一帧的函数、计算所确定的前回声区的每一子块的衰减因子的步骤。

根据专利申请FR 08 56248的描述，针对每一子块估计衰减g(k)。

例如作为最高能量的子块的能量与讨论的第k子块的能量的比率R(k)的函数，来计算每一子块的衰减因子g(k)：

g(k)＝f(R(k))

其中f是具有0和1之间的值的递减函数。例如作为En(k)和En(k-1)的函数，因子g(k)的其他定义是可能的。

如果能量相对于最大能量的变化小，则没有衰减是必需的。该因子然后被固定为抑制衰减的衰减值(也就是说1)。否则，衰减因子位于0和1之间。

作为先前帧的平均能量的函数，来限制这些衰减。

对于要处理的子块，可能计算因子的限值lim_g(k)，以便正确获得与要处理的子块之前的片段的平均能量相同的能量。该值当然限于最大1，因为我们在这里关心衰减值。更精确地：

$\lim_{g} (k) = \min (\sqrt{\frac{\max (\overline{En}, {\overline{En}}^{'})}{En (k)}, 1})$

由此获得的值lim_g(k)充当子块衰减因子的最终计算中的下限：

g(k)＝max(g(k),lim_g(k))

针对每一子块确定的衰减因子g(k)其后通过逐样本施加的平滑函数而被平滑化，以避免在块的边界处的衰减因子的突变。

每样本的增益首先被定义为分段常值函数：

g_pre(n)＝g(k),n＝kL',…,(k+1)L'-1

平滑函数例如通过以下等式来定义：

g_pre(n):＝αg_pre(n-1)+(1-α)g_pre(n),n＝0,…,L-1

协定是，g_pre(-1)是对于先前子块的最后样本获得的最后衰减因子，并且α是平滑系数，典型地α＝0.85。

其他平滑函数是可能的。

图6的装置600的模块604通过获得的衰减因子实现前回声区的子块中的衰减(Att.)。

由此，一旦已计算了g_pre(n)，则通过将每一样本与对应因子相乘，来对当前帧的重构信号x_rec(n)进行前回声衰减：

x_rec,g(n)＝g_pre(n)x_rec(n),n＝0,…,L-1

其中x_rec,g(n)是为了前回声降低而解码并后处理的信号。

装置600包括滤波模块606，能够执行对已解码信号的当前帧应用用于前回声区的谱整形的滤波、直到和所检测的冲击位置一样远的步骤(F)。

典型地，使用的谱整形滤波器是线性滤波器。因为与增益相乘的操作也是线性操作，所以它们的顺序可反转：也可能首先进行用于前回声区的谱整形的滤波，并然后通过将前回声区的每一样本与对应因子相乘而进行前回声衰减。

在示范实施例中，用来衰减前回声区中的高频率的滤波器是具有传递函数c(n)z^-1+(1-2c(n))+c(n)z、具有3个系数和零相位的FIR滤波器(有限脉冲响应滤波器)，c(n)是位于0和0.25之间的值，其中[c(n),1-2c(n),c(n)]是谱整形滤波的系数；该滤波利用差分等式实现：

x_rec,f(n)＝c(n)x_rec,g(n-1)+(1-2c(n))x_rec,g(n)+c(n)x_rec,g(n+1)

例如在区域n＝5,…,pos-5上，c(n)＝0.25。

作为系数c(n)的函数，c(n)＝0.05、0.1、0.15、0.2和0.25，在图7中图示了该滤波器的频率响应。使用该滤波器的动机是其低复杂性、其零相位以及所以其零延迟(可能自从在当前帧结束之前处理停止)，而且是与对于该滤波器期望的低通特性很好对应的其频率响应。

该滤波器的应用能补偿以下事实，即前回声的时间衰减典型地限于没有延伸和冲击的位置一样远(具有例如16个样本的容限)的区域，而可将诸如通过传递函数c(n)z^-1+(1-2c(n))+c(n)z定义的谱整形滤波应用和冲击的位置一样远，可选地具有几个样本用于内插该滤波器的系数。

为了从非滤波信号转换为滤波信号并避免不连续，优选的是，引入按照渐进方式的滤波。提出的FIR滤波器通过其系数的慢慢内插或变化，使得可能容易地从非滤波域渐渐地转换为滤波域，并且反之亦然。例如，如果冲击的位置是pos＝16，则能按照以下方式来执行前回声区n＝0,…,pos-1中16个样本的滤波：

x_rec,f(0)＝x_rec(0)

x_rec,f(1)＝0.1x_rec(0)+0.8x_rec(1)+0.1x_rec(2)

x_rec,f(2)＝0.1x_rec(1)+0.8x_rec(2)+0.1x_rec(3)

x_rec,f(3)＝0.15x_rec(2)+0.7x_rec(3)+0.15x_rec(4)

x_rec,f(4)＝0.2x_rec(3)+0.6x_rec(4)+0.2x_rec(5)＝

x_rec,f(n)＝0.25x_rec(n-1)+0.5x_rec(n)+0.25x_rec(n+1),n＝5,L,11

x_rec,f(12)＝0.2x_rec(11)+0.6x_rec(12)+0.2x_rec(13)

x_rec,f(13)＝0.15x_rec(12)+0.7x_rec(13)+0.15x_rec(14)

x_rec,f(14)＝0.1x_rec(13)+0.8x_rec(14)+0.1x_rec(15)

x_rec,f(15)＝0.05x_rec(14)+0.9x_rec(15)+0.05x_rec(16)

观察到，依靠其零延迟，滤波器c(n)z^-1+(1-2c(n))+c(n)z能衰减冲击之前的高频率，而不修改冲击自身。

对于其执行这里描述的处理的示范数字音频信号在图8的部分d)中图示。该图的部分a)、b)和c)描绘了和前面参考图4描述的信号相同的信号。部分d)通过根据本发明的滤波的实现而不同。由此可注意到，烦人的高频分量大大减少，使得滤波之后的已解码信号比图4的部分d)中描述的信号具有更好质量。

图9中表示了表示该滤波后信号的谱图。针对表示没有整形滤波的相同信号的图5b，而清楚观察到冲击之前的烦人高频率的衰减。该冲击然后在解码时变得更尖锐。

当然，能设想其他类型谱整形滤波器来替换滤波器 c(n)z^-1+(1-2c(n))+c(n)z。例如，可能使用不同阶数或具有不同系数的FIR滤波器。作为选择，谱整形滤波器能具有有限脉冲响应(IIR)。此外，谱整形能与低通滤波不同，例如能实现带通滤波。

也能在本发明的实施例中使用形式c(n)z^-1+(1-c(n))的阶数1的滤波器。

在特定实施例中，根据描述的方法实现的滤波是自适应滤波。由此其能适应已解码音频信号的特性。

在该实施例中，在图6的计算模块605中实现计算关于要向前回声区应用的滤波的判断参数(P)的步骤。

事实上，存在与诸如图10图示的情况类似的情况，其中最好不在前回声区中应用这样的滤波。

事实上，在图10的部分a)中图示的更稀罕的情况下，在要编码的信号中已存在高频率。在该情况下，高频率的衰减能促使可听降级，其所以必须避免。在该示范信号中，观察到，冲击没有先前示例中那么陡峭。

然后有利的是，通过衰减(还是不衰减)高频率，来确定使得可能判断是否必须对包括前回声的信号的区域进行谱整形的至少一个参数。

在示范实施例中，该判断参数代表前回声区中高频分量的存在。

该参数可以是例如冲击的强度(是否陡峭)的度量。如果冲击位于编号 k的子块中，则参数可被计算为：

$P = \frac{\max (En (k), En (k + 1))}{\min (En (k - 1), En (k - 2))}$

其中k是子块的编号，并En(k)是第k子块中的能量。

根据实验设置，在该示范实施例中，P>＝32指示陡峭冲击(非常有冲击力)。

还能通过考虑对于冲击g(k-1)之前的子块确定的衰减，来补充冲击的强度的度量。如果该衰减是可察觉的，例如如果g(k-1)≤0.5，则冲击能被看作陡峭的。这示出了前回声区中的能量由于前回声而显著增加(大于双倍)，由此还用信号通知陡峭冲击。

如果P<32并且g(k-1)>0.5，其中k是包括冲击的起点的子块的索引，则滤波不是必需的。事实上，如果g(k-1)>0.5，则lim_g(k)>0.5，由此表明前回声区具有可比得上前一帧的能量的能量，并且由于生成前回声的冲击不陡峭，所以具有烦人假分量的风险低。

由此，在具有条件(P<32并且g(k-1)>0.5)的该实施例中，不对前回声区进行滤波。

在其他情况中(g(k-1)≤0.5或P>32)，根据本发明，从当前帧的起点应用谱整形滤波直到和冲击位置的位置pos一样远。

在上面描述的示范实施例中，作为参数P和衰减值的函数，根据本发明的通过滤波的前回声区的谱整形是适应的。由此，利用系数[0.25,0.5,0.25] 应用滤波，或利用系数[0,1,0]停止滤波。

然后按照离散方式执行限于值的预定义集合的滤波系数的改编。

所以通过诸如参数P和g(k-1)的测量冲击的强度的判断参数，来确定滤波系数的改编(使得可能改编高频率的衰减级别)。

在该情况下，这引起在可能值的两个集合([0.25,0.5,0.25]或[0,1,0])之后按照离散方式的滤波器的系数的改编。可注意到，系数的集合[0,1,0]对应于滤波的停止。

还可通过使用例如具有系数[0.05,0.9,0.05]、[0.1,0.8,0.1]、[0.15,0.7, 0.15]和[0.2,0.6,0.2]的中间滤波器，来执行这两个滤波器之间的渐进转变。

在该情况下，这引起在可能值的几个集合之后按照离散方式的滤波器的系数的改编，如果考虑慢变化(或内插)的话。

在变型实施例中，能使用其他内插方案。

例如，如果16<P<32，则例如通过使用具有c(n)＝[0.15,0.7,0.15]的中间滤波器，利用c(n)＝f(P)，该滤波能仍然更明确地适应。也能例如利用公式作为P的函数按照连续方式来计算c(n)。

在该情况下，这引起根据可能值按照连续方式的滤波器的系数的改编，其中c(n)在间隔[0,0.25]中。

也能在选项的判断和滤波器的改编中使用其他判断参数，诸如当前帧和 /或先前帧的前回声区的已解码信号的过零率。如果我们作为示例考虑区域 n＝0,…,L-1，则能按照以下方式来计算过零率：

$zc = \frac{1}{2} Σ_{n = 0}^{L - 1} | sgn [x_{rec, g} (n - 1)] - sgn [x_{rec, g} (n)] |$

其中

$sgn (x) = (\begin{matrix} 1 & ifx \geq 0 \\ - 1 & ifx < 0 \end{matrix})$

事实上，先前帧(所以无前回声)中的高过零比率zc用信号通知信号中高频率的存在。在该情况下，例如，当先前帧上zc>L/2时，则优选不应用滤波c(n)z^-1+(1-2c(n))+c(n)z。

为了消除连续分量的偏差，在计算过零率之前，已解码信号的预滤波也是可能的，或者能使用估计的微分x_rec,g(n)-x_rec,g(n-1)的过零数目。

在变型中，也能进行信号的谱分析以帮助判断。例如，能在要使用的滤波器的选择中利用从MDCT编码/解码引起的MDCT域中的谱包络，然而该变型假设MDCT分析/合成窗口对于冲击之前的信号的局部统计足够短，以维持窗口的长度上的稳定。

作为选择，将可能通过如同-c(n)z^-1+(1-2c(n))-c(n)z的高通互补滤波器来对前回声区和过去帧中的信号进行滤波，例如c(n)＝0.25，并且其后将选择 c(n)的值使得前回声区中和过去帧上的滤波后的信号的平均能量尽可能接近；c(n)的选择将能够在图7中示出的可能值的限制集合上、或者基于在前回声区和过去帧中的高通滤波之后的信号的能量比率(或者诸如能量的平方根的等效数量)来作出。

注意当c(n)＝0.25时，也能通过计算信号x_rec,g(n)和通过低通滤波器 c(n)z^-1+(1-2c(n))+c(n)z滤除的信号之间的差，按照替换方式来实现高通滤波。

在另一变型中，当整形滤波是类型c(n)z^-1+(1-c(n))时，将可能作为通过线性预测(LPC代表“线性可预测编码”)的分析而引起的预测系数-r(1)/r(0) 的函数，来将c(n)的值固定到前回声区中的信号以及最后帧中的信号的阶数 1。

在所有这些最后变型中(过零率、MDCT谱包络、高通滤波、LPC分析)，关于要向前回声区应用的滤波的判断参数基于前回声区的信号和/或前回声区之前的信号的谱分布分析；如果前回声区之前的信号已包括许多高频率、或者如果前回声区中的信号与前回声区之前的信号的高频率的数量基本相同，则根据本发明的滤波不是必需的，并且可甚至引起轻微降级。在这些情况下，必须通过将c(n)固定为0或接近0的低值，来停止或衰减根据本发明的滤波。

在本发明的变型中，将可能反转衰减和滤波步骤之间的顺序。

事实上可以在衰减(Att.)之前进行谱整形滤波(F)。由此，在已执行当前帧的重构信号的前回声区的样本的自适应滤波之后，然后通过将每一样本与先前计算的对应衰减因子相乘，来对这些样本加权：

x_rec,f,g(n)＝g_pre(n)x_rec,f(n),n＝0,…,L-11

也能通过定义“联合”滤波系数的集合来组合(或集成)幅度的衰减，例如，如果对于样本n，滤波器具有系数[c(n),1-2c(n),c(n)]并且衰减因子是 g(n)，则能直接使用滤波器[g_pre(n)c(n),g_pre(n)2g_pre(n)c(n),g_pre(n)c(n)]。

图11图示了使得滤波自适应的优点。其描绘了与图10相同的信号部分 a)、b)和c)，并且图示了以下事实，在其中在要编码的信号中已存在高频分量的情况下，部分d)中表示的非自适应滤波的实现不需要修改信号。观察到，样本640的前面，高频率不需要衰减，这可能造成质量的轻微降级。上面描述的自适应滤波的使用使得可能抑制或衰减这些条件下的滤波，不去除在要编码的信号中已存在的高频率并由此避免由于滤波引起的可能降级。

返回到图6，描述的衰减处理装置600在这里被包括在解码器中，该解码器包括接收信号S的逆量化(Q^-1)模块610、逆变换(MDCT^-1)模块620、用于通过参考图1描述的添加/重叠(add/lap)来重构信号并将重构的信号传递到根据本发明的衰减处理装置的模块630。

在装置600的输出端，提供处理的信号Sa，其中已执行前回声衰减。执行的处理已使得可能通过前回声区中的高频分量的衰减(根据具体情况而定)，来改进前回声衰减。

现在参考图12来描述根据本发明的衰减处理装置的示范实施例。

关于硬件方面，本发明的含义内的该装置100典型地包括与包括储存器和/或工作存储器的存储块BM协作的处理器μP、以及以用于存储实现参考图6描述的衰减处理方法所必需的所有数据的部件为幌子的前述缓冲存储器 MEM。该装置接收数字信号Se的连续帧作为输入，并传递利用前回声衰减和谱整形滤波而重构的信号Sa，这根据具体情况而定。

存储块BM能包括计算机程序，包括代码指令，当这些指令由该装置的处理器μP运行时，用于实现根据本发明的方法的步骤，并特别实现以下步骤：检测已解码信号中的冲击位置，确定在该已解码信号中检测的冲击位置之前的前回声区，作为其中已检测到冲击的帧和前一帧的函数，来计算该前回声区的每一子块的衰减因子，将该前回声区的子块中的前回声衰减对应衰减因子，并且进一步包括对当前帧应用用于前回声区的谱整形的滤波、直到和所检测的冲击位置一样远的步骤。图6能图示这样的计算机程序的算法。

根据本发明的该衰减装置能独立或集成在数字信号解码器中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 数字音频信号中的前回声的有效衰减 [P] . 中国专利： CN104981981B . 2018.03.27
2. 数字音频信号中的有效前回声衰减 [P] . 中国专利： CN104395958A . 2015-03-04
3. - EFFECTIVE ATTENUATION OF PRE-ECHOS IN A DIGITAL AUDIO SIGNAL [P] . 韩国专利： KR102156846B1 . 2020-09-16

机译： -数字音频信号中前回声的有效衰减
4. EFFECTIVE ATTENUATION OF PRE ECHOS IN A DIGITAL AUDIO SIGNAL [P] . IN2015CN03483A . 2016-07-01

机译：数字音频信号中前回声的有效衰减
5. EFFECTIVE ATTENUATION OF PRE-ECHOS IN A DIGITAL AUDIO SIGNAL. [P] . MX344035B . 2016-12-01

机译：数字音频信号中前回声的有效衰减。