首页> 中国专利> 生成多声道合成器控制信号的设备和方法及多声道合成的设备和方法

生成多声道合成器控制信号的设备和方法及多声道合成的设备和方法

摘要

在编码器一侧,分析多声道输入信号,以获得平滑控制信息,解码器一侧的多声道合成使用平滑控制信息来平滑量化传输参数或根据量化传输参数导出的值,以便提供改进的主观音频质量,尤其是对于缓慢移动点源和具有音调材料的快速移动点源,例如快速移动的正弦波。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-02-22

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L19/14 变更前: 变更后: 变更前: 变更后: 申请日:20060119

    专利权人的姓名或者名称、地址的变更

  • 2011-12-14

    授权

    授权

  • 2010-10-13

    实质审查的生效 IPC(主分类):G10L19/14 申请日:20060119

    实质审查的生效

  • 2010-08-25

    公开

    公开

说明书

本申请要求2005年4月15日提交的美国临时专利申请60/671,582的优先权。

技术领域

本发明涉及多声道音频处理,具体地,涉及使用参数侧面信息的多声道编码和合成。

背景技术

近来,多声道音频再现技术正变得越来越普及。这可能是由于诸如众所周知的MPEG-1层3(也称作mp3)技术之类的音频压缩/编码技术使得可以通过互联网或具有有限带宽的其他传输信道来分发音频内容。

关于这种普及的另一原因在于,在家庭环境中多声道内容的可用性增加以及多声道重放设备的渗入增加。

mp3编码技术已经变得非常著名,这是因为这种技术允许分发立体声格式的所有记录,即,包括第一或左立体声声道和第二或右立体声声道的音频记录的数字表示。另外,在给定可用的存储和传输带宽的情况下,mp3技术使得音频分发成为可能。

然而,传统的双声道声音系统存在基本缺陷。这种系统由于仅使用两个扬声器,所以得到有限的空间成像。因此,已经发展了环绕技术。推荐的多声道环绕表示除了两个立体声声道L和R之外,还包括额外的中声道C、两个环绕声道Ls、Rs以及可选的低频增强声道或重低音声道。这种参考声音格式也称作三/二-立体声(或5.1格式),这意味着三个前置声道和两个环绕声道。一般而言,需要五个传输信道。在重放环境重,需要分别处于五个不同地点的至少五个扬声器来在距五个适当安置的扬声器特定距离处获得最佳的听音位置。

在本领域中,已知用于减少传输多声道音频信号所需数据量的数种技术。这种技术称作联合立体声技术。为此,参考图10,示出了联合立体声装置60。该装置可以是实现例如强度立体声(IS)、参数立体声(PS)或(相关)双声道提示编码(binaural cue coding,BCC)的装置。这种装置一般接收至少两个声道(CH1、CH2、…、CHn)作为输入,并且输出单个载波声道和参数数据。参数数据如此定义,使得在解码器中,可以计算原始声道(CH1、CH2、…、CHn)的近似。

通常,载波声道包括子带样本、频谱系数、时域样本等,提供底层信号的相对精确的表示,而参数数据不包括频谱系数的这些样本,而是包括用于控制特定重建算法(例如,通过相乘进行加权、时移、频移、相移)的控制参数。因此,参数数据仅包括相关声道的信号的相对粗略表示。就数字而言,使用传统有损音频编码器编码的载波声道所需的数据量在60~70千比特/s的范围内,而一个声道的参数侧面信息所需的数据量在1.5~2.5千比特/s的范围内。参数数据的一个例子是众所周知的缩放因子(scale factor)、强度立体声信息或双声道提示参数,将在下面进行描述。

在AES预印本3799,″Intensity Stereo Coding″,J.Herre,K.H.Brandenburg,D.Lederer,96th AES,February 1994,Amsterdam中描述了强度立体声编码。一般而言,强度立体声的概念基于对两个立体声音频声道的数据所应用的主轴变换。如果大多数数据点聚集在第一主轴附近,可以通过在编码之前将信号都旋转特定角度并在比特流中不传输第二正交分量,来获得编码增益。左右声道的重建信号由相同传输信号的不同加权或缩放版本构成。然而,重建信号的幅度不同,但是相位信息相同。然而,两个原始音频声道的能量-时间包络通过选择性缩放操作而得以保留,其中选择性缩放操作通常以频率选择性方式进行。这与人类对高频声音的感觉相一致,其中主要的空间提示由能量包络确定。

另外,在实际的实施方式中,所传输的信号,即载波声道是根据左声道和右声道的和信号而不是通过旋转两个分量产生的。另外,这种处理,即生成用于执行缩放操作的强度立体声参数,是以频率选择性方式执行的,也就是,与每个缩放因子频带即编码器频率划分无关。优选地,组合两个声道以形成组合或“载波”声道,并且,除了组合声道之外,确定强度立体声信息,这取决于第一声道的能量、第二声道的能量或组合声道的能量。

在AES会议文章5574,″Binaural cue coding applied to stereo andmulti-channel audio compression″,C.Faller,F.Baumgarte,May 2002,Munich中描述了BCC技术。在BCC编码中,利用重叠窗口,使用基于DFT的变换,将多个音频输入声道转换为频谱表示。得到的单一频谱被分为无重叠的划分,每个划分具有索引。每个划分具有与等价矩形带宽(ERB)成比例的带宽。为每一帧k的每个划分估计声道间幅度差(ICLD)和声道间时间差(ICTD)。将ICLD和ICTD量化并编码,得到BCC比特流。给出每个声道相对于参考声道的声道间幅度差和声道间时间差。然后,根据前述规则计算参数,这取决于待处理信号的特定划分。

在解码器一侧,解码器接收单声道信号和BCC比特流。单声道信号被变换到频域,并输入到空间合成块,空间合成块还接收解码的ICLD和ICTD值。在空间合成块中,BCC参数(ICLD和ICTD)值用于对单声道信号执行加权操作,以合成多声道信号,多声道信号在频率/时间转换之后,表示原始多声道音频信号的重建。

在BCC的情况中,联合立体声模块60可操作来输出声道侧面信息,从而参数声道数据是量化和编码的ICLD或ICTD参数,其中原始声道之一用作参考声道,用于编码声道侧面信息。

典型地,在最简单的实施例中,载波声道由参与的原始声道之和形成。

当然,上述技术只向解码器提供了单声道表示,解码器仅可以处理载波声道,而不能处理参数数据来生成多于一个的输入声道的一个或多个近似。

在美国专利申请公开US 2003,0219130 A1、2003/0026441 A1和2003/0035553 A1中也描述了称作双声道提示编码(BCC)的音频编码技术。还参考了″Binaural Cue Coding.Part II:Schemes andApplications″,C.Faller & F.Baumgarte,IEEE Trans.On Audio andSpeech Proc.Vol.11,No.6,Nov.2003。所引用的美国专利申请公开和Faller和Baumgarte编著的关于BCC技术的两篇技术公开整体结合于此作为参考。

使参数方案可用于更宽比特率范围的双声道提示编码方案的重大进展是“参数立体声”(PS),例如在MPEG-4高效AAC v2中所标准化的。参数立体声的重要扩展之一是包括空间“扩散”参数。这一感受(percept)以声道间相关性或声道间相干性(ICC)的数学属性来捕获。在″Parametric coding of stereo audio″,J.Breebarrt,S.van de Par,A.Kohlrausch & E.Schuijers,EURASIP J.Appl.Sign.Proc.2005:9,1305-1322中详细描述了PS参数的分析、感知量化、传输和合成处理。还参考了J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers,″High-Quality Parametric Spatial Audio Coding at Low Bitrates″,AES16th Convention,Berlin,Preprint 6072,May 2004以及E.Schuijers,J.Breebaart,H.Purnhagen,J.Engdegard,″Low Complexity ParametricStereo Coding″,AES 16th Convention,Berlin,Preprint 6073,May 2004。

下面,参考图11至13更详细地描述多声道音频编码所用的典型一般BCC方案。图11示出了用于编码/传输多声道音频信号的这种一般双声道提示编码方案。在BCC编码器112的输入110处的多声道音频输入信号在缩混块114中缩混。在本示例中,输入110处的原始多声道信号是5声道环绕信号,具有前置左声道、前置右声道、左环绕声道、右环绕声道和中声道。在本发明的优选实施例中,缩混块114通过将这5个声道简单相加为单声道信号,来产生和信号。本领域中已知其他缩混方案,从而使用多声道输入信号,可以获得具有单个声道的缩混信号。这单个声道在和信号线115处输出。由BCC分析块116获得的侧面信息在侧面信息线117处输出。在BCC分析块中,如上所述计算声道间幅度差(ICLD)和声道间时间差(ICTD)。近来,BCC分析块116已经继承了声道间相关性值(ICC值)形式的参数立体声参数。和信号及侧面信息优选地以量化和编码的形式发送到BCC解码器120。BCC解码器将发送的和信号分解为多个子带,并应用缩放、延迟和其他处理,以生成输出多声道音频信号的子带。执行该处理,使得输出121处重建多声道信号的ICLD、ICTD和ICC参数(提示)类似于输入10处输入到BCC编码器112中的原始多声道信号的相应提示。为此,BCC解码器120包括BCC合成块122和侧面信息处理块123。

下面,参考图12解释BCC合成块122的内部构造。线路115上的和信号输入到时间/频率转换单元或滤波器组FB 125。在块125的输出处,存在N个子带信号,或者在极端的情况中,当音频滤波器组125执行1∶1变换,即,从N个时域样本产生N个频谱系数的变换时,存在一组频谱系数。

BCC合成块122还包括延迟级126、幅度修改级127、相关性处理级128和逆滤波器组级IFB 129。在级129的输出处,例如在5声道环绕系统的情况下具有5声道的重建多声道音频信号可以输出到一套扬声器124,如图11所示。

如图12所示,通过单元125,将输入信号s(n)转换到频域或滤波器组域。单元125输出的信号被复制,从而获得相同信号的数个版本,如复制节点130所示。原始信号的版本数等于要重建的输出信号中输出声道数。一般而言,节点130处原始信号的每个版本经过特定延迟d1、d2、…、di、…、dN。延迟参数由图11中的侧面信息处理块123计算,并且根据BCC分析块116确定的声道间时间差来导出。

对于相乘参数a1、a2、…、ai、…、aN同样如此,相乘参数也是由侧面信息处理块123根据BCC分析块116计算的声道间幅度差来计算。

BCC分析块116计算的ICC参数用于控制块128的功能,从而在块128的输出处获得延迟和幅度相乘后的信号之间的特定相关性。应该注意,级126、127、128的顺序可以不同于图12所示的情况。

此处应该注意,在按帧(frame-wise)对音频信号进行处理时,按帧(即,时变)且按频率(frequency-wise)执行BCC分析。这意味着,对于每个频带,获得BCC参数。这意味着,在音频滤波器组125将输入信号例如分解为32个带通信号时,BCC分析块获得针对32个频带中每个频带的一组BCC参数。自然,在该示例中,图11中的BCC合成块122(在图12中详细示出)执行的重建也基于32个频带。

下面,参考图13,图13示出了确定特定BCC参数的设置。通常,可以在声道对之间定义ICLD、ICTD和ICC参数。然而,优选地,在参考声道和每个其他声道之间确定ICLD和ICTD参数。这在图13A中示出。

可以用不同方式来定义ICC参数。最一般地,可以在编码器中估计所有可能声道对之间的ICC参数,如图13B所示。在这种情况下,解码器将合成ICC,从而ICC近似与原始多声道信号中所有可能声道对之间的ICC相同。然而,建议每次仅估计最强两个声道之间的ICC参数。这种方案在图13C中示出,其中示出了在一个时刻,估计声道1和2之间的ICC参数,并且在另一时刻,计算声道1和5之间的ICC参数的示例。解码器然后合成解码器中最强声道之间的声道间相关性,并应用一些启发式规则,来计算并合成其他声道对的声道间相干性。

至于根据所发送的ICLD参数例如计算相乘参数a1、aN,参考上述AES会议论文5574。ICLD参数代表原始多声道信号中的能量分布。不失一般性,在图13A中示出了四个ICLD参数,表示所有其他声道与前置左声道之间的能量差。在侧面信息处理块123中,相乘参数a1…aN从ICLD参数导出,从而所有重建输出声道的总能量与所发送的和信号的能量相同或成比例。确定这些参数的一种简单方式是2级处理,其中,在第一级,将左前声道的相乘因子设为1,而图13A中其他声道的相乘因子设为所发送的ICLD值。然后,在第二级中,计算所有五个声道的能量,并与所发送的和信号的能量相比较。然后,使用对所有声道都相同的缩减因子,将所有声道进行缩减,其中选择缩减因子,使得在缩减之后所有重建输出声道的总能量等于所发送的和信号的总能量。

自然,存在计算相乘因子的其他方法,不是依赖于2级处理,而是只需要1级处理。在AES预印本″The reference model architecture forMPEG spatial audio coding″,J.Herre et al.2005,Barcelona中描述了1级方法。

至于延迟参数,应该注意,当左前声道的延迟参数d1被设为零时,可以直接使用从BCC编码器发送的延迟参数ICTD。此处不需要重新缩放,因为延迟不会改变信号的能量。

至于从BCC编码器发送到BCC解码器的声道间相干性量度ICC,应该注意,可以通过修改相乘因子a1…aN,例如,通过将所有子带的加权因子与数值在20log10(-6)到20log10(6)之间的随机数相乘,来进行相干性处理。优选地,选择伪随机序列,使得方差对所有关键(critical)频带都近似恒定,并且在每个关键频带内平均值为0。对于每个不同帧的频谱系数应用相同的序列。因此,通过修改伪随机序列的方差来控制听觉图像宽度(auditory image width)。较大的方差产生较大的图像宽度。可以在各个频带中执行方差修改,其中所述频带是关键带的宽度。这使得在听觉场景中能够存在同时多个目标,每个目标具有不同的图像宽度。伪随机序列的适当的幅度分布是对数坐标上的均匀分布,如美国专利申请公开2003/0219130 A1中所述。然而,所有BCC合成处理与如图11所示作为和信号从BCC编码器发送到BCC解码器的单个输入声道有关。

如上面针对图13所指出,可以对五个声道中的每一个计算并发送参数侧面信息,即,声道间幅度差(ICLD)、声道间时间差(ICTD)或者声道间相干性参数(ICC)。这意味着,通常,对于五声道信号,发送五组声道间幅度差。对于声道间时间差也是如此。至于声道间相干性参数,例如仅发送两组参数就足够了。

如上面针对图12所指出,对于信号的一个帧或时间部分,不是存在单个幅度差参数、时间差参数或相干性参数。相反,对多个不同频带确定这些参数,从而获得频率相关的参数化。因为优选地例如使用32频率带,即,滤波器组具有32个频带用于BCC分析和BCC合成,参数可以占用非常多的数据。虽然与其他多声道传输相比,参数表示导致极低的数据率,但是仍然存在对于进一步减小表示多声道信号的必要数据率的持续需求,其中多声道信号例如具有两个声道的信号(立体声信号)或者具有多于两个声道的信号(例如,多声道环绕信号)。

为此,根据特定量化规则,将编码器侧计算的重建参数量化。这意味着,将未量化的重建参数映射到一组有限的量化等级或量化指数,如本领域中所知,且在″Parametric coding of stereo audio″,J.Breebaart,S.van de Par,A.Kohlrausch & E.Schuijers,EURASIP J.Appl.Sign.Proc.2005:9,1305-1322以及C.Faller & F.Baumgarte,″Binaural cuecoding applied to audio compression with flexible rendering″,AES 113thConvention,Los Angeles,Preprint 5686,October 2002中特别针对参数编码所具体描述。

量化具有如下效果,取决于量化器是中间线(mid-thread)型或中间上升(mid-riser)型,小于量化步长的所有参数值都被量化为0。通过将一大组未量化值映射为一小组量化值,获得了额外的数据节省。通过在编码器一侧对量化重建参数进行熵编码,进一步提高了这种数据率节省。优选的熵编码方法是Huffman方法,基于预先定义的代码表或者基于信号统计信息的实际确定和代码块的信号自适应构造。可选地,可以使用其他熵编码工具,例如算术编码。

一般而言,具有这样的规则,重建参数所需的数据率随着量化器步长的增加而减小。换言之,较粗的量化导致较低的数据率,而较细的量化导致较高的数据率。

因为对于低数据率环境通常需要参数信号表示,所以尝试尽可能粗地量化重建参数,以获得在基本声道中具有一定数据量、而对于侧面信息(包括量化和熵编码的重建参数)则具有合理少的数据量的信号表示。

因此,现有技术的方法直接从要编码的多声道信号导出要发送的重建参数。如上所述,粗量化导致重建参数失真,当量化的重建参数在解码器中被逆量化并用于多声道合成时,这导致较大的舍入误差。当然,舍入误差随量化器步长增加,即,随所选的“量化器粗糙度”增加。这种舍入误差可能导致量化等级改变,即,从第一时刻的第一量化等级改变为稍后时刻的第二量化等级,其中一个量化器等级和另一量化器等级之间的差由相当大的量化器步长(对于粗量化是优选的)来定义。不幸的是,当未量化的参数处于两个量化等级之间的中间时,参数中仅仅微小的变化就能触发与较大的量化器步长相等的量化器等级改变。显然,侧面信息中这种量化器指数改变的出现导致信号合成级中相同强度的改变。作为示例,当考虑声道间幅度差时,显然,大的变化导致特定扬声器信号响度的较大减小,同时伴随另一扬声器信号响度的较大增加。在粗量化时仅由单个量化等级改变而触发的这种情况可以被感知为声源从(虚拟)第一位置立即重新定位到(虚拟)第二位置。这种从一个时刻到另一时刻的立即重新定位听起来不自然,即,被感知为调制效果,因为实际上,音调(tonal)信号的声源不会非常迅速地改变位置。

一般来说,传输误差也会导致量化器指数的较大变化,这立即导致多声道输出信号的较大变化,对于为了数据率原因而采取了粗量化的情况而言更是如此。

两个(“立体声”)或者更多(“多声道”)音频输入声道的参数编码的现有技术直接从输入信号导出空间参数。这种参数的例子如上所述,有声道间幅度差(ICLD)或声道间强度差(IID)、声道间时间延迟(ICTD)或声道间相位差(IPD)以及声道间相关性/相干性(ICC),每个参数都以时间和频率选择性的方式发送,即,以每个频带和时间的函数的形式。为了将这些参数发送到解码器,需要对这些参数进行粗量化,以将侧面信息速率保持在最小。结果,当将所发送的参数值与其原始值相比较时,出现可观的舍入误差。这意味着,如果超过了从一个量化参数值到下一个值的判决阈值,即使原始信号中一个参数的温和且逐渐的变化也可能导致解码器中所使用的参数值的急剧变换。因为这些参数值用于合成输出信号,所以参数值的急剧变换可能导致输出信号的“跳跃”,这对于特定类型的信号是恼人的,被感知为“切换”或“调制”人工效果(取决于参数的时间粒度和量化分辨率)。

美国专利申请序列号No.10/883,538描述了一种在BCC型方法的环境中当以低分辨率表示参数时对所发送的参数值进行后置处理以避免特定类型信号的人工效果的方法。合成过程中的这些不连续导致音调信号的人工效果。因此,该美国专利申请建议在解码器中使用音调(tonality)检测器,用来分析所发送的缩混信号。当发现信号是音调时,对所发送的参数执行在时间上平滑的处理。因此,这种类型的处理表示音调信号的参数的有效发送手段。

然而,除了音调输入信号之外还存在许多种类的输入信号,他们对空间参数的粗量化同样敏感。

●这种情况的一个例子是在两个位置之间缓慢移动的点源(例如,在中扬声器和左前扬声器之间非常缓慢移动的噪声信号)。幅度参数的粗量化将导致可感知的空间位置以及声源轨迹的“跳跃”(不连续)。因为这些信号在解码器中通常不被检测为音调,所以现有技术的平滑在这种情况下并不明显有用。

●其他例子是迅速移动具有音调材料的点源,例如快速移动的正弦波。现有技术的平滑将这些分量检测为音调,因此调用平滑操作。然而,因为移动速度对于现有技术的平滑算法未知,所以所应用的平滑时间常数通常并不恰当,并且例如重新产生具有极低移动速度且重现的空间位置与原始预期位置相比具有重大延迟的移动点源。

发明内容

本发明的目的是提供一种改进的音频信号处理概念,一方面允许低数据率,另一方面允许良好的主观质量。

根据本发明的第一方面,该目的通过一种用于生成多声道合成器控制信号的设备实现,所述设备包括:信号分析器,用于分析多声道输入信号;平滑信息计算器,用于响应于信号分析器,确定平滑控制信息,所述平滑信息计算器可操作来确定平滑控制信息,从而响应于平滑控制信息,合成器一侧的后置处理器针对待处理的输入信号的时间部分生成后置处理的重建参数或后置处理的、根据重建参数导出的量;以及数据生成器,用于生成表示平滑控制信息的控制信号作为多声道合成器控制信号。

根据本发明的第二方面,该目的通过一种用于从输入信号生成输出信号的多声道合成器来实现,所述输入信号具有至少一个输入声道以及量化重建参数序列,所述量化重建参数根据量化规则来量化,并且与输入信号的连续时间部分相关联,所述输出信号具有一定数目的合成输出声道,合成输出声道的数目大于1或大于输入声道的数目,输入声道具有表示平滑控制信息的多声道合成器控制信号,平滑控制信息取决于编码器侧的信号分析,确定平滑控制信息,从而合成器一侧的后置处理器响应于合成器控制信号,生成后置处理的重建参数或者后置处理的、根据重建参数导出的量,所述多声道合成器包括:控制信号提供器,用于提供具有平滑控制信息的控制信号;后置处理器,用于响应于控制信号,针对待处理的输入信号的时间部分确定后置处理的重建参数或后置处理的、根据重建参数导出的量,其中,所述后置处理器可操作来确定后置处理的重建参数或后置处理的量,从而后置处理的重建参数或后置处理的量的值不同于根据所述量化规则使用重新量化可获得的值;以及多声道重建器,用于使用输入声道的时间部分以及后置处理的重建参数或后置处理的值,重建所述数目的合成输出声道的时间部分。

本发明的其他方面涉及一种用于生成多声道合成器控制信号的方法、一种从输入信号生成输出信号的方法、相应计算机程序、或者一种多声道合成器控制信号。

本发明基于如下事实:对重建参数的编码器侧引导平滑将导致合成多声道输出信号的改进音频质量。音频质量的这种实质改进可以通过额外的编码器侧处理以确定平滑控制信息来实现,平滑控制信息在本发明的优选实施例中,可以传输到解码器,这种传输仅需要有限(小)数目的比特。

在解码器一侧,使用平滑控制信息来控制平滑操作。可以在解码器一侧使用这种编码器引导参数平滑,而不是解码器侧参数平滑,解码器侧参数平滑例如基于音调/瞬变检测,或者可以与解码器侧参数平滑组合使用。也可以使用编码器一侧的信号分析器所确定的平滑控制信息,来通告对所传输的缩混信号的特定时间部分和特定频带应用哪种方法。

总之,本发明有利之处在于,在多声道合成器内执行重建参数的编码器控制自适应平滑,这导致音频质量的实质增加,并且仅导致少量的额外比特。由于使用额外的平滑控制信息减轻了量化内在的质量恶化,本发明的思想可以在不增加传输比特甚至减少传输比特的情况下应用,因为通过应用更粗的量化从而只需要较少的比特来编码量化值,可以节省平滑控制信息的比特。因此,平滑控制信息与编码量化值一起甚至可以需要比非公开美国专利申请中所述的不带平滑控制信息的量化值相同或更少的比特率,同时保持主观音频质量的相同等级或更高等级。

一般而言,对多声道合成器中使用的量化重建参数的后置处理可以减少甚至消除与粗量化及量化等级改变相关的问题。

虽然在现有技术系统中,编码器中的小参数变化可以导致解码器中的强参数变化,因为合成器中的表示仅可以采纳一组有限的量化值,但是本发明的设备执行重建参数的后置处理,从而输入信号的待处理时间部分的后置处理重建参数不是由编码器侧采用的量化栅格确定,而是导致与根据量化规则通过量化可获得的值不同的值。

虽然在线性量化器的情况中,现有技术的方法只允许逆量化值是量化器步长的整数倍,但是本发明的后置处理允许逆量化值可以是量化器步长的非整数倍。这意味着,本发明的后置处理减轻了量化器步长限制,因为通过后置处理也可以获得处于两个相邻量化器等级之间的后置处理重建参数,并且由本发明的多声道重建器使用,本发明的多声道重建器利用后置处理的重建参数。

这种后置处理可以在多声道合成器中重新量化之前或之后执行。当利用量化参数即量化器指数执行后置处理时,需要逆量化器,该逆量化器不仅可以逆量化到量化器步长的倍数,而且可以逆量化到量化器步长倍数之间的逆量化值。

在使用逆量化重建参数执行后置处理的情况中,可以使用直接逆量化器,并且利用逆量化值执行插值/滤波/平滑。

在非线性量化规则(例如,对数量化规则)的情况下,在重新量化之前进行量化重建参数的后置处理是优选的,因为对数量化类似于人类耳朵对声音的感觉,这对于低幅度声音更准确,而对于高幅度声音不够准确,即,进行一种对数压缩。

此处应该注意,本发明的优点不仅可以通过修改作为量化参数的比特流中所包括的重建参数本身来获得。该优点也可以通过从重建参数导出后置处理的量来获得。这在重建参数是差值参数并且对从差值参数导出的绝对参数执行诸如平滑之类的操作时尤其有用。

在本发明的优选实施例中,利用信号分析器控制重建参数的后置处理,信号分析器分析与要得到的重建参数相关联的信号部分,其中存在信号特性。在优选实施例中,仅对信号的音调部分(相对于频率和/或时间)或者当音调由点源生成时仅对缓慢移动的点源,激活解码器控制的后置处理,而对非音调部分,即,输入信号的瞬变部分或者具有音调材料的快速移动点源,禁用该后置处理。这确保了对音频信号的瞬变部分传输重建参数改变的全部动态,而对信号的音调部分并不如此。

优选地,后置处理器以平滑重构参数的形式执行修正,从心理声学的观点看这是有意义的,而不会影响重要的空间检测提示(对于非音调即瞬变信号部分具有特别的重要性)。

本发明导致了低数据率,因为重建参数的编码器侧量化可以是粗量化,因为系统设计者不必害怕解码器中由于重建参数从一个逆量化等级到另一逆量化等级的改变而导致的重大变化,这种改变通过本发明中映射到两个重新量化等级之间的值的处理而减小。

本发明的另一优点是改进了系统的质量,因为由一个重新量化等级到下一许可重新量化等级的改变所导致的可听见的人工效果通过本发明的后置处理而减小,本发明的后置处理可以映射到两个许可重新量化等级之间的值。

当然,除了编码器中参数化以及随后重建参数的量化所导致的信息损失之外,本发明对量化重建参数的后置处理表示进一步的信息损失。然而,这不成问题,因为本发明的后置处理器优选地使用实际或先前的量化重建参数,来确定后置处理的重建参数,以用于重建输入信号的实际时间部分,即,基本声道。已经表明,这导致了改进的主观质量,因为编码器导致的错误可以补偿到一定程度。即使当编码器侧导致的错误不能通过重建参数的后置处理来补偿,也减小了重建多声道音频信号中空间感觉的剧烈变化,优选地仅对于音调信号部分,从而不管这是否导致了进一步的信息损失,在任何情况下都可以改进主观聆听质量。

附图说明

随后参考附图描述本发明的优选实施例,其中:

图1a是根据本发明第一实施例的编码器侧装置和相应解码器侧装置的示意图;

图1b是根据本发明另一优选实施例的编码器侧装置和相应解码器侧装置的示意图;

图1c是优选控制信号生成器的示意方框图;

图2a是确定声源空间位置的示意图;

图2b是计算作为平滑信息示例的平滑时间常数的优选实施例的流程图;

图3a是计算量化声道间强度差和相应平滑参数的可选实施例;

图3b是说明对于不同时间常数,每帧的测量IID参数和每帧的量化IID参数以及每帧的处理后量化IID参数之间的差别的示例图;

图3c是图3a中所应用的概念的优选实施例的流程图;

图4a是说明解码器侧引导系统的示意图;

图4b是在图1b中本发明的多声道合成器中要使用的后置处理器/信号分析器组合的示意图;

图4c是对于过去信号部分、待处理的实际信号部分以及将来信号部分,输入信号的时间部分以及相关联的量化重建参数的示意图;

图5是图1中编码器引导参数平滑装置的实施例;

图6a是图1中编码器引导参数平滑装置的另一实施例;

图6b是编码器引导参数平滑装置的另一优选实施例;

图7a是图1中编码器引导参数平滑装置的另一实施例;

图7b是要根据本发明进行后置处理的参数的示意图,还表明可以平滑从重建参数导出的量;

图8是执行直接映射或增强映射的量化器/逆量化器的示意图;

图9a是与连续输入信号部分相关联的量化重建参数的示例时间过程;

图9b是已经由实现平滑(低通)函数的后置处理器进行过后置处理的后置处理重建参数的时间过程;

图10图示了现有技术的联合立体声编码器;

图11是现有技术的BCC编码器/解码器链的方框图;

图12是图11中的BCC合成块的现有技术实施方式的方框图;

图13是用于确定ICLD、ICTD和ICC参数的公知方案的图;

图14是传输系统的发射器和接收器;以及

图15是具有本发明的编码器的音频记录器和具有解码器的音频播放器。

具体实施方式

图1a和1b示出了本发明的多声道编码器/合成器的方框图。如随后图4c所示,到达解码器一侧的信号具有至少一个输入声道以及量化重建参数的序列,量化重建参数根据量化规则量化。每个重建参数与输入声道的时间部分相关联,从而时间部分的序列与量化重建参数的序列相关联。另外,通过如图1a和1b所示的多声道合成器生成的输出信号具有多个合成输出声道,在任何情况下都多于输入信号中输入声道的数目。当输入声道的数目是1,即,存在单个输入声道时,输出声道的数目是2或更多。然而,当输入声道的数目是2或3时,输出声道的数目分别至少是3或至少是4。

在BCC的情况下,输入声道的数目是1或通常不大于2,而输出声道的数目是5(左环绕、左、中、右、右环绕)或6(5环绕声道加上1重低音声道)或者在7.1或9.1的多声道格式中更多。一般而言,输出源的数目高于输入源的数目。

图1a在左侧图示了用于生成多声道合成器控制信号的设备1。题为“平滑参数提取”的方框1包括信号分析器、平滑信息计算器和数据生成器。如图1c所示,信号分析器1a接收原始多声道信号作为输入。信号分析器分析多声道输入信号,以获得分析结果。将该分析结果转发到平滑信息计算器,以响应于信号分析器,即信号分析结果,确定平滑控制信息。具体地,平滑信息计算器1b可操作来确定平滑信息,从而响应于平滑控制信息,解码器一侧的参数后置处理器针对要处理的输入信号的时间部分生成平滑参数或平滑的、根据参数所导出的量,使得平滑重建参数或平滑量的值不同于根据量化规则使用重新量化可获得的值。

另外,图1a中的平滑参数提取装置1包括数据生成器,用于输出表示平滑控制信息的控制信号作为解码器控制信号。

具体地,表示平滑控制信息的控制信号可以是平滑掩码(mask)、平滑时间常数、或者控制解码器侧平滑操作的任何其他值,从而基于平滑值的重建多声道输出信号与基于非平滑值的重建多声道输出信号相比具有改进的质量。

平滑掩码包括信令(signaling)信息,所述信令信息例如由指示用于平滑的每个频率的“开/关(on/off)”状态的标记组成。因此,平滑掩码可以视为与一帧相关联的向量,对于每个频带具有一比特,其中这一比特控制编码器引导的平滑对于该频带是否有效。

如图1a所示的空间音频编码器优选地包括缩混器3和随后的音频编码器4。另外,空间音频编码器包括空间参数提取装置2,其输出量化空间提示,例如声道间幅度差(ICLD)、声道间时间差(ICTD)、声道间相干性值(ICC)、声道间相位差(IPD)、声道间强度差(IID)等。在该上下文中,应该指出,声道间幅度差实质上与声道间强度差相同。

缩混器3可以如图11中项目114所示来构造。另外,空间参数提取装置2可以如图11中项目116所示来实现。然而,缩混器3以及空间参数提取装置2的可选实施例可以用在本发明的环境中。

另外,音频编码器4不是必需的。然而,当单元3的输出处的缩混信号的数据率太高时,使用该装置,用于经由传输/存储装置来传输缩混信号。

空间音频解码器包括编码器引导参数平滑装置9a,其与多声道上混器12相连。多声道上混器12的输入信号通常是用于对传输/存储的缩混信号进行解码的音频解码器8的输出信号。

优选地,本发明的多声道合成器用于根据输入信号生成输出信号,其中输入信号具有至少一个输入声道和量化重建参数序列,量化重建参数根据量化规则来量化,并且与输入信号的连续时间部分相关联,输出信号具有多个合成输出声道,并且合成输出声道的数目大于1或大于输入声道的数目,所述多声道合成器包括控制信号提供器,用于提供具有平滑控制信息的控制信号。当控制信息与参数信息复用时,该控制信号提供器可以是数据流解复用器。然而,当平滑控制信息经由单独信道(与参数信道14a或和音频解码器8输入侧相连的缩混信号信道分离)从图1a中的装置1发送到装置9a时,则控制信号提供器只是装置9a的输入,接收图1a中平滑参数提取装置1所生成的控制信号。

另外,本发明的多声道合成器包括后置处理器9a,也称作“编码器引导参数平滑装置”。后置处理器用于针对要处理的输入信号的时间部分,确定后置处理的重建参数或后置处理的、根据重建参数所导出的量,其中后置处理器可操作来确定后置处理重建参数或后置处理量,从而后置处理重建参数或后置处理量的值不同于根据量化规则使用重新量化可获得的值。将后置处理重建参数或后置处理量从装置9a转发到多声道上混器12,使得多声道上混器或多声道重建器12可以执行重建操作,以使用输入声道的时间部分以及后置处理重建参数或后置处理值,重建所述数目的合成输出声道的时间部分。

随后,参考图1b中所示的本发明优选实施例,包括编码器引导参数平滑和解码器引导参数平滑,如非预先公开美国专利申请No.10/883,538中所述。在该实施例中,在图1c中详细示出的平滑参数提取装置1额外生成编码器/解码器控制标记5a,该标记被发送到组合/切换结果块9b。

图1b中的多声道合成器或空间音频解码器包括重建参数后置处理器10,这是解码器引导参数平滑装置;以及多声道重建器12。解码器引导参数平滑装置10可操作来接收输入信号的连续时间部分的量化且优选编码的重建参数。重建参数后置处理器10可操作来在其输出处确定输入信号中要处理的时间部分的后置处理重建参数。重建参数后置处理器根据后置处理规则操作,所述后置处理规则在特定优选实施例中是低通滤波规则、平滑规则或者其他类似操作。具体地,后置处理器可操作来确定后置处理重建参数,使得后置处理重建参数的值不同于根据量化规则对任何量化重建参数进行重新量化可获得的值。

多声道重建器12用于使用处理过的输入声道的时间部分以及后置处理重建参数,重建所述数目的合成输出声道中每一个的时间部分。

在本发明的优选实施例中,量化重建参数是量化BCC参数,例如声道间幅度差、声道间时间差或者声道间相干性参数或者声道间相位差或声道间强度差。当然,也可以根据本发明来处理所有其他重建参数,例如,强度立体声的立体声参数或者参数立体声的参数。

经由线路5a发送的编码器/解码器控制标记可操作来控制切换或组合装置9b,以将解码器引导平滑值或编码器引导平滑值转发到多声道上混器12。

下面,参考图4c,示出了比特流的示例。比特流包括多个帧20a、20b、20c…。每一帧包括输入信号的时间部分,由图4c中帧上部的矩形所指示。另外,每一帧包括与时间部分相关联的一组量化重建参数,在图4c中由每一帧20a、20b、20c下部的矩形所指示。例如,帧20b被视为要处理的输入信号部分,其中该帧具有之前的输入信号部分,即,形成要处理的输入信号部分的“过去”。另外,还存在随后的输入信号部分,形成要处理的输入信号部分的“将来”(要处理的输入部分也称作“实际”输入信号部分),而“过去”的输入信号部分被称作先前输入信号部分,将来的输入信号部分称作随后输入信号部分。

本发明的方法通过对解码器中执行的平滑操作进行更显式(explicit)的编码器控制,成功处理了具有缓慢移动点源(优选地,具有类似噪声的特性)或快速移动点源(具有音调材料,例如快速移动正弦波)的成问题的情况。

如前所述,在编码器引导参数平滑装置9a或解码器引导参数平滑装置10中执行后置处理操作的优选方式是以面向频带的方式执行的平滑操作。

另外,为了积极控制解码器中由编码器引导参数平滑装置9a所执行的后置处理,编码器向合成器/解码器传送信令信息,优选地作为侧面信息的一部分。然而,多声道合成器控制信号也可以单独发送到解码器,而并不作为参数信息的侧面信息或缩混信号信息的一部分。

在优选实施例中,该信令信息由指示用于平滑的每个频带的“开/关”状态的标记组成。为了有效传输该信息,优选实施例也可以使用一组“快捷方式(short cut)”来以极少的比特通知频繁使用的配置。

为此,图1c中的平滑信息计算器1b确定在任何频带中不需要执行平滑。这通过由数据生成器1c所生成的“全关(all-off)”快捷信号来通告。具体地,表示“全关”快捷信号的控制信号可以是特定的比特格式或特定标记。

另外,平滑信息计算器1b可以确定在所有频带中,要执行编码器引导平滑操作。为此,数据生成器1c生成“全开(all-on)”快捷信号,该信号通告在所有频带中应用平滑。该信号可以是特定的比特格式或标记。

另外,当信号分析器1a确定信号在一个时间部分到下一时间部分即从当前时间部分到未来时间部分之间没有非常大的改变时,平滑信息计算器1b可以确定编码器引导参数平滑操作不必改变。然后,数据生成器1c将生成“重复上一掩码”快捷信号,这将向解码器/合成器通告可以使用与对前一帧的处理所采用的相同逐带开/关状态来进行平滑。

在优选实施例中,信号分析器1a可操作来估计移动速度,从而解码器平滑的施加与点源的空间移动速度适配。由于这种处理,平滑信息计算器1b确定合适的平滑时间常数,并经由数据生成器1c通过专用侧面信息向解码器通告。在优选实施例中,数据生成器1c生成并向解码器发送指数值,这允许解码器在不同的预先定义平滑时间常数(例如,125ms、250ms、500ms…)间选择。在进一步优选的实施例中,对所有频带仅发送一个时间常数。这减少了平滑时间常数的信令信息的量,并且对于频谱中一个主要移动点源的常见情况而言足够了。结合图2a和2b描述确定合适平滑时间常数的示例方法。

解码器平滑过程的显式控制与解码器引导平滑方法相比,需要传输某些额外侧面信息。因为这种控制可能仅对于所有输入信号中具有特定性质的特定部分必要,优选地将两种方法组合成一种方法,也称作“混合”方法。这可以通过基于在解码器中由图1b中的装置16所执行的音调/瞬变估计或者在显式编码器控制下,传输信令信息来完成,所述信令信息例如指示是否执行平滑的一比特。在后一种情况中,图1b的侧面信息5a发送到解码器。

随后,讨论用于识别缓慢移动点源并估计适当时间参数以通告解码器的优选实施例。优选地,在编码器中执行所有估计,并且所有估计因此可以访问信号参数的非量化版本,而非量化版本在解码器中当然是不可获得的,因为图1a和1b中的装置2由于数据压缩的原因发送量化空间提示。

随后,参考图2a和2b,示出了用于识别缓慢移动点源的优选实施例。特定频带和时间帧内声音事件的空间位置如图2a所示来识别。具体地,对于每个音频输出声道,单位长度向量ex指示常规聆听设置中相应扬声器的相对定位。在图2a所示的示例中,普通5声道聆听设置使用扬声器L、C、R、Ls和Rs,以及相应的单位长度向量eL、eC、eR、eLs和eRs

特定频带和时间帧内声音事件的空间位置按照如图2a中的等式所示的这些向量的能量加权平均来计算。从图2a可见,每个单位长度向量具有特定的x坐标和y坐标。通过将单位长度向量的每个坐标与相应能量相乘并对x坐标项和y坐标项求和,获得了特定位置x,y处特定频带和特定时间帧的空间位置。

如图2b的步骤40所示,对两个连续时刻执行这种确定。

然后,在步骤41,确定具有空间位置p1、p2的源是否在缓慢移动。当连续的空间位置之间的距离低于预定阈值时,确定源是缓慢移动源。然而,当确定位移高于特定最大位移阈值时,确定源不是缓慢移动,并且停止图2b中的过程。

图2a中的值L、C、R、Ls和Rs分别表示相应声道的能量。可选地,也可以采用以dB测量的能量来确定空间位置p。

在步骤42,确定源是否为点源或近似点源。优选地,当相关的ICC参数超过特定最小阈值(例如0.85)时确定是点源。当确定ICC参数低于预定阈值时,则源不是点源,并且停止图2b中的处理。然而,当确定源是点源或近似点源时,图2b中的处理前进到步骤43。在该步骤中,优选地,在特定观察间隔内确定参数多声道方案的声道间幅度差参数,得到多个测量。观察间隔可以由多个编码帧或以比帧序列所定义的高的时间分辨率进行的一组观察组成。

在步骤44,计算连续时刻的ICLD曲线的斜率。然后,在步骤45,选择平滑时间常数,与曲线斜率成反比。

然后,在步骤45,输出作为平滑信息示例的平滑时间常数,并在解码器侧平滑装置中使用,从图4a和4b可见,平滑装置可以是平滑滤波器。因此,步骤45中确定的平滑时间常数用来设置用于块9a中进行平滑的数字滤波器的滤波器参数。

关于图1b,需要强调,编码器引导参数平滑9a和解码器引导参数平滑10也可以使用单个装置来实现,例如如图4b、5或6a所示,因为一方面平滑控制信息以及另一方面由控制参数提取装置16输出的解码器确定的信息在本发明的优选实施例中都作用于平滑滤波器以及平滑滤波器的激活。

当对所有频带仅通告一个公共平滑时间常数时,可以将每个频带的单独结果组合为整体结果,例如通过平均或能量加权平均。在这种情况下,解码器对每个频带应用相同的(能量加权)平均平滑时间常数,从而只需传输针对整个频谱的单个平滑时间常数。当发现与组合时间常数严重偏离的频带时,可以使用相应的“开/关”标记,对这些频带禁止平滑。

随后,参考图3a、3b和3c,说明可选实施例,该实施例基于针对编码器引导平滑控制的合成分析(analysis-by-synthesis)方法。基本思想包括将由量化和参数平滑得到的特定重建参数(优选地,IID/ICLD参数)与相应的非量化(即,测量)(IID/ICLD)参数相比较。在图3a所示的示意优选实施例中总结了该方法。两个不同的多声道输入声道(例如L和R声道)输入到相应的分析滤波器组中。将滤波器组输出分段并开窗,以获得合适的时间/频率表示。

因此,图3a包括具有两个分离的分析滤波器组70a、70b的分析滤波器组装置。当然,可以两次使用单个分析滤波器组和存储装置,以分析两个声道。然后,在分段和开窗装置72中,执行时间分段。然后,在装置73中执行每帧的ICLD/IID估计。随后将每一帧的参数发送到量化器74。因此,在装置74的输出处获得量化参数。随后,在装置75中通过一组不同的时间参数来处理量化参数。优选地,实质上装置75使用解码器可用的所有时间常数。最后,比较和选择单元76将量化且平滑的IID参数与原始(未处理)IID估计相比较。单元76输出在处理的IID值和原始测量的IID值之间获得最佳拟合的量化IID参数和平滑时间常数。

随后,参考图3c所示的流程图,对应于图3a中的装置。如步骤46所示,生成数帧的IID参数。然后,在步骤47,量化这些IID参数。在步骤48,使用不同时间常数平滑量化IID参数。然后,在步骤49,对步骤48中所使用的每个时间常数计算平滑序列与原始生成序列之间的误差。最终,在步骤50,与得到最小误差的平滑时间常数一起选择量化序列。然后,步骤50与最佳时间常数一起输出量化值序列。

在对于高级装置优选的更复杂实施例中,也可以针对来自量化器的所有可能IID值中所选出的一组量化IID/ICLD参数,执行该过程。在这种情况下,比较和选择过程将包括对所发送(量化)的IID参数和平滑时间常数的各种组合来比较处理IID和未处理IID参数。因此,如步骤47中方括号所示,不同于第一实施例,第二实施例使用不同量化规则或者使用相同量化规则但是使用不同量化步长来量化IID参数。然后,在步骤51,对于每一量化方式以及每一时间常数,计算误差。因此,在更复杂的实施例中,与图3c的步骤50相比,步骤52中待决定的候选者数目高出等于与第一实施例相比不同量化方式数目的因子。

然后,在步骤52,执行针对(1)误差和(2)比特率的二维优化,以搜索量化值和匹配时间常数的序列。最终,在步骤53,使用Huffman码或算术码,对量化值序列进行熵编码。步骤53最终得到要发送到解码器或多声道合成器的比特序列。

图3b图示了通过平滑的后置处理的效果。项目77说明帧n的量化IID参数。项目78说明帧指数为n+1的帧的量化IID参数。根据由标号79所指示的每帧的测量IID参数,通过量化,导出量化IID参数78。利用不同时间常数对量化参数77和78的该参数序列进行平滑,在80a和80b处得到较小的后置处理参数值。用于平滑参数序列77、78,得到后置处理(平滑)参数80a的时间常数小于得到后置处理参数80b的平滑时间常数。如本领域中所知,平滑时间常数与相应低通滤波器的截止频率成倒数。

结合图3c中步骤51至53说明的实施例是优选的,因为可以针对误差和比特率执行二维优化,因为不同的量化规则可能导致用于表示量化值的不同比特数。另外,该实施例基于后置处理重建参数的实际值取决于量化重建参数以及处理方式这一事实。

例如,(量化)IID参数在帧与帧之间的较大差异,结合较大的平滑时间常数,将有效地仅导致对于处理IID的较小净效果。通过IID参数的较小差异,以及较小的时间常数,可以构造同样的净效果。这种额外自由度使得编码器能够同时优化重建IID以及得到的比特率(给定传输特定IID值可能比传输特定可选IID参数更昂贵这一事实)。

如上所述,图3b示出了平滑时对IID轨迹的效果,其中示出了针对各种平滑时间常数值的IID轨迹,其中星形指示每帧的测量IID,三角形指示IID量化器的可能值。假设IID量化器精度有限,帧n+1上星形所指示的IID值不可用。最接近的IID值由三角形指示。图中的线段表示根据各种平滑常数可能得到的帧之间的IID轨迹。选择算法将选择能得到与帧n+1的测量IID参数最接近的IID轨迹的平滑时间常数。

上述示例均涉及IID参数。原则上,所有描述的方法也可以应用于IPD、ITD或ICC参数。

因此,本发明涉及一种编码器侧处理和解码器侧处理,形成使用经由平滑控制信号传输的平滑启用/禁用掩码和时间常数的系统。另外,执行每个频带的按带信令,其中,快捷方式是优选的,可以包括所有带开、所有带关或者重复前一状态的快捷方式。另外,优选地,对于所有频带使用一个公共平滑时间常数。此外,另外地或可选地,可以传输针对基于音调的自动平滑相对显式编码器控制(automatictonality-based smoothing versus explicit encoder control)的信号,以实现混合方法。

随后,参考解码器侧的实施方式,与编码器引导参数平滑结合工作。

图4a示出了编码器侧21和解码器侧22。在编码器中,N个原始输入声道输入到缩混器级23中。缩混器级可操作来将声道数目减少到例如单个单声道或者可能减少到两个立体声声道。然后,缩混器23输出处的缩混信号表示输入到源编码器24,源编码器例如实现为mp3编码器或AAC编码器,产生输出比特流。编码器侧21还包括参数提取器25,根据本发明,参数提取器25执行BCC分析(图11中块116),并输出量化且优选地Huffman编码的声道间幅度差(ICLD)。源编码器24输出处的比特流以及参数提取器25输出的量化重建参数可以发送到解码器22,或者可以存储以便以后发送到解码器,等等。

解码器22包括源解码器26,源解码器可操作来根据接收到的比特流(来自源编码器24)重建信号。为此,源解码器26在其输出处向上混器12提供输入信号的连续时间部分,上混器12执行与图1中的多声道重建器12相同的功能。优选地,该功能是图11中块122所实施的BCC合成。

与图11不同,本发明的多声道合成器还包括后置处理器10(图4a),也称作“声道间幅度差(ICLD)平滑器”,由输入信号分析器16控制,输入信号分析器16优选地执行输入信号的音调分析。

从图4a可知,存在重建参数,例如声道间幅度差(ICLD),它们输入到ICLD平滑器,同时在参数提取器25和上混器12之间存在额外的连接。通过该旁路连接,可以从参数提取器25向上混器12提供不需要后置处理的其他重建参数。

图4b示出了信号分析器16和ICLD平滑器10所形成的信号自适应重建参数处理的优选实施例。

信号分析器16由音调确定单元16a和随后的阈值装置16b形成。另外,图4a中的重建参数后置处理器10包括平滑滤波器10a和后置处理器开关10b。后置处理器开关10b可操作来由阈值装置16b控制,从而当阈值装置16b确定输入信号的特定信号特性(例如,音调特性)与特定指定阈值处于预定关系时,驱动开关。在本示例中是如下情形,当输入信号的信号部分的音调,以及具体地,输入信号的特定时间部分的特定频带具有高于音调阈值的音调时,驱动开关处于上部位置(如图4b所示)。在这种情况下,驱动开关10b以将平滑滤波器10a的输出与多声道重建器12的输入相连,从而将后置处理过的、但是尚未逆量化的声道间差值提供给解码器/多声道重建器/上混器12。

然而,当解码器控制实施方式中的音调确定装置确定输入信号的实际时间部分的特定频带,即,待处理的输入信号部分的特定频带具有低于指定阈值的音调,即,是瞬变的时,驱动开关,使得旁路平滑滤波器10a。

在后一种情况下,平滑滤波器10a的信号自适应后置处理确保针对瞬变信号的重建参数改变不经改变地通过后置处理级,并导致重建输出信号相对于空间图像的快速改变,这对应于针对瞬变信号具有高度可能性的实际情形。

应该注意,图4b的实施例,即,一方面激活后置处理,另一方面完全禁止后置处理,即,对于是否进行后置处理的二元判决仅是优选的实施例,以为其简单且高效的结构。然而,应该注意,具体地针对音调,该信号特性不仅是定性参数,而且是定量参数,通常在0和1之间。根据定量确定的参数,可以设置平滑滤波器的平滑程度,或者,例如低通滤波器的截止频率,使得对于重音调(heavily tonal)的信号,激活强的平滑,而对于不如此重音调的信号,启用较低平滑程度的平滑。

当然,也可以检测瞬变部分,并将参数的改变扩大为预定量化值或量化指数之间的值,从而对于强瞬变信号,对重建参数的后置处理导致多声道信号的空间图像的甚至更扩大的改变。在这种情况下,可以将连续时间部分的连续重建参数所指示的1的量化步长提升为例如1.5、1.4、1.3等,这导致重建多声道信号的空间图像的甚至更引人注目的改变。

此处应该注意,音调信号特性、瞬变信号特性、或者其他信号特性仅仅是信号特性的示例,基于这些信号特性可以执行信号分析,以控制重建参数后置处理器。响应于这种控制,重建参数后置处理器确定值与量化指数的任意值或者按照预定量化规则的重新量化值不同的后置处理重建参数。

此处应该注意,取决于信号特性的重建参数后置处理,即,信号自适应参数后置处理仅是可选的。信号无关后置处理对于许多信号也提供了优点。例如,可以由用户选择特定后置处理函数,从而用户获得增强的改变(在扩大函数的情况下)或者衰减的改变(在平滑函数的情况下)。可选地,与用户选择无关且与信号特性无关的后置处理也可以提供有关误差弹性的特定优点。显而易见,尤其在大量化器步长的情况下,量化器指数的传输误差可以导致可听见的人工效果。为此,当必须通过易错信道传输信号时,应该执行前向纠错或者其他类似操作。根据本发明,后置处理可以消除对任何比特低效纠错码的需要,因为基于过去重建参数的重建参数后置处理将导致检测到错误传输的量化重建参数,并导致针对这种错误的适当对策。另外,当后置处理函数是平滑函数时,与之前或之后重建参数明显不同的量化重建参数将如下所述被自动处理。

图5示出了图4a中的重建参数后置处理器10的优选实施例。具体地,考虑量化重建参数被编码的情况。此处,编码量化重建参数进入熵解码器10c,熵解码器10c输出解码量化重建参数序列。熵解码器输出处的重建参数被量化,这意味着它们并不具有特定的“有用”值,而是指示由随后的逆量化器所实现的特定量化规则的特定量化器指数或量化器等级。操作器10d例如可以是数字滤波器,例如IIR(优选地)或FIR滤波器,具有由所需的后置处理函数所确定的任意滤波器特性。平滑或低通滤波后置处理函数是优选的。在操作器10d的输出处,获得操作过的量化重建参数序列,其不仅是整数,而且是处于量化规则所确定的范围内的任何实数。与级10d之前的值1、0、1相比,这种操作过的量化重建参数可以具有1.1、0.1、0.5…的值。块10d输出处的值序列然后输入到增强逆量化器10e,以获得后置处理的重建参数,后置处理的重建参数可以用于图1a和1b的块12中的多声道重建(例如,BCC合成)。

应该注意,增强量化器10e(图5)不同于常规逆量化器,因为常规逆量化器仅将有限数目量化指数中的每个量化输入映射到指定逆量化输出值。常规逆量化器不能映射非整数量化器指数。因此,将增强逆量化器10e实现为优选地使用诸如线性或对数量化法则之类的相同量化规则,但是可以接受非整数输入,以提供与仅使用整数输入可获得的值不同的输出值。

对于本发明,在重新量化之前(见图5)还是在重新量化之后(见图6a、图6b)执行操作基本上没有差别。在后一种情况中,逆量化器只需要是常规直接逆量化器,不同于上述图5的增强逆量化器10e。当然,图5和图6a之间的选择取决于特定实施方式。对于本实施方式,图5的实施例是优选的,因为与现有BCC算法更兼容。然而,对于其他应用可能不同于此。

图6b示出了如下实施例,其中图6a中的增强逆量化器10e由直接逆量化器和映射器10g所替代,映射器10g用于根据线性或优选的非线性曲线进行映射。该映射器可以以硬件或软件来实现,例如用于执行算术操作的电路或者查找表。例如使用平滑器10h的数据操作可以在映射器10g之前执行,或者在映射器10g之后执行,或者在两处组合执行。当在逆量化器域中执行后置处理时,该实施例是优选的,因为所有单元10f、10h、10g可以使用直接组件来实现,例如电路或软件例程。

一般而言,后置处理器10实现为图7a所示的后置处理器,其接收全部或选择的实际量化重建参数、将来重建参数或过去量化重建参数。在后置处理器仅接收至少一个过去重建参数和实际重建参数的情况中,后置处理器充当低通滤波器。然而,当后置处理器10接收将来但是延迟的量化重建参数时(在使用特定延迟的实时应用中是可能的),后置处理器可以执行将来与当前或者过去量化重建参数之间的插值,以便例如对于特定频带,平滑重建参数的时间过程。

图7b示出了示例实施方式,其中后置处理值不是根据逆量化的重建参数导出,而是根据从逆量化重建参数导出的值来导出。用于导出的处理由用于导出的装置700来执行,在这种情况中,装置700可以经由线路702接收量化重建参数,或者可以经由线路704接收逆量化的参数。例如,可以接收幅度值作为量化参数,由用于导出的装置用来计算能量值。然后,该能量值经历后置处理(例如,平滑)操作。经由线路708将量化参数转发到块706。因此,可以直接使用如线路710所示的量化参数,或者使用如线路712所示的逆量化参数,或者使用如线路714所示的根据逆量化参数导出的值,来执行后置处理。

如上所述,还可以对根据重建参数(附在参数编码多声道信号中的基本声道中)导出的量,执行数据操作,以克服粗量化环境中由于量化步长而导致的人工效果。例如,当量化重建参数是差值参数(ICLD)时,该参数可以不加修改地逆量化。然后,可以导出输出声道的绝对幅度值,并且对绝对值执行本发明的数据操作。该过程也导致本发明的人工效果减少,只要执行量化重建参数和实际重建之间的处理路径中的数据操作,从而后置处理的重建参数和后置处理的量的值不同于根据量化规则使用重新量化(即,不进行克服“步长限制”的操作)可获得的值。

在本领域中可设计并使用用于根据量化重建参数导出最终操作过的量的许多映射函数,其中,这些映射函数包括用于根据映射规则唯一地将输入值映射到输出值以获得非后置处理的量的函数,然后对非后置处理的量进行后置处理以获得多声道重建(合成)算法中所使用的后置处理量的函数。

下面,参考图8,说明图5的增强逆量化器10e和图6a中的直接逆量化器10f之间的差别。为此,图8示出了非量化值的输入值轴作为水平轴。垂直轴表示量化器等级或量化器指数,优选地是值为0、1、2、3的整数。此处应该注意,图8中的量化器不会得到0和1之间或1和2之间的任何值。向这些量化器等级的映射由阶梯形函数来控制,从而例如-10和10之间的值映射到0,而10和20之间的值被量化为1,等等。

一种可能的逆量化器函数是将0的量化器等级映射到0的逆量化值。1的量化器等级将映射到10的逆量化值。类似地,例如,2的量化器等级映射到20的逆量化值。因此,重新量化由标号31所指示的逆量化器函数控制。应该注意,对于直接逆量化器,只有线30与线31的交点是可能的。这意味着,对于具有图8的逆量化器规则的直接逆量化器,通过重新量化只能获得0、10、20、30的值。

在增强逆量化器10e中不同于此,因为增强逆量化器接收0和1之间或者1和2之间的值(例如,值0.5)作为输入。通过操作器10d获得的值0.5的高级重新量化将导致5的逆量化输出值,即,在后置处理的重建参数中,具有不同于根据量化规则进行重新量化可获得的值。尽管常规量化规则仅允许0或10的值,但是根据优选的量化器函数31工作的优选逆量化器得到不同的值,即,图8中指示的值5。

虽然直接逆量化器仅将整数量化器等级映射到量化等级,但是增强逆量化器接收非整数量化器“等级”,以将这些值映射到由逆量化器规则所确定的值之间的“逆量化值”。

图9示出了图5实施例的优选后置处理的影响。图9a示出了在0和3之间变化的量化重建参数的序列。图9b示出了当图9a所示的波形输入到低通(平滑)滤波器时,后置处理的重建参数的序列,也称作“修正量化器指数”。此处应该注意,在图9b的实施例中,减小了时刻1、4、6、8、9和10处的增加/减少。应该着重注意,时刻8和时刻9之间的峰值(可能是人工效果)衰减了整个量化步长。然而,如前所述,这种极值的衰减可以根据定量音调值由后置处理程度来控制。

本发明有利之处在于,本发明的后置处理平滑了波动或者平滑了短极值。这种情形尤其出现在来自具有类似能量的数个输入声道的信号部分在信号的频带(即,基本声道或输入信号声道)中重叠的情况中。该频带然后按每时间部分且取决于瞬时情形,以高度波动的方式被混合到各个输出声道中。然而,根据心理声学的观点,最好平滑这些波动,因为这些波动实质上不会对源的位置检测有用,而是以负面方式影响主观聆听印象。

根据本发明的优选实施例,减少或者甚至消除了这种可听见的人工效果,而不会在系统中不同位置带来质量损失,或者不需要传输重建参数的更高的分辨率/量化(以及,因此不需要更高的数据率)。本发明通过执行参数的信号自适应修正(平滑)而实质上不影响重要的空间定位检测提示,实现这一目的。

重建输出信号的特性中突然出现的变化导致可听见的人工效果,尤其对于具有高度恒定稳态特性的音频信号。这是带有音调信号的情况。因此,对这种信号提供量化重建参数之间的“更平滑”的过渡是重要的。例如,这可以通过平滑、插值等来实现。

另外,这种参数值修正可能对于其他音频信号类型引入可听见的失真。这是对于特性中包括快速波动的信号的情况。这种特性可以在瞬变部分或者打击乐器的敲击时发现。在这种情况中,实施例提供参数平滑的禁用。

这通过以信号自适应的方式对传输的量化重建参数进行后置处理来实现。

自适应性可以是线性或非线性的。当自适应性是非线性的时,执行图3c所示的阈值过程。

用于控制自适应性的另一标准是确定信号特性的平稳性。确定信号特性平稳性的一种特定形式是评价信号包络,或者具体地,信号的音调。此处应该注意,可以对整个频率范围确定音调,或者优选地,单独对音频信号的不同频带确定音调。

该实施例导致至今仍不可避免的人工效果的减少或者甚至消除,而不会增加传输参数值所需的数据率。

如上面针对图4a和4b所述,当所考虑的信号部分具有音调特性时,解码器控制模式的本发明优选实施例执行声道间幅度差的平滑。在编码器中计算并量化的声道间幅度差发送到解码器,以进行信号自适应平滑操作。自适应组件是与阈值确定相结合的音调确定,其对于音调频谱分量接通声道间幅度差的滤波,并且对于噪声状且瞬变的频谱分量关闭这种后置处理。在该实施例中,执行自适应平滑算法不需要编码器的额外侧面信息。

此处应该注意,本发明的后置处理也可以用于多声道信号参数编码的其他概念,例如参数立体声、MP3环绕及类似方法。

本发明的方法或装置或计算机程序可以实现为或者包括在数个装置中。图14示出了一种传输系统,具有包括本发明的编码器的发射器和包括本发明的解码器的接收器。传输信道可以是无线或有线信道。另外,如图15所示,编码器可以包括在音频记录器中,或者解码器可以包括在音频播放器中。来自音频记录器的音频记录可以经由互联网或者经由存储介质分发到音频播放器,其中存储介质使用邮件或快递资源或者用于分发存储介质的其他可能方式(例如,存储卡、CD或DVD)进行分发。

依据发明方法的特定实现要求,该发明方法可以在软件或者硬件中实现。实现方式可以是使用数字存储介质,特别是其上存储了可被电方式读出的控制信号的磁盘或者CD,存储介质与可编程计算机系统协作,使得本发明的方法得以执行。一般来说,本发明也可以是计算机程序产品,具有存储于机器可读的载体上的程序代码,当计算机程序产品在计算机上运行时,程序代码可执行本发明的至少一种方法。换句话说,本发明的方法是计算机程序,该程序含有在计算机上运行时来执行本发明的方法的程序代码。

虽然上述内容通过参考其具体实施例,已得到具体的展示和描述,但是本领域技术人员将认识到,在不背离本发明的精神和范围的前提下,可以在形式和细节上做出各种其它的修改。将认识到,在不背离这里公开的和所附权利要求包括的比较概括的思想的前提下,可以做出适应不同实施例的各种修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号