首页> 中国专利> 多声道音频编码中的优化保真度和减少的信令

多声道音频编码中的优化保真度和减少的信令

摘要

本发明提供用于对多声道音频信号进行编码的有效技术。本发明依靠以下原理:在第一编码过程中对多个声道的一个或多个的信号表示进行编码(S1),以及在基于滤波器的第二编码过程中对一个或多个声道的另一个信号表示进行编码。根据本发明的基本思路是,对于第二编码过程,根据预定标准选择(S2)下列各项的组合:i)整个编码帧到子帧集合的帧分割配置;以及ii)用于各子帧的滤波器长度。按照所选组合在整个编码帧的各子帧中对第二信号表示进行编码(S3)。选择帧分割配置以及同时调节用于各子帧的滤波器长度的可能性提供增加的自由度,并且一般产生改进的性能。

著录项

  • 公开/公告号CN101128866A

    专利类型发明专利

  • 公开/公告日2008-02-20

    原文格式PDF

  • 申请/专利权人 艾利森电话股份有限公司;

    申请/专利号CN200680005650.9

  • 发明设计人 A·塔勒布;S·安德森;

    申请日2006-02-22

  • 分类号G10L19/00;H04B1/66;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人曾祥夌

  • 地址 瑞典斯德哥尔摩

  • 入库时间 2023-12-17 19:49:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-11

    未缴年费专利权终止 IPC(主分类):G10L19/00 授权公告日:20110921 终止日期:20190222 申请日:20060222

    专利权的终止

  • 2011-09-21

    授权

    授权

  • 2008-04-16

    实质审查的生效

    实质审查的生效

  • 2008-02-20

    公开

    公开

说明书

技术领域

一般来说,本发明涉及音频编码和解码技术,更具体来说,涉及多声道音频编码、如立体声编码。

背景技术

对于在保持高音频质量的同时以低比特率发送和存储音频信号存在极大的市场需要。具体来说,在传送资源或存储装置受到限制的情况中,低比特率操作是主要的成本因素。例如,在诸如GSM、UMTS或CDMA之类的移动通信系统的流播和消息传递应用中,情况通常是这样。

采用多声道编码和解码的音频传送系统的一般实例如图1示意说明。整个系统主要包括发送侧的多声道音频编码器100和传送模块10以及接收侧的接收模块20和多声道音频解码器200。

音频信号的立体声或多声道编码的最简单方式是把不同声道的信号分别编码为各个独立信号,如图2所示。但是,这意味着,不删除多个声道之间的冗余度,以及比特率要求将与声道的数量成正比。

立体声FM无线电传送中使用的并且确保与遗留单声道无线电接收器的兼容性的另一种基本方式是发送两个有关声道的和及差信号。

现有技术的音频编解码器、如MPEG-1/2第III层和MPEG-2/4AAC利用所谓的联合立体声编码。根据这种技术,不同声道的信号被联合处理而不是单独和分别处理。两种最常用的联合立体声编码技术称作‘中/侧’(M/S)立体声和强度立体声编码,它们通常应用于待编码的立体声或多声道信号的子带。

在对声道子带的和及差信号进行编码和发送、由此利用声道子带之间的冗余度的意义上,M/S立体声编码与立体声FM无线电中的所述程序相似。例如在参考文献[1]中描述了基于M/S立体声编码的编码器的结构和操作。

另一方面,强度立体声能够利用立体声不相干性。它发送(不同子带的)声道的联合强度以及某个位置信息,表明如何在声道之中分布强度。强度立体声仅提供声道的频谱幅度信息,而相位信息则没有传送。为了这个原因以及由于声道间时间信息(更具体来说是声道间时间差)特别在较低频率上具有主要心理声学相干性,所以强度立体声仅可在高于例如2kHz的高频上使用。例如在参考文献[2]中描述了强度立体声编码方法。

在参考文献[3]中描述了称作双耳线索编码(BCC)的最近发展的立体声编码方法。这种方法是参数多声道音频编码方法。这种参数编码技术的基本原理在于,在编码侧,来自N个声道的输入信号组合为一个单声道信号。单声道信号是采用任何传统单声道音频编解码器进行编码的音频。参数并行地从描述多声道图像的声道信号中得出。参数被编码以及与音频比特流一起发送给解码器。解码器首先对单声道信号解码,然后根据多声道图像的参数描述重新生成声道信号。

双耳线索编码(BCC)方法的原理在于,它发送编码单声道信号和所谓的BCC参数。BCC参数包括原始多声道输入信号的子带的已编码声道间电平差和声道间时间差。解码器通过根据BCC参数施加单声道信号的逐个子带的电平和相位和/或延迟调节,重新生成不同的声道信号。优于例如M/S或强度立体声的优点在于,包含声道间时间信息的立体声信息以低得多的比特率传送。但是,BCC在计算上要求高,并且一般在感知上没有优化。

参考文献[4]中描述的另一种技术采用单声道信号和所谓的侧信息的编码的相同原理。在这种情况中,侧信息由预测器滤波器和可选的残留信号组成。通过LMS算法估算的预测器滤波器在应用于单声道信号时,允许多声道音频信号的预测。通过这种技术,能够达到多声道音频源的极低比特率编码、但是以质量下降为代价。

这种参数立体声编码的基本原理如图3所示,它显示立体声编解码器的布局,其中包括混音模块120、核心单声道编解码器130、230和参数立体声侧信息编码器/解码器140、240。混音把多声道(在这种情况中为立体声)信号变换为单声道信号。参数立体声编解码器的目的是在给定重构的单声道信号和附加立体声参数的情况下在解码器上再生立体声信号。

最后,为了完整性,将提到在3D音频中使用的一种技术。这种技术通过采用所谓的头相关滤波器对声源信号进行滤波来合成右和左声道信号。但是,这种技术要求不同的声源信号被分离,因而一般不可应用于立体声或多声道编码。

发明内容

本发明克服了先有技术装置的这些及其它缺点。

本发明的一般目的是以低比特率提供高多声道音频质量。

具体来说,希望提供能够采用较低数量的编码位来准确表示立体声或多声道信息的有效编码过程。例如,对于立体声编码,重要的是,立体声图像的动态被完全表示,使得立体声信号重构的质量被增强。

本发明的另一个目的是有效利用可用位预算以及优化所需信令。

本发明的一个具体目的是提供用于对多声道音频信号进行编码的方法及装置。

本发明的另一个具体目的是提供用于对已编码多声道音频信号进行解码的方法及装置。

本发明的又一个具体目的是提供改进的音频传送系统。

如所附专利权利要求所定义的本发明满足这些及其它目的。

目前,不存在以经济上受关注的用于例如移动通信系统的比特率提供高立体声或多声道音频质量的可用的标准化编解码器。采用可得到的编解码器可能的情况是音频信号的单声道传送和/或存储。在某种程度上,立体声传送或存储也是可得到的,但是比特率限制通常需要相当严格地限制立体声表示。

通过提出允许分离来自音频信号的立体声或多声道信息以及以最佳可能的方式准确表示它的解决方案,本发明克服了这些问题。本发明依靠以下基本原理:在第一编码过程中对多个声道的一个或多个的第一信号表示进行编码,以及在基于滤波器的第二编码过程中对多个声道的一个或多个的第二信号表示进行编码。根据本发明的一个基本思路是,对于第二编码过程,根据预定标准选择下列各项的组合:i)整个编码帧到子帧集合的帧分割配置,以及ii)用于各子帧的滤波器长度。然后,根据所选组合在所选子帧集合的子帧的每个中对第二信号表示进行编码。

对于可变帧长度,编码帧一般可根据各种帧分割配置被分为多个子帧。子帧可具有不同大小,但是,任何给定帧分割配置的子帧的长度之和通常等于整个编码帧的长度。选择帧分割配置以及同时调节用于各子帧的滤波器长度的可能性提供增加的自由度,并且一般产生改进的性能。预定标准优选地基于表示在整个编码帧上第二编码过程的性能的量度的优化。

第二编码过程或与其关联的控制器将生成表示所选帧分割配置以及所选帧分割配置的用于各子帧的滤波器长度的输出数据。这个输出数据必须从编码侧发送到解码侧,以便实现已编码信息的正确解码。虽然整体性能将通过选择帧分割配置和滤波器长度的适当组合得到显著提高,但是,在音频传送系统中从编码侧到解码侧的传送的信令要求将明显增加。在本发明的一个具体的示范实施例中,因此,可能希望把某个长度的每个子帧与预定义滤波器长度关联。通常,把长滤波器分配给长帧,以及把短滤波器分配给短帧。

换言之,预定标准因而包括用于各子帧的滤波器长度根据子帧的长度来选择、使得编码帧到子帧集合的帧分割配置的指示同时提供用于各子帧的所选滤波器维的指示的要求。这样,到解码侧的所需信令可减小。

在本发明的一个优选实施例中,预定标准基于在用于各子帧的滤波器长度由子帧的长度控制的要求下,表示在整个编码帧上所述第二编码过程的性能的量度的优化。

在解码侧,解码器接收表示整个编码帧到子帧集合的哪一种帧分割配置以及各子帧的哪一种滤波器长度已经用于对应的第二编码过程的信息。这个信息用于在第二解码过程中解释第二信号重构数据,为了正确地对第二信号表示进行解码。如前面所述,这个信息优选地包在表明编码帧到子帧集合的帧分割配置的同时提供用于各子帧的所选滤波器维的指示的数据。

如果第一编码过程采用具有整个编码帧到子帧集合的帧分割配置的所谓可变帧长度处理,则对于第二编码过程也采用相同的帧分割配置可能是有用的。这样,仅对编码过程之一发信号通知表示帧分割配置的信息是足够的。

帧分割配置和滤波器长度的编码及关联的控制优选地逐帧执行。此外,控制系统优选地根据多声道音频信号的声道间相关特性进行操作。

例如,第一编码过程可以是主要编码过程,以及第一信号表示可以是主要信号表示。第二编码过程例如可以是辅助/侧信号过程,以及第二信号表示则可以是侧信号表示、如立体声侧信号。在这样一种情况中,第二编码过程通常包括用于根据第一和第二信号表示、采用与可调ICP滤波器长度结合的可变帧长度处理来预测第二信号表示的自适应声道间预测(ICP)。采用这样一种方案的优点在于,完善地表示立体声或多声道图像的动态。帧分割配置及关联的滤波器长度的选择优选地一般基于第二编码过程的估算性能,以及具体基于ICP滤波器。

虽然本发明主要针对第一编码过程是主要编码过程以及第二编码过程是辅助编码过程时的情况,但是应当理解,本发明也可适用于第一编码过程是辅助编码过程以及第二编码过程是主要编码过程的情况。情况甚至可能是,帧分割配置及关联的滤波器长度的控制对于第一编码过程以及第二编码过程来实行。

本发明提供以下优点:

改进的多声道音频编码/解码。

改进的音频传送系统。

增加的多声道音频重构质量。

较低比特率的高多声道音频质量。

具有优化信令的高保真度。

立体声图像的动态的良好表示。

立体声信号重构的增强的质量。

通过阅读以下对本发明的实施例的描述,将会理解本发明提供的其它优点。

附图说明

通过参照以下结合附图进行的说明,将会最佳地理解本发明以及其它目的和优点,附图中:

图1是示意框图,说明采用多声道编码和解码的音频传送系统的一般实例。

图2是示意图,说明如何把不同声道的信号分开地编码为各个独立信号。

图3是示意框图,说明参数立体声编码的基本原理。

图4是简图,说明单声道和侧信号的交叉谱。

图5是根据本发明的一个示范优选实施例的多声道编码器的示意框图。

图6是主帧中的不同帧分割的示意时序图。

图7说明根据本发明的一个示范实施例的不同帧配置。

图8是示意流程图,阐述根据本发明的一个优选实施例的基本多声道编码程序。

图9是示意框图,说明根据本发明的一个示范优选实施例的编码器的相干部分。

图10是示意框图,说明根据本发明的一个示范备选实施例的编码器的相干部分。

图11说明根据本发明的优选示范实施例的解码器。

具体实施方式

在所有附图中,相同的参考标号将用于相应或相似的元件。

本发明涉及音频应用中的多声道编码/解码技术,具体来说,涉及音频传送系统中和/或用于音频存储的立体声编码/解码。可能的音频应用的实例包括电话会议系统、移动通信系统中的立体声音频传送、用于提供音频服务的各种系统以及多声道家庭影院系统。

为了更好地理解本发明,以现有电话存在的问题的概述和分析开始可能是有用的。如前面所述,目前不存在以经济上受关注的用于例如移动通信系统的比特率提供高立体声或多声道音频质量的可用的标准化编解码器。采用可得到的编解码器可能的情况是音频信号的单声道传送和/或存储。在某种程度上,立体声传送或存储也是可得到的,但是比特率限制通常需要相当严格地限制立体声表示。

现有技术的多声道编码技术的问题在于,它们需要更高的比特率以便提供好的质量。强度立体声在以低至例如只有几kbps的低比特率应用时,遭遇到它不提供任何声道间时间信息的事实。由于这种信息对于低于例如2kHz的低频在感知上是重要的,所以无法以这类低频提供立体声感受。

另一方面,BCC能够甚至在低频以例如3kbps的低比特率再生立体声或多声道图像,因为它还发送声道间时间信息。但是,这种技术需要在编码器以及解码器上对声道的每个的计算上要求高的时间-频率变换。此外,在使它们与原始声道信号的感知差异为最小的意义上,BCC不尝试发现从所发送单声道信号到声道信号的映射。

用于多声道编码的又称作声道间预测(ICP)的LMS技术(参见[4])通过省略残留信号的传送来允许更低的比特率。为了得出声道重构滤波器,无约束误差最小化程序计算滤波器,使得其输出信号最好地匹配目标信号。为了计算滤波器,可使用几种误差量度。均方误差或加权均方误差是众所周知的,并且在计算上实现费用低。

大家知道,一般来说,现有技术方法的大多数是为高保真音频信号或纯语音的编码开发的。在信号能量集中在较低频率区域的语音编码中,子带编码很少使用。虽然如BCC等的方法允许低比特率立体声语音,但是子带变换编码处理增加复杂度以及延迟。

研究结果是,即使ICP编码技术不提供高质量立体声信号的好结果,对于具有集中于较低频率的能量的立体声信号,冗余度减小也是可能的[5]。ICP滤波器的白化效果增加较高频率区域中的能量,从而产生感知变换编码器的净编码损失。在[6]和[7]中证实了这些结果,在其中,仅对于语音信号报道了质量增强。

ICP重构信号的准确性由当前声道间相关来控制。Bauer等人[8]没有发现音频信号中的左与右声道之间的任何线性关系。但是,从图4中的单声道和侧信号的交叉谱中可以看到,在语音信号的较低频率区域(0-2000Hz)中发现强的声道间相关。在低声道间相关的情况中,作为用于立体声编码的部件的ICP滤波器将产生目标信号的不良估算值。

图5是根据本发明的一个示范优选实施例的多声道编码器的示意框图。多声道编码器主要包括可选的预处理单元110、可选的(线性)组合单元120、多个编码器130、140、控制器150和可选的复用器(MUX)单元160。编码器的数量N等于或大于2,并且包括第一编码器130和第二编码器140以及可能的其它编码器。

一般来说,本发明考虑多声道或多音信号。初始多声道输入信号可从音频信号存储装置(未示出)提供或者例如从一组话筒(未示出)“现场”提供。如果不是数字形式,则音频信号通常在进入多声道编码器之前被数字化。多声道信号可提供给可选预处理单元110以及可选信号组合单元120,用于生成N个信号表示,例如主要信号表示和辅助信号表示以及可能的其它信号表示。

多声道或多音信号可被提供给可选预处理单元110,在其中可执行不同的信号调节程序。

(可选预处理)信号可被提供给可选信号组合单元120,它包括用于执行不同信号组合程序、如输入信号的线性组合以便产生至少第一信号和第二信号的多个组合模块。例如,第一编码过程可以是主要编码过程,以及第一信号表示可以是主要信号表示。第二编码过程例如可以是辅助(侧)信号过程,以及第二信号表示则可以是辅助(侧)信号表示、如立体声侧信号。例如,在传统的立体声编码中,L和R声道被求和,以及和信号除以因子2,以便提供传统单声道信号作为第一(主要)信号。L和R声道也可相减,以及差信号除以因子2,以便提供传统侧信号作为第二信号。根据本发明,任何类型的线性组合或者那个方面的任何其它类型的信号组合可在信号组合单元中执行,其中具有来自各个声道的至少一部分的加权成分。大家理解,本发明使用的信号组合不限于两个声道,而是无疑可涉及多个声道。还可能生成不止两个信号,如图5所示。甚至可能把输入声道之一直接用作第一信号,以及把输入声道中的另一个直接用作第二信号。例如,对于立体声编码,这意味着,L声道可用作主要信号,以及R声道可用作侧信号,或者反之。还存在许多其它变化。

第一信号表示被提供给第一编码器130,它按照任何适当的编码原理对第一信号进行编码。第二信号表示被提供给第二编码器140,用于对第二信号进行编码。如果采用不止两个编码器,则各附加信号表示通常在相应编码器中编码。

举例来说,第一编码器可以是主要编码器,以及第二编码器可以是侧编码器。在这种情况中,第二侧编码器140例如可包括自适应声道间预测(ICP)级,用于根据第一信号表示和第二信号表示来生成信号重构数据。第一(主要)信号表示可等效地从第一编码器130所产生的信号编码参数中推断,如自第一编码器的虚线所示。

整个多声道编码器还包括控制器150,它配置成提供用于优化编码性能的增加的自由度。根据本发明的一个优选实施例,控制系统配置成对于所考虑的编码器,根据预定标准选择整个编码帧到子帧集合的帧分割配置以及用于各子帧的滤波器长度的组合。然后,根据所选组合在所选子帧集合的子帧的每个中对相应信号表示进行编码。可实现为独立控制器150或者集成在所考虑的编码器中的控制系统向编码器提供适当的控制命令。

选择帧分割配置以及同时调节用于各子帧的滤波器长度的可能性提供增加的自由度,并且一般产生改进的性能。预定标准优选地基于表示在整个编码帧上第二编码过程的性能的量度的优化。

各种编码器的输出信号以及来自控制器150的帧分割和滤波器长度信息优选地在复用器单元160中复用为单个传送(或存储)信号。但是,作为备选,输出信号可分开发送(或存储)。

具有可变大小子帧的所谓信号自适应优化帧处理提供较高自由度以便优化性能量度。模拟已经表明,某些音频帧获益于采用较长的滤波器,而对于其它帧,性能增加与所使用滤波器系数的数量不成正比。

对于可变帧长度,编码帧一般可根据各种帧分割配置被分为多个子帧。子帧可具有不同大小,但是,任何给定帧分割配置的子帧的长度之和通常等于整个编码帧的长度。

如通过引用作为实例结合到本文中的我们的共同未决美国专利申请No.11/011765以及对应的国际申请PCT/SE2004/001867中所述,提供多个编码方案,在其中,各编码方案的特征在于共同构成整个编码帧(又称作主帧)的子帧的相应集合或者与其关联。优选地至少部分根据待编码信号的信号内容选择具体编码方案,然后在所选子帧集合的子帧的每个中分别对该信号编码。

一般来说,编码通常一次在一帧中执行,以及各帧通常包括预定义时间周期中的音频样本。在任何情况中,样本到帧的分割都将在帧边界上产生某些不连续。使声音移位将提供主要在各帧边界上改变的移位编码参数。这将产生可感知误差。对此进行一定补偿的一种方式是使编码不仅基于将被编码的样本,而且还基于绝对接近帧的样本。这样,在不同帧之间将存在更软过渡。作为代替或补充,内插技术有时也用于减小帧边界引起的感知伪像。但是,所有这些程序都需要大的附加计算资源,以及对于某些特定编码技术,还可能是采用任何资源都难以提供的。

在这一点,有益的是利用尽可能长的帧,因为帧边界的数量将会少。另外,编码效率通常变高,以及必要的传输比特率通常将最小化。但是,长帧产生前回声伪像和类似幻像的声音的问题。

通过改为利用更短的帧,本领域的技术人员认识到,编码效率可减小,传输比特率可能必须更高,并且帧边界伪像存在的问题将增加。但是,较短的帧受到诸如类似幻像的声音和前回声之类的其它感知伪像影响较少。为了能够尽量使编码误差为最小,应当采用尽可能短的帧长度。

因此,对于帧的长度似乎存在有冲突的要求。因此,有益的是让音频感知采用取决于待编码信号的当前信号内容的帧长度。由于不同帧长度对音频感知的影响将根据待编码声音的性质而有所不同,因此,可通过让信号本身的性质影响所使用的帧长度来获得改进。具体来说,这个程序已经表明对于侧信号编码是有利的。

由于小的时间变化,例如在某些情况中,可能有益的是通过使用较长的帧对侧信号编码。对于具有大量扩散声场的录音、如音乐会录音,情况可能是这样。在其它情况、如立体声语音对话中,短帧是更可取的。

例如,所使用的子帧的长度可按照下式选择:

lsf=lf/2″

式中,lsf是子帧的长度,lf是整个编码帧的长度,以及n是整数。但是,应当理解,这只是一个实例。任何帧长度都能够使用,只要子帧的集合的总长度保持恒定。

关于要使用哪一种帧长度的判定通常可通过两种基本方式执行:闭环判定或开环判定。

当采用闭环判定时,输入信号通常通过所有可获得编码方案来编码。优选地,帧长度的所有可能的组合被测试,以及选择具有提供最佳目标质量、如信噪比或加权信噪比的子帧的关联集合的编码方案。

或者,帧长度判定是基于信号的统计信息的开环判定。换言之,(侧)信号的频谱特性将用作判定将使用哪一种编码方案的基础。如前面所述,特征在于子帧的不同集合的不同编码方案是可用的。但是,在这个实施例中,输入(侧)信号首先经过分析,然后选择和使用适当的编码方案。

开环判定的优点在于,只需要执行一个实际编码。但是,缺点在于,信号特性的分析实际上可能非常复杂,并且可能难以预先预测可能的行为。

通过采用闲环选择,可交换编码方案,而无需在实现的其余部分进行任何变化。另一方面,如果许多编码方案将被研究,则计算要求将会很高。

输入(侧)信号的这样一种可变帧长度编码的好处在于,可在一侧的精细时间分辨率和粗略频率分辨率与另一侧的粗略时间分辨率和精细频率分辨率之间进行选择。以上实施例将以可能的最佳方式保存多声道或立体声图像。

对于不同编码方案中使用的实际编码也存在一些要求。具体来说,当采用闭环选择时,执行多个不同程度并发的编码的计算资源必须很大。编码过程越复杂,则需要越多计算能力。此外,传送时的低比特率也是优选的。

可变长度优化帧处理可把大的“主帧”作为输入,以及在给定一定数量的帧分割配置的情况下,相对于给定失真量度、如MSE或加权MSE来选择最佳帧分割配置。

帧分割可具有不同大小,但是,所有帧分割的和覆盖主帧的整个长度。考虑长度为L毫秒的主帧,可能的帧分割的一个实例如图6所示,以及可能的帧配置的一个实例如图7所示。

如前面所述,思路是选择具有关联帧分割配置的编码方案以及用于各子帧的滤波器长度/维的组合,以便优化表示整个编码帧(主帧)上所考虑的编码过程或编码方案的性能的保真度量度。

优选地,所有可能的组合被测试,以及选择具有提供最佳目标质量、如信噪比或加权信噪比的子帧的关联集合和滤波器长度的编码方案。

调节用于各子帧的滤波器长度的可能性提供增加的自由度,并且一般产生改进的性能。采用这种方案的优点在于,完善地表示立体声或多声道图像的动态。

采用较高的自由度,能够发现实际最佳的选择。但是,待传递给解码侧的控制信息量增加。对于减小从编码侧到解码侧的传送期间的信令要求的具体问题,某个长度的各子帧优选地与预定义滤波器长度关联。通常,把长滤波器分配给长帧,以及把短滤波器分配给短帧。总之,预定标准因而包括用于各子帧的滤波器长度根据子帧的长度来选择、使得编码帧到子帧集合的帧分割配置的指示同时提供用于各子帧的所选滤波器维的指示的要求。这样,到解码侧的所需信令可减少。

在本发明的一个优选实施例中,预定标准基于在用于各子帧的滤波器长度由子帧的长度控制的要求下,表示整个编码帧上所述第二编码过程的性能的量度的优化。

如果第一编码过程采用具有整个编码帧到子帧集合的帧分割配置的所谓可变帧长度处理,则对于第二编码过程也采用相同的帧分割配置可能是有用的。这样,仅对编码过程之一发信号通知表示帧分割配置的信息是足够的。

参照图6和图7的具体实例,可能的帧配置在下表列出:

  0,0,0,00,0,1,11,1,0,00,1,1,01,1,1,12,2,2,2

采取形式(m1,m2,m3,m4),其中mk表示对于主帧内的长度为L/4毫秒的第k(子)帧所选的帧类型,使得例如:

对于具有滤波器长度P的L/4帧,mk=0,

对于具有滤波器长度2×P的L/2毫秒的帧,mk=1,

对于具有滤波器长度4×P的L毫秒的超帧,mk=2。

举例来说,配置(0,0,1,1)表明,L毫秒的主帧分为具有滤波器长度P的两个L/4毫秒(子)帧,之后跟随具有滤波器长度2×P的L/2毫秒的(子)帧。类似地,配置(2,2,2,2)表明,L毫秒的帧与滤波器长度4×P配合使用。这意味着,帧分割配置以及滤波器长度信息同时由信息(m1,m2,m3,m4)表示。

最佳配置例如根据MSE或等效的最大SNR来选择。例如,如果采用配置(0,0,1,1),则滤波器的总数为长度P的3∶2滤波器以及长度2×P的1滤波器。

通常选择产生最佳性能(例如由SNR或MSE来度量)、具有它的对应滤波器及其相应长度的帧配置。

在帧选择之前,通过包含滤波器量化级,滤波器计算可能是开环或者闭环的。

采用这种方案的优点在于,通过这个程序,完善地表示立体声或多声道图像的动态。

由于包括可变帧长度处理,在编码器中交迭的分析窗口可能具有不同长度。因此,在解码器中,它是声道信号到窗口相应的合成以及交迭-增加不同的信号长度所必要的。

情况通常是,对于固定信号,立体声图像相当稳定,并且估算声道滤波器相当固定。

图8是示意流程图,阐述根据本发明的一个优选实施例的基本多声道编码程序。在步骤S1,一个或多个音频声道的第一信号表示在第一编码过程中编码。在步骤S2,对于基于滤波器的第二编码过程选择帧分割配置和用于各子帧的滤波器长度的组合。这个选择程序按照可能基于性能量度的优化的预定标准来执行。在步骤S3,按照所选组合在整个编码帧的各子帧中对第二信号表示编码。

整个解码过程一般相当简单,并且主要包括读取入局数据流、采用所发送控制信息来解释数据、多声道音频信号的逆量化和最终重构。更具体来说,响应第一信号重构数据,在第一解码过程中对所述多个声道中的至少一个的已编码第一信号表示进行解码。响应第二信号重构数据,在第二解码过程中对所述多个声道中的至少一个的已编码第二信号表示进行解码。至少在后一种情况中,在解码侧接收表示整个编码帧到子帧集合的哪一种帧分割配置以及各子帧的哪一种滤波器长度已经用于对应的第二编码过程的信息。根据这个控制信息,然后确定在第二解码过程中如何解释第二信号重构数据。

在一个特别优选的实施例中,控制信息包含在表明编码帧到子帧集合的帧分割配置的同时提供各子帧的所选滤波器维的指示的数据。

为了更详细地理解,现在主要参照立体声(双声道)编码和解码来描述本发明。但是,应当记住,本发明一般适用于多个声道。实例包括但不限于编码/解码5.1(前左、前中置、前右、后左和后右以及低音扬声器)或者2.1(左、右和中置低音扬声器)多声道音响。

还应当理解,本发明可应用于侧编码器、主要编码器或者同时应用于侧编码器和主要编码器。实际上有可能把本发明应用于整个多声道编码器装置中的N个编码器的任意子集。

图9是示意框图,说明根据本发明的一个示范优选实施例的编码器的相干部分。编码器主要包括用于对第一(主要)信号、如典型单声道信号进行编码的第一(主要)编码器130、用于(辅助/侧)信号编码的第二(辅助/侧)编码器140、控制器150以及可选复用器单元160。控制器150适用于接收主要信号表示和侧信号表示,并且配置成执行必要的计算以便最佳地或者至少次最佳地(在给定限制下)选择整个编码帧的帧分割配置和用于各子帧的滤波器长度的组合。控制器150可以是“独立的”控制器或者集成到侧编码器140中。编码参数以及表示帧分割和滤波器长度的信息优选地在复用器单元160中复用为单个传送或存储信号。

图10是示意框图,说明根据本发明的一个示范备选实施例的编码器的相干部分。在这个具体实现中,整个立体声或多声道编码器内的每个子编码器具有它自己的集成控制器。侧编码器内的控制器优选地配置成选择侧编码过程的帧分割配置和滤波器长度。这个选择优选地基于编码器性能的优化和/或用于各子帧的滤波器长度根据子帧的长度来选择的要求。

例如,如果主要编码器采用具有整个编码帧到子帧集合的帧分割配置的所谓可变帧长度处理,则对于侧编码器也采用相同的帧分割配置可能是有用的。这样,仅对编码器之一的解码侧发送表示帧分割配置的信息是足够的。主要编码器控制器则通常发信号通知侧编码器控制器关于它将把哪一种帧分割配置用于整个编码帧,侧编码器控制器又采用相同的帧分割。对于侧编码过程仍然存在两种备选方案,即:1)令所确定的帧分割直接控制滤波器长度,或者2)为所确定的帧分割自由选择滤波器长度。后一种备选方案无疑提供更高自由度,但可能需要更多信令。前一种备选方案不需要其它任何信令。主要编码器控制器向解码侧发送关于所选帧分割配置的信息是足够的,解码侧则可采用这个信息来解释所发送信号重构数据,由此对已编码的多声道音频信息正确地解码。但是,前一种备选方案可能是次最佳的,因为滤波器长度的选择略微受到限制。

图11是示意框图,说明根据本发明的一个示范优选实施例的解码器的相干部分。解码器主要包括可选解复用器单元210、第一(主要)解码器230、第二(辅助/侧)解码器240、控制器250、可选信号组合单元260以及可选后处理单元270。解复用器210优选地分离入局重构信息、如第一(主要)信号重构数据、第二(辅助/侧)信号重构数据以及控制信息、如关于帧分割配置和滤波器长度的信息。第一(主要)解码器230响应通常以表示编码参数的第一(主要)信号的形式提供的第一(主要)信号重构数据而“重构”第一(主要)信号。第二(辅助/侧)解码器240优选地响应已量化滤波器系数和已重构第一信号表示而“重构”第二(侧)信号。第二(侧)解码器240还由可能或者可能没有集成在侧解码器中的控制器250控制。控制器从编码侧接收关于帧分割配置和滤波器长度的信息,并且相应地控制侧解码器240。

如果主要编码器采用具有帧分割配置的所谓可变帧长度处理,以及主要编码器控制器向解码侧发送关于所选帧分割配置的信息,则作为一个选项,可能能够(如虚线所示)令主要解码器230把这个信息发信号通知控制器250,以便在控制侧解码器240时使用。

为了更透彻地理解本发明,现在将参照基于参数编码原理、如声道间预测的各种示范实施例更详细地描述本发明。

采用声道间预测的参数编码

一般来说,声道间预测(ICP)技术利用声道之间的固有声道间相关。在立体声编码中,声道通常由左和右信号l(n)、r(n)表示,等效表示是单声道信号m(n)(主要信号的一个特例)和侧信号s(n)。两种表示是等效的,并且通常通过传统矩阵运算相关:

>m(n)s(n)=12111-1l(n)r(n)---(1)>

ICP技术针对通过估算值(n)来表示侧信号s(n),(n)通过经由具有N个滤波器系数ht(i)的时变FIR滤波器H(z)对单声道信号m(n)进行滤波来获得:

>s^(n)=Σi=0N-1ht(i)m(n-i)---(2)>

应当注意,同样的方式可直接应用于左和右声道。

在编码器上得出的ICP滤波器例如可通过使侧信号预测误差e(n)的均方误差(MSE)或者相关的性能量度、如心理声学加权均方误差为最小来估算。MSE通常由下式给出:

>ξ(h)=Σn=0L-1MSE(n,h)=Σn=0L-1(s(n)-Σi=0N-1h(i)m(n-i))2---(3)>

式中,L是帧大小,以及N是ICP滤波器的长度/阶/维。简单地说,ICP滤波器的性能、因而MSE的大小是确定最终立体声分离的主要因素。由于侧信号描述左与右声道之间的差异,因此,准确的侧信号重构是确保足够宽的立体声图像必不可少的。

通过使对于所有样本的预测误差的MSE为最小来找出最佳滤波器系数,并且表示为:

hoptTR=rhopt=R-1r

                                 (4)

在(4)中,相关向量r和协方差矩阵R定义为:

r=Ms

R=MMT

                                 (5)

式中

s=[s(0)s(1)…s(L-1)]T

将(5)代入(3),得到(非量化)ICP滤波器的最小MSE(MMSE)的简化代数表达式:

MMSE=MSE(hopt)=PSS-rTR-1r

                            (7)

式中,PSS是侧信号的功率,又表示为sTs。

将r=Rhopt代入(7),得到:

MMSE=PSS-rTR-1Rhopt=PSS-rThopt

                            (8)

对R的LDLT因数分解[9]给出等式系统:

式中,首先以迭代方式求解z:

现在引入新的向量q=LTh。由于矩阵D仅在对角线具有非零值,求出q是简单的:

>Dq=zqi=zidi,i=1,2,...,N---(11)>

所求的滤波器向量h这时可通过与(10)相同的方式迭代地计算:

除了与正则矩阵求逆相比的计算节省之外,这个解决方案还提供有效计算与不同维n(滤波器长度)对应的滤波器系数的可能性:

>H={hopt(n)}n=1N---(13)>

最佳ICP(FIR)滤波器系数hopt可逐帧地被估算、量化以及发送给解码器。

一般来说,滤波器系数被看作向量,它们采用向量量化(VQ)来有效地量化。滤波器系数的量化是ICP编码程序的最重要方面之一。会看到,对滤波器系数引入的量化噪声可能直接与MSE的损失相关。

MMSE先前已经定义为:

>MMSE=sTs-rThopt=sTs-2hoptTr+hoptTRhopt---(14)>

量化hopt产生量化误差e:>h^=hopt+e.>新的MSE现在可写作:

>MSE(hopt+e)=sTs-2(hopt+e)Tr+(hopt+e)TR(hopt+e)>

>=MMSE+eTRhopt+eTRe+hoptTRe-2eTr>

>=MMSE+eTRe+2eTRhopt-2eTr>

                                            (15)

由于Rhopt=r,因此,(15)中的最后两项抵消,以及已量化滤波器的MSE变为:

>MSE(h^)=sTs-rThopt+eTRe>

                                            (16)

这意味着,为了具有任何预测增益,量化误差项必须小于预测项,即rThopt>eTRe。

一般来说,量化较长的向量产生较大的量化误差。记住,已量化ICP滤波器的MSE定义为:

>MSE(h^(n),n)=sTs-(r(n))Thopt(n)+(e(n))TR(n)e(n)>

                                            (17)

可以看到,得到的MSE是所选滤波器维n与所强加量化误差之间的折衷。考虑一种方案,在其中,用于各帧的滤波器维经过选择,使得若给定固定数量的位,(17)始终为最小值:

>n*=argminn[1,nmax]{MSE(h^(n),n)}---(18)>

根据本发明的一个示范实施例,希望按照下式选择帧分割配置及其滤波器长度:

>(nopt,mopt)=argminn[1,nmax]mM{θ(h^(n),n,m)}---(19)>

式中:

>θ(h^(n),n,m)=ΣmMnNΣt=0m-1(s(t)-Σi=0n-1h^n(i)m(t-i))2---(20)>

以及式中,N是可能的滤波器维向量的集合,以及M是可能的帧长度配置的集合。应当理解,公式(20)只是一个实例,存在各种各样变化。

上述实施例只作为实例给出,并且应该理解,本发明不限于此。保留了本文所公开并要求其权益的根本的基本原理的其它修改、变更和改进均处于本发明的范围之内。

参考文献

[1]Johnston的美国专利No.5285498。

[2]Veldhuis等人的欧洲专利No.0497413。

[3]C.Faller等人的“应用于立体声和多声道音频压缩的双耳线索编码”,112th AES convention,2002年5月,Munich,Germany。

[4]Holt等人的美国专利No.5434948。

[5]S-S.Kuo、J.D.Johnston的“关于交叉声道预测不适用于感知音频编码的原因的研究”,IEEE Signal Processing Lett.,vol.8,第245-247页。

[6]B.Edler、C.Faller和G.Schuller的“采用时变线性前置和后置滤波器的感知音频编码”,in AES Convention,Los Angeles,CA,2000年9月。

[7]Bernd Edler和Gerald Schuller的“采用心理声学前置和后置滤波器的音频编码”,ICASSP-2000 Conference Record,2000年。

[8]Dieter Bauer和Dieter Seitzer的“时域中的高质量立体声信号的统计属性”,IEEE International Conf on Acoustics,Speech,andSignal Processing,vol.3,第2045-2048页,1989年5月。

[9]Gene H.Golub和Charles F.van Loan的“矩阵计算”,第2版,第4章,第137-138页,The John Hopkins University Press,1989年。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号