首页> 中国专利> 基于自适应地可选择的左/右或中央/侧边立体声编码和参数立体声编码的组合的高级立体声编码

基于自适应地可选择的左/右或中央/侧边立体声编码和参数立体声编码的组合的高级立体声编码

摘要

本申请涉及音频编码器和解码器系统。编码器系统的一个实施例包括缩混级,用于基于立体声信号生成缩混信号和残余信号。另外,编码器系统包括参数确定级,用于确定参数立体声参数,诸如声道间强度差和声道间交叉相关。优选地,参数立体声参数是时间和频率变化的。而且,编码器系统包括变换级。变换级通过基于缩混信号和残余信号执行变换来生成伪左/右立体声信号。该伪立体声信号由感知立体声编码器处理。对于立体声编码,能够选择左/右编码或中央/侧边编码。优选地,在左/右立体声编码和中央/侧边立体声编码之间的选择是时间和频率变化的。

著录项

  • 公开/公告号CN102388417A

    专利类型发明专利

  • 公开/公告日2012-03-21

    原文格式PDF

  • 申请/专利权人 杜比国际公司;

    申请/专利号CN201080012247.5

  • 申请日2010-03-05

  • 分类号G10L19/00(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人康建峰;李春晖

  • 地址 荷兰祖伊杜斯特

  • 入库时间 2023-12-18 04:47:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-10-21

    授权

    授权

  • 2012-06-06

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20100305

    实质审查的生效

  • 2012-03-21

    公开

    公开

说明书

技术领域

本申请涉及音频编码,具体地,涉及组合基于参数和波形的编码技术 的立体声音频编码。

背景技术

立体声信号的左(L)和右(R)声道的联合编码与L和R的独立编 码相比,使得能够更高效的编码。用于联合立体声编码的常见方法是中央 /侧边(M/S)编码。在此,通过相加L和R信号来形成中央(M)信号, 例如,M信号可以具有形式

M=12(L+R).

同样,通过相减两个声道L和R而形成侧边(S)信号,例如,S信 号可以具有形式

S=12(L-R).

在M/S编码的情况下,对M和S信号而不是L和R信号进行编码。

在MPEG(移动图像专家组)AAC(高级音频编码)标准(参见标准 文件ISO/IEC 13818-7)中,可以以时间变化和频率变化的方式来选择L/R 立体声编码和M/S立体声编码。因此,立体声编码器可以对于立体声信号 的一些频带应用L/R编码,而M/S编码用于对立体声信号(频率变化的) 的其他频带进行编码。而且,编码器可以在时间上在L/R和M/S编码之间 切换(时间变化的)。在MPEG AAC中,在频域中,更具体地在MDCT (改进型的离散余弦变换)域中执行立体声编码。这允许以频率和时间变 化的方式来自适应地选择L/R或M/S编码。在L/R和M/S立体声编码之 间的选定可以基于评估侧边信号:当侧边信号的能量较低时,M/S立体声 编码更高效,从而应当被使用。或者,对于在两种立体声编码方案之间的 选定,可以试验两种编码方案,并且选择可以基于产生的量化工作(effort)、 即所观察的感知熵。

一种对于联合立体声编码的替代方法是参数立体声(PS)编码。在此, 在使用诸如AAC编码器的传统音频编码器对缩混信号编码后,立体声信 号作为单声道缩混信号传送。缩混信号是L和R声道的叠加。单声道缩混 信号与附加的时间变化和频率变化的PS参数组合传送,该PS参数例如是 声道间(即,在L和R之间)强度差IID和声道间交叉相关(ICC)。在 解码器中,基于解码的缩混信号和参数立体声参数,重建近似于原始立体 声信号的感知立体声图像的立体声信号。为了重建,通过去相关器来生成 缩混信号的去相关版本。通过适当的全通滤波器来实现这样的去相关器。 在下文中描述了PS编码和解码:″Low Complexity Parametric Stereo  Coding in MPEG-4″,H.Purnhagen,Proc.Of the 7th Int.Conference on  Digital Audio Effects(DAFx′04),Naples,Italy,October 5-8,2004,pages  163-168。该文档的公开通过引用合并于此。

环绕MPEG标准(参见文件ISO/IEC 23003-1)利用PS编码的概念。 在环绕MPEG解码器中,基于较少的输入声道和控制参数来创建多个输出 声道。通过级联参数立体声模块来构造环绕MPEG解码器和编码器,该模 块在环绕MPEG中被称为用于解码器的OTT模块(一对二模块)和用于 编码器的R-OTT模块(逆一对二模块)。OTT模块通过伴随PS参数的单 个输入声道(缩混信号)来确定两个输出声道。OTT模块对应于PS解码 器,R-OTT模块对应于PS编码器。可以通过使用在解码器侧具有单个 OTT模块和在编码器侧具有单个R-OTT模块的环绕MPEG来实现参数立 体声;这也被称为“环绕MPEG2-1-2”模式。比特流语法可以不同,但是 基础理论和信号处理是相同的。因此,以下对于PS的所有引用还包括“环 绕MPEG2-1-2”或基于环绕MPEG的参数立体声。

在PS编码器(例如,在环绕MPEG PS编码器中),除了缩混信号之 外,可以确定和发送残余信号(RES)。这样的残余信号指示与通过其缩混 和PS参数来表示原始声道相关联的误差。在解码器中,可以使用残余信 号代替缩混信号的去相关版本。这允许更好地重建原始声道L和R的波形。 例如,在环绕MPEG标准(参见文件ISO/IEC 23003-1)中和在下文中描 述了附加的残余信号的使用:″MPEG Surround-The ISO/MPEG  Standard for Efficient and Compatible Multi-Channel Audio Coding,J. Herre et al.,Audio Engineering Convention Paper 7084,122nd Convention, May 5-8,2007。两个文档的公开、特别是其中对于残余信号的评论通过引 用合并于此。

使用残余的PS编码对于联合立体声编码而言是比M/S编码更一般的 方法:当将L/R信号变换为M/S信号时,M/S编码执行信号旋转。此外, 当将L/R信号变换为缩混和残余信号时,使用残余的PS编码执行信号旋 转。然而,在后一种情况下,信号旋转是可变的,并且依赖于PS参数。 由于使用残余的PS编码的更一般的方法,使用残余的PS编码允许对像拼 接的单声道信号那样的某些类型的信号进行比M/S编码更高效的编码。因 此,所提出的编码器允许将参数立体声编码技术与基于波形的立体声编码 技术高效地组合。

经常地,诸如MPEG AAC感知立体声编码器的感知立体声编码器可 以在L/R立体声编码和M/S立体声编码之间选定,其中,在后一种情况下, 基于立体声信号生成中央/侧边信号。这样的选择可以是频率变化的,即, 对于一些频带,可以使用L/R立体声编码,而对于其他频带,可以使用 M/S立体声编码。

在L和R声道实质上是独立信号的情况下,这样的感知立体声编码器 通常不使用M/S立体声编码,因为在该情况下,与L/R立体声编码相比, 这样的编码方案不提供任何编码增益。编码器将退回普通的L/R立体声编 码,实质上独立地处理L和R。

在相同的情况下,PS编码器系统创建包含L和R声道的缩混信号, 这防止了L和R声道的独立处理。对于使用残余信号的PS编码,这可以 带来与立体声编码相比而言较为低效的编码,在立体声编码中,L/R立体 声编码或M/S立体声编码是自适应地可选择的。

因此,存在下述情况,其中,PS编码器胜过在L/R立体声编码和M/S 立体声编码之间自适应选择的感知立体声编码器,而在其他情况下,后一 种编码器胜过PS编码器。

发明内容

本申请描述了基于将使用残余的PS编码与自适应L/R或M/S感知立 体声编码(例如,在MDCT域中的AAC感知联合立体声编码)组合的思 想的一种音频编码器系统和一种编码方法。这允许组合自适应L/R或M/S 立体声编码(例如,在MPEGAAC中使用)的优点和使用残余信号的PS 编码(例如,在环绕MPEG中使用)的优点。而且,本申请描述了对应的 音频解码器系统和解码方法。

本申请的第一方面涉及一种编码器系统,用于将立体声信号编码为比 特流信号。根据所述编码器系统的一个实施例,所述编码器系统包括缩混 级,用于基于所述立体声信号来生成缩混信号和残余信号。所述残余信号 可以覆盖所使用的音频频率范围的全部或仅一部分。另外,所述编码器系 统包括参数确定级,用于确定PS参数,诸如声道间强度差和声道间交叉 相关。优选地,所述PS参数是频率变化的。这样的缩混级和参数确定级 通常是PS编码器的一部分。

另外,所述编码器系统包括在所述缩混级的下游的感知编码装置,其 中,能够选择两个编码方案:

-基于所述缩混信号和所述残余信号的和以及基于所述缩混信号和所 述残余信号的差的编码,或者

-基于所述缩混信号和基于所述残余信号的编码。

应当注意,在编码基于所述缩混信号和所述残余信号的情况下,可以 对所述缩混信号和所述残余信号编码,或可以对与其成比例的信号编码。 在编码基于和与差的情况下,则可以对所述和与差编码,或可以对与其成 比例的信号编码。

所述选择可以是频率变化的(和时间变化的),即,对于第一频带, 可以选择编码基于和信号与差信号,而对于第二频带,可以选择编码基于 所述缩混信号和基于所述残余信号。

这样的编码器系统具有允许在L/R立体声编码和使用残余的PS编码 之间切换(优选地以频率变化的方式)的优点:如果所述感知编码装置选 择(对于特定频带或对于整个使用的频率范围)基于缩混和残余信号的编 码,则所述编码系统表现为像使用利用残余的标准PS编码的系统那样。 然而,如果所述感知编码装置选择(对于特定频带或对于整个所使用的频 率范围)基于所述缩混信号和所述残余信号的和信号以及基于所述缩混信 号和所述残余信号的差信号,则在特定的情况下,所述和与差操作实质上 补偿了在前的缩混操作(除了可能不同的增益因子),以使得整个系统可 以实际上执行整个立体声信号或针对其频带的L/R编码。例如,当所述立 体声信号的L和R声道是独立的并且具有相同的电平时,这样的情况出现, 如下详细所述。

优选地,所述编码方案的适用是时间和频率相关的。因此,优选地, 通过L/R编码方案来对所述立体声信号的一些频带编码,而通过使用残余 的PS编码方案来对所述立体声信号的其他频带编码。

应当注意,在如上所述的编码基于缩混信号并且基于残余信号的情况 下,可以通过对于缩混信号和残余信号的两个相逆(除了可能不同的增益 因子)的串行操作来形成输入到核心编码器的实际信号。例如,缩混信号 和残余信号被馈送到M/S至L/R变换级,然后该变换级的输出被馈送到 L/R至M/S变换级。产生的信号(然后用于编码)对应于缩混信号和残余 信号(除了可能不同的增益因子之外)。

下面的实施例利用这种思想。根据所述编码器系统的一个实施例,所 述编码器系统包括如上所述的缩混级和参数确定级。而且,所述编码器系 统包括变换级(例如,作为如上所述的编码装置的一部分)。变换级通过 执行缩混信号和残余信号的变换来生成伪L/R立体声信号。变换级优选地 执行和与差变换,其中,对所述缩混信号和所述残余信号求和以生成所述 伪立体声信号的一个声道(可能所述和也乘以因子),并且彼此相减以生 成所述伪立体声信号的另一个声道(可能所述差也乘以因子)。优选地, 所述伪立体声信号的第一声道(例如,伪左声道)与所述缩混和残余信号 的和成比例,而第二声道(例如,伪右声道)与所述缩混和残余信号的差 成比例。因此,来自所述PS编码器的缩混信号DMX和残余信号RES可 以根据下式转换为伪立体声信号Lp、Rp:

Lp=g(DMX+RES)

Rp=g(DMX-RES)

在上式中,增益归一化因子g具有例如值

所述伪立体声信号优选地由感知立体声编码器(例如,作为所述编码 装置的一部分)处理。对于编码,能够选择L/R立体声编码或M/S立体声 编码。自适应L/R和M/S感知立体声编码器可以是基于AAC的编码器。 优选地,在L/R立体声编码和M/S立体声编码之间的选择是频率变化的; 因此,如上所述,所述选择可以对于不同频带变化。而且,在L/R编码和 M/S编码之间的选择优选地是时间变化的。优选地由所述感知立体声编码 器进行在L/R编码和M/S编码之间的选定。

具有M/S编码的选项的这样的感知编码器可以基于所述伪立体声L/R 信号来内部计算(伪)M和S信号(在时域或在所选择的频带中)。这样 的伪M和S信号对应于缩混和残余信号(除了可能不同的增益因子)。因 此,如果所述感知立体声编码器选择M/S编码,则它实际上对所述缩混和 残余信号(它们对应于所述伪M和S信号)编码,就像在使用利用残余的 标准PS编码的系统中进行的那样。

而且,在特殊情况下,所述变换级实质上补偿在前的缩混操作(除了 可能不同的增益因子之外),以使得整个编码器系统可以实际上执行整个 立体声信号的L/R编码或对于其频带的L/R编码(如果在感知编码器中选 择L/R编码)。这是例如在所述立体声信号的L和R声道是独立的并且具 有相同电平时的情形,如下将详细所述。因此,如果对于给定频带所述立 体声信号的左和右声道实质上是独立的并且具有实质上相同的电平,则对 于该频带,所述伪立体声信号实质上与所述立体声信号对应或成比例。

因此,所述编码器系统实际上允许在L/R立体声编码和使用残余的 PS编码之间切换,以便能够适应于给定立体声输入信号的属性。优选地, 所述编码方案的适用是时间和频率相关的。因此,优选地,通过L/R编码 方案来对所述立体声信号的一些频带编码,而通过使用残余的PS编码方 案来对立体声信号的其他频带编码。应当注意,M/S编码实质上是使用残 余的PS编码的特殊情况(因为,L/R至M/S变换是PS缩混操作的特殊 情况),因此,编码器系统也可以执行整体的M/S编码。

具有在所述PS编码器下游和所述L/R或M/S感知立体声编码器上游 的变换级的所述实施例具有可以使用传统PS编码器和传统感知编码器的 优点。尽管如此,由于此处的特殊使用,可以适用所述PS编码器或所述 感知编码器。

新的概念通过使能PS编码和联合立体声编码的高效组合改善了立体 声编码的性能。

根据一个替选实施例,如上所述的编码装置包括变换级,用于对于一 个或更多个频带(例如,对于整个使用的频率范围或仅对于一个频率范围) 基于所述缩混信号和所述残余信号来执行和与差变换。可以在频域或时域 中执行所述变换。所述变换级生成针对所述一个或更多个频带的伪左/右立 体声信号。所述伪立体声信号的一个声道对应于所述和,并且另一个声道 对应于所述差。

因此,在编码基于所述和与差信号的情况下,所述变换级的输出可以 用于编码,而在编码基于所述缩混信号和所述残余信号的情况下,在所述 编码级的上游的信号可以用于编码。因此,该实施例不对所述缩混信号和 残余信号使用两个串行的和与差变换,产生所述缩混信号和残余信号(除 了可能不同的增益因子之外)。

当基于所述缩混信号和残余信号来选择编码时,选择立体声信号的参 数立体声编码。当基于所述和与差来选择编码时(即,基于伪立体声信号 的编码),选择立体声信号的L/R编码。

所述变换级可以是作为具有在L/R和M/S立体声编码之间的自适应选 择的感知编码器的一部分的L/R至M/S变换级(与传统的L/R至M/S变 换级相比,可能增益因子不同)。应当注意,在L/R和M/S立体声编码之 间的选定应当反相。因此,当所述选定装置选定M/S感知解码时,选择基 于缩混信号和残余信号的编码(即,编码信号不通过变换级),而当所述 选定装置选定L/R感知解码时,选择基于由所述变换级生成的所述伪立体 声信号的编码(即,编码信号通过变换级)。

根据如上所述的实施例的任何一个所述的编码器系统可以包括附加 的SBR(频段复制)编码器。SBR是HFR(高频重建)的一种形式。SBR 编码器确定用于在解码器中音频信号的较高频范围的重建的侧边信息。感 知编码器仅对较低频率范围编码,由此减小比特率。优选地,所述SBR编 码器连接到所述PS编码器的上游。因此,所述SBR编码器可以在立体声 域中,并且生成用于立体声信号的SBR参数。将结合附图对此进行详细讨 论。

优选地,所述PS编码器(即,缩混级和参数确定级)在过采样频域 中运行(如下所述的PS解码器也同样优选地在过采样频域中运行)。对于 时间至频率变换,例如,可以在PS编码器上游使用具有QMF(正交镜像 滤波器)和奈奎斯特滤波器的复值混合滤波器组,如在环绕MPEG标准中 所述(参见文件ISO/IEC 23003-1)。这允许时间和频率自适应信号处理, 而无可听的失真伪像。另一方面,优选地,在临界采样MDCT域(例如, 如在AAC中所述)中执行自适应L/R或M/S编码,以便保证高效的量化 信号表示。

可以在时域中执行在缩混和残余信号与伪L/R立体声信号之间的转 换,这是因为无论如何PS编码器和伪立体声编码器通常在时域中连接。 因此,用于生成伪L/R信号的变换级可以在时域中运行。

在结合附图所述的其他实施例中,变换级在过采样频域中或在临界采 样MDCT域中运行。

本申请的第二方面涉及一种解码器系统,用于对由如上所述的编码器 系统生成的比特流信号进行解码。

根据所述解码器系统的一个实施例,所述解码器系统包括感知解码装 置,用于基于比特流信号来解码。所述解码装置被配置为通过对(内部) 第一信号和(内部)第二信号解码来生成并且输出缩混信号和残余信号。 所述缩混信号和所述残余信号选择性地

-基于所述第一信号和所述第二信号的和以及基于所述第一信号和所 述第二信号的差,或者

-基于所述第一信号和基于所述第二信号。

如上结合编码器系统所述,同样,这里所述选择可以是频率变化的或 频率不变的。

而且,所述系统包括上混级,用于基于所述缩混信号和所述残余信号 生成立体声信号,所述上混级的上混操作依赖于所述一个或更多个参数立 体声参数。

与所述编码器系统类似,所述解码器系统实际上允许优选地以时间和 频率变化的方式在L/R解码和使用残余的PS解码之间切换。

根据另一个实施例,所述解码器系统包括感知立体声解码器(例如, 作为所述解码装置的一部分),用于对比特流信号解码,所述解码器生成 伪立体声信号。所述感知解码器可以是基于AAC的解码器。对于所述感 知立体声解码器,能够以频率变化或频率不变的方式选择L/R感知解码或 M/S感知解码(实际选择优选地由编码器中的选定控制,该实际选择在比 特流中作为侧边信息传送)。所述解码器基于用于编码的编码方案来选择 解码方案。可以通过所接收的比特流中包含的信息向所述解码器指示所使 用的编码方案。

而且,变换级被设置用于通过执行伪立体声信号的变换来生成缩混信 号和残余信号。换言之:从所述感知解码器获得的所述伪立体声信号被转 换回缩混和残余信号。这样的变换是和与差变换:产生的缩混信号与所述 伪立体声信号的左声道和右声道的和成比例。产生的残余信号与所述伪立 体声信号的左声道和右声道的差成比例。因此,执行准L/R至M/S变换。 具有两个声道LP、RP的所述伪立体声信号可以根据下式转换为缩混和残 余信号:

DMX=12g(Lp+Rp)

RES=12g(Lp-Rp)

在上式中,增益归一化因子g可以具有例如值在解码器中使 用的残余信号RES可以覆盖整个所使用的音频频率范围或仅覆盖所使用 的音频频率范围的一部分。

然后所述缩混和残余信号由PS解码器的上混级处理,以获得最终的 立体声输出信号。所述缩混和残余信号向立体声信号的上混依赖于所接收 的PS参数。

根据一个替选实施例,所述感知解码装置可以包括和与差变换级,用 于对于一个或更多个频带(例如,对于整个使用的频率范围)基于第一信 号和第二信号来执行变换。因此,对于缩混信号和残余信号基于第一信号 和第二信号的和以及基于第一信号和第二信号的差的情况,变换级生成缩 混信号和残余信号。变换级可以在时域中或在频域中运行。

如结合编码器系统类似地所述,所述变换级可以是作为具有在L/R和 M/S立体声解码之间的自适应选择(与传统的M/S至L/R变换级相比,可 能增益因子不同)的感知解码器的一部分的M/S至L/R变换级。应当注意, 在L/R和M/S立体声解码之间的选择应当反相。

根据在前的实施例中的任何一个所述的解码器系统可以包括附加的 SBR解码器,用于对来自SBR编码器的侧边信息解码,并且生成音频信 号的高频分量。优选地,所述SBR解码器位于所述PS解码器的下游。将 结合附图对此进行详细描述。

优选地,所述上混级在过采样频域中运行,例如,可以在PS解码器 的上游使用如上所述的混合滤波器组。

可以在时域中执行L/R至M/S变换,这是因为感知解码器和PS解码 器(包括上混级)通常在时域中连接。

在结合附图讨论的其他实施例中,在过采样频域(例如,QMF)中或 在临界采样频域(例如,MDCT)中执行L/R至M/S变换。

本申请的第三方面涉及一种用于将立体声信号编码为比特流信号的 方法。所述方法与如上所述的编码器系统类似地运行。因此,与所述编码 器系统相关的以上评论也实质上适用于编码方法。

本发明的第四方面涉及一种用于对包括PS参数的比特流信号解码以 生成立体声信号的方法。所述方法以与如上所述的解码器系统相同的方式 运行。因此,与所述解码器系统相关的以上评论也实质上适用于解码方法。

附图说明

下面参照附图通过说明性示例来描述本发明,其中

图1示出了编码器系统的一个实施例,其中,可选地,PS参数帮助在 感知立体声编码器中的心理声学控制;

图2示出了PS编码器的一个实施例;

图3示出了解码器系统的一个实施例;

图4示出了PS编码器的另一个实施例,其包括检测器,用于如果L/R 有益则禁止PS编码;

图5示出了具有用于缩混的附加SBR编码器的传统PS编码器系统的 一个实施例;

图6示出了具有用于缩混信号的附加SBR编码器的编码器系统的一个 实施例;

图7示出了在立体声域中具有附加SBR编码器的编码器系统的一个实 施例;

图8a至8d示出了在解码器输出处的两个输出声道之一的各种时间- 频率表示;

图9a示出了核心编码器的一个实施例;

图9b示出了编码器的一个实施例,该编码器允许在线性预测域中的 编码(通常仅用于单声道信号)和在变换域中的编码(通常用于单声道和 立体声信号)之间切换;

图10示出了编码器系统的一个实施例;

图11a示出了编码器系统的一个实施例的一部分;

图11b示出了图11a中的实施例的示例性实现;

图11c示出了图11a中的实施例的另一选择;

图12示出了编码器系统的一个实施例;

图13示出了作为图12的编码器系统的一部分的立体声编码器的一个 实施例;

图14示出了用于对由图6的编码器系统生成的比特流信号解码的解 码器系统的一个实施例;

图15示出了用于对由图7的编码器系统生成的比特流信号解码的解 码器系统的一个实施例;

图16a示出了解码器系统的一个实施例的一部分;

图16b示出了图16a中的实施例的示例性实现;

图16c示出了图16a中的实施例的另一选择;

图17示出了编码器系统的一个实施例;以及

图18示出了解码器系统的一个实施例。

具体实施方式

图1示出了编码器系统的一个实施例,该编码器系统将使用残余的PS 编码与自适应L/R或M/S感知立体声编码组合。该实施例仅是本申请的原 理的说明。可以理解,该实施例的修改和变型对于本领域的其他技术人员 是显然的。该编码器系统包括PS编码器1,用于接收立体声信号L、R。 PS编码器1具有缩混级,用于基于立体声信号L、R来生成缩混DMX和 残余RES信号。可以通过2·2缩混矩阵H-1来描述该操作,该2·2缩混矩 阵H-1将L和R信号转换为缩混信号DMX和残余信号RES:

DMXRES=H-1·LR

通常,矩阵H-1是频率变化的和时间变化的,即矩阵H-1的元素在频率 上改变并且逐时隙改变。矩阵H-1可以每个帧(例如,每21或42ms)更 新,并且可以在感知导向(Bark类的)的频率标度上具有多个频带的频率 分辨率,例如28、20或10个频带(称为“参数频带”)。

矩阵H-1的元素依赖于时间和频率变化的PS参数IID(声道间强度差; 也称为CLD-声道电平差)和ICC(声道间交叉相关)。为了确定PS参 数5,例如IID和ICC,PS编码器1包括参数确定级。用于计算矩阵H 的矩阵元素的示例通过下面的部分给出,并且在环绕MPEG规范文件 ISO/IEC 23003-1、子条款6.5.3.2中描述,其通过引用合并于此:

H=c1cos(α+β)c1sin(α+β)c2cos(-α+β)c2sin(-α+β),

其中

c1=10CLD101+10CLD10,以及c2=11+10CLD10,

并且其中

β=arctan(tan(α)c2-c1c2+c1),以及α=12arccos(ρ),

并且其中,ρ=ICC。

而且,编码器系统包括变换级2,其例如根据下式将来自PS编码器1 的缩混信号DMX和残余信号RES转换为伪立体声信号Lp、Rp

Lp=g(DMX+RES)

Rp=g(DMX-RES)

在上式中,增益归一化因子具有例如值对于值可 以将用于伪立体声信号Lp、Rp的两个等式重写为:

LpRp=1/21/21/2-1/2DMXRES

然后将伪立体声信号Lp、Rp馈送到感知立体声编码器3,其自适应地 选择L/R或M/S立体声编码。M/S编码是联合立体声编码的一种形式。 L/R编码也可以基于联合编码方面,例如,可以为L和R声道联合地分配 来自公共的比特储存处的比特。

在L/R或M/S立体声编码之间的选择优选地是频率变化的,即一些频 带可以是L/R编码的,而其他频带可以是M/S编码的。在下文中描述了用 于实现在L/R或M/S立体声编码之间的选择的实施例:″Sum-Difference  Stereo Transform Coding″,J.D.Johnston et al.,IEEE International  Conference on Acoustics,Speech,and Signal Processing(ICASSP)1992, pages 569-572。其中在L/R或M/S立体声编码之间的选择、特别是部分 5.1和5.2的讨论通过引用合并于此。

基于伪立体声信号Lp、Rp,感知编码器3可以内部计算(伪)中央/ 侧边信号Mp、Sp。这样的信号实质上对应于缩混信号DMX和残余信号 RES(除了可能不同的增益因子之外)。因此,如果感知编码器3针对频带 选择M/S编码,则感知编码器3实质上对该频带的缩混信号DMX和残余 信号RSE编码(除了可能不同的增益因子之外),如同在使用传统的使用 残余的PS编码的传统感知编码器系统中也进行的。感知编码器3的PS参 数5和输出比特流4由复用器7复用为单个比特流6。

除了立体声信号的PS编码之外,图1中的编码器系统允许将在下面 描述的立体声信号的L/R编码:如上所述,编码器的缩混矩阵H-1(同样, 在解码器中使用的上混矩阵H)的元素依赖于时间和频率变化的PS参数 IID(声道间强度差;也称为CLD-声道电平差)和ICC(声道间交叉相 关)。上面描述了用于计算上混矩阵H的矩阵元素的示例。在使用残余编 码的情况下,2·2上混矩阵H的右列被给出为:

1-1

然而,优选地,2·2矩阵H的右列应当代替地被修改为:

1/2-1/2

优选地,如在环绕MPEG规范中给出的那样来计算左列。

修改上混矩阵H的右列保证对于IID=0dB和ICC=0(即,对于各 个频带立体声声道L和R是独立的并且具有相同电平的情况),对于该频 带获得下面的上混矩阵H:

H=1/21/21/2-1/2

请注意,上混矩阵H以及缩混矩阵H-1通常是频率变化和时间变化的。 因此,这些矩阵的值对于不同的时间/频率片(tile)(片对应于特定频带和 特定时间段的相交位置)不同。在上面的情况下,缩混矩阵H-1与上混矩 阵H相同。因此,对于频带,可以通过下式来计算伪立体声信号Lp、Rp

LpRp=1/21/21/2-1/2DMXRES=1/21/21/2-1/2·H-1·LR=

1/21/21/2-1/21/21/21/2-1/2LR=1001LR=LR

因此,在该情况下,之后是在变换级2中生成伪L/R信号的使用缩混 矩阵H-1的使用残余的PS编码对应于单位(unity)矩阵,并且根本不改 变各个频带的立体声信号,即

Lp=L

Rp=R

换言之:变换级2补偿缩混矩阵H-1,以使得伪立体声信号Lp、Rp对 应于输入立体声信号L、R。这允许通过针对特定频带的感知编码器3对 原始的输入立体声信号L、R编码。当感知编码器3选择L/R编码来对特 定频带编码时,编码器系统像用于对立体声输入信号L、R的频带编码的 L/R感知编码器那样表现。

图1中的编码器系统允许以频率和时间变化的方式在L/R编码和使用 残余的PS编码之间的无缝和自适应的切换。编码器系统避免了在切换编 码方案时在波形上的不连续。这防止了伪像。为了实现平滑的过渡,对于 在两个立体声参数更新之间的样本,可以将线性内插应用于编码器中的矩 阵H-1和解码器中的矩阵H的元素。

图2示出了PS编码器1的一个实施例。PS编码器1包括缩混级8, 其基于立体声信号L、R生成缩混信号DMX和残余信号RES。此外,PS 编码器1包括参数估计级9,用于基于立体声信号L、R来估计PS参数5。

图3示出了被配置为对由图1的编码器系统生成的比特流6解码的对 应的解码器系统的一个实施例。该实施例仅是本申请的原理的说明。可以 理解,该实施例的修改和变型对于本领域的其他技术人员是显然的。该解 码器系统包括解复用器10,用于分离由感知编码器3生成的PS参数5和 音频比特流4。音频比特流4被馈送到感知立体声解码器11,感知立体声 解码器11可以选择性地对L/R编码比特流或M/S编码音频比特流解码。 解码器11的操作与编码器2的操作相反。与感知编码器3类似,感知解码 器11优选地允许频率变化和时间变化的解码方案。由编码器3进行L/R 编码的一些频带由解码器11进行L/R解码,而由编码器3进行M/S编码 的其他频带由解码器11进行M/S解码。解码器11输出先前被输入到感知 编码器3的伪立体声信号Lp、Rp。从感知解码器11获得的伪立体声信号 Lp、Rp被L/R至M/S变换级12转换回缩混信号DMX和残余信号RES。 在解码器侧的L/R至M/S变换级12的操作与在编码器侧的变换级2的操 作相反。优选地,变换级12根据下式确定缩混信号DMX和残余信号RES:

DMX=12g(Lp+Rp)

RES=12g(Lp-Rp)

在上式中,增益归一化因子g与编码器侧的增益归一化因子g相同, 并且具有例如值

然后缩混信号DMX和残余信号RES由PS解码器13处理以获得最 终的L和R输出信号。可以通过2·2上混矩阵H来描述在用于使用残余的 PS编码的解码处理中的上混步骤,2·2上混矩阵H将缩混信号DMX和残 余信号RES转换回L和R声道:

LR=H·DMXRES

以上已经讨论了上混矩阵H的元素的计算。

优选地,在过采样频域中执行在PS编码器1和PS解码器13中的PS 编码和PS解码处理。对于时间至频率的变换,例如,可以在PS编码器的 上游使用具有QMF(正交镜像滤波器)和奈奎斯特滤波器的复值混合滤 波器组,诸如环绕MPEG标准(参见文件ISO/IEC 23003-1)中描述的滤 波器组。使用因子2来对信号的复数QMF表示进行过采样,因为它是复 数值的而非实数值的。这允许时间和频率的自适应信号处理,而没有可听 的失真伪像。这样的混合滤波器组通常在低频处提供高频率分辨率(窄 带),而在高频处,几个QMF频带被成组为较宽的频带。论文″Low  Complexity Parametric Stereo Coding in MPEG-4″,H.Purnhagen,Proc. of the 7th Int.Conference on Digital Audio Effects(DAFx′04),Naples,Italy, October 5-8,2004,pages 163-168描述了混合滤波器组的一个实施例(参见 3.2部分和图4)。该公开通过引用合并于此。在该文献中,假定48kHz的 采样率,并且64频带QMF组的频带的(标称)带宽是375Hz。然而, 感知Bark频率标度对于500Hz以下的频率请求大约100Hz的带宽。因 此,可以借助于奈奎斯特滤波器组将前3个QMF频带划分为更进一步窄 的子带。第一QMF频带可以划分为4个子带(外加用于负频率的另外两 个),并且第二和第三QMF频带可以分别划分为两个频带。

优选地,另一方面,在临界采样MDCT域(例如,如在AAC中所述) 中执行自适应L/R或M/S编码,以便保证高效的量化信号表示。可以在时 域中执行变换级2中缩混信号DMX和残余信号RES向伪立体声信号Lp、 Rp的转换,这是因为无论如何PS编码器1和感知编码器3可以在时域中 连接。同样,在解码系统中,感知立体声解码器11和PS解码器13优选 地在时域中连接。因此,也可以在时域中执行变换级12中伪立体声信号 Lp、Rp向缩混信号DMX和残余信号RES的转换。

例如如图1中编码器3所示的自适应L/R或M/S立体声编码器通常是 感知音频编码器,该感知音频编码器包含心理声学模型,以使能在低比特 流下的高编码效率。用于这样的编码器的示例是AAC编码器,该AAC编 码器与通过使用心理声学模型控制的时间和频率变化的量化相组合地采 用在临界采样MDCT域中的变换编码。而且,通常借助于使用心理声学 模型计算的感知熵测量来控制在L/R和M/S编码之间的时间和频率变化的 选定。

感知立体声编码器(诸如图1中的编码器3)对于伪L/R立体声信号 (参见图1中的Lp、Rp)操作。为了优化立体声编码器(特别是用于作出 在L/R编码和M/S编码之间的正确的选定)的编码效率,有益的是修改感 知立体声编码器中的心理声学控制机制(包括在L/R和M/S立体声编码之 间选定的控制机制以及控制时间和频率变化的量化的控制机制),以便解 决当生成最终的立体声输出信号L、R时在解码器中应用的信号修改(伪 L/R至DMX和RES转换,其后是PS解码)。这些信号修改可以影响在心 理声学控制机制中使用的双耳掩蔽现象。因此,应当优选地适用这些心理 声学控制机制。为此,可以有益的是,如果心理声学控制机制不仅访问伪 L/R信号(参见图1中的Lp、Rp),而且访问PS参数(参见图1中的5) 和/或原始立体声信号L、R。心理声学控制机制对于PS参数和立体声信 号L、R的访问在图1中由虚线指示。基于该信息,例如可以适用掩蔽阈 值。

用于优化心理声学控制的一种替选方法是使用检测器来扩大编码器 系统,以形成禁止级,该禁止级能够在适当时优选地以时间和频率变化的 方式来有效地禁止PS编码。禁止PS编码例如在预期L/R立体声编码有益 时或在心理声学控制在对伪L/R信号高效地编码上有问题时是适当的。可 以通过以下方式设置缩混矩阵H-1来有效地禁止PS编码:其后跟随变换(参 见图1中的级2)的缩混矩阵H-1对应于单位矩阵(即,对应于全同运算) 或对应于单位矩阵乘以因子。例如,可以通过将PS参数IID和/或ICC强 制为IID=0dB和ICC=0来有效地禁止PS编码。在该情况下,伪立体声 信号Lp、Rp对应于如上所述的立体声信号L、R。

在图4中示出了用于控制PS参数修改的这样的检测器。在此,检测 器20接收由参数估计级9确定的PS参数5。当检测器没有禁止PS编码 时,检测器20将PS参数传送到缩混级8和复用器7,即,在该情况下, PS参数5对应于馈送到缩混级8的PS参数5’。在检测器检测到PS编码 不利并且应当禁止PS编码(对于一个或更多个频带)的情况下,检测器 修改所影响的PS参数5(例如,将PS参数IID和/或ICC设置为IID=0dB 和ICC=0),并且将修改的PS参数5’馈送到缩混级8。检测器也可以可 选地考虑用于对PS参数修改作出决定的左和右信号L、R(参见图4中的 虚线)。

在下面的图中,术语QMF(正交镜像滤波器或滤波器组)还包括与 奈奎斯特滤波器组组合的QMF子带滤波器组,即混合滤波器组结构。此 外,在下面的说明中的所有值可以是频率相关的,例如,可以对于不同的 频率范围提取不同的缩混和上混矩阵。此外,残余编码可以仅覆盖所使用 的音频频率范围的一部分(即,仅对于所使用的音频频率范围的一部分进 行残余信号编码)。如下概述的缩混的方面可以对于一些频率范围出现在 QMF域中(例如,根据现有技术),而对于其他频率范围,例如在复数 QMF域中仅处理相位方面,而在实数值MDCT域中处理幅度变换。

在图5中,图示了传统的PS编码器系统。首先,通过具有M个子带 的复数QMF 30、例如具有M=64个子带的QMF来分析立体声声道L、 R的每一个。子带信号用于在PS编码器31中估计PS参数5和缩混信号 DMX。缩混信号DMX用于在SBR(频段复制)编码器32中估计SBR参 数33。SBR编码器32可能与噪声和音调测量相组合地提取用于表示原始 高频带信号的频谱包络的SBR参数33。与PS编码器31相反,SBR编码 器32不影响传送到核心编码器34的信号。使用具有N个子带的逆QMF 35 来合成PS编码器31的缩混信号DMX。例如,可以使用N=32的复数 QMF,其中,仅合成由PS编码器31和SBR编码器32使用的64个子带 中的32个最低的子带。因此,通过针对相同的帧大小使用半数的子带,获 得与输入相比一半带宽的时域信号,并且将其传送到核心编码器34中。由 于减小的带宽,采样率可以减半(未示出)。核心编码器34执行单声道输 入信号的感知编码以生成比特流36。PS参数5被复用器(未示出)嵌入 比特流36中。

图6示出了将使用残余的PS编码与立体声核心编码器48组合的编码 器系统的另一个实施例,立体声核心编码器48能够自适应地L/R或M/S 感知立体声编码。该实施例仅是本申请的原理的说明。可以理解,该实施 例的修改和变型对于本领域的其他技术人员是显然的。复数QMF 30以与 结合图5所述的类似的方式来分析用于表示左和由原始声道的输入声道 L、R。与图5中的PS编码器31相比,图6中的PS编码器41不仅输出 缩混信号DMX,而且输出残余信号RES。SBR编码器32使用缩混信号 DMX来确定缩混信号DMX的SBR参数33。在变换级2中固定向缩混信 号DMX和残余信号RES应用DMX/RSE至伪L/R变换(即,M/S至L/R 变换)。图6中的变换级2对应于图1中的变换级2。变换级2创建核心编 码器48要操作的“伪”左和右声道信号Lp、Rp。在该实施例中,在滤波 器组35的子带合成之前,在QMF域中应用逆L/R至M/S变换。优选地, 用于合成的子带的数量N(例如,N=32)对应于用于分析的子带的数量 M(例如,M=64)的一半,并且核心编码器48以采样率的一半来运行。 应当注意,在编码器中使用用于QMF分析的64个子带声道和用于合成的 32个子带没有限制,根据核心编码器48接收的信号期望什么采样率,其 他值也是可能的。核心立体声编码器48执行滤波器组35的信号的感知编 码以生成比特流信号46。PS参数5被复用器(未示出)嵌入在比特流信 号46中。可选地,核心编码器48可以使用PS参数和/或原始L/R输入信 号。这样的信息向核心编码器48指示PS编码器41如何旋转立体声空间。 该信息可以引导核心编码器48如何以感知最佳的方式来控制量化。在图6 中通过虚线指示这一点。

图7示出了与图6中的实施例类似的编码器系统的另一个实施例。与 图6的实施例相比,在图7中,SBR编码器42连接在PS编码器41的上 游。在图7中,SBR编码器42已经移动到PS编码器41之前,因此对左 和右声道(在此:在QMF域中)操作,而不是像在图6中那样对缩混信 号DMX操作。

由于SBR编码器42的重新布置,PS编码器41可以被配置为不对输 入信号的全带宽操作,而是例如仅对SBR交叉频率之下的频率范围操作。 在图7中,SBR参数43在用于SBR范围的立体声中,并且来自将在下面 结合图15描述的对应的PS解码器的输出产生SBR解码器要操作的立体 声源频率范围。这种修改、即在编码器系统中将SBR编码器模块42连接 到PS编码器模块41的上游并且对应地在解码器系统中将SBR解码器模 块放置在PS解码器模块之后(参见图15)具有下述益处:可以减少用于 生成立体声输出的去相关信号的使用。请注意,在根本或对于特定的频带 不存在残余信号的情况下,在PS解码器中代替地使用缩混信号DMX的 去相关版本。然而,基于去相关信号的重建降低了音频质量。因此,减少 去相关信号的使用提高了音频质量。

现在将参照图8a至8d更详细地描述与图6中的实施例相比图7中的 实施例的这个优点。

在图8a中,可视化两个输出声道L、R(在解码器侧)之一的时间频 率表示。在图8a的情况下,使用编码器,其中,将PS编码模块置于诸如 图5和图6中编码器的SBR编码模块之前(在解码器中,将PS解码器置 于SBR解码器之后,参见图14)。而且,仅在低带宽频率范围50中对残 余编码,该频率范围小于核心编码器的频率范围51。从图8a中的声谱可 视图显然可以看出,其中要由PS解码器使用的去相关信号的频率范围52 覆盖除了通过使用残余信号而覆盖的较低频率范围50之外的所有频率范 围。而且,SBR覆盖起始比去相关信号的频率范围显著高的频率范围53。 因此,整个频率范围分为下面的频率范围:在低频范围中(参见图8a中的 范围50),使用波形编码;在中频范围中(参见频率范围51和52的交集), 使用与去相关信号组合的波形编码;并且,在高频范围中(参见频率范围 53),与由PS解码器产生的去相关信号组合使用从低频再生的SBR再生 信号。

在图8b中,对于在编码器系统中当SBR编码器连接到PS编码器的 上游(并且,在解码器系统中,SBR解码器位于PS解码器之后)时的情 况,可视化两个输出声道L、R(在解码器侧)之一的时间频率表示。在 图8b中,示出了低比特率情况,并且残余信号带宽60(其中,执行残余 编码)小于核心编码器61的带宽。因为SBR解码处理在PS解码器后的 解码器侧运行(参见图15),所以用于低频的残余信号也用于SBR范围63 的至少一部分高频(参见频率范围64)的重建。

当运行于其中残余信号带宽接近或等于核心编码器带宽的中间比特 率时,该优点变得更明显。在该情况下,图8a的时间频率表示(其中,使 用图6中所示的PS编码和SBR编码的顺序)导致图8c中所示的时间频 率表示。在图8c中,残余信号RES实质上覆盖核心编码器的整个低频带 范围51;在SBR频率范围53中,通过PS解码器来使用去相关信号。在 图8d中,可视化了在编码/解码模块的优选顺序(即,SBR编码在PS编 码之前作用于立体声信号,如图7中所示)的情况下的时间频率表示。在 此,PS解码模块在解码器中的SBR解码模块之前运行,如图15中所示。 因此,残余信号是用于高频重建的低频带的一部分。当残余信号带宽等于 单声道缩混信号带宽时,不需要去相关信号信息来对输出信号解码(参见 图8d中加阴影的全频率范围)。

在图9a中,示出了在MDCT变换域中具有自适应地可选择的L/R或 M/S立体声编码的立体声核心编码器48的一个实施例。这样的立体声编 码器48可以用在图6和7中。可以将如图5中所示的单声道核心编码器 34当作图9a中的立体声核心编码器48的特殊情况,其中,仅处理单个单 声道输入声道(即,其中如图9a中的虚线所示的第二输入声道不存在)。

在图9b中,示出了更一般化的编码器的一个实施例。对于单声道信 号,可以在线性预测域中的编码(参见块71)和在变换域中的编码(参见 块48)之间切换编码。这种类型的核心编码器引入了几种编码方法,可以 根据输入信号的特性而自适应地使用这些方法。在此,编码器可以选择使 用AAC型变换编码器48(可用于单声道和立体声信号,并且在立体声信 号的情况下能够自适应地选择L/R和M/S编码)或AMR-WB+(自适应 多速率-宽带加)型核心编码器71(仅可用于单声道信号)来对信号编码。 AMR-WB+核心编码器71评估线性预测器72的残余,并且继而也在线性 预测残余的变换编码方法或用于对线性预测残余编码的标准语音编码器 ACELP(代数码激励线性预测)方法之间选择。为了在AAC型变换编码 器48和AMR-WB+型核心编码器71之间选定,使用模式选定级73,其基 于在编码器48和71之间的输入信号来选定。

编码器48是基于立体声AAC型MDCT的编码器。当模式选定73控 制输入信号以使用基于MDCT的编码时,由基于AAC的MDCT编码器 48对单声道输入信号或立体声输入信号编码。MDCT编码器48在MDCT 级74中进行一个或两个信号的MDCT分析。此外,在立体声信号的情况 下,在量化和编码之前,在级75中执行在频带基础上的M/S或L/R选定。 L/R立体声编码或M/S立体声编码能够以频率变化的方式选择。级75也 执行L/R至M/S变换。如果对于特定的频带选定M/S编码,则级75输出 针对该频带的M/S信号。否则,级75输出针对该频带的L/R信号。

因此,当使用变换编码模式时,对于立体声可以使用基础核心编码器 的立体声编码功能的全效率。

当模式选定73将单声道信号控制到线性预测域编码器71时,随后通 过块72中的线性预测分析来分析单声道信号。随后,进行要通过在MDCT 域中运行的时域ACELP型编码器76还是TCX型编码器77(变换码激励) 来对LP残余编码的选定。线性预测域编码器71没有任何固有的立体声编 码能力。因此,为了允许使用线性预测域编码器71对立体声信号编码,可 以使用与图5中所示的类似的编码器配置。在这种配置中,PS编码器生成 PS参数5和单声道缩混信号DMX,然后该单声道缩混信号DMX由线性 预测域编码器编码。

图10示出了编码器系统的另一个实施例,其中,以新的方式组合图7 和图9中的部分。在立体声MDTC分析74之前在AAC型缩混编码器70 内布置如图7中概述的DMX/RES至伪L/R块2。该实施例具有优点:仅 在使用立体声MDCT核心编码器时应用DMX/RES至伪L/R变换2。因 此,当使用变换编码模式时,对于由残余信号覆盖的频率范围的立体声编 码,可以使用基础核心编码器的立体声编码功能的全效率。

当图9b中的模式选定73作用于单声道输入信号或输入立体声信号 时,图10中的模式选定73’作用于缩混信号DMX和残余信号RES。在单 声道输入信号的情况下,单声道信号可以直接用作DMX信号,RES信号 设置为0,并且PS参数可以默认是IID=0dB和ICC=1。

当模式选定73’将缩混信号DMX控制到线性预测域编码器71时,随 后通过块72中的线性预测分析来分析缩混信号DMX。随后,选定要通过 在MDCT域中运行的时域ACELP型编码器76还是TCX型编码器77(变 换码激励)来对LP残余编码。线性预测域编码器71没有可以用于除了缩 混信号DMX之外对残余信号编码的任何固有的立体声编码能力。因此, 当通过预测域编码器71来对缩混信号DMX编码时,使用专用的残余编码 器78来对残余信号RES编码。例如,这样的编码器78可以是单声道AAC 编码器。

应当注意,可以省略图10中的编码器71和78(在该情况下,不再需 要模式选定级73’)。

图11a示出了实现与图10中的实施例相同的优点的编码器系统的另一 个替选实施例的细节。与图10的实施例形成对比,在图11a中,将 DMX/RES至伪L/R变换2布置在核心编码器70的MDCT分析74之后, 即,变换运行在MDCT域中。块2中的变换是线性的和时间不变的,因 此可以被置于MDCT分析74之后。可以在图11a中以相同的方式可选地 增加图11中未示出的图10的其余块。MDCT分析块74也可以替选地布 置在变换块2之后。

图11b示出了图11a中的实施例的实现。在图11b中,示出了用于在 M/S或L/R编码之间选择的级75的示例性实现。级75包括接收伪立体声 信号Lp、Rp的和与差变换级98(更精确地,L/R至M/S变换级)。变换级 98通过执行L/R至M/S变换来生成伪中央/侧边信号Mp、Sp。除了可能的 增益因子之外,应用以下:Mp=DMX以及Sp=RES。

级75在L/R或M/S编码之间选定。基于该选定,选择伪立体声信号 Lp、Rp或伪中央/侧边信号Mp、Sp(参见选择切换),并在AAC块97中 编码。应当注意,也可以使用两个AAC块97(图11b中未示出),第一 AAC块97被分配给伪立体声信号Lp、Rp,并且第二AAC块97被分配给 伪中央/侧边信号Mp、Sp。在该情况下,通过选择第一AAC块97的输出 或第二AAC块97的输出来执行L/R或M/S选择。

图11c示出了对于图11a中的实施例的替代。在此,不使用明显的变 换级2。而是,变换级2和级75组合为单个级75’。缩混信号DMX和残 余信号RES馈送到作为级75’的一部分的和与差变换级99(更精确地, DMX/RES至伪L/R变换级)。变换级99生成伪立体声信号Lp、Rp。图 11c中的DMX/RES至伪L/R变换级99类似于图11b中的L/R至M/S变 换级98(除了可能不同的增益因子之外)。尽管如此,在图11c中,与图 11b相比,需要反相在M/S和L/R解码之间的选择。注意,在图11b和图 11c中,在Lp/Rp位置中示出了用于L/R或M/S选择的切换的位置,Lp/Rp位置在图11b中是上面的位置,在图11c中是下面的位置。这可视化了L/R 或M/S选择的反相含义的概念。

应当注意,图11b和11c中的切换优选地对于MDCT域中的每一个频 带单独地存在,以使得在L/R和M/S之间的选择可以都是时间和频率变化 的。换言之:切换的位置优选地是频率变化的。变换级98和99可以变换 整个所使用的频率范围,或可以仅变换单个频带。

而且,应当注意,所有的块2、98和99可以被称为“和与差变换块”, 这是因为所有的块以下述形式实现变换矩阵:

c·111-1

只不过,增益因子c可以在块2、98、99中不同。

在图12中,概述了编码器系统的另一个实施例。它使用扩展的PS参 数集,其除了IID和ICC(如上所述)之外还包括两个另外的参数IPD(声 道间相差,参见下面的)和OPD(整体相差,参见下面的),它们 允许表征在立体声信号的两个声道L和R之间的相位关系。在通过引用合 并于此的ISO/IEC 14496-3的子条款8.6.4.6.3中给出了这些相位参数的示 例。当使用相位参数时,根据下式,产生的上混矩阵HCOMPLEX(及其逆) 变为复值:

HCOMPLEX=Hφ·H,

其中

并且其中

在复数QMF域中运行的PS编码器的级80仅关心声道L、R之间的 相位依赖性。在作为立体声核心编码器81的一部分的MDCT域中关心缩 混旋转(即,从L/R域向由上面的矩阵H-1描述的DMX/RES域的变换)。 因此,在复数QMF域中提取两个声道之间的相位依赖性,而在作为所使 用的核心编码器的立体声编码机制的一部分的实数值临界采样MDCT域 中提取其他实数值的波形依赖性。这具有下述优点:声道之间的线性依赖 性的提取可以紧密地集成在核心编码器的立体声编码中(虽然,为了防止 在临界采样MDCT域中的失真,仅对于由残余编码覆盖的频率范围,可 能在频率轴上减去“保护带”)。

图12中的PS编码器的相位调整级80提取相位相关的PS参数,例如, 参数IPD(声道间相差)和OPD(整体相差)。因此,它产生的相位调整 矩阵可以根据下式:

如上所述,在图12中的核心编码器的立体声编码模块81中处理PS 模块的缩混旋转部分。立体声编码模块81在MDCT域中运行,并且在图 13中示出。立体声编码模块81在MDCT域中接收相位调整的立体声信号 该信号通过缩混旋转矩阵H-1在缩混级82中缩混,缩混旋转矩阵 H-1是如上所述的复数缩混矩阵的实数值部分,由此生成缩混信号 DMX和残余信号RES。缩混操作之后接着是根据本申请的逆L/R至M/S 变换(参见变换级2),由此生成伪立体声信号Lp、Rp。通过立体声编码 算法(参见自适应M/S或L/R立体声编码器83)来处理伪立体声信号Lp、 Rp,在该特定实施例中该立体声编码算法是根据感知熵标准来选定对信号 的L/R表示或M/S表示编码的立体声编码机制。该选定优选地是时间和频 率变化的。

在图14中,示出了解码器系统的一个实施例,其适合于对由图6中 所示的编码器系统生成的比特流46解码。该实施例仅是本申请的原理的说 明。可以理解,该实施例的修改和变型对于本领域内的其他技术人员是显 然的。核心解码器90将比特流46解码为伪左和右声道,该伪左和右声道 在QMF域中由滤波器组91变换。随后,在变换级12中执行产生的伪立 体声信号Lp、Rp的固定伪L/R至DMX/RES变换,从而创建缩混信号DMX 和残余信号RES。当使用SBR编码时,这些信号是低频带信号,例如, 缩混信号DMX和残余信号RES可以仅包含用于高达大约8kHz的低频带 的音频信息。缩混信号DMX被SBR解码器93用来基于所接收的SBR参 数(未示出)重建高频带。来自SBR解码器93的输出信号(包括缩混信 号DMX的低频带和重建的高频带)和残余信号RES输入到在QMF域中 (具体地,在混合QMF+奈奎斯特滤波器域中)运行的PS解码器94。在 PS解码器94的输入处的缩混信号DMX还包含高频带(例如,高到20kHz) 中的音频信息,而在PS解码器94的输入处的残余信号RES是低频带信 号(例如,限于8kHz)。因此,对于高频带(例如,对于从8kHz至20kHz 的频带),PS解码器94使用缩混信号DMX的去相关版本而不是使用带限 残余信号RES。在PS解码器94的输出处的解码信号因此基于仅高达8kHz 的残余信号。在PS解码后,PS解码器94的两个输出声道被滤波器组95 在时域中变换,由此生成输出立体声信号L、R。

在图15中,示出了解码器系统的一个实施例,其适合于对由图7中 所示的编码器系统生成的比特流46解码。该实施例仅说明本申请的原理。 可以理解,该实施例的修改和变型对于本领域内的其他技术人员是显然 的。图15中的实施例的主要操作类似于图14中概述的解码器系统的操作。 与图14形成对比,图15中的SBR解码器96位于PS解码器94的输出处。 而且,SBR解码器利用与图14中的单声道SBR参数形成对比的、形成立 体声包络数据的SBR参数(未示出)。在PS解码器94的输入处的缩混和 残余信号通常是低频带信号,例如,缩混信号DMX和残余信号RES可以 包含仅用于低频带的、例如高达大约8kHz的音频信息。基于低频带缩混 信号DMX和残余信号RES,PS编码器94确定低频带立体声信号,例如 高达大约8kHz。基于低频带立体声信号和立体声SBR参数,SBR解码器 96重建立体声信号的高频部分。与图14中的实施例相比,图15中的实施 例提供了下述优点:不需要去相关信号(还参见图8d),从而实现了提高 的音频质量,而在图14中,对于高频部分,需要去相关信号(还参见图 8c),由此降低了音频质量。

图16a示出了与图11a中所示的编码系统相反的解码系统的一个实施 例。输入的比特流信号馈送到解码器块100,该解码器块100生成第一解 码信号102和第二解码信号103。在编码器处,选择M/S编码或L/R编码。 在所接收的比特流中指示这一点。基于该信息,在选择级101中选择M/S 或L/R。如果在编码器中选择M/S,则第一102和第二103信号被转换为 (伪)L/R信号。如果在编码器中选择L/R,则第一102和第二103信号 可以无变换地通过级101。在级101的输出处的伪L/R信号Lp、Rp被变换 级12(该级准执行L/R至M/S变换)转换为DMX/RES信号。优选地, 图16a中的级100、101和12在MDCT域中运行。对于将缩混信号DMX 和残余信号RES变换到时域,可以使用转换块104。其后,产生的信号馈 送到PS解码器(未示出),并且可选地馈送到如图14和15中所示的SBR 解码器。块104也可以替代地布置在块12之前。

图16b示出了图16a中的实施例的实现。在图16b中,示出了用于在 M/S或L/R解码之间选择的级101的示例性实现。级101包括和与差变换 级105(M/S至L/R变换),该变换级接收第一102和第二103信号。

基于在比特流中给出的编码信息,级101选择L/R或M/S解码。当选 择L/R解码时,解码块100的输出信号馈送到变换级12。

图16c示出了对于图16a中的实施例的替代。在此,不使用明确的变 换级12。而是,变换级12和级101合并为单个级101’。第一102和第二 103信号馈送到作为级101’的一部分的和与差变换级105’(更精确地,伪 M/S至DMX/RES变换级)。变换级105’生成DMX/RES信号。图16c中 的变换级105’与图16b中的变换级105类似或相同(除了可能不同的增益 因子之外)。在图16c中,与图16b相比,需要反相在M/S和L/R解码之 间的选择。在图16c中,开关在下位,而在图16b中,开关在上位。这可 视化了L/R或M/S选择的反相(选择信号可以简单地由反相器反相)。

应当注意,图16b和16c中的开关优选地对于MDCT域中的每一个 频带单独地存在,以使得在L/R和M/S之间的选择可以是时间和频率变化 的。变换级105和105’可以变换整个使用的频率范围或可以仅变换单个频 带。

图17示出了用于将立体声信号L、R编码为比特流信号的编码系统的 另一个实施例。编码系统包括缩混级8,用于基于立体声信号生成缩混信 号DMX和残余信号RES。此外,编码系统包括参数确定级9,用于确定 一个或更多个参数立体声参数5。此外,编码系统包括在缩混级8下游的 用于感知编码的装置110。编码能够选择:

-基于缩混信号DMX和残余信号RES的和信号与基于缩混信号DMX 和残余信号RES的差信号的编码;或者,

-基于缩混信号DMX和残余信号RES的编码。

优选地,选择是时间和频率变化的。

编码装置110包括生成和与差信号的和与差变换级111。此外,编码 装置110包括选择块112,用于选择基于和与差信号或基于缩混信号DMX 和残余信号RES的编码。另外,设置了编码块113。或者,可以使用两个 编码块113,第一编码块113对DMX和RES信号编码,并且第二编码块 113对和与差信号编码。在该情况下,选择112在两个编码块113的下游。

块111中的和与差变换是下述形式的:

c·111-1

变换块111可以对应于图11c中的变换块99。

在复用器7中将感知编码器110的输出与参数立体声参数5组合以形 成产生的比特流6。

与图17中的结构形成对比,当编码通过经由图11b中的两个串行和 与差变换(参见两个变换块2和98)来变换缩混信号DMX和残余信号 RES而生成的产生的信号时,可以实现基于缩混信号DMX和残余信号 RES的编码。在两个和与差变换后产生的信号对应于缩混信号DMX和残 余信号RES(除了可能的不同增益因子之外)。

图18示出了与图17中的编码器系统相反的解码器系统的一个实施 例。该解码器系统包括用于基于比特流信号进行感知解码的装置120。在 解码之前,在解复用器10中将PS参数与比特流信号6分离。解码装置120 包括核心解码器121,核心解码器121生成第一信号122和第二信号123 (通过解码)。解码装置输出缩混信号DMX和残余信号RES。

缩混信号DMX和残余信号RES选择性地

-基于第一信号122和第二信号123的和以及基于第一信号122和第 二信号123的差,或者

-基于第一信号122以及基于第二信号123。

优选地,该选择是时间和频率变化的。在选择级125中执行该选择。

解码装置120包括生成和与差信号的和与差变换级124。

块124中的和与差变换具有下述形式

c·111-1

变换块124可以对应于图16c中的变换块105’。

在选择后,DMX和RES信号馈送到上混级126,用于基于缩混信号 DMX和残余信号RES生成立体声信号L、R。上混操作依赖于PS参数5。

优选地,在图17和18中,选择是频率变化的。在图17中,可以在 感知编码装置110中执行例如时间至频率变换(例如,通过MDCT或分析 滤波器组)作为第一步骤。在图18中,可以在感知解码装置120中执行例 如频率至时间变换(例如,通过逆MDCT或合成滤波器组)作为最后的 步骤。

应当注意,在上述实施例中,信号、参数和矩阵可以是频率变化的或 频率不变的以及/或者时间变化的或时间不变的。可以以频率方式或对于全 部音频频带执行所述的计算步骤。

而且,应当注意,各种和与差变换,即DMX/RES至伪L/R变换、伪 L/R至DMX/RES变换、L/R至M/S变换和M/S至L/R变换都是下述形 式的:

c·111-1

只不过,增益因子c可以是不同的。因此,原则上,这些变换中的每 一个可以由这些变换中的不同变换来交换。如果在编码处理期间增益不正 确,则可以在解码处理中补偿这一点。而且,当布置两个相同或两个不同 的和与差变换是串行的时,产生的变换对应于单位矩阵(可能乘以增益因 子)。

在包括PS编码器和SBR编码器的编码器系统中,不同的PS/SBR配 置是可能的。在第一配置中,如图6中所示,SBR编码器32连接到PS编 码器41的下游。在第二配置中,如图7中所示,SBR编码器42连接到 PS编码器41的上游。取决于例如期望的目标比特率、核心编码器的属性 和/或一个或更多个各种其他因素,该配置之一可以优选于另一个,以便提 供最佳的性能。通常,对于较低的比特率,第一配置可以是优选的,而对 于较高的比特率,第二配置可以是优选的。因此,期望的是:编码器系统 支持两种不同的配置以能够取决于例如期望的目标比特率和/或一个或更 多个其他标准来选择优选的配置。

同样,在包括PS解码器和SBR解码器的解码器系统中,不同的 PS/SBR配置是可能的。在第一配置中,如图14中所示,SBR解码器93 连接到PS解码器94的上游。在第二配置中,如图15中所示,SBR解码 器96连接到PS解码器94的下游。为了实现正确的操作,解码器系统的 配置必须匹配编码器系统的配置。如果根据图6来配置编码器,则根据图 14来对应地配置解码器。如果根据图7来配置编码器,则根据图15来对 应地配置解码器。为了保证正确的操作,编码器优选地向解码器以信号通 知选择哪个PS/SBR配置来用于编码(从而,要选择哪个PS/SBR配置来 用于解码)。基于该信息,解码器选择适当的解码器配置。

如上所述,为了保证正确的解码器操作,优选地,存在从编码器向解 码器以信号通知要在解码器中使用哪种配置的机制。这可以明确地(例如, 如下所述通过比特流的配置头部中的专用比特或字段)或隐含地(例如, 通过在PS数据存在的情况下查看SBR数据是单声道还是立体声)进行。

如上所述,为了以信号通知所选择的PS/SBR配置,可以使用从编码 器向解码器传送的比特流的比特流头部中的专用元素。这样的比特流头部 携带用于使得解码器能够正确地对比特流中的数据解码所需的必要配置 信息。比特流头部中的专用元素可以例如是一个比特的标记、字段,或它 可以是指向指定不同解码器配置的表中的特定条目的索引。

取代比特流头部中包括用于通知PS/SBR配置的附加专用元素,可以 在解码系统处评估比特流中已经存在的信息以用于选择正确的PS/SBR配 置。例如,可以从用于PS解码器和SBR解码器的比特流头部配置信息得 出所选择的PS/SBR配置。该配置信息通常指示SBR解码器是否要被配置 来用于单声道操作或立体声操作。如果例如PS解码器被使能并且SBR解 码器被配置用于单声道操作(如在配置信息中所示),则可以选择根据图 14的PS/SBR配置。如果PS解码器被使能并且SBR解码器被配置用于立 体声操作,则可以选择根据图15的PS/SBR配置。

上述实施例仅是本发明的原理的说明。可以理解,在此所述的布置和 细节的修改和变型对于本领域内的其他技术人员是显然的。因此,意在本 申请的范围不由通过在此的实施例的说明和描述提供的具体细节限制。

在本申请中公开的系统和方法可以被实现为软件、固件、硬件或其组 合。特定部件或全部部件可以被实现为在数字信号处理器或微处理器上运 行的软件,或被实现为硬件或专用集成电路。

利用所公开的系统和方法的典型设备是便携音频播放器、移动通信设 备、机顶盒、电视机、AVR(音频视频接收器)、个人计算机等。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号