首页> 中国专利> 音频或视频编码器、音频或视频解码器及利用可变预测方向处理多信道音频或视频信号的相关方法

音频或视频编码器、音频或视频解码器及利用可变预测方向处理多信道音频或视频信号的相关方法

摘要

一种音频或视频编码器和音频或视频解码器基于两个音频或视频信道(201、202)的合成以获得作为中信号的第一合成信号(204)和可利用源自中信号的预测侧信号得出的剩余信号(205)。第一合成信号和预测剩余信号连同基于最优化目标(208)和指示与剩余信号相关的预测方向的预测方向指示符由优化器(207)得出的预测信息(206)一起被编码(209)并写入(212)数据流(213)中。解码器利用预测剩余信号、第一合成信号、预测方向指示符和预测信息得出解码后的第一信道信号和解码后的第二信道信号。在编码器实例或解码器实例中,实部-虚部转换可应用于估计第一合成信号的频谱的虚部。为计算在预测剩余信号的得出中使用的预测信号,实值第一合成信号乘以复预测信息的实部且第一合成信号的估计虚部乘以复预测信息的虚部。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-01-13

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L19/008 变更前: 变更后: 申请日:20110217

    专利权人的姓名或者名称、地址的变更

  • 2015-11-25

    授权

    授权

  • 2013-05-15

    实质审查的生效 IPC(主分类):G10L19/008 申请日:20110217

    实质审查的生效

  • 2013-04-17

    公开

    公开

说明书

技术领域

本发明涉及音频或视频处理,且具体地,涉及具有两个以上信道信号 的多信道信号的多信道音频或视频处理。

背景技术

已知在多信道或立体声处理领域中应用所谓的中/侧(mid/side)立体 声编码。在此概念中,形成了左或第一音频信道信号与右或第二音频信道 信号的合成,以获得中间或单信号M。此外,形成了左或第一信道信号与 右或第二信道信号之间的差,以获得侧信号S。当左信号与右信号彼此非 常相似时,由于侧信号将变得非常小,所以该中/侧编码方法导致了显著的 编码增益。通常,当要量化/熵编码的值的范围变得更小时,量化器/熵编 码器级的编码增益将变得更高。因此,对于PCM或基于霍夫曼或算术熵 编码器,当侧信号变得更小时,编码增益增大。然而,存在中/侧编码将不 会导致编码增益的特定情况。该情况可能在两个信道中的信号彼此例如相 移90°时发生。则中信号和侧信号可处于非常相似的范围内,且因此,利 用熵编码器来编码中信号和侧信号将不会产生编码增益且甚至可能产生 增大的位率。因此,例如在侧信号未相对于原始左信号变小到特定程度的 情况下,可应用频率选择性的中/侧编码以停用频带中的中/侧编码。

尽管当左右信号相同时侧信号将变为零,但由于侧信号消除而产生了 最大编码增益,当中信号与侧信号关于波形形状相同时,情况再次变得不 同,但两个信号之间唯一不同是它们的总振幅。在该情况下,当另外假定 侧信号与中信号无相移时,侧信号显著增大,尽管另一方面,中信号相对 于其值的范围不会减少那么多。当该情况发生在特定频带中时,则由于缺 少编码增益而将再次停用中/侧编码。中/侧编码可被频率选择性地应用或 可替代性地应用在时域中。

存在不依赖于与中/侧编码相同的波形方法类型而依赖于基于特定双 耳线索的参数处理的替代性多信道编码技术。该技术被冠名为术语“双耳 线索编码”、“参数立体声编码”或“MPEG环绕编码”。这里,特定线索 针对多个频带而计算。这些线索包括内信道量级差、内信道相干性测量、 内信道时间差和/或内信道相差。这些方法从假定由听众感受到的多信道印 象不必依赖于两个信道的精细波形而是依赖于准确的频率选择性提供的 线索或内信道信息开始。这意味着,在渲染机中,必须关注渲染准确反映 线索的多信道信号,但波形不具决定性意义。

该方法可能在解码器必须应用解相关处理以人工产生彼此解相关的 立体声信号的情况下尤其复杂,尽管所有这些信道均源自一个和相同的下 混信道。根据它们的实施,为此目的的解相关器复杂且可能引入伪差,尤 其在瞬时信号部分的情况下。此外,相比波形编码,参数编码方法是有损 编码方法,其不可避免地导致由典型量化引入的以及通过聚焦于双耳线索 而非具体波形而引入的信息损失。该方法产生非常低的位率,但可能包括 质量折衷。

存在对图7a所示的统一语音和音频编码(USAC)的新发展。核心 解码器700在输入端701处执行编码立体声信号的解码操作,该编码立体 声信号可以是中/侧编码的。核心解码器在线702上输出中信号且在线703 上输出侧或剩余(residual,余差)信号。两个信号由QMF滤波器组704 和705转换到QMF域中。随后,应用MPEG环绕解码器706来生成左信 道信号707和右信道信号708。这些低频带信号随后被引入频带复制(SBR) 解码器709中,解码器709在线710和711上生成宽带左信号和右信号, 宽带左信号和右信号随后由QMF合成滤波器组712、713转换到时域中, 从而获得宽带左右信号L、R。

图7b示出了MPEG环绕解码器706将执行中/侧解码的情况。可替 代地,MPEG环绕解码器块706可执行基于双耳线索的参数解码以由单个 单核解码器信号生成立体声信号。自然,MPEG环绕解码器706也可使用 诸如内信道量级差、内信道相干性测量或其他这种内信道信息参数的参数 信息来生成多个低频带输出信号,该多个低频带输出信号将被输入到SBR 解码器块709中。

当MPEG环绕解码器块706执行图7b所示中/侧解码时,可应用实 际增益因子g,且DMX/RES和L/R分别为在复混合QMF域中给出的下 混/剩余和左/右信号。

使用块706与块709的结合仅使计算复杂度相比用作基础的立体声解 码器小幅增加,因为信号的复QMF表示已可用作SBR解码器的一部分。 然而,在非SBR配置中,由于该实例性64频带分析组和64频带合成组 中将需要的必要QMF组,如USAC背景下提出的基于QMF的立体声编 码将导致计算复杂度显著增加。仅为立体声编码的目的,必须添加这些滤 波器组。

然而,在正处于开发中的MPEG USAC系统中,通常在未使用SBR 时,也存在高位率的编码模式。

发明内容

本发明的目的在于提供一种改善后的音频或视频处理概念,其一方面 产生高编码增益,且另一方面,产生良好音频或视频质量和/或减小的运算 复杂度。

该目的由根据权利要求1所述的音频或视频解码器、根据权利要求 13所述的音频或视频编码器、根据权利要求19所述的音频或视频解码方 法、根据权利要求18所述的音频或视频编码方法、根据权利要求19所述 的计算机程序或根据权利要求20所述的编码后的多信道音频或视频信号 来实现。

本发明依赖于高质量波形编码方法的编码增益可通过利用第一合成 信号预测第二合成信号来显著增强的研究成果,其中,利用合成规则(诸 如中/侧合成规则),这两个合成信号均源自于原始信号。已发现该预测信 息由音频或视频编码器中的预测器来计算,从而满足最优化目标,仅产生 很小开销,但却在不损失任何音频或视频质量的情况下使得侧信号所需的 位率显著减小,因为本发明的预测终究是基于波形的编码而非基于参数的 立体声或多信道编码方法。为减小计算复杂性,优选执行频域编码,其中, 预测信息以频带选择方式源自于频域输入数据。用于将时域表示转换成频 谱表示的转换算法优选是临界采样过程(critically sampled process)(诸如 修改后的离散余弦转换(MDCT)或修改后的离散正弦转换(MDST)), 其与复转换的不同之处在于仅计算实值或仅计算虚值,而在复转换中,计 算频谱的实值和复值,产生2倍过采样。

此外,切换预测方向的概念实现了具有最少计算量的预测增益的增 加。为此,编码器确定指示与预测剩余信号相关联的预测方向的预测方向 指示符(prediction direction indicator)。在一种实施方式中,第一合成信号 (诸如中信号)用于预测第二合成信号(诸如侧信号)。当中信号的能量 高于侧信号的能量时,该方法是有用的。然而,当诸如侧信号的第二合成 信号的能量高于第一合成信号的能量时,即当侧信号的能量高于中信号的 能量时,则预测方向被逆转且侧信号用于预测中信号。在第一种情况下, 即当中信号用于预测侧信号时,中信号、剩余信号、预测信息和指示该预 测方向的预测方向指示符从编码器被发送至解码器。在第二种情况下,当 第二合成信号用于预测第一合成信号时,诸如当侧信号用于预测中信号 时,侧信号(而非中信号)与剩余信号、预测信息和指示该逆转方向的预 测方向指示符一起被发送。

该过程允许更好地屏蔽所产生的量化噪声。对于在诸如侧信道的第二 合成信号中具有其大部分能量的信号,由侧信号S来预测诸如中信号的第 一合成信号允许量化噪声的主要部分根据原始声源而平移。这反过来又使 得最终输出信号中感知到更合适的误差分布。

该过程具有另一优势:它提供了有效多信道成对编码,其在仅有两个 信道的情况下为有效立体声编码。对于中/侧(M/S)编码的预测方向的信 号适应性选择确保在计算复杂性的最小增加的情况下对侧信号中具有主 导能量的信号的较高预测增益。此外,获得了由于感知到的量化噪声的空 间方向向主信号方向的平移而引起的感知上更适合的对所产生的量化噪 声的屏蔽。此外,减小了关于在位流中被传送的预测系数的值的范围,这 允许更有效的预测信息/系数的编码。该过程对诸如双信道或多信道音频和 视频信号的联合转换编码的各类立体声处理应用均是有用的。

优选地,使用基于混叠(aliasing)引入和消除的转换。具体地,MDCT 即是这种转换且允许在随后的块之间交叉淡入淡出而没有任何开销,这是 由于由解码器侧的交叠-相加处理获得的已知时域混叠消除(TDAC)特性 所致。

优选地,在编码器中计算、发送至解码器以及在解码器中使用的预测 信息包括虚部,该虚部可有利地反映在0°与360°之间任意选择的量的两 音频或视频信道之间的相位差。当仅实值转换或者一般地,仅提供实部频 谱或仅提供虚部频谱的转换被应用时,计算复杂性显著降低。为利用指示 左信号的特定频带与右信号的相应频带之间的相移的这一虚预测信息,实 部-虚部转换器或者取决于转换实施、虚部-实部转换器在解码器中被提供 以由第一合成信号来计算相对于原始合成信号相位旋转的相位旋转预测 信号。该相位旋转预测信号可随后与在位流中传送的预测剩余信号合成以 重新产生侧信号,该侧信号最终可与中信号合成以获得特定频带中的解码 左信道和该频带中的解码右信道。

为提高音频或视频质量,当预测剩余信号在编码器中计算时,应用于 解码器侧的相同的实部-虚部或虚部-实部转换器也在编码器侧实施。

本发明的优势在于其提供了相比具有相同位率或具有相同音频或视 频质量的系统的改善后的音频或视频质量和降低的位率。

此外,在通常未使用SBR的情况下,获得了有关在高位速率下的 MPEG USAC系统中有用的统一立体声编码的计算效率的优势。这些方法 在基本的立体声转换编码器的本地MDCT域中实施基于剩余的预测立体 声编码,而不是处理复混合QMF域中的信号。

根据本发明的一个方面,本发明包括用于由MDCT域中的复预测生 成立体声信号的设备或方法,其中,复预测利用实数-复数转换在MDCT 域中完成,其中,该立体声信号可以是编码器侧的编码立体声信号,或者 可替代地,当用于生成立体声信号的设备或方法被应用于解码器侧时可以 是解码/发送立体声信号。

附图说明

随后参照附图来讨论本发明的优选实施方式,其中:

图1是音频或视频解码器的优选实施方式的框图;

图2是音频或视频编码器的优选实施方式的框图;

图3a示出了图2的编码器计算器的实施;

图3b示出了图2的编码器计算器的替代性实施;

图3c示出了应用于编码器侧的中/侧合成规则;

图4a示出了图1的解码器计算器的实施;

图4b示出了矩阵计算器形式的解码器计算器的替代性实施;

图4c示出了对应于图3c所示的合成规则的中/侧逆合成规则;

图5a示出了在优选为实值频域的频域中工作的音频或视频编码器的 实施方式;

图5b示出了在频域中工作的音频或视频解码器的实施;

图6a示出了在MDCT域中工作并利用实部-虚部转换的音频或视频 编码器的替代性实施;

图6b示出了在MDCT域中工作并利用实部-虚部转换的音频或视频 解码器;

图7a示出了利用立体声解码器和随后连接的SBR解码器的音频后处 理器;

图7b示出了中/侧上混矩阵;

图8a示出了图6a中的MDCT块的详细示图;

图8b示出了图6b的MDCT-1块的详细示图;

图9a示出了以相对于MDCT输出的减小的分辨率运行的优化器的实 施;

图9b示出了计算预测信息的MDCT频谱和相应的较低分辨率频带的 表示;

图10a示出了图6a或图6b中的实部-虚部转换器的实施;

图10b示出了图10a的虚部频谱计算器的可行实施;

图11a示出了具有可逆预测方向的音频编码器的优选实施;

图11b示出了具有用于处理由可逆预测方向生成的剩余信号的能力 的相关音频或视频解码器的优选实施;

图12a示出了具有可逆预测方向的音频或视频编码器的另一优选实 施方式;

图12b示出了由预测方向指示符控制的音频或视频解码器的另一实 施方式。

图13a示出了预测方向标志;

图13b示出了取决于预测方向指示符的不同编码器侧预测规则的实 施;

图13c示出了关于具有第一状态的预测方向指示符的解码器侧计算 规则;

图13d示出了关于具有第二状态的不同预测方向指示符的解码器侧 计算规则;

图13e示出了应用在音频或视频编码器或者音频或视频解码器的实 施方式中的复值乘法;以及

图14示出了用于确定预测方向指示符的实施方式。

具体实施方式

图1示出了用于解码在输入线100处获得的编码后的多信道音频信号 的音频或视频解码器。该编码后的多信道音频信号包括利用用于合成表示 多信道音频信号的第一信道信号与第二信道信号的合成规则生成的编码 后的第一合成信号、编码后的预测剩余信号和预测信息。该编码后的多信 道信号可以是数据流,诸如具有三个复用形式分量的位流。其他侧信息可 包括在线100上的编码后的多信道信号中。该信号被输入到输入接口102 中。输入接口102可被实施为数据流解复用器,其在线104上输出编码后 的第一合成信号,在线106上输出编码后的剩余信号,以及在线108上输 出预测信息。优选地,该预测信息是具有不等于零的实部和/或异于零的虚 部的因子。编码后的合成信号和编码后的剩余信号被输入到信号解码器 110中来解码第一合成信号以在线112上获得解码后的第一合成信号。此 外,信号解码器110被配置为解码编码后的剩余信号以在线114上获得解 码后的剩余信号。根据音频编码器侧的编码处理,该信号解码器可包括熵 解码器(诸如霍夫曼解码器、算术解码器或任何其他熵解码器),以及用 于执行与关联音频编码器中的量化运算相匹配的解量化运算的随后连接 的解量化级。线112和114上的信号被输入到解码器计算器115中,解码 器计算器115在线117上输出第一信道信号,以及在线118上输出第二信 道信号,其中,这两个信号是立体声信号或多信道音频信号的两个信道。 例如,当多信道音频信号包括五个信道时,则这两个信号是来自多信道信 号的两个信道。为完全编码具有五个信道的这种多信道信号,可应用根据 图1的两个解码器,其中,第一解码器处理左信道和右信道,第二解码器 处理左环绕信道和右环绕信道,以及第三单信道解码器将用于执行中心信 道的单信道解码。然而,也可应用波形编码器和参数编码器的其他分组或 组合。概括多于两个信道的预测方案的替代性方式将是同时处理三个(或 更多个)信号,即利用两个预测系数由第一和第二信号来预测第三合成信 号,非常类似于MPEG环绕声中的“二到三”模块。

此外,在输入线100处获得的编码后的多信道音频信号包括预测方向 指示符。该预测方向指示符(诸如预测方向标志)由输入接口102从编码 后的多信道信号中提取,并转发至解码器计算器116,使得该解码器计算 器根据预测信息、解码后的第一(或第二)合成信号和由输入接口102提 供的预测方向指示符来计算解码后的多信道信号。

解码器计算器116被配置为利用解码后的剩余信号114、预测信息108 和解码后的第一合成信号112来计算具有解码后的第一信道信号117和解 码后的第二信道信号118的解码后的多信道信号。具体地,解码器计算器 116被配置为以使解码后的第一信道信号和解码后的第二信道信号至少为 输入到相应编码器中的多信道信号的第一信道信号和第二信道信号的近 似这一方式来工作,当生成第一合成信号和预测剩余信号时,解码后的第 一信道信号和解码后的第二信道信号由合成规则来合成。具体地,线108 上的预测信息包括异于零的实值部分和/或异于零的虚部。

解码器计算器116可以不同方式来实施。第一实施在图4a中示出。 该实施包括预测器1160、合成信号计算器1161和合成器1162。该预测器 接收解码后的第一合成信号112和预测信息108,并输出预测信号1163。 具体地,预测器1160被配置为向解码后的第一合成信号112或源自于解 码后的第一合成信号的信号应用预测信息108。用于导出应用预测信息108 的该信号的导出规则可以是实部-虚部转换,或等价地,虚部-实部转换或 加权运算,或者根据实施,相移运算或合成的加权/相移运算。预测信号 1163与解码后的剩余信号一起输入到合成信号计算器1161中以计算解码 后的第二合成信号1165。信号112和1165均被输入到合成器1162中,合 成器1162合成解码后的第一合成信号与第二合成信号以分别在输出线 1166和1167上获得具有解码后的第一信道信号和解码后的第二信道信号 的解码后的多信道音频信号。可替代地,该解码器计算器被实施为矩阵计 算器1168,该矩阵计算器1168接收解码后的第一合成信号或信号M、解 码后的剩余信号或信号D以及预测信息α108作为输入。矩阵计算器1168 向信号M、D应用如1169所示的转换矩阵以获得输出信号L、R,其中, L是解码后的第一信道信号,以及R是解码后的第二信道信号。图4b中 的符号类似于具有左信道L和右信道R的立体声符号。该符号已被应用以 提供更简单的理解,但对于本领域技术人员而言,显然信号L、R可以是 具有多于两个信道信号的多信道信号中的两个信道信号的任何合成。矩阵 运算1169将图4a的块1160、1161和1162中的运算统一成一种“单次” 矩阵计算,且向图4a电路的输入和从图4a电路的输出与向矩阵计算器 1168的输入或从矩阵计算器1168的输出相同。

图4c示出了关于由图4a中的合成器1162应用的逆合成规则的一个 实例。具体地,该合成规则类似于已知的中/侧编码中的解码器侧合成规则, 其中,L=M+S,且R=M-S。需要理解,由图4c中的逆合成规则使用的信 号S是由合成信号计算器计算的信号,即线1163上的预测信号与线114 上的解码后的剩余信号的合成。需要理解,在该说明书中,线上的信号有 时由用于该线的附图标记来命名,或者有时由已属于该线的附图标记本身 来指示。因此,该符号如下:具有特定信号的线指示信号本身。线可以是 硬连线实施中的物理线。然而,在计算机化实施中,物理线并不存在,但 由该线表示的信号从一个计算模块被发送至另一计算模块。

图11b示出了根据在预测方向指示符输入401处提供的预测方向指示 符来工作的解码器计算器的另一优选实施。根据预测方向指示符的状态, 应用402所示的第一计算规则或403所示的第二计算规则。另一计算规则 402在输出处提供了第一信道信号和第二信道信号,且第一计算规则可如 后续描述的图13c所示来实施。在第一合成信号为中信号且第二合成信号 为侧信号的特定实施方式中,预测方向指示符具有“0”值,以及预测从 第一合成信号向第二合成信号执行。在该情况下,输入404具有中信号, 即第一合成信号。然而,当预测方向指示符等于“1”时,则开关405使 输入404与第二计算规则装置403的输入连接。在该情况下,执行从诸如 侧信号的第二合成信号到诸如中信号的第一合成信号的预测,且输入404 将具有侧信号而非中信号。第二计算规则装置403将再次输出第一信道信 号和第二信道信号,但用于计算这两个信号(即立体声实施方式中的左信 号和右信号)的规则将是不同的。关于第二计算规则的特定实施方式在后 续讨论的图13d中示出。

图2示出了用于编码具有两个以上信道信号的多信道音频信号200 的音频编码器,其中,第一信道信号在201处示出且第二信道在202处示 出。两个信号均被输入到编码器计算器203中以利用第一信道信号201和 第二信道信号202以及预测信息206来计算第一合成信号204和预测剩余 信号205,使得当预测剩余信号205与源自于第一合成信号204和预测信 息206的预测信号合成时,产生第二合成信号,其中,利用合成规则,第 一合成信号和第二合成信号均可从第一信道信号201和第二信道信号202 获得。

该预测信息由用于计算预测信息206的优化器207生成,使得预测剩 余信号满足最优化目标208。第一合成信号204和剩余信号205被输入到 信号编码器209中以编码第一合成信号204来获得编码后的第一合成信号 210以及编码剩余信号205来获得编码后的剩余信号211。编码信号210、 211两者均被输入到输出接口212中以合成编码后的第一合成信号210和 编码后的预测剩余信号211以及预测信息206来获得编码后的多信道信号 213,编码后的多信道信号213与输入到图1所示的音频解码器的输入接 口102中的编码后的多信道信号100类似。

根据实施,优化器207接收第一信道信号201和第二信道信号202, 或如由线214和215所示源自于图3a的合成器2031的第一合成信号214 和第二合成信号215,这将后续讨论。

优选的最优化目标在图2中示出,其中,编码增益被最大化,即尽可 能降低位率。在该最优化目标中,剩余信号D相对于α被最小化。换言之, 这意味着预测信息α被选定为使得||S–αM||2最小化。这产生了针对图2 所示α的解。信号S、M以逐块方式给出,且优选为频域信号,其中,符 号||...||是指自变量的2-范数,以及其中,<…>通常示出点积。当第一信道 信号201和第二信道信号202被输入到优化器207中时,则该优化器将必 须应用合成规则,其中,示例性合成规则在图3c中示出。然而,当第一 合成信号214和第二合成信号215被输入到优化器207中时,则优化器207 本身并不需要实施该合成规则。

其他最优化目标可与感知质量有关。最优化目标可以是获得最大感知 质量。则该优化器将需要来自感知模型的附加信息。最优化目标的其他实 施可与获得最小的或固定的位率有关。则优化器207将被实施以执行量化 /熵编码操作来确定特定α值所需的位率,使得α可被设定为满足这些要 求,诸如最小位率,或可替代地,固定位率。该最优化目标的其他实施可 与编码器或解码器资源的最小利用率有关。在实施该最优化目标的情况 下,关于特定最优化所需资源的信息将可供优化器207使用。此外,这些 最优化目标或其他最优化目标的合成可用于控制计算预测信息206的优化 器207。

该音频编码器另外包括预测方向计算器219,该预测方向计算器219 在其输出端提供指示与图2中由编码器计算器203输出的预测剩余信号 205相关联的预测方向的预测方向指示符。预测方向计算器219可以不同 方式来实施,其中,若干实例在图14背景下讨论。

图2中的编码器计算器203可以不同方式来实施,其中,示例性第一 实施在图3a中示出,其中,显式(explicit)合成规则在合成器2031中执 行。替代性示例性实施在图3b中示出,其中,使用矩阵计算器2039。图 3a中的合成器2031可被实施以执行图3c所示的合成规则,该合成规则是 示例性已知的中/侧编码规则,其中,加权因子0.5被应用于所有分支。然 而,根据实施,可使用其他加权因子或完全没有加权因子(统一加权)。 此外,需要注意,只要存在可应用于图4a所示的解码器合成器1162的相 应逆合成规则(解码器合成器1162应用与由编码器应用的合成规则相反 的合成规则),可应用其他合成规则(诸如其他线性合成规则或非线性合 成规则)。由于本发明的预测,任何可逆预测规则均可被使用,因为对波 形的影响被该预测“平衡”,即任何误差均包括在所发送的剩余信号中, 这是因为由与编码器计算器203结合的优化器207执行的预测操作是波形 保持处理。

合成器2031输出第一合成信号204和第二合成信号2032。该第一合 成信号被输入到预测器2033中,以及第二合成信号2032被输入到剩余计 算器2034中。预测器2033计算预测信号2035,该预测信号2035与第二 合成信号2032合成以最终获得剩余信号205。具体地,合成器2031被配 置为以两种不同方式来合成多信道音频信号的两个信道信号201和202以 获得第一合成信号204和第二合成信号2032,其中,这两种不同方式在图 3c的示例性实施方式中示出。预测器2033被配置为向第一合成信号204 或源自于该第一合成信号的信号应用预测信息以获得预测信号2035。源自 于该合成信号的信号可由任何非线性或线性运算来导出,其中,实部-虚 部转换/虚部-实部转换是优选的,该转换可利用线性滤波器(诸如执行特 定值的加权加法的FIR滤波器)来实施。

图3a中的剩余计算器2034可执行减法运算,使得该预测信号从第二 合成信号中被减去。然而,该剩余计算器中的其他运算也是可行的。相应 地,图4a中的合成信号计算器1161可执行加法运算,其中,解码后的剩 余信号114与预测信号1163相加到一起来获得第二合成信号1165。

图11a示出了编码器计算器的优选实施。根据输入到预测方向输入 501中的预测方向指示符,选择第一预测规则502或第二预测规则503, 这由受控选择开关505来示出。第一预测规则可类似于图13b中所示,为 第一选择,以及第二预测规则可类似于图13b中所示,为第二选择。块502、 503的输出(即合成信号和剩余信号)可被转发至输出接口,或在信号编 码的情况下,转发至图2中的信号编码器209。此外,预测方向指示符与 预测信息、编码后的剩余信号和编码后的合成信号一起被输入到输出位流 中,在预测方向指示符等于“0”的情况下,该编码后的合成信号可以是 第一合成信号,或者在预测方向指示符等于“1”的情况下,该编码后的 合成信号可以是第二合成信号。

图5a示出了音频编码器的优选实施。相比图3a所示的音频编码器, 第一信道信号201是时域第一信道信号55a的频谱表示。相应地,第二信 道信号202是时域信道信号55b的频谱表示。从时域到频谱表示的转换由 用于第一信道信号的时间/频率转换器50和用于第二信道信号的时间/频 率转换器51来执行。优选但非必要地,频谱转换器50、51被实施为实值 转换器。转换算法可以是离散余弦转换(DCT)、仅使用实部的FFT、MDCT 或提供实值频谱值的任何其他转换。可替代地,这两种转换均可被实施为 虚部转换,诸如仅使用虚部而摒弃实部的DST、MDST或FFT。也可使用 仅提供虚部的任何其他转换。利用纯实值转换或纯虚部转换的一个目的在 于计算复杂性,因为对于每一频谱值而言,仅单一值(诸如幅值或实部) 必须被处理,或者可替代地,相位或虚部必须被处理。相比之下,在完全 复转换(诸如FFT)中,两个值(即针对每一频谱线的实部和虚部)将必 须被处理,这使计算复杂性增加至少2的倍数。这里,利用实值转换的另 一原因是该转换通常是临界采样的,且因此为信号量化和熵编码(实施在 “MP3”、AAC或类似音频编码系统中的标准“感知音频编码”范例)提 供合适(和常用)的域。

图5a另外示出了作为加法器的剩余计算器2034,其在“加”输入处 接收侧信号并在“减”输入处接收由预测器2033输出的预测信号。此外, 图5a示出了预测器控制信息从优化器转发至复用器212的情况,该复用 器212输出表示编码后的多信道音频信号的复用位流。具体地,预测操作 以侧信号由中信号预测这一方式来执行,如由图5a右侧方程所示。

尽管图5a示出了从M到S的预测,即侧信号由中信号预测(这在预 测方向指示符等于零时发生),但当预测方向指示符等于1时,应用逆预 测。则执行从S到M的预测。这可通过调换块2031的输出来示出,从而 上输出具有侧信号且下输出具有中信号。

优选地,预测器控制信息206是如图3b右侧所示的因子。在预测控 制信息仅包括实部(诸如复值α的实部或复值α的大小,其中,该部分对 应于异于零的因子)的实施方式中,当中信号与侧信号由于其波形结构而 彼此类似但具有不同振幅时,可获得显著的编码增益。

然而,当预测控制信息仅包括第二部分(该第二部分可以是复值因子 的虚部或复值因子的相位信息,其中,该虚部或相位信息异于零)时,本 发明对于彼此相移异于0°或180°的值以及除相移之外具有类似波形特性 和类似振幅关系的信号获得显著编码增益。

优选地,预测控制信息是复值的。则可针对振幅不同且相移的信号获 得显著编码增益。在时间/频率转换提供复频谱的情况下,运算2034将是 复运算,其中,该预测器控制信息的实部被应用于复频谱M的实部以及 该复预测信息的虚部被应用于复频谱的虚部。则在加法器2034中,该预 测操作的结果是预测实部频谱和预测虚部频谱,且该预测实部频谱将从侧 信号S的实部频谱中被减去(频带式),以及该预测虚部频谱将从S的频 谱虚部中被减去以获得复的剩余频谱D。

时域信号L和R是实值信号,但频域信号可以是实值或复值的。当 频域信号为实值时,则该转换是实值转换。当频域信号为复值时,则该转 换是复值转换。这意味着到时间-频率转换的输入和频率-时间转换的输出 是实值的,而频域信号可以是例如复值QMF域信号。

图5b示出了对应于图5a所示的音频编码器的音频解码器。关于图1 音频解码器的类似元件具有类似附图标记。

由图5a中的位流复用器212输出的位流被输入到图5b中的位流解复 用器102中。位流解复用器102将该位流解复用为下混信号M和剩余信 号D。下混信号M被输入到解量化器110a中。剩余信号D被输入到解量 化器110b中。此外,位流解复用器102将来自位流的预测器控制信息108 解复用并同样输入到预测器1160中。预测器1160输出预测侧信号α·M, 以及合成器1161合成由解量化器110b输出的剩余信号与预测侧信号以最 终获得重构侧信号S。该信号随后被输入到合成器1162中,合成器1162 执行例如和/差处理,如图4c中针对中/侧编码所示。具体地,块1162执 行(逆)中/侧解码以获得左信道的频域表示和右信道的频域表示。该频域 表示随后由相应频率/时间转换器52和53转换为时域表示。

图5b示出了在编码器中已完成由等于零的预测方向指示符指示的从 中信号M到侧信号S的预测的情况。然而,当等于1的预测方向指示符 从编码器(诸如图5a中的编码器)被发送到图5b中的解码器时,则必须 执行从S到M的逆预测,即解码器计算规则是使得M由S来计算而非在 预测方向指示符等于零的情况下的相反计算。

根据系统的实施,当频域表示是实值表示时,频率/时间转换器52、 53是实值频率/时间转换器,或者当频域表示是复值表示时,频率/时间转 换器52、53是复值频率/时间转换器。

然而,对于提高效率而言,执行实值转换是优选的,如针对编码器的 图6a中和针对解码器的图6b中的另一实施所示。实值转换50和51由 MDCT实施。此外,预测信息按照具有实部和虚部的复值来计算。由于两 频谱M、S均为实值频谱,且因此由于该频谱的虚部不存在,所以提供了 由信号M的实值频谱计算估计的虚部频谱600的实部-虚部转换器2070。 该实部-虚部转换器2070是优化器207的一部分,且由块2070估计的虚 部频谱600与实部频谱M一起被输入到α优化器级2071中以计算预测信 息206,预测信息206现在具有在2073处所示的实值因子和在2074处所 示的虚部因子。现在,根据该实施方式,第一合成信号M的实值频谱乘 以实部αR2073以获得预测信号,该预测信号随后从实值侧频谱中被减去。 此外,虚部频谱600乘以在2074处所示的虚部αI以获得另一预测信号, 其中,该预测信号随后从在2034b处所示的实值侧频谱中被减去。随后, 预测剩余信号D在量化器209b中被量化,而M的实值频谱在块209a中 被量化/编码。此外,优选在量化器/熵编码器2072中量化和编码预测信息 α以获得编码后的复α值,该复α值被转发至例如图5a的位流复用器212, 且其最终被输入到位流中作为预测信息。

关于针对α的量化/编码(Q/C)模块2072的位置,需要注意,乘法 器2073和2074优选利用恰好相同的(量化)α,α也将在解码器中使用。 因此,我们可直接移动2072到2071的输出,或者我们可考虑α的量化已 在2071的优化处理中考虑到。

尽管我们可在编码器侧计算复频谱,但由于所有信息均可用,所以优 选在编码器的块2070中执行实数-复数转换,从而产生关于图6b所示解 码器的类似情况。解码器接收第一合成信号的实值编码频谱和编码后的剩 余信号的实值频谱表示。此外,编码后的复预测信息在108处获得,且熵 解码和解量化在块65中执行以获得1160b处所示的实部αR和1160c处所 示的虚部αI。由加权元件1160b和1160c输出的中信号被添加到解码和解 量化后的预测剩余信号中。具体地,在复预测因子的虚部被用作加权因子 的情况下,输入到加权器1160c中的频谱值由实部-虚部转换器1160a从实 值频谱M获得,这优选以与有关编码器侧的图6a的块2070相同的方式 来实施。与编码器侧相比,在解码器侧,中信号或侧信号的复值表示不可 用。原因在于由于位率和复杂性的原因,仅编码后的实值频谱从编码器被 发送至解码器。

图6a和图6b示出了预测方向指示符等于零的情况,即执行从M预 测S或利用M和复预测信息α计算S的情况。然而,当该预测方向指示 符等于1,或者一般而言,指示逆预测方向时,则可应用相同电路,但块 2031的输出被调换,使得上线具有侧信号S且下线具有中信号M。在解 码器侧,解码器计算规则也被改变,使得在逆预测方向的情况下,M由S 来计算,这也可通过在图6b中块110a的输出的上线处将M信号替换为 侧信号S来表示。这在块1161b的输出处产生中信号M并在块1162的上 输入处产生侧信号S。因此,由块1162应用的规则必须适应该不同输入情 况,或M/S信号必须在输入到块1162中之前被调换。在后者情况下,即 当执行调换时,块1162对于两个预测方向指示符值是相同的。

实部-虚部转换器1160a或图6a的相应块2070可按照在WO 2004/013839A1或WO 2008/014853A1或者美国专利第6,980,933号中公 开的来实施。根据信号或实施,预测信息α可以是纯实值或纯虚值的或者 可以是具有实部和虚部的复数。然而,若仅实施实值预测,则预测方向逆 转换将已经提供了具有非常有限的附加计算需求的改善后的性能,并由于 剩余信号将具有较小能量这一事实而将产生较低位率,且对于预测信息也 是同样的。因此,由于剩余信号和预测信息所需的较低位率,发送预测方 向指示符所需的附加位率最终产生了相当多的位节省。因此,预测信息可 包括异于零的实值部分和/或异于零的虚部。可替代地,本领域已知的任何 其他实施均可被应用,且优选实施在图10a、图10b背景下讨论。

具体地,如图10a所示,实部-虚部转换器1160a包括连接至虚部频 谱计算器1001的频谱帧(frame)选择器1000。频谱帧选择器1000在输 入1002处接收当前帧i的指示,且根据实施,在控制输入1003处接收控 制信息。例如,当线1002上的指示指出要计算关于当前帧i的虚部频谱时, 以及当控制信息1003指出仅当前帧将被用于计算时,则频谱帧选择器 1000仅选择当前帧i并将该信息转发至虚部频谱计算器。随后,虚部频谱 计算器仅利用当前帧i的频谱线来针对频率接近或在当前频谱线k附近执 行位于当前帧中的线的加权合成(块1008),虚部线将如图10b中的1004 所示来计算。然而,当频谱帧选择器1000接收指示前一帧i-1和后一帧i+1 也将用于计算虚部频谱的控制信息1003时,则该虚部频谱计算器另外接 收来自帧i-1和i+1的值,并执行关于帧i-1的1005和关于帧i+1的1006 处所示的相应帧中的线的加权合成。加权运算的结果由块1007中的加权 合成来合成以最终获得关于帧fi的虚部线k,该虚部线k随后乘以元件 1160c中的预测信息的虚部以获得关于该线的预测信号,该预测信号随后 被添加至关于解码器的加法器1161b中的中信号的相应线。在编码器中, 执行相同操作,但在元件2034b中完成减法。

必须指出,控制信息1003可另外指示使用多于两个周围帧的帧,或 者例如仅利用当前帧和恰好一个或多个先前帧而不利用“未来”帧以减少 系统性延迟。

此外,需要指出,图10b所示的第一操作中来自一个帧的线被合成且 随后来自这些逐帧合成操作的结果自身合成的逐级加权合成也可以另一 顺序来执行。另一顺序意味着在第一步骤中,关于来自由控制信息103所 示的一些相邻帧的当前频率k的线由加权合成来合成。根据将用于估计虚 部线的相邻线的数目,该加权合成针对线k、k-1、k-2、k+1、k+2等来完 成。随后,来自这些“逐个时间”合成的结果经过“频率方向”中的加权 合成以最终获得关于帧fi的虚部线k。优选地,权重被设定为-1与1之间 的值,且该权重可以直接FIR或IIR滤波器合成来实施,该直接FIR或IIR 滤波器合成执行来自不同频率和不同帧的频谱线或频谱信号的线性合成。

如图6a和图6b所示,优选转换算法为MDCT转换算法,其应用于 图6a的元件50和51中的正向且应用于元件52、53中的反向,并在频谱 域中运行的合成器1162中的合成操作之后。

图8a示出了块50或51的更详细实施。具体地,时域音频样本的序 列被输入到分析窗口器500中,分析窗口器500利用分析窗口来执行窗口 化操作,且具体地,以逐帧方式来执行该操作,但利用50%的步长(stride) 或交叠。该分析窗口器的结果(即窗口化样本的帧序列)被输入到MDCT 转换块501中,MDCT转换块501输出实值MDCT帧的序列,其中,这 些帧被混叠影响。示例性地,该分析窗口器应用具有2048个样本长度的 分析窗口。随后,MDCT转换块501输出具有1024条实部频谱线或MDCT 值的MDCT频谱。优选地,分析窗口器500和/或MDCT转换器501可由 窗口长度或转换长度控制502来控制,使得例如对于信号中的瞬时部分, 减小窗口长度/转换长度以获得较好的编码结果。

图8b示出了块52和53中执行的逆MDCT运算。示例性地,块52 包括用于执行逐帧逆MDCT转换的块520。例如,当MDCT值的帧具有 1024个值时,则该MDCT逆转换的输出具有2048个混叠影响的时间样本。 该帧被提供给合成窗口器521,合成窗口器521对2048个样本的该帧应用 合成窗口。窗口化帧随后被转发至交叠/相加处理器522,示例性地,交叠 /相加处理器522在两个连续帧之间应用50%的交叠,且随后执行逐样本 相加,使得2048个样本的块最终产生无混叠输出信号的1024个新样本。 另外,优选利用例如在编码后的多信道信号的侧信息中传送的信息来应用 523处所示的窗口/转换长度控制。

α预测值可针对MDCT频谱的每条单个频谱线来计算。然而,已发 现这并不是必需的,且可通过执行预测信息的逐频带计算来节省大量侧信 息。换言之,图9所示频谱转换器50例如是如图8a背景下讨论的MDCT 处理器,其提供具有图9b中所示的特定频谱线的高频分辨率频谱。该高 频分辨率频谱被频谱线选择器90利用,频谱线选择器90提供包括特定频 带B1、B2、B3、…、BN的低频分辨率频谱。该低频分辨率频谱被转发 至用于计算预测信息的优化器207,使得预测信息不针对每一频谱线来计 算,而是仅针对每一频带来计算。为此,优化器207接收每一频带中的频 谱线,并始于相同α值用于频带中的所有频谱线的假设来计算最优化操作。

优选地,频带以心理声学方式成形,使得该频带的带宽从低频增至高 频,如图9b所示。可替代地,尽管不如增加的带宽实施那样优选,但也 可使用等大小的频带,其中,每一频带具有至少两个或通常更多,诸如至 少30条频率线。通常,对于1024条频谱线的频谱,少于30个复α值且 优选地,多于5个α值被计算。对于具有少于1024条频谱线(例如,128 条线)的频谱,优选更少的频带(例如,6个)被用于α。

对于计算α值而言,不一定需要高分辨率的MDCT频谱。可替代地, 具有类似于计算α值所需分辨率的频率分辨率的滤波器组也可被利用。当 要实施频率上增大的频带时,则该滤波器组应具有变化的带宽。然而,当 从低频到高频的恒定带宽足够时,则具有等宽次频带的传统滤波器组可被 使用。

根据实施,图3b或图4b所示的α值的符号可反转。然而,为保持一 致,该符号反转必须用于编码器侧以及用于解码器侧。相比图6a,图5a 示出了编码器的概图,其中,项目2033是由预测器控制信息206控制的 预测器,预测器控制信息206在项目207中被确定,且嵌入位流中作为侧 信息。代替图6a的块50、51中使用的MDCT,一般化时间/频率转换如 所讨论的用于图5a中。如先前所述,图6a是对应于图6b中的解码器处 理的编码器处理,其中,L代表左信道信号,R代表右信道信号,M代表 中信号或下混信号,S代表侧信号,以及D代表剩余信号。可替代地,L 也被称作第一信道信号201,R也被称作第二信道信号202,M也被称作 第一合成信号204,以及S也被称作第二合成信号2032。

优选地,编码器中的模块2070和解码器中的1160a应恰好匹配以确 保正确的波形编码。这优选适用于以下情况:其中,这些模块利用某些形 式的近似,诸如截尾滤波,或者当仅利用一个或两个而非三个MDCT帧 (即线60上的当前MDCT帧、线61上的前一MDCT帧、以及线62上的 下一MDCT帧)时。

此外,优选图6a的编码器中的模块2070利用非量化MDCT频谱M 作为输入,尽管解码器中的实部-虚部(R2I)模块1160a仅具有量化的 MDCT频谱可用作输入。可替代地,我们还可利用编码器使用量化的 MDCT系数作为向模块2070的输入的实施。然而,从感知观点来看,利 用非量化的MDCT频谱作为向模块2070的输入是优选方法。

随后,更详细讨论本发明实施方式的若干方面。

标准的参数立体声编码(诸如USAC系统中基于MPEG环绕(MPS) 的立体声编码)依赖于过采样复(混合)QMF域允许时间和频率变化的 感知激励的信号处理而不引入混叠伪差的能力。然而,在下混/剩余编码(如 用于这里考虑的高位率)的情况下,所获得的统一立体声编码器用作波形 编码器。由于波形编码范例确保MDCT-IMDCT处理链的混叠消除特性被 足够好地保留,所以这允许在临界采样域(如MDCT域)中的操作。

然而,为能够利用可在具有信道间时间或相位差的立体声信号的情况 下利用复值预测系数α实现的改善后的编码效率,下混信号DMX的复值 频域表示需要作为向复值上混矩阵的输入。这可通过使用除了对DMX信 号的MDCT转换之外的MDST转换来获得。MDST频谱可由MDCT频谱 (精确或作为近似地)计算。

此外,上混矩阵的参数化可通过发送复预测系数α代替MPS参数来 简化。因此,仅两个参数(α的实部和虚部)而非三个(ICC、CLD和IPD) 被发送。在下混/剩余编码的情况下,这由于MPS参数化中的冗余而可行。 MPS参数化包括关于添加到解码器中的解相关的相对量(即RES与DMX 信号之间的能量比)的信息,且当实际DMX和RES信号被发送时,该信 息是冗余的。

由于相同原因,在下混/剩余编码的情况下,增益因子被舍弃。因此, 用于利用复预测的下混/剩余编码的上混矩阵现在是:

LR=1-α11+α-1DMXRES.

相比图4b中的方程1169,α的符号在该方程中相反,以及DMX=M 且RES=D。因此,相对于图4b,这是替代性实施/符号。

两个选择可用于在编码器中计算预测剩余信号。一个选择是利用下混 的量化MDCT频谱值。由于编码器和解码器利用相同值来生成预测,所 以这将导致与M/S编码相同的量化误差分布。另一选择是利用非量化的 MDCT频谱值。这意味着编码器和解码器将不使用相同数据来生成预测, 这允许编码误差根据信号的瞬时屏蔽特性空间上重新分布,代价是编码增 益有所减少。

优选如所讨论的利用三个相邻MDCT帧的二维FIR滤波在频域中直 接计算MDST频谱。后者可被视为“实部-虚部”(R2I)转换。MDST的 频域运算的复杂性可以不同方式来减小,这意味着仅MDST频谱的近似被 计算:

·限定FIR滤波器分接(tap)的数目。

·仅由当前MDCT帧来估计MDST。

·由当前和前一MDCT帧来估计MDST。

只要相同近似法用在编码器和解码器中,波形编码特性不受影响。然 而,这种MDST频谱的近似法可能导致由复预测获得的编码增益的减小。

若基本MDCT编码器支持窗口形状切换,则用于计算MDST频谱的 二维FIR滤波器的系数必须适应实际窗口形状。应用于当前框的MDCT 频谱的滤波器系数取决于完整窗口,即每种窗口类型和每一窗口过渡所需 的一组系数。应用前一/下一帧的MDCT频谱的滤波器系数仅取决于窗口 与当前帧的半交叠,即这组系数仅需要针对每一种窗口类型来使用(无用 于过渡的其他系数)。

若基本MDCT编码器利用转换长度切换,包括近似中的前一和/或下 一MDCT帧在不同转换长度之间的过渡附近变得更加复杂。由于当前和 前一/下一帧中MDCT系数的不同数目,在该情况下,二维滤波更加复杂。 为避免增加计算和结构复杂性,以针对相应帧的近似的精度减小为代价, 前一/下一帧可从转换长度过渡的滤波中被排除。

此外,需要特别关注MDST频谱的最低和最高部分(接近DC和fs/2), 其中,比所需的更少的周围MDCT系数可用于FIR滤波。这里,滤波处 理需要适应于正确计算MDST频谱。这可通过针对缺少的系数使用MDCT 频谱的对称扩展(根据时间离散信号的频谱的周期性),或者通过相应调 适滤波器系数来完成。当然,这些特定情况的处理在以MDST频谱的边界 附近的精度减小为代价的前提下可被简化。

在解码器中由发送的MDCT频谱计算精确的MDST频谱使解码器延 迟增加一帧(这里假定有1024个样本)。通过利用不需要下一帧的MDCT 频谱作为输入的MDST频谱的近似,可避免其他延迟。

以下项目列表总结了基于MDCT的统一立体声编码胜过基于QMF 的统一立体声编码的优势:

·计算复杂性仅小幅增加(当未使用SBR时)。

·若MDCT频谱未被量化,则最多达到完美重构。注意这不是针对 基于QMF的统一立体声编码的情况。

·M/S编码和强度立体声编码的自然统一和扩展。

·由于立体声信号处理和量化/编码可紧密耦合,所以有简化编码器 调谐的更简洁架构。注意在基于QMF的统一立体声编码中,MPS 帧和MDCT帧并不对准且标度因子频带与MPS参数频带不匹配。

·由于仅必须发送两个参数(复α),而不是如MPEG环绕中那样 三个参数(ICC、CLD、IPD)必须被发送,所以能有效编码立体 声参数。

·若MDST频谱被计算为近似(未利用下一帧),则无其他解码器 延迟。

实施的重要特性可被总结如下:

a)MDST频谱利用二维FIR滤波从当前、前一和下一MDCT频 谱来计算。通过减少所使用的FIR滤波器分接的数目和/或 MDCT帧的数目,关于MDST计算(近似)的不同复杂性/ 质量折衷是可行的。具体地,若相邻帧由于在发送或转换长度 切换期间的帧损失而不可用,则特定帧从MDST估计中被排 除。对于转换长度切换的情况,该排除在位流中信号传送。

b)仅发送两个参数,复预测系数α的实部和虚部,而非ICC、 CLD和IPD。α的实部和虚部被独立处理,限定为范围[-3.0,3.0] 且以0.1的步长大小来量化。若特定参数(α的实部或虚部) 在给定帧中未使用,则这在位流中信号传送,且不发送不相关 参数。这些参数以时间差异或频率差异来编码,且最终利用标 度因子编码簿来应用霍夫曼编码。预测系数每过两个标度因子 频带而被更新,这产生了与MPEG环绕的频率分辨率类似的 频率分辨率。该量化和编码方案对于具有96kb/s目标位率的 典型配置内的立体声侧信息产生约2kb/s的平均位率。

优选的其他或替代性实施细节包括:

c)对α的两个参数中的每一个而言,我们可在每个帧或每个串流 的基础上选择非差分(PCM)或差分(DPCM)编码,由位流 中的相应位以信号发送。对于DPCM编码而言,时间或频率 差分编码是可行的。另外,这可利用一位标志来以信号发送。

d)代替重新利用预定义编码簿(诸如AAC标度因子簿),我们 也可利用专用不变的或信号自适应的编码簿来编码α参数值, 或者我们可恢复使用固定长度(例如,4位)无符号或两个补 码字。

e)α参数值的范围以及参数量化步长大小可任意选择并优化为 眼前的信号特性。

f)有效α参数频带的数目以及频谱和/或时间宽度可被任意选择 并优化为给定信号特性。具体地,频带配置可在每个帧或每个 串流的基础上以信号发送。

g)除了以上a)中所述的机制以外或者代替该机制,可利用位流 中的每帧一位来外显地发信号,使得仅当前帧的MDCT频谱 用于计算MDST频谱近似,即未考虑相邻MDCT帧。

实施方式与用于MDCT域中的统一立体声编码的发明系统有关。即 使在较高位率下(在SBR未被使用的情况下)也能利用MPEG USAC系 统中的统一立体声编码的优势,而将伴随基于QMF方法的计算复杂性未 明显增加。

以下两个列表总结了前述优选配置方面,这些方面可彼此交替使用或 附加至其他方面来使用:

1a)一般性概念:由中MDCT和MDST复值预测侧MDCT;

1b)利用一个以上帧(3帧方法引入延迟)由频域中的MDCT(“R2I 转换”)来计算/近似MDST;

1c)滤波器截尾(甚至降至1帧2分接,例如[-1 0 1])以减少计算复 杂性;

1d)恰当处理DC和fs/2附近的转换系数;

1e)恰当处理窗口形状切换;

1f)若其具有不同转换大小,则不使用前一/下一帧;

1g)基于编码器中的非量化或量化MDCT系数来预测;

2a)直接量化和编码复预测系数的实部和虚部(即没有MPEG环绕 参数化);

2b)对此使用统一量化器(步长大小例如0.1);

2c)使用针对预测系数的适当频率分辨率(例如,每2个标度因子频 带1个系数);

2d)在所有预测系数均为实值的情况下廉价信号传送;

2e)每帧有显式位以迫使1帧R2I运算发生,即不利用前一/下一帧。

在一种实施方式中,编码器另外包括:用于将两个信道信号的时域表 示转换成具有关于该两个信道信号的次频带信号的两个信道信号的频谱 表示的频谱转换器(50、51),其中,合成器(2031)、预测器(2033)和 剩余信号计算器(2034)被配置为单独处理每个次频带信号,从而获得针 对多个次频带的第一合成信号和剩余信号,其中,输出接口(212)被配 置为合成针对多个次频带的编码后的第一合成信号和编码后的剩余信号。

尽管已在设备背景下描述了某些方面,但应清楚,这些方面也表示对 相应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类 似地,在方法步骤背景下描述的方面也表示对相应设备的相应块或项目或 者特征的描述。

在本发明的实施方式中,应用窗口形状切换的恰当处理。当考虑图 10a时,窗口形状信息109可被输入到虚部频谱计算器1001中。具体地, 执行诸如MDCT频谱的实值频谱的实部-虚部转换的虚部频谱计算器(诸 如图6a中的元件2070或图6b中的元件1160a)可被实施为FIR或IIR滤 波器。该实部-虚部模块1001中的FIR或IIR系数取决于当前帧的左半部 分和右半部分的窗口形状。该窗口形状可对于正弦窗口或KBD(西泽贝 索衍生)窗口是不同的,且以给定窗口序列配置为准,可以是长窗口、开 始窗口、停止窗口、停止-开始窗口或短窗口。实部-虚部模块可包括二维 FIR滤波器,其中,一个维度是时间维度,其中,两个连续的MDCT帧被 输入到FIR滤波器中,以及另一维度是频率维度,其中,输入帧的频率系 数。

下表给出针对关于不同窗口形状的当前窗口序列的不同MDST滤波 器系数,以及该窗口的左半部分和右半部分的不同实施。

表A–针对当前窗口的MDST滤波器参数

此外,当前一窗口用于由MDCT频谱计算MDST频谱时,窗口形状 信息109提供关于前一窗口的窗口形状信息。关于前一窗口的相应MDST 滤波器系数作为当前窗口序列和形状的函数在下表中给出。

表格B–针对前一窗口的MDST滤波器参数

因此,根据窗口形状信息109,图10a中的虚部频谱计算器1001通 过应用不同组的滤波器系数来调适。

在解码器侧使用的窗口形状信息在编码器侧被计算,且作为侧信息与 编码器输出信号一起被发送。在解码器侧,窗口形状信息109由位流解复 用器(例如,图5b中的102)从该位流中被提取,并提供给如图10a所示 的虚部频谱计算器1001。

当窗口形状信息109示意前一帧具有不同转换大小时,则优选前一帧 不用于从实值频谱计算虚部频谱。当通过解读窗口形状信息109发现下一 帧具有不同转换大小时,也同样适用。则下一帧不用于从实值频谱计算虚 部频谱。在该情况下,例如当前一帧具有与当前帧不同的转换大小时以及 当下一帧同样具有与当前帧相比不同的转换大小时,则仅当前帧(即,当 前窗口的频谱值)用于估计虚部频谱。

编码器中的预测基于诸如MDCT系数的非量化或量化频率系数。当 由图3a中的元件2033所示的预测例如基于非量化数据时,则剩余计算器 2034优选也对非量化数据运算,且剩余计算器输出信号(即,剩余信号 205)在被熵编码和发送至解码器之前被量化。然而,在替代性实施方式 中,优选该预测基于量化的MDCT系数。则量化可在图3a中的合成器2031 之前进行,使得第一量化信道和第二量化信道作为计算剩余信号的基础。 可替代地,量化也可在合成器2031之后进行,使得第一合成信号和第二 合成信号以非量化形式来计算并在计算剩余信号之前被量化。同样,可替 代地,预测器2033可在非量化域中工作,且预测信号2035在被输入到剩 余计算器之前被量化。则有用的是,同样被输入到剩余计算器2034中的 第二合成信号2032也在该剩余计算器计算图6a中的剩余信号D之前被量 化,这可在图3a中的预测器2033内实施,对解码器侧可用的相同量化数 据运算。则可保证为执行剩余信号的计算的目的而在编码器中估计的 MDST频谱与用于执行逆预测(即用于由剩余信号来计算侧信号)的解码 器侧的MDST频谱恰好相同。为此,第一合成信号(诸如图6a中的线204 上的信号M)在被输入到块2070之前被量化。随后,MDST频谱利用当 前帧的量化MDCT频谱来计算,以及根据控制信息,前一或下一帧的量 化MDCT频谱被输入到乘法器2074中,且图6a的乘法器2074的输出同 样将是非量化频谱。该非量化频谱将从输入到加法器2034b中的频谱被减 去且结果最终将在量化器209b中被量化。

在一种实施方式中,每一预测频带的复预测系数的实部和虚部被直接 量化和编码,即无需例如MPEG环绕参数化。量化可利用具有例如0.1的 步长大小的统一量化器来执行。这意味着任何对数量化步长大小等均未被 应用,而任何线性步长大小均被应用。在一种实施中,关于复预测系数的 实部和虚部的值的范围从-3变化到3,这意味着60个或者根据实施细节, 61个量化步骤被用于复预测系数的实部和虚部。

优选地,图6a的乘法器中应用的实部2073和图6a中应用的虚部2074 在应用之前被量化,使得用于预测的相同值再次被用于编码器侧,也可用 于解码器侧。这保证了预测剩余信号除了引入的量化误差之外还涵盖了当 非量化预测系数应用于编码器侧,而量化预测系数应用于解码器侧时可能 出现的任何误差。优选地,量化以尽可能使相同情况和相同信号在编码器 侧和解码器侧可用的这一方式被应用。因此,优选利用与量化器209a中 应用的相同的量化来量化向实部-虚部计算器2070中的输入。此外,优选 量化预测系数α的实部和虚部以在项目2073和项目2074中执行乘法。该 量化与应用于量化器2072的量化相同。此外,由图6a中的块2031输出 的侧信号也可在加法器2034a和2034b之前被量化。然而,在由这些加法 器对非量化侧信号实施加法之后由量化器209b执行量化也是没有问题的。

在本发明的另一实施方式中,在所有预测系数均为实数的情况下实施 廉价信号传送。这可能是对于特定帧(即,对于音频信号的相同时间部分) 的所有预测系数被计算为实数的情况。该情况可能在所有中信号和所有侧 信号彼此无相移或仅小相移时发生。为节省位,这由单一实数指示符来表 示。则预测系数的虚部不需要在具有表示零值的码字的位流中以信号发 送。在解码器侧,位流解码器接口(诸如位流解复用器)将解读该实数指 示符且随后将不查询关于虚部的码字,而是将假定该位流的相应段中的所 有位仅表示实值预测系数。此外,当接收到帧中的预测系数的所有虚部均 为零的指示时,预测器2033将无需由实值MDCT频谱计算MDST频谱, 或者一般地,虚部频谱。因此,图6b解码器中的元件1160a将被停用, 且逆预测将仅使用图6b的乘法器1160b中应用的实值预测系数来进行。 对于元件2070将被停用且预测将仅利用乘法器2073来进行的编码器侧也 同样适用。该侧信息优选用作每帧的附加位,且解码器将逐帧读取该位以 确定实部-虚部转换器1160a是否将对帧起作用。因此,由于关于帧的预测 系数的所有虚部为零的更有效信号传送,提供该信息使得位流大小减小, 且此外,极大减小了关于用于该帧的解码器的复杂性,这直接使例如实施 在电池供电移动装置中的该处理器的电池消耗减小。

根据本发明优选实施方式的复立体声预测是用于有效编码信道之间 具有强度和/或相差的信道对的工具。利用复值参数α,左右信道经由以下 矩阵来重构。dmxIm表示对应于下混信道dmxRe的MDCT的MDST。

rl=1-αRe-αIm11+αReαIm-1dmxRedmxImres

以上方程是针对α的实部和虚部分开的另一表示,且表示关于合成预 测/合成运算的方程,其中,预测信号S不一定被计算。

以下数据元素优选用于该工具:

cplx_pred_all 0:某些频带使用L/R编码,如由cplx_pred_used[]以 信号发送

1:所有频带均使用复立体声预测

cplx_pred_used[g][sfb]每一窗口组g和标度因子频带sfb一位标志 (在由预测频带映射之后),其指示

0:复预测未被使用,L/R编码被使用

1:复预测被使用

complex_coef 0:针对所有预测频带,αIm=0(只读预测)

1:针对所有预测频带发送αIm

use_prev_frame 0:仅利用用于MDST估计的当前帧

1:利用用于MDST估计的当前帧和前一帧

delta_code_time 0:预测系数的频率差分编码

1:预测系数的时间差分编码

hcod_alpha_q_re αRe的霍夫曼编码

hcod_alpha_q_im αIm的霍夫曼编码

图13a示出了本发明依赖的另一数据元素,即预测方向指示符 pred_dir。该数据元素指示根据图13a中的表格的预测方向。因此,第一 值0意指从中信道预测侧信道,以及第二值(诸如值“1”)意指从侧信道 预测中信道。

这些数据元素在编码器中被计算,且被输入到立体声或多信道音频信 号的侧信息中。这些元素由侧信息提取器从解码器侧的侧信息中提取,并 用于控制解码器计算器来执行相应动作。

复立体声预测需要当前信道对的下混MDCT频谱,且在complex_coef =1的情况下,需要估计当前信道对的下混MDST频谱,即MDCT频谱的 虚部对应体。下混MDST估计由当前帧的MDCT下混来计算,且在 use_prev_frame=1的情况下,由前一帧的MDCT下混来计算。窗口组g 和组窗口b的前一帧的MDCT下混从该帧的重构左右频谱获得。

下混MDST估计的计算取决于长度均匀的MDCT转换、 window_sequence以及filter_coefs与filter_coefs_prev,它们是包括滤波器 核心以及根据之前表格导出的数组。

对于所有预测系数,与前一(时间或频率上)值的差利用霍夫曼编码 簿来编码。对于cplx_pred_used=0的预测频带不发送预测系数。

逆量化预测系数alpha_re和alpha_im由下式给出:

alpha_re=alpha_q_re*0.1

alpha_im=alpha_q_im*0.1

当侧信号S相比下混信号M具有相当高的能量时,可能发生无预测 方向反转的问题。在该情况下,预测S中存在的信号的主要部分可能变得 困难,尤其当M是非常低的等级并因此主要由噪声成份组成时。

此外,关于预测系数α的值的范围可能变得非常大,潜在地导致由于 不希望的量化噪声的放大或摇摆而引起的编码伪差(例如,空间未屏蔽效 应)。

为提供一个实例,我们可考虑轻微摇摆的异相信号,其中R=-0.9·L, 这产生相当大的最优预测因子19。

R=-0.9·L;

M=0.5·(L+R)=0.05·L;

S=0.5·(L-R)=0.95·L;

RES=S-(α*M);

optimumα:

α=19;

根据本发明,切换预测方向,且这在具有最少运算量和较小α的情况 下使预测增益增加。

在侧信号S相比中信号M具有高能量的情况下,有兴趣使预测方向 相反,使得M由S的复值表示来预测,如例如图13b的(2)中所示。当 切换预测方向使得M由S来预测时,S优选需要附加MDST,但M不需 要MDST。此外,在该情况下,代替如图13b的(1)中第一选择的中信 号,(实值)侧信号必须与剩余信号和预测信息α一起被发送至解码器。

预测方向的切换可在每个帧的基础上(即在时间轴上)、每一频带的 基础上(即在频率轴上)、或其合成的基础上完成,使得允许按频带和频 率切换。这针对每一帧和每一频带产生预测方向指示符(一位),但仅允 许针对每帧的单一预测方向可能是有用的。

为此,提供预测方向计算器219,其在图12a中示出。与其他图中一 样,图12a示出了MDCT级50/51、中/侧编码级2031、实数-复数转换器 2070、预测信号计算器2073/2074和最后的剩余信号计算器2034。此外, 提供预测方向控制M/S调换器507,其被配置且用于实施图11a所示的两 种不同预测规则502、503。第一预测规则是调换器507处于第一状态,即 M和S未被调换的情况。第二预测规则在调换器507处于调换状态时即M 和S从输入被调换为输出时实施。该实施具有调换器507之后的整个电路 对于两种预测方向相同的优势。

类似地,不同解码规则402、403(即不同解码器计算规则)也可在 合成器1162的输入处由调换器407来实施,合成器1162在图12b的实施 方式中被实施为执行逆中/侧编码。也可被称作“预测开关”的调换器407 在其输入处接收下混信号DMX和信号IPS,其中,IPS代表相反预测信号。 根据预测方向指示符,调换器407使DMX与M连接且使IPS与S连接或 者使DMX与S连接且使IPS与M连接,如图12b上方表格所示。

图13b示出了图11b的第一计算规则(即由块402所示规则)的实施。 在第一实施方式中,明确执行逆预测,使得侧信号由剩余信号和所发送的 中信号明确计算。随后,在后续步骤中,L和R由图13中显式逆预测方 程右边的方程来计算。在替代性实施中,隐式逆预测被执行,其中,侧信 号S未被明确计算,但左信号L和右信号R利用预测信息α由所发送的 M信号和所发送的剩余信号直接计算。

图13d示出了关于另一预测方向(即预测方向指示符pred_dir等于1 时)的方程。同样,用于获得M的显式逆预测可利用所发送的剩余信号 和所发送的侧信号来执行,且L和R的后续计算可利用中信号和侧信号来 完成。可替代地,隐式逆预测可被执行,使得L和R由所发送的信号S、 剩余信号和预测信息α来计算,而无需明确计算中信号M。

如以下图13b中所述,α的符号可在所有方程中反转。当其被执行时, 针对剩余信号计算,图13b具有两项之间的和。则显式逆预测变成差计算。 根据实际实施,如图13b至图13d中所述符号或相反符号可能是适当的。

在图13b至图13d的方程中,可能发生若干复数乘法。这些复数乘法 可能针对α为复数的所有情况发生。则需要M或S的复数近似,如方程 中所述。复数乘法将产生两个因子的实部的实际乘积与两个因子的虚部的 乘积之间的差,如图13e中仅针对α或针对(1+α)的情况所示。

预测方向计算器219可以不同方式来实施。图14示出了用于计算预 测方向的两种基本方式。一种方式是前向馈送计算,其中,信号M和信 号S(一般为第一合成信号和第二合成信号)通过计算能量差来比较,如 步骤550中所示。随后,在步骤551中,该差值与阈值相比较,其中,该 阈值可经由阈值输入线来设定或者可固定至某一程序。然而,优选有一些 滞后。因此,按照关于实际预测方向的确定标准,可评估S与M之间的 能量差。为实现最佳感知质量,该确定标准可通过利用某些滞后(即基于 最后帧的预测方向的不同确定阈值)来稳定化。关于该预测方向的另一可 以想到的标准将是输入信道的信道间相位差。关于滞后,阈值的控制可以 某一时间间隔内预测方向几乎无变化优先于该时间间隔内有许多变化的 这一方式来执行。因此,从某一阈值开始,该阈值可响应预测方向变化而 增加。则基于该高值,在无预测方向变化被计算期间,该阈值可减少得越 来越多。则当该阈值接近其最后变化之前的值时,该阈值保持在同一水平 且系统再次准备改变预测方向。仅当S与M之间有非常高的差时,该过 程才允许短间隔内的变化,但当M与S之间的能量差不那么高时,允许 较少的频率变化。

可替代或附加地,反馈计算可被执行,其中,关于两个预测方向的剩 余信号如步骤552所示来计算。随后,在步骤553中,预测方向被计算, 这产生了较小的剩余信号或关于剩余信号或下混信号的较少的位或者较 少的总位数或较好的音频信号质量或者任何其他特定情况。因此,产生特 定最优化目标的预测方向在该反馈计算中被选出。

需要强调,本发明不仅适用于立体声信号,即仅具有两个信道的多信 道信号,而且也适用于诸如5.1或7.1信号的具有三个以上信道的多信道 信号的两个信道。关于多信道实施的一种实施方式可包括多个信号对的识 别和针对多于一对信号的数据的计算和并行传输或存储。

在音频解码器的实施方式中,编码或解码后的第一合成信号104和编 码或解码后的预测剩余信号106分别包括第一多个次频带信号,其中,预 测信息包括第二多个预测信息参数,该第二多个小于该第一多个,其中, 预测器1160被配置为对解码后的第一合成信号的至少两个不同次频带信 号应用相同预测参数,其中,解码器计算器116或合成信号计算器1161 或者合成器1162被配置为执行次频带式处理;且其中,该音频解码器还 包括合成滤波器组52、53,合成滤波器组52、53用于合成解码后的第一 合成信号与解码后的第二合成信号的次频带信号以获得时域第一解码信 号和时域第二解码信号。

在音频解码器的实施方式中,预测器1160被配置为接收窗口形状信 息109,以及用于利用不同滤波器系数来计算虚部频谱,其中,不同滤波 器系数取决于由窗口形状信息109指示的不同窗口形状。

在音频解码器的实施方式中,解码后的第一合成信号与由包括在编码 后的多信道信号100中的转换长度指示符指示的不同转换长度相关联,以 及其中,预测器1160被配置为仅利用具有相同相关联转换长度的第一合 成信号的一个或多个帧来估计关于第一合成信号的当前帧的虚部。

在音频解码器的实施方式中,预测器1160被配置为利用频率相邻的 解码后的第一合成信号的多个次频带来估计第一合成信号的虚部,以及其 中,在低频或高频情况下,第一合成信号的当前帧的频率的对称扩展被用 于与低于或等于零或者高于或等于当前帧基于的采样频率的一半的频率 相关联的次频带,或者其中,包括在预测器1160a中的滤波器的滤波器系 数针对缺失次频带而被设定为与非缺失次频带相比的不同值。

在音频解码器的实施方式中,预测信息108以量化和熵编码表示包括 在编码后的多信道信号中,其中,该音频解码器还包括预测信息解码器65, 预测信息解码器65用于熵解码或解量化以获得由预测器1160利用的解码 后的预测信息,或者其中,编码后的多信道音频信号包括数据单元,该数 据单元以第一状态指示预测器1160使用时间上在解码后的第一合成信号 的当前帧之前或之后的至少一个帧,以及以第二状态指示预测器1160仅 使用解码后的第一合成信号的单一帧来估计关于该解码后的第一合成信 号的当前帧的虚部,以及其中,预测器1160被配置为检测该数据单元的 状态以及相应运行。

在音频解码器的实施方式中,预测信息108包括时间连续或频率相邻 的复值之间的差的码字,且其中,该音频解码器被配置为执行熵解码步骤 和后续的差分解码步骤以获得时间连续的量化复预测值或关于相邻频带 的复预测值。

在音频解码器的实施方式中,编码后的多信道信号包括作为侧信息的 实数指示符,其指示关于编码后的多信道信号的帧的所有预测系数均为实 值,其中,该音频解码器被配置为从编码后的多信道音频信号100中提取 实数指示符,且其中,由于实数指示符仅指示实值预测系数,所以解码器 计算器116被配置为不计算关于帧的虚数信号。

在音频编码器的实施方式中,预测器2033包括量化器,该量化器用 于量化第一信道信号、第二信道信号、第一合成信号或第二合成信号以获 得一个或多个量化信号,且其中,预测器2033被配置为利用量化信号来 计算剩余信号。

在音频编码器的实施方式中,第一信道信号是样本块的频谱表示,以 及第二信道信号是样本块的频谱表示,其中,该频谱表示是纯实数频谱表 示或纯虚数频谱表示,其中,优化器207被配置为作为异于零的实值因子 和/或作为异于零的虚数因子来计算预测信息206,且其中,编码器计算器 203被配置为计算第一合成信号和预测剩余信号,使得预测信号利用实值 因子从纯实数频谱表示或纯虚数频谱表示获得。

本发明的编码后的音频信号可被存储在数字存储介质上或者可在诸 如无线传输介质或诸如因特网的有线传输介质的传输介质上被传输。

尽管主要在音频处理背景下描述了本发明,但需要强调,本发明也可 应用于编码或解码视频信号。具有变化的方向的复预测可应用于例如3D 立体视频压缩。在该特定实例中,使用2D-MDCT。有关该技术的一个实 例是Google WebM/VP8。然而,无需2D-MDCT的其他实施也可被应用。

尽管已在设备背景下描述了某些方面,但应清楚,这些方面也表示对 相应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类 似地,在方法步骤背景下描述的方面也表示对相应设备的相应块或项目或 者特征的描述。

根据特定实施要求,本发明的实施方式可以硬件或软件来实施。该实 施可使用具有存储其上的电可读控制信号的数字存储介质来执行,例如软 盘、DVD、CD、ROM、PROM、EPROM、EEPROM或内存,该电可读 控制信号与可编程计算机系统协作(或者能够协作),使得相应方法被执 行。

根据本发明的一些实施方式包括具有电可读控制信号的非暂时性或 有形数据载体,该电可读控制信号能够与可编程计算机系统协作,从而执 行本文所述方法中的一种。

一般地,本发明的实施方式可被实施为具有程序代码的计算机程序产 品,当该计算机程序产品在计算机上运行时,该程序代码可操作地用于执 行方法中的一种。该程序代码例如可存储在机器可读载体上。

其他实施方式包括存储在机器可读载体上用于执行本文所述方法中 的一种的计算机程序。

因此,换言之,本发明方法的实施方式是具有程序代码的计算机程序, 当该计算机程序在计算机上运行时,该程序代码用于执行本文所述方法中 的一种。

因此,本发明方法的另一实施方式是包括存储其上用于执行本文所述 方法中的一种的计算机程序的数据载体(或数字存储介质或者计算机可读 介质)。

因此,本发明方法的另一实施方式是表示用于执行本文所述方法中的 一种的计算机程序的数据流或信号序列。该数据流或信号序列例如可被配 置为经由数据通信连接(例如经由因特网)来传送。

另一实施方式包括处理装置(例如计算机)或可编程逻辑器件,其被 配置为或适用于执行本文所述方法中的一种。

另一实施方式包括具有安装其上用于执行本文所述方法中的一种的 计算机程序的计算机。

在一些实施方式中,可编程逻辑器件(例如,现场可编程门阵列)可 用于执行本文所述方法中的一些或全部功能。在一些实施方式中,现场可 编程门阵列可与微处理器协作以执行本文所述方法中的一种。一般地,该 方法优选由任何硬件设备执行。

上述实施方式仅用于说明本发明的原理。应当理解,本文所述配置和 细节的修改和变形对于本领域技术人员而言将是显而易见的。因此,其旨 在仅由所附专利权利要求的范围来限定,且不由以对本文实施方式的描述 和说明的方式给出的具体细节来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号