首页> 中国专利> 使用渲染音频信号的解相关的多声道音频解码器、多声道音频编码器、方法、计算机程序以及编码音频表示

使用渲染音频信号的解相关的多声道音频解码器、多声道音频编码器、方法、计算机程序以及编码音频表示

摘要

基于编码表示来提供至少两个输出音频信号的多声道音频解码器,被配置为依靠一个或多个渲染参数来渲染多个解码音频信号,以获得多个渲染音频信号,该多个解码音频信号是基于编码表示而获得的。该多声道音频解码器被配置为根据渲染音频信号导出一个或多个解相关音频信号,并将渲染音频信号或其缩放版本与该一个或多个解相关音频信号进行组合,以获得输出音频信号。多声道音频编码器提供用于控制音频解码器的解相关方法参数。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-27

    授权

    授权

  • 2016-06-22

    实质审查的生效 IPC(主分类):H04S3/00 申请日:20140717

    实质审查的生效

  • 2016-05-25

    公开

    公开

说明书

技术领域

根据本发明的实施例涉及一种基于编码表示来提供至少两个输出音频信号的多 声道音频解码器。

根据本发明的另外的实施例涉及一种基于至少两个输入音频信号来提供编码表 示的多声道音频编码器。

根据本发明的另外的实施例涉及一种基于编码表示来提供至少两个输出音频信 号的方法。

根据本发明的另外的实施例涉及一种基于至少两个输入音频信号来提供编码表 示的方法。

根据本发明的另外的实施例涉及一种用以执行所述方法中的一项的计算机程序。

根据本发明的另外的实施例涉及一种编码音频表示。

一般而言,根据本发明的实施例涉及一种针对多声道下混音(downmix)/上混音 (upmix)参数化音频对象编码系统的解相关概念。

背景技术

近年来,对音频内容的储存以及传输的需求在稳步增加。此外,对音频内容的储存 以及传输的质量需求也在稳步增加。因此,针对音频内容的编码以及解码的概念也已经被 增强。

例如,已开发了所谓的“高级音频编码”(AAC),在国际标准ISO/IEC13818-7:2003 中对其进行了描述。此外,某些空间扩展也已经被创建,例如所谓的“MPEG环绕”概念,在国 际标准ISO/IEC23003-1:2007中对其进行了描述。此外,在国际标准ISO/IEC23003-2: 2010中还描述了对于音频信号的空间信息的编码以及解码的附加改进,其涉及所谓的“空 间音频对象编码”。

此外,在国际标准ISO/IEC23003-3:2012中定义了可切换的音频编/解码概念,该 概念提供了以良好的编码效率对一般音频信号和语音信号二者进行编码并处理多声道音 频信号的可能性,其描述了所谓的“统一语音及音频编码概念”。

此外,在本说明书的结尾处提及的参考文献中描述了其他常规的概念。

然而,在此希望提供一种更高级的概念以用于三维音频场景的高效率编码及解 码。

发明内容

根据本发明的实施例涉及一种基于编码表示来提供至少两个输出音频信号的多 声道音频解码器。该多声道音频解码器被配置为依靠一个或多个渲染参数来渲染多个解码 音频信号,以获得多个渲染音频信号,该多个解码音频信号是基于编码表示而获得的。该多 声道音频解码器被配置为根据渲染音频信号导出一个或多个解相关音频信号。此外,多声 道音频解码器被配置为:将渲染音频信号或其缩放版本与所述一个或多个解相关音频信号 进行组合,以获得输出音频信号。

根据本发明的该实施例基于以下发现:通过根据基于多个解码音频信号而获得的 渲染音频信号导出一个或多个解相关音频信号,并将渲染音频信号或其缩放版本与所述一 个或多个解相关音频信号进行组合以获得输出音频信号,可以在多声道音频解码器中提高 音频质量。已发现:当与在渲染之前或渲染期间添加解相关信号相比,通过在渲染之后添加 解相关信号,更高效地调整了输出音频信号的相关性特性或协方差特性。已发现:该概念在 一般情况下更加高效,在一般情况下,与渲染音频信号相比,存在更多被输入到渲染中的解 码音频信号,因为如果在渲染之前或在渲染期间执行解相关,将需要更多的解相关器。此 外,已发现:当在渲染之前将解相关信号添加到解码音频信号时,通常提供伪像,因为渲染 通常带来解码音频信号的组合。因此,根据本发明的当前实施例的概念比常规方案性能更 好,在常规方案中,在渲染之前添加解相关信号。例如,有可能直接估计渲染信号的所希望 的相关性特性或协方差特性,并适于向实际渲染的信号提供解相关音频信号,这导致效率 和音频质量之间更好的折中,且同时甚至通常导致提高的效率和更好的质量。

在优选实施例中,多声道音频解码器被配置为:使用参数化重构获得解码音频信 号,所述解码音频信号被渲染以获得多个渲染音频信号。已发现根据本发明的概念带来与 音频信号的参数化重构相结合的好处,其中,参数化重构例如基于描述对象信号和/或对象 信号之间的关系的边信息(sideinformation)(其中,对象信号可构造解码音频信号)。例 如,在这样的概念下可存在相对较大数目的对象信号(解码音频信号),且已经发现基于渲 染音频信号应用解相关特别高效,并避免了这种场景中的伪像。

在优选实施例中,解码音频信号是重构的对象信号(例如,参数化重构的对象信 号),且多声道音频解码器被配置为:使用边信息根据一个或多个下混音信号导出重构的对 象信号。因此,渲染音频信号与基于渲染音频信号的一个或多个解相关音频信号的组合允 许输出音频信号中的相关性特性或协方差特性的高效重构,即使存在着相对较大数目的重 构对象信号(其大于渲染音频信号或输出音频信号的数目)。

在优选实施例中,多声道音频解码器可被配置为:根据边信息导出解混音参数,并 应用解混音参数,以使用解混音参数根据所述一个或多个下混音信号导出(参数化地)重构 的对象信号。因此,用于渲染的输入信号可根据边信息导出,边信息可以例如是对象相关的 边信息(例如,对象间相关性信息或对象级差信息,其中,使用绝对能量可获得相同结果)。

在优选实施例中,多声道音频解码器被配置为:将渲染音频信号与所述一个或多 个解相关音频信号进行组合,以至少部分地实现输出音频信号的所希望的相关性特性或协 方差特性。已发现,渲染音频信号与根据渲染音频信号导出的一个或多个解相关音频信号 的组合允许调整(或重构)所希望的相关性特性或协方差特性。此外,已发现:听觉印象在输 出音频信号中具有正确的相关性特征或协方差特性很重要,以及这可通过使用解相关音频 信号修改渲染音频信号来最好地实现。例如,当将渲染音频信号与基于该渲染音频信号的 解相关音频信号进行组合时,在之前处理阶段中产生的任何退化也可被考虑到。

在优选实施例中,多声道音频解码器可被配置为:将渲染音频信号与所述一个或 多个解相关音频信号进行组合,以至少部分地补偿解码音频信号的参数化重构期间的能量 损失,所述解码音频信号被渲染以获得多个渲染音频信号。已发现,解相关音频信号的后期 渲染应用允许校正由渲染之前的处理(例如,由解码音频信号的参数化重构)导致的信号不 完善。因此,不是必须高精确度地重构输入到渲染中的解码音频信号的相关性特性。这简化 了解码音频信号的重构,并因此带来了高效率。

在优选实施例中,多声道音频解码器被配置为:确定输出音频信号的所希望的相 关性特性或协方差特性。此外,多声道音频解码器被配置为:调整渲染音频信号与所述一个 或多个解相关音频信号的组合以获得输出音频信号,使得所获得的输出音频信号的相关性 特性或协方差特性近似或等于所希望的相关性特性或所希望的协方差特性。通过计算(或 确定)输出音频信号的所希望的相关性特性或协方差特性(其在渲染音频信号与解相关音 频信号的组合之后应该实现),有可能在处理的较后阶段调整相关性特性或协方差特性,这 继而允许相对精确的重构。因此,输出音频信号的空间听觉印象良好地适于所希望的听觉 印象。

在优选实施例中,多声道音频解码器可被配置为:依靠渲染信息确定所希望的相 关性特性或所希望的协方差特性,以获得多个渲染音频信号,所述渲染信息描述对所述多 个解码音频信号的渲染,所述多个解码音频信号是基于编码表示获得的。通过在确定所希 望的相关性特性或所希望的协方差特性时考虑渲染处理,有可能实现用于调整渲染音频信 号与所述一个或多个解相关音频信号的组合的精确信息,这带来得到与所希望的听觉印象 相匹配的输出音频信号的可能性。

在优选实施例中,多声道音频解码器可被配置为:依靠描述多个音频对象的特性 和/或多个音频对象之间的关系的对象相关性信息或对象协方差信息,确定所希望的相关 性特性或所希望的协方差特性。因此,有可能在较后的处理阶段(即,在渲染之后)恢复适于 音频对象的相关性特性或协方差特性。因此,降低了解码音频对象的复杂度。此外,通过考 虑渲染之后音频对象的相关性特性或协方差特性,可避免渲染的决定性影响,且可以以良 好的精确度重构相关性特性或协方差特性。

在优选实施例中,多声道音频解码器被配置为:基于编码表示中包括的边信息确 定对象相关性信息或对象协方差信息。因此,该概念可良好地适于使用边信息的空间音频 对象编码方案。

在优选实施例中,多声道音频解码器被配置为:确定渲染音频信号和所述一个或 多个解相关音频信号的实际相关性特性或协方差特性,并依靠渲染音频信号和所述一个或 多个解相关音频信号的所述实际相关性特性或协方差特性,调整渲染音频信号与所述一个 或多个解相关音频信号的组合,以获得输出音频信号。因此,可实现对较早处理阶段中的不 完善(例如,在重构音频对象时的能量损失,或渲染所导致的不完善)进行考虑。因此,可根 据需要通过非常准确的方式调整渲染音频信号与所述一个或多个解相关音频信号的组合, 使得实际渲染音频信号与解相关音频信号的组合产生所希望的特性。

在优选实施例中,多声道音频解码器可被配置为:将渲染音频信号与所述一个或 多个解相关音频信号进行组合,其中,使用第一混音矩阵P对渲染音频信号进行加权,且使 用第二混音矩阵M对所述一个或多个解相关音频信号进行加权。这允许简化输出音频信号 的导出,其中,执行线性组合操作,所述线性组合由应用于渲染音频信号的混音矩阵P和应 用于所述一个或多个解相关音频信号的混音矩阵M描述。

在优选实施例中,多声道音频解码器被配置为:调整混音矩阵P和混音矩阵M中的 至少一个,使得所获得的输出音频信号的相关性特性或协方差特性近似或等于所希望的相 关性特性或所希望的协方差特性。因此,存在着调整混音矩阵中的一个或多个的方式,该方 式通常可能使用中等努力并具有良好结果。

在优选实施例中,多声道音频解码器被配置为:对混音矩阵P和混音矩阵M进行联 合计算。因此,有可能获得混音矩阵,使得可将所获得的输出音频信号的相关性特性或协方 差特性设置为近似或等于所希望的相关性特性或所希望的协方差特性。此外,在联合计算 混音矩阵P和混音矩阵M时,某些自由度通常是可用的,使得有可能将混音矩阵P和混音矩阵 M最好地适合于要求。

在优选实施例中,多声道音频解码器被配置为获得组合混音矩阵F(其包括混音矩 阵P和混音矩阵M),使得所获得的输出音频信号的协方差矩阵近似或等于所希望的协方差 矩阵。

在优选实施例中,可根据下述等式计算组合混音矩阵。

在优选实施例中,多声道音频解码器可被配置为使用利用第一协方差矩阵(其描 述了渲染音频信号和解相关音频信号)和第二协方差矩阵(其描述了输出音频信号的所希 望的协方差矩阵)的奇异值分解确定的矩阵来确定组合混音矩阵F。使用这种奇异值分解构 建了用于确定组合混音矩阵的数值上高效的解决方案。

在优选实施例中,多声道音频解码器被配置为:将混音矩阵P设置为单位矩阵或其 倍数,且计算混音矩阵M。这避免了对不同的渲染音频信号进行混音,有助于保持所希望的 空间印象。此外,减少了自由度的数目。

在优选实施例中,多声道音频解码器可被配置为:确定混音矩阵M,使得所希望的 协方差矩阵和渲染音频信号的协方差矩阵之间的差近似于或等于在与混音矩阵M混音之后 的所述一个或多个解相关信号的协方差。因此,给出了用于获得混音矩阵M的在计算上简单 的概念。

在优选实施例中,多声道音频解码器可被配置为:使用以下矩阵来确定混音矩阵 M:该矩阵是利用所希望的协方差矩阵与渲染音频信号的协方差矩阵之间的差以及所述一 个或多个解相关信号的协方差矩阵的奇异值分解确定的。这是用于确定混音矩阵M的在计 算上非常高效的方案。

在优选实施例中,多声道音频解码器被配置为:在给定渲染音频信号仅与所述给 定渲染音频信号自身的解相关版本混音的限制下,确定混音矩阵P、M。该概念限于小的修改 (例如,在存在不完善的解相关器的情况下)或防止修改互相关特性或互协方差特性(例如, 在理想解相关器的情况下),并因此在一些情况下被希望用来避免所察觉到的对象位置的 改变。然而,在存在非理想解相关器的情况下,对自相关值(或自协方差值)进行显式修改, 且忽略交叉项中的改变。

在优选实施例中,多声道音频解码器被配置为:将渲染音频信号与所述一个或多 个解相关音频信号进行组合,使得渲染音频信号仅自相关值或自协方差值被修改,而互相 关值或互协方差值保持不被修改或修改较小的值(例如,在存在不完善的解相关器的情况 下)。再次地,可避免所察觉到的音频对象位置的退化。此外,可降低计算复杂度。然而,例 如,互协方差值因为能量(自相关值)的修改而被修改,但互相关值保持未被修改(其表示互 协方差值的归一化版本)。

在优选实施例中,多声道音频解码器被配置为:将混音矩阵P设置为单位矩阵或其 倍数,且在M是对角矩阵的限制下计算所述混音矩阵M。因此,可将对互相关特性或互协方差 特性的修改限制为较小的值(例如,在存在不完善的解相关器的情况下)。

在优选实施例中,多声道音频解码器被配置为:将渲染音频信号与所述一个或多 个解相关音频信号进行组合,以获得输出音频信号,其中,将对角矩阵M应用于所述一个或 多个解相关音频信号W。在该情况下,多声道音频解码器被配置为:计算混音矩阵M的对角元 素,使得输出音频信号的协方差矩阵的对角元素等于所希望的能量。因此,可补偿通过渲染 操作和/或通过基于一个或多个下混音信号以及空间边信息的音频对象重构可产生的能量 损失。因此,可实现正确的输出音频信号强度。

在优选实施例中,多声道音频解码器被配置为:依靠所希望的协方差矩阵的对角 元素、渲染音频信号的协方差矩阵的对角元素、以及所述一个或多个解相关信号的协方差 矩阵的对角元素来计算混音矩阵M的对角元素。可将混音矩阵M的非对角元素设置为零,且 可基于对象协方差矩阵和用于渲染操作的渲染矩阵来计算所希望的协方差矩阵。此外,可 使用阈值来限制添加到信号的解相关的量。该概念提供了对混音矩阵M的元素的在计算上 非常高效的确定。

在优选实施例中,多声道音频解码器可被配置为:在确定如何将渲染音频信号或 其缩放版本与所述一个或多个解相关音频信号进行组合时,考虑渲染音频信号的相关性特 性或协方差特性。因此,可考虑到解相关的不完善。

在优选实施例中,多声道音频解码器可被配置为:将渲染音频信号与解相关音频 信号进行混音,使得基于两个或更多个渲染音频信号和至少一个解相关音频信号提供给定 输出音频信号。通过使用该概念,可高效地调整互相关特性,而无需引入大量的解相关信号 (这可能使听觉空间印象退化)。

在优选实施例中,多声道音频解码器可被配置为:在不同模式之间切换,在所述不 同模式中,将不同的限制应用于确定如何将渲染音频信号或其缩放版本与所述一个或多个 解相关音频信号进行组合以获得输出音频信号。因此,可针对所处理的信号调整复杂度和 处理特性。

在优选实施例中,多声道音频解码器可被配置为:在第一模式、第二模式和第三模 式之间切换,在第一模式中,当将渲染音频信号或其缩放版本与所述一个或多个解相关音 频信号进行组合时,允许不同渲染音频信号之间的混音,在第二模式中,当将渲染音频信号 或其缩放版本与所述一个或多个解相关音频信号进行组合时,不允许不同渲染音频信号之 间的混音,以及在第二模式中,允许使用相同或不同的缩放将给定解相关信号与多个渲染 音频信号或其缩放版本进行组合,以调整所述输出音频信号的互相关特性或互协方差特 性,以及在第三模式中,当将渲染音频信号或其缩放版本与所述一个或多个解相关音频信 号进行组合时,不允许不同渲染音频信号之间的混音,以及在第三模式中,不允许将给定的 解相关信号与和从其导出所述给定解相关信号的渲染音频信号不同的渲染音频信号进行 组合。因此,可将复杂度和处理特性调整为当前正渲染的音频信号的类型。仅修改自相关特 性或自协方差特性而不显式地修改互相关特性或互协方差特性可例如是有帮助的,如果这 样的修改将使得音频信号的空间印象退化的话,然而调整输出音频信号的强度是不希望 的。另一方面,存在这样的情况:希望调整输出音频信号的互相关特性或互协方差特性。在 此所述的多声道音频解码器允许这样的调整,其中,在第一模式下,有可能组合渲染音频信 号,使得调整互相关特性或互协方差特性所需的解相关信号分量的量(强度)相对较小。因 此,在第一模式下使用“可本地化的”信号分量来调整互相关特性或互协方差特性。相反,在 第二模式下,使用解相关信号来调整互相关特性或互协方差特性,这自然带来了不同的听 觉印象。因此,通过提供三种不同模式,音频解码器可很好地适于正处理的音频内容。

在优选实施例中,多声道音频解码器被配置为:评估编码表示的指示要使用三个 模式中的哪一个的比特流元素,所述三个模式用于将渲染音频信号或其缩放版本与所述一 个或多个解相关音频信号进行组合,以及依靠所述比特流元素来选择模式。因此,音频编码 器可依靠其对音频内容的了解来信号通知适当的模式。因此,可在任何环境下实现最大的 输出音频信号质量。

根据本发明的实施例创建了一种基于至少两个输入音频信号来提供编码表示的 多声道音频编码器。多声道音频编码器被配置为:基于所述至少两个输入音频信号提供一 个或多个下混音信号。此外,多声道音频编码器被配置为:提供描述所述至少两个输入音频 信号之间的关系的一个或多个参数。此外,多声道音频编码器被配置为:提供描述应该在音 频编码器侧使用多个解相关模式中哪个解相关模式的解相关方法参数。因此,多声道音频 编码器可控制音频解码器使用适当的解相关模式,这很好地适合于当前编码的音频信号的 类型。因此,在此描述的多声道音频编码器很好地适合于与之前描述的多声道音频解码器 协同工作。

在优选实施例中,多声道音频编码器可被配置为:选择性地提供所述解相关方法 参数,以信号通知用于音频解码器的操作的以下三种模式中的一种:第一模式,在所述第一 模式中,当将渲染音频信号或其缩放版本与所述一个或多个解相关音频信号进行组合时, 允许不同渲染音频信号之间的混音,第二模式,在所述第二模式中,当将渲染音频信号或其 缩放版本与所述一个或多个解相关音频信号进行组合时,不允许不同渲染音频信号之间的 混音,以及在所述第二模式中,允许使用相同或不同的缩放将给定解相关信号与多个渲染 音频信号或其缩放版本进行组合,以调整所述输出音频信号的互相关特性或互协方差特 性,以及第三模式,在所述第三模式中,当将渲染音频信号或其缩放版本与所述一个或多个 解相关音频信号进行组合时,不允许不同渲染音频信号之间的混音,以及在所述第三模式 中,不允许将给定的解相关信号与和从其导出所述给定解相关信号的渲染音频信号不同的 渲染音频信号进行组合。因此,多声道音频编码器可依靠音频内容来通过上述三种模式切 换多声道音频解码器,其中,多声道音频编码器可将多声道音频解码器在其中工作的模式 很好地适合与当前编码的音频内容的类型。然而,在一些实施例中,上述用于音频解码器操 作的三种模式中仅一种或两种可使用(或可能可用)。

在优选实施例中,多声道音频编码器被配置为:依靠输入音频信号是否包括相对 较高的相关性或相对较低的相关性,选择解相关方法参数。因此,可基于当前编码的音频信 号的重要特性来进行在解码器中使用的解相关的适配。

在优选实施例中,多声道音频编码器被配置为:如果输入音频信号之间的相关性 或协方差相对较高,选择指定第一模式或第二模式的解相关方法参数,以及如果输入音频 信号之间的相关性或协方差相对较低,选择指定第三模式的解相关方法参数。因此,在输入 音频信号之间的相关性或协方差相对较低的情况下,选择不校正互协方差特性或互相关特 性的解码模式。已发现:对于具有相对较低的相关性(或协方差)的信号而言,这是高效的选 择,因为这样的信号是充分独立的,这消除了适配互相关性或互协方差的需要。相反,对充 分独立的输入音频信号(具有相对较小的相关性或协方差)的互相关性或互协方差的调整 通常将使音频质量退化,并同时增加解码复杂度。因此,该概念允许将多声道音频解码器合 理地适配给输入到多声道音频编码器的信号。

根据本发明的实施例创建一种基于编码表示来提供至少两个输出音频信号的方 法。该方法包括:依靠一个或多个渲染参数来渲染多个解码音频信号,以获得多个渲染音频 信号,所述多个解码音频信号是基于所述编码表示而获得的。该方法还包括:根据渲染音频 信号导出一个或多个解相关音频信号,并将渲染音频信号或其缩放版本与该一个或多个解 相关音频信号进行组合,以获得输出音频信号。该方法基于与上述多声道音频解码器相同 的考虑。此外,可以由以上讨论的关于多声道音频解码器描述的任何特征及功能来对该方 法进行补充。

根据本发明的另一实施例创建一种基于至少两个输入音频信号来提供编码表示 的方法。该方法包括:基于所述至少两个输入音频信号来提供一个或多个下混音信号,提供 描述所述至少两个输入音频信号之间的关系的一个或多个参数,以及提供解相关方法参 数,所述解相关方法参数描述在音频解码器侧应该使用多个解相关模式中的哪个解相关模 式。该方法基于与上述多声道音频编码器相同的考虑。此外,可以由本文中描述的关于多声 道音频编码器描述的任何特征及功能来对该方法进行补充。

根据本发明的另一实施例创建用于执行上述方法中的一个或多个的计算机程序。

根据本发明的了另一实施例创建编码音频表示,包括:下混音信号的编码表示、描 述所述至少两个输入音频信号之间的关系的一个或多个参数的编码表示、以及编码解相关 方法参数,所述编码解相关方法参数描述在音频解码器侧应该使用多个解相关模式中的哪 个解相关模式。该编码音频表示向信号提供适当的解相关模式,并因此帮助实现关于多声 道音频解码器和多声道音频解码器描述的优点。

附图说明

后续将参考所附的图来描述根据本发明的实施例,其中:

图1示出根据本发明的实施例的多声道音频解码器的示意框图;

图2示出根据本发明的实施例的多声道音频编码器的示意框图;

图3示出根据本发明的实施例的方法流程图,该方法基于编码表示来提供至少两 个输出音频信号;

图4示出根据本发明的实施例的方法流程图,该方法基于至少两个输入音频信号 来提供编码表示;

图5示出根据本发明的实施例的编码音频表示的示意表示;

图6示出根据本发明的实施例的多声道解相关器的示意框图;

图7示出根据本发明的实施例的多声道音频解码器的示意框图;

图8示出根据本发明的实施例的多声道音频编码器的示意框图;

图9示出根据本发明的实施例的方法流程图,该方法基于多个解相关器输入信号 提供多个解相关信号;

图10示出根据本发明的实施例的方法流程图,该方法基于编码表示来提供至少两 个输出音频信号;

图11示出根据本发明的实施例的方法流程图,该方法基于至少两个输入音频信号 来提供编码表示;

图12示出根据本发明的实施例的编码表示的示意表示;

图13示出提供基于MMSE的参数化下混音/上混音概念的示意表示;

图14示出三维空间中正交原理的几何表示;

图15示出根据本发明的实施例的参数化重构系统的示意框图,该参数化重构系统 的渲染输出应用了解相关;

图16示出解相关单元的示意框图;

图17示出根据本发明的实施例的复杂度减少的解相关单元的示意框图;

图18示出根据本发明的实施例的扬声器位置的表格表示;

图19a至19g示出N=22且K介于5至11之间的预混音系数的表格表示;

图20a至20d示出N=10且K介于2至5之间预混音系数的表格表示;

图21a至21c示出N=8且K介于2至4之间预混音系数的表格表示;

图21d至21f示出N=7且K介于2至4之间预混音系数的表格表示;

图22a至22b示出N=5且K等于2或K等于3的预混音系数的表格表示;

图23示出N=2且K=1的预混音系数的表格表示;

图24示出声道信号组的表格表示;

图25示出附加参数的语法表示,该语法表示可包括在SAOCSpecifigConfig()语法 (或等价地,SAOC3DSpecificConfig()语法)中;

图26示出比特流变量bsDecorrelationMethod不同值的表格表示;

图27示出针对由比特流变量bsDecorrelationLevel指示的不同解相关等级以及 输出配置的多个解相关器的表格表示;

图28以示意性框图的形式示出三维音频编码器的概述;

图29以示意性框图的形式示出三维音频解码器的概述;以及

图30示出格式转换器的结构的示意框图;

图31示出根据本发明的实施例的下混音处理器的示意框图;

图32示出对用于不同数目的SAOC下混音对象的解码模式进行表示的表格;以及

图33示出比特流元素“SAOC3DSpecificConfig”的语法表示。

具体实施方式

1.根据图1的多声道音频解码器

图1示出根据本发明的实施例的多声道音频解码器100的示意框图。

多声道音频解码器100被配置为接收编码表示110,并基于编码表示110提供至少 两个输出音频信号112、114。

优选地,多声道音频解码器100包括解码器120,解码器120被配置为基于编码表示 110提供解码音频信号122。此外,多声道音频解码器100包含渲染器130,渲染器130被配置 为依靠一个或多个渲染参数来渲染多个解码音频信号122以获得多个渲染音频信号134、 136,该多个解码音频信号122是基于编码表示110(例如,由解码器120)而获得的。此外,多 声道音频解码器100包括解相关器140,解相关器140被配置为从渲染音频信号134、136导出 一个或多个解相关音频信号142、144。此外,多声道音频解码器100包括组合器150,组合器 150被配置为将渲染音频信号134、136或其缩放版本与一个或多个解相关音频信号142、144 进行组合,以获得输出音频信号112、114。

然而,应该注意的是,只要给出上述的功能,多声道音频解码器100的不同硬件结 构便可以是可能的。

关于多声道音频解码器100的功能,应该注意的是,从渲染音频信号134,136导出 解相关音频信号142、144,且将解相关音频信号142、144与渲染音频信号134、136进行组合, 以获得输出音频信号112、114。通过从渲染音频信号134、136导出解相关音频信号142、144, 可实现特别高效的处理,因为渲染音频信号134、136的数目通常独立于被输入到渲染器130 中的解码音频信号122的数目。因此,解相关效果通常独立于解码音频信号122的数目,这提 高了实现效率。此外,在渲染之后应用解相关避免了引入伪像,当在渲染之前应用解相关的 情况下,在组合多个解相关信号时,转移器可能产生该伪像。此外,在解相关器140执行的解 相关中可以考虑渲染音频信号的特性,这通常导致质量良好的输出音频信号。

此外,应该注意的是,可通过本文中描述的任何特征和功能对多声道音频解码器 100进行补充。具体地,应该注意的是,本文中描述的个别改进可被引入到多声道音频解码 器100中,以由此更大地提高处理的效率及/或输出音频信号的质量。

2.根据图2的多声道音频编码器

图2示出根据本发明的实施例的多声道音频编码器200的示意框图。多声道音频编 码器200被配置为接收两个或更多个输入音频信号210、212,以及基于该两个或更多个输入 音频信号210、212提供编码表示214。多声道音频编码器包括下混音信号提供器220,下混音 信号提供器220被配置为基于该至少两个输入音频信号210、212提供一个或多个下混音信 号222。此外,多声道音频编码器200包括参数提供器230,参数提供器230被配置为提供对至 少两个输入音频信号210、212之间的关系(例如,互相关、互协方差、级差等)进行描述的一 个或多个参数232。

此外,多声道音频编码器200还包括解相关方法参数提供器240,解相关方法参数 提供器240被配置为提供解相关方法参数242,该解相关方法参数242描述在音频解码器侧 应该使用多个解相关模式中的哪个解相关模式。例如,以编码形式将一个或多个下混音信 号222、一个或多个参数232以及解相关方法242包括在编码表示214中。

然而,应该注意的是,只要满足上述的功能,多声道音频编码器200的不同硬件结 构便可以不同。换言之,应该将多声道音频编码器200的功能分布到各个块(例如,到下混音 信号提供器220,到参数提供器230以及到解相关方法参数提供器240)视为是示例。

关于多声道音频编码器200的功能,应该注意的是,将一个或多个下混音信号222 以及一个或多个参数232以常规的方式提供,例如,如同在SAOC多声道音频编码器或在USAC 多声道音频编码器中一样。然而,也由多声道音频编码器200提供并包括在编码表示214中 的解相关方法参数242可被用来将解相关模式适配到输入音频信号210、212,或适配到所期 望的回放品质。因此,解相关模式可被适配到不同类型的音频内容。例如,针对其中输入音 频信号210,212强相关的音频内容的类型,以及针对其中输入音频信号210,212彼此独立的 音频内容的类型,可选择不同的解相关模式。此外,针对其中空间感知特别重要的音频内容 的类型,以及针对其中空间印象较不重要或甚至次重要的音频内容类型(例如,当与个别声 道的再现相比较时),可例如由解相关模式参数242来对不同的解相关模式进行信号通知。 因此,接收编码表示214的多声道音频解码器可被多声道音频编码器200所控制,且可被设 置为在解码复杂度与再现质量之间带来最佳的可能折中的解码模式。

此外,应该注意的是,可通过本文中描述的任何特征和功能对多声道音频编码器 200进行补充。应该注意的是,本文中描述的可能的附加特征和改进可被个别地或者组合地 添加到多声道音频编码器200,以由此改进(或增强)多声道音频编码器200。

3.根据图3的提供至少两个输出音频信号的方法

图3示出基于编码表示来提供至少两个输出音频信号的方法300的流程图。该方法 包括渲染310多个解码音频信号,以获得多个渲染音频信号,该多个解码音频信号是依靠一 个或多个渲染参数,基于编码表示312而获得的。方法300还包括从渲染音频信号导出320一 个或多个解相关音频信号。方法300还包括将渲染音频信号或其缩放版本与一个或多个解 相关音频信号进行组合330,以获得输出音频信号332。

应该注意的是,方法300基于与根据图1的多声道音频解码器100相同的考虑。此 外,应该注意的是,可通过本文中所述的任何特征和功能来(个别地或组合地)补充方法 300。例如,可以由关于本文中所述的多声道音频解码器描述的任何特征及功能来对方法 300进行补充。

4.根据图4的提供编码表示的方法

图4示出基于至少两个输入音频信号来提供编码表示的方法400的流程图。方法 400包括基于至少两个输入音频信号412来提供410一个或多个下混音信号。方法400还包括 提供420一个或多个参数以及提供430解相关方法参数,该一个或多个参数描述至少两个输 入音频信号412之间的关系,解相关方法参数描述在音频解码器侧应该使用多个解相关模 式中的哪个解相关模式。因此,提供编码表示432,编码表示432优选地包括一个或多个下混 音信号的编码表示、对至少两个输入音频信号之间的关系进行描述的一个或多个参数以及 解相关方法参数。

应该注意的是,方法400基于与根据图2的多声道音频编码器200相同的考虑,使得 上述说明同样适用。

此外,应该注意的是,只要在方法400在执行环境中是可能的,步骤410、420、430的 顺序可被灵活地改变,且步骤410、420、430也可以并行执行。此外,应该注意的是,可通过本 文中所述(无论是个别或是以组合的方式)的任何特征和功能来补充方法400。例如,可以由 在本文中关于多声道音频编码器描述的任何特征及功能来对方法400进行补充。然而,引入 与本文中描述的接收编码表示432的多声道音频解码器的特征和功能相对应的特征和功能 也是可能的。

5.根据图5的编码音频表示

图5示出根据本发明的实施例的编码音频表示500的示意表示。

编码音频表示500包括下混音信号的编码表示510以及描述至少两个音频信号之 间的关系的一个或多个参数的编码表示520。此外,编码音频表示500还包括编码解相关方 法参数530,编码解相关方法参数530描述在音频解码器侧应该使用多个解相关模式中的哪 个解相关模式。因此,编码音频表示允许从音频编码器向音频解码器信号通知解相关模式。 因此,有可能获得很好地适合于音频内容的特性(其例如是通过一个或多个下混音信号的 编码表示510以及描述至少两个音频信号(例如,被下混音到一个或多个下混音信号的编码 表示510中的至少两个音频信号)之间的关系的一个或多个参数的编码表示520来描述的) 的解相关模式。因此,编码音频表示500允许以特别良好的听觉空间印象和/或听觉空间印 象与解码复杂度之间特别良好的平衡来渲染由编码音频表示500表示的音频内容。

此外,应该注意的是,可由关于多声道音频编码器和多声道音频解码器(不管是个 别地还是组合地)描述的任何特征和功能对编码表示500进行补充。

6.根据图6的多声道解相关器

图6示出根据本发明的实施例的多声道解相关器600的示意框图。

多声道解相关器600被配置为接收第一组N个解相关器输入信号610a至610n,并基 于第一组N个解相关器输入信号610a至610n提供第二组N’个解相关器输出信号612a至 612n’。换言之,多声道解相关器600被配置为基于解相关器输入信号610a至610n提供(至少 近似地)多个解相关信号612a至612n’。

多声道解相关器600包括预混音器620,预混音器620被配置为将第一组N个解相关 器输入信号610a至610n预混音器620为第二组K个解相关器输入信号622a至622k,其中,K小 于N,且K及N是整数。多声道解相关器600还包括解相关630(或解相关器核心),解相关630被 配置为基于第二组K个解相关器输入信号622a至622k提供第一组K’个解相关器输出信号 632a至632k’。此外,多声道解相关器包括后置混音器640,后置混音器640被配置为将第一 组K’个解相关器输出信号632a至632k’上混音为第二组N’个解相关器输出信号612a至 612n’,其中N’大于K’,且N’及K’是整数。

然而,应该注意的是,应该仅将多声道解相关器600的给定结构视为示例,且只要 提供本文所述的功能,没有必要将多声道解相关器600细分为功能块(例如,细分为预混音 器620、解相关或解相关器核心630和后置混音器640)。

关于多声道解相关器600的功能,应该注意的是,与将实际解相关例如直接应用于 N个解相关器输入信号的概念相比时,以下概念带来了复杂度的降低:执行预混音以从第一 组N个解相关器输入信号导出第二组K个解相关器输入信号,以及基于(预混音或″下混音” 的)第二组K个解相关器输入信号执行解相关。此外,基于可由上混音器640执行的后置混 音,第二组(上混音的)N’个解相关器输出信号是基于第一组(原始的)解相关器输出信号获 得的,该第二组(上混音的)N’个解相关器输出信号是实际解相关的结果。当实际解相关器 核心630仅操作较少数目的信号(即,第二组K个解相关器输入信号的K个下混音解相关器输 入信号622a至622k),多声道解相关器600高效地(当从外部看时)接收N个解相关器输入信 号,并基于该收N个解相关器输入信号,提供N’个解相关器输出信号。因此,当与常规的解相 关器进行比较时,通过在解相关(或解相关器核心)630的输入侧处执行下混音或“预混音” (优选地,可以是不具有任何解相关功能的线性预混音),并通过基于解相关(解相关器核 心)630的(原始)输出信号632a至632k’执行上混音或“后置混音”(例如,不具有任何附加解 相关功能的线性上混音),可以大幅度地降低多声道解相关器600的复杂度。

此外,应该注意的是,可以由本文中关于多声道解相关以及还关于多声道音频解 码器描述的任何特征及功能来补充多声道解相关器600。应该注意的是,本文中描述的特征 可被个别地或者组合地添加到多声道解相关器600,以由此改进或增强多声道解相关器 600。

应该注意的是,可从上述的针对K=N(且可能地,K’=N’或甚至是K=N=K’=N’) 的多声道解相关器导出复杂度未降低的多声道解相关器。

7.根据图7的多声道音频解码器

图7示出根据本发明的实施例的多声道音频解码器700的示意框图。

多声道音频解码器700被配置为接收编码表示710,并基于编码表示710提供至少 两个输出信号712、714。多声道音频解码器700包括多声道解相关器720,多声道解相关器 720与根据图6的多声道解相关器600可大致相同。此外,多声道音频解码器700可以包括本 领域技术人员已知的多声道音频解码器的任何特征和功能或在本文中关于其它多声道音 频解码器描述的任何特征和功能。

此外,应该注意的是,当与常规的多声道音频解码器进行相比时,多声道音频解码 器700包括特别高的效率,因为多声道音频解码器700使用高效率的多声道解相关器720。

8.根据图8的多声道音频编码器

图8示出根据本发明的实施例的多声道音频编码器800的示意框图。多声道音频编 码器800被配置为接收至少两个输入音频信号810、812,并基于该至少两个输入音频信号 810、812提供由输入音频信号810、812表示的音频内容的编码表示814。

多声道音频编码器800包括下混音信号提供器820,下混音信号提供器820被配置 为基于该至少两个输入音频信号810、812提供一个或多个下混音信号822。多声道音频编码 器800还包括参数提供器830,参数提供器830基于输入音频信号810、812提供一个或多个参 数832(例如,互相关参数或互协方差参数或对象间相关参数和/或对象级差参数)。此外,多 声道音频编码器800包括解相关复杂度参数提供器840,解相关复杂度参数提供器840被配 置为提供解相关复杂度参数842,解相关复杂度参数842描述要在(接收编码表示814的)音 频解码器侧使用的解相关的复杂度。将该一个或多个下混音信号822、一个或多个参数832 以及解相关复杂度参数842包括在编码表示814中,优选地,以编码形式包括。

然而,应该注意的是,多声道音频编码器800的内部结构(例如,下混音信号提供器 820的存在、参数提供器830的存在以及解相关复杂度参数提供器840的存在)仅应被视为示 例。只要实现本文中描述的功能,不同的结构是可能的。

关于多声道音频编码器800的功能,应该注意的是,多声道编码器提供编码表示 814,其中,一个或多个下混音信号822以及一个或多个参数832可以类似于或等于常规音频 编码器(如,例如常规的SAOC音频编码器或USAC音频编码器)所提供的下混音信号和参数。 然而,多声道音频编码器800也被配置为提供解相关复杂度参数842,解相关复杂度参数842 允许确定音频解码器侧应用的解相关复杂度。因此,可将解相关复杂度适配到当前编码的 音频内容。例如,依靠与输入音频信号的特性有关的编码器侧知识,有可能信号通知与可实 现的音频质量相对应的所期望的解相关复杂度。例如,当与空间特性不是那么重要的情况 相比较时,如果发现空间特性对音频信号很重要,则可以使用解相关复杂度参数842信号通 知较高的解相关复杂度。备选地,如果发现,音频内容的通道或整个音频内容使得由于其他 原因在音频解码器侧需要高复杂度解相关,可使用解相关复杂度参数842来信号通知使用 高解相关复杂度。

总而言之,多声道音频编码器800提供以下可能性:控制多声道音频解码器使用适 于可由多声道音频编码器800设置的信号特性或所期望的回放特性的解相关复杂度。

此外,应该注意的是,可由本文中描述的与多声道音频编码器有关的任何特征及 功能来(个别地或组合地)补充多声道音频编码器800。例如,可将本文中描述的与多声道音 频编码器有关的特征中的一部分或全部添加到多声道音频编码器800。此外,多声道音频编 码器800可被适配以与本文中描述的多声道音频解码器协作。

9.根据图9,基于多个解相关器输入信号提供多个解相关信号的方法

图9示出用于基于多个解相关器输入信号提供多个解相关信号的方法900的流程 图。

方法900包括将第一组N个解相关器输入信号预混音910为第二组K个解相关器输 入信号,其中,K小于N。方法900还包括基于第二组K个解相关器输入信号提供920第一组K’ 个解相关器输出信号。例如,可使用解相关来基于第二组K个解相关器输入信号提供第一组 K’个解相关器输出信号,可例如使用解相关器核心或使用解相关算法来执行该解相关。方 法900还包括将第一组K’个解相关器输出信号后置混音930为第二组N’个解相关器输出信 号,其中,N’大于K’,且N’和K’是整数。因此,可基于第一组N个解相关器输入信号提供作为 方法900的输出的第二组N’个解相关器输出信号,该第一组N个解相关器输入信号是方法 900的输入。

应该注意的是,方法900基于与上述的多声道解相关器相同的考虑。此外,应该注 意的是,可由本文中关于多声道解相关器(以及还关于多声道音频编码器,如果可应用的 话)描述的任何特征和功能(个别地或组合地)对方法900进行补充。

10.根据图10,基于编码表示来提供至少两个输出音频信号的方法

图10示出基于编码表示来提供至少两个输出音频信号的方法1000的流程图。

方法1000包括基于编码表示1012提供1010至少两个输出音频信号1014、1016。根 据依据图9的方法900,方法1000包括基于多个解相关器输入信号提供1020多个解相关信 号。

应该注意的是,方法1000基于与根据图7的多声道音频解码器700相同的考虑。

此外,应该注意的是,可通过本文中关于多声道解码器描述的任何特征和功能来 (个别地或组合地)补充方法1000。

11.根据图11,基于至少两个输入音频信号来提供编码表示的方法

图11示出基于至少两个输入音频信号来提供编码表示的方法1100的流程图。

方法1100包括基于至少两个输入音频信号1112、1114来提供1110一个或多个下混 音信号。方法1100还包括提供1120对至少两个输入音频信号1112、1114之间的关系进行描 述的一个或多个参数。此外,方法1100包括提供1130解相关复杂度参数,解相关复杂度参数 描述要在音频解码器侧使用的解相关的复杂度。因此,基于至少两个输入音频信号1112、 1114提供编码表示1132,其中,编码表示通常以编码形式包括一个或多个下混音信号、对至 少两个输入音频信号之间的关系进行描述的一个或多个参数以及解相关复杂度参数。

应该注意的是,在本发明的一些实施例中,可并行执行或以不同的顺序执行步骤 1110、1120、1130。此外,应该注意的是,方法1100基于与根据图8的多声道音频编码器800相 同的考虑,且可由本文中关于多声道音频编码器描述的任何特征和功能来(个别地或组合 地)补充方法1100。此外,应该注意的是,方法1100可被适配为与本文中描述的多声道音频 解码器和用于提供至少两个输出音频信号的方法相匹配。

12.根据图12的编码音频表示

图12示出根据本发明的实施例的编码音频表示的示意表示。编码音频表示1200包 括下混音信号的编码表示1210,一个或多个参数的编码表示1220以及编码解相关复杂度参 数1230,其中,编码表示1220描述至少两个输入音频信号之间的关系,编码解相关复杂度参 数1230描述要在音频解码器侧使用的解相关的复杂度。因此,编码音频表示1200允许调整 多声道音频解码器使用的解相关复杂度,这导致解码效率提高,可能导致音频质量提高,或 导致改善编码效率与音频质量之间的权衡。此外,应该注意的是,编码音频表示1200可以如 本文中所述地由多声道音频编码器提供,且可如本文中所述地被多声道音频解码器使用。 因此,可由关于多声道音频编码器和关于多声道音频解码器描述的任何特征对编码音频表 示1200进行补充。

13.符号以及基础考虑

最近在音频编码(参见例如参考文献[BCC]、[JSC]、[SAOC]、[SAOC1]、[SAOC2])和 通知来源分离领域中(参见例如参考文献[ISS1]、[ISS2]、[ISS3]、[ISS4]、[ISS5]、[ISS6]) 提出针对包含多个音频对象的音频场景的比特率高效传输/存储的参数化技术。基于对所 传输/储存的音频场景和/或该音频场景中的源对象进行描述的附加边信息,这些技术旨在 重构所期望的输出音频场景或音频源对象。在解码器中使用参数化通知的源分离方案来发 生该重构。此外,还参考例如在国际标准ISO/IEC23003-1:2007中描述的所谓“MPEG环绕”概 念。此外,还参考例如在国际标准ISO/IEC23003-2:2010中描述的所谓“空间音频对象编 码”概念。此外,参考例如在国际标准ISO/IEC23003-3:2012中描述的所谓“统一语音及音 频编码”概念。这些标准的概念可在本发明的实施例中使用,例如,在本文中提及的多声道 音频编码器和多声道音频解码器中使用,其中可能需要某些适配。

下面,将描述一些背景信息。具体地,将使用MPEG空间音频对象编码(SOAC)技术 (参见例如参考文献[SAOC])来提供参数化分离方案的概述。考虑该方法的数学属性。

13.1.符号和定义

在当前文档中应用以下的数学符号:

NObjects音频对象信号的数目

NDmxCh下混音(已处理)声道的数目

NUpmixCh上混音(输出)声道的数目

NSamples已处理数据样本的数目

D下混音矩阵,大小为NDmxCh×NObjects

X输入音频对象信号,大小为NObjects×NSamples

EX对象协方差矩阵,大小为NObjects×NObjects

定义为EX=XXH

Y下混音音频信号,大小为NDmxCh×NSamples

定义为Y=DX

EY下混音信号的协方差矩阵,大小为NDmxCh×NDmxCh

定义为EY=YYH

G参数化源估计矩阵,大小为NObjects×NDmxCh

其近似为EXDH(DEXDH)-1

参数方式重构的对象信号,大小为NObjects×NSamples

其近似为X,且定义为

R渲染矩阵(在解码器侧规定),大小为NUpmixCh×NObjects

Z理想的渲染输出场景信号,大小为NUpmixCh×NSamples

定义为Z=RX

渲染参数输出,大小为NUpmixCh×NSamples

定义为

C理想输出的协方差矩阵,大小为NUpmixCh×NUpmixCh

定义为C=REXRH

W解相关器输出,大小为NUpmixCh×NSamples

S组合信号大小为2NUpmixCh×NSamples

ES组合信号协方差矩阵,大小为2NUpmixCh×2NUpmixCh

定义为ES=SSH

最终输出,大小为NUpmixCh×NSamples

(·)H自共轭(Hermitian)操作符

其表示(·)的复数共轭转置。也可以使用符号(·)。

Fdecorr(·)解相关器函数

ε是加性常数或限制常数(例如,使用“最大”运算或“max”运算中使用),以防止被 零除

H=matdiag(M)是在主对角线上包含来自矩阵M的主对角线的元素并在非对角线 位置具有零值的矩阵。

不失一般性,为了提高等式的可读性,对于所有引入的变量,在本文档中省略表示 时间和频率相依性的指数。

13.2.参数化分离系统

一般的参数化分离系统旨在使用辅助参数信息(例如,声道间相关性值,声道间级 差值,对象间相关性值和/或对象级差信息)来根据信号混音物(下混音)估计音频源的数 目。该课题的典型解决方案基于最小均方误差(MMSE)估计算法的应用。SAOC技术是为这种 参数音频编码/解码系统的一个示例。

图13示出了SAOC编码器/解码器架构的一般性原理。换言之,图13以示意性框图的 形式示出了基于MMSE的参数化下混音/上混音概念的概述。

编码器1310接收多个对象信号1312a、1312b至1312n此外,编码器1310还接收混音 参数D1314,收混音参数D1314可例如是下混音参数。编码器1310基于其提供一个或多个 下混音信号1316a、1316b等。此外,编码器提供边信息1318。可例如以编码形式提供该一个 或多个下混音信号以及边信息。

编码器1310包括混音器1320,混音器1320通常被配置为接收对象信号1312a至 1312n,并依靠混音参数1314将对象信号1312a至1312n组合(例如,下混音)为一个或多个下 混音信号1316a、1316b。此外,编码器包括边信息估计器1330,信息边估计器1330被配置为 从对象信号1312a至1312n导出边信息1318。例如,边信息估计器1330可被配置为导出边信 息1318,使得边信息可描述对象信号之间的关系(例如,对象信号之间的互相关,可将其指 定为“对象间相关性”IOC)和/或对对象信号之间的级差进行描述的信息(可将其指定为“对 象级差信息”OLD)。

一个或多个下混音信号1316a,1316b以及边信息1318可储存和/或发送给解码器 1350,以附图标记1340对该储存和/或发送进行指示。

解码器1350接收(例如编码形式的)一个或多个下混音信号1316a,1316b以及边信 息1318,并在基于该一个或多个下混音信号1316a,1316b以及边信息1318来提供多个输出 音频信号1352a至1352n。解码器1350还可以接收用户交互信息1354,用户交互信息1354可 以包括一个或多个渲染参数R(其可以定义渲染矩阵)。解码器1350包括参数化对象分离器 1360、边信息处理器1370以及渲染器1380。边信息处理器1370接收边信息1318,并基于边信 息1318为参数化对象分离器1360提供控制信息1372。参数化对象分离器1360基于下混音信 号1360a、1360b以及控制信息1372提供多个对象信号1362a至1362n,其中,控制信息1372是 由边信息处理器1370从边信息1318导出的。例如,对象分离器可以执行对象分离以及编码 下混音信号的解码。渲染器1380渲染重构对象信号1362a至1362n,以由此获得输出音频信 号1352a至1352n。

在下文中,将讨论基于MMSE的参数化下混音/上混音概念的功能。

一般的参数化下混音/上混音处理是通过时间/频率选择性方式来执行的,且其可 被描述为以下步骤的序列:

向“编码器”1310提供输入的“音频对象”X和“混音参数”D。“混音器”1320使用“混 音参数”D(例如,下混音增益)将“音频对象”X下混音为多个“下混音”信号Y。“边信息估计 器”提取描述输入的“音频对象”X的特性(例如,协方差属性)的边信息1318。

发送或存储“下混音”信号Y和边信息。可以使用音频编解码器(例如,MPEG-1/2第 II层或第III层、MPEG-2/4高级音频编码(AAC)、MPEG统一语音及音频编码(USAC)等)对这些 下混音音频信号进行进一步的压缩。也可以高效地表示并编码边信息(例如,作为对象功率 (objectpower)与对象相关性系数的无损编码关系)。

“解码器”1350使用所发送的边信息1318从解码的“下混音信号”恢复原始的“音频 对象”。“边信息处理器”1370估计要在“参数化对象分离器”1360内应用到“下混音信号”的 解混音系数1372,以获得X的参数化对象重构。通过应用“渲染参数”R1354,将重构的“音频 对象”1362a至1362n渲染到由输出声道表示的(多声道)目标场景。

此外,应该注意的是,关于编码器1310以及解码器1350描述的功能也可以用在本 文中描述的其他音频编码器及音频解码器中。

13.3.最小均方误差估计的正交原理

正交原理是MMSE估计器的一项主要属性。考虑两个希尔伯特空间W及V,V是由一组 向量yi所贯穿,且向量x∈W。如果希望在最小化均方差时找到将x近似为向量yi∈V的线性组 合的估计值则误差向量将会在向量yi所贯穿的空间上正交:

(x-x^)yH=0,

因此,估计误差和估计自身是正交的。

(x-x^)x^H=0.

在几何上,可通过图14中示出的示例来对此进行可视化

图14示出三维空间中正交原理的几何表示。可以看出,矢量空间被矢量y1、y2所贯 穿。矢量x等于矢量与差矢量(或误差矢量)e之和。可以看出,误差矢量e与矢量y1和y2所 贯穿的矢量空间(或平面)v正交。因此,可以将矢量视为矢量空间V中对x的最佳近似。

13.4.参数化重构误差

将包括N个信号的矩阵定义为:x且以来表示估计误差XError,可以制定以下恒等式。 原始信号可以表示为参数化重构与重构误差XError之和,表示为:

X=X^+XError.

因为正交原理,原始信号的协方差矩阵EX=XXH可以被制定为重构信号的协方 差矩阵与估计误差的协方差矩阵之和,制定为:

EX=XXH=(X^+XError)(X^+XError)H=X^X^H+XErrorXErrorH+X^XErrorH+XErrorX^H==X^X^H+XErrorXErrorH.

当输入对象x不在下混音声道所贯穿的空间(例如,下混音声道的数目小于输入信 号的数目)且输入对象不能表示为下混音声道的线性组合时,基于MMSE的算法引入重构不 精确

13.5.对象间相关性

在听觉系统中,互协方差(相干性/相关性)与由声音所环绕的包围感知紧密相关, 并与声音源的感知宽度紧密相关。例如,在基于SAOC的系统中,对象间相关性(IOC)参数被 用于该属性的表征:

IOC(i,j)=EX(i,j)EX(i,i)EX(j,j).

让我们考虑使用两个音频信号再现声源的示例。如果IOC值接近1,声音被感知为 良好定位的点源。如果IOC值接近0,声源的感知宽度增加,且对于极端情况,甚至可将其感 知为两个不同的源[Blauert,Chapter3]。

13.6.补偿重构不精确

在不完美的参数化重构的情况下,与原始对象相比较,输出信号可以展现出较低 的能量。协方差矩阵的对角元素中的错误可导致听得见的级差,且非对角元素中的错误可 导致失真空间声音图像(与理想参考输出相比)。所提出的方法目的在于解决该问题。

在MPEG环绕(MPS)中,例如,仅针对一些特定的基于声道的处理情景(亦即,针对单 声道/立体声下混音以及有限的静态输出配置(如单声道、立体声、5.1、7.1等))处理该问 题。在也使用单声道/立体声下混音的面向对象的技术(如SAOC)中,仅针对5.1输出配置,通 过应用MPS后置处理渲染来处理该问题。

该现有的解决方案受限于标准输出配置和固定数目的输入/输出声道。亦即,他们 被实现为必然应用实现仅“单声道至立体声”(或“立体声至三声道”)声道解相关方法的若 干块。

因此,用于参数化重构不精确补偿的一般性解决方案(例如,能量级和相关性属性 校正方法)是所期待的,该方案可应用于数目灵活的下混音/输出声道以及任意的输出配置 设置。

13.7.结论

作为总结,已提供了符号的概述。此外,已描述了根据本发明的实施例所基于的参 数化分离系统。此外,已概述了正交原理应用于最小均方差估计。此外,已提供了在存在重 构误差XError时应用的用于计算协方差矩阵EX的等式。此外,提供了所谓对象间相关性值与 协方差矩阵EX的元素之间的关系,可在例如根据本发明的实施例中应用该关系,以从对象 间相关性值(其可包括在参数化边信息中)导出所期望的协方差特性(或相关性特性),以及 可能形成对象级差。此外,已概述了,因为不完美的重构,重构对象信号的特性可以不同于 所期望的特性。此外,已概述了,解决该问题的现有解决方案受限于某些特定的输出配置, 并依赖于标准块的特定组合,这使得常规解决方案不灵活。

14.根据图15的实施例

14.1.概念概述

根据本发明的实施例利用针对任意数目的下混音/上混音声道的解相关解决方案 扩展了在参数化音频分离方案中使用的MMSE参数化重构方法。根据本发明的实施例(同样 地,例如本发明的装置和本发明的方法)可补偿参数化重构期间的能量损失并恢复所估计 的对象的相关性属性。

图15提供具有一体化解相关路径的参数化下混音/上混音概念的概述。换言之,图 15以示意性框图的形式示出了将解相关应用在渲染输出处的参数化重构系统。

根据图15的系统包括编码器1510,编码器1510与根据图13的编码器1310大致相 同。编码器1510接收多个对象信号1512a至1512n,并基于该多个对象信号1512a至1512n提 供一个或多个下混音信号1516a、1516b以及边信息1518。下混音信号1516a、1516b与下混音 信号1316a、1316b可大致相同,并可被指定为Y。边信息1518与边信息1318可大致相同。然 而,边信息可例如包括解相关模式参数或解相关方法参数,或者包括解相关复杂度参数。此 外,编码器1510可以接收混音参数1514。

参数化重构系统还包括一个或多个下混音信号1516a、1516b以及边信息1518的传 输和/或储存,其中,该传输和/或储存被指定为1540,且一个或多个下混音信号1516a、 1516b以及边信息1518(其可以包括参数化边信息)可被编码。

此外,根据图15的参数化重构系统包括解码器1550,解码器1550被配置为接收所 传输或所储存的一个或多个(可能已编码的)下混音信号1516a、1516b以及所传输或所储存 的(可能已编码的)边信息1518,并基于该一个或多个下混音信号1516a、1516b以及边信息 1518提供输出音频信号1552a至1552n。解码器1550(其可被视为多声道音频解码器)包括参 数化对象分离器1560以及边信息处理器1570。此外,解码器1550包括渲染器1580、解相关器 1590以及混音器1598。

参数化对象分离器1560被配置为接收一个或多个下混音信号1516a、1516b以及由 边信息处理器1570基于边信息提供的控制信息1572,并基于该一个或多个下混音信号 1516a、1516b以及控制信息1572提供对象信号1562a至1562n,对象信号1562a至1562n被指 定为且可以被视为解码音频信号。控制信息1572可例如包括要在参数化对象分离器中应 用到下混音信号(例如,应用到从编码下混音信号1516a、1516b导出的解码下混音信号)以 获得重构对象信号(例如,解码音频信号1562a至1562n)的解混音系数。渲染器1580渲染解 码音频信号1562a至1562n(其可以是重构对象信号,且可例如对应于输入对象信号1512a至 1512n),以由此获得多个渲染音频信号1582a至1582n。例如,渲染器1580可以考虑渲染参数 R,渲染参数R可例如通过用户交互来提供且可例如定义渲染矩阵。然而,备选地,渲染参数 可得自于编码表示(其可以包括编码下混音信号1516a、1516b以及编码边信息1518)。

解相关器1590被配置为接收渲染音频信号1582a至1582n,并基于渲染音频信号 1582a至1582n提供解相关音频信号1592a至1592n,解相关音频信号1592a至1592n也被指定 为W。混音器1598接收渲染音频信号1582a至1582n以及解相关音频信号1592a至1592n,并将 渲染音频信号1582a至1582n与解相关音频信号1592a至1592n组合,以由此获得输出音频信 号1552a至1552n。混音器1598还可以使用由边信息处理器1570从编码边信息1518导出的控 制信息1574,其将描述如下。

14.2.解相关器函数

下面将描述与解相关器1590有关的一些细节。然而将注意的是,可以使用不同的 解相关器概念,其中的一些将在下面描述。

在实施例中,解相关器函数提供与输入信号正交的输 出信号w。输出信号w(与输入信号)具有相同的频谱和时间包络属性(或至少相似的属性)。 此外,以类似的方式感知信号w,且其与输入信号具有相同(或相似)的主观质量(参见例如 [SAOC2])。

在多个输入信号的情况下,如果解相关函数产生多个相互正交的输出(即,使得 对于所有的i及j,且对于i≠j,),则这是有益的。

针对解相关器功能实现的确切规范超出本法说明书的范围。例如,可以将在MPEG 环绕标准中定义的基于若干个无限脉冲响应(IIR)滤波器的解相关器的库用于解相关目的 [MPS]。

在本说明书中描述的通用解相关器假设是理想的。这意味着(除了感知要求之外) 每个解相关器的输出在其输入上和在所有其他解相关器的输出上是正交的。因此,针对具 有协方差的给定输入以及输出协方差矩阵的以下属性有效:

EW(i,i)=EZ^(i,i),EW(i,j)=0,for>ij,Z^WH=WZ^H=0

根据这些关系,得到

(Z^+W)(Z^+W)H=EZ^+Z^WH+WZ^H+EW=EZ^+EW.

通过使用预测信号作为输入,可以使用解相关器输出W来补偿MMSE估计器中的预 测不精确(要记住预测误差与预测信号正交)。

还应该注意的是,在一般情况下,预测误差在自身之间不是正交的。因此,本发明 性概念(例如,方法)的一个目标是创建“干”(即,解相关器输入)信号(例如,渲染音频信号 1582a至1582n)与“湿”(即,解相关器输出)信号(例如,解相关音频信号1592a至1592n)的混 音物,使得所产生的混音物(例如,输出音频信号1552a至1552n)的协方差矩阵成为变得类 似于所期望输出的协方差矩阵。

此外,应该注意的是,可以使用解相关单元的复杂度降低,其将在下文中详细描 述,且其可导致解相关信号的某些不完美,但该不完美可以是可接受的。

14.3.使用解相关信号的输出协方差校正

在下文中,将描述以下概念:调整输出音频信号1552a至1552n的协方差特性以获 得适当良好的听觉印象。

针对输出协方差误差校正所提出的方法,将输出信号(例如,输出音频信号1552a 至1552n)组成为以参数方式重构的信号(例如,渲染音频信号1582a至1582n)与其解相关 部分W的加权和。可如下表示该和

Z~=PZ^+MW.

然而,应该注意的是,该等式可被视为最一般性的构思。可选地,可将改变应用到 上述公式,该公式对于本文中描述的所有“简化方法”而言是有效的(或可针对本文中描述 的所有“简化方法”做出)。

向直接信号应用的混音矩阵P和向解相关信号W应用的M具有以下结构(N= NUpmixCh,其中,NUpmixCh指定多个渲染音频信号,且可等于输出音频信号的个数):

应用针对组合矩阵F=[PM]和信号的符号,产生

Z~=FS.

然而,备选地,等式

Z~=F~S

可被应用,下面将更详细地对其进行描述。

使用此表示式,输出信号的协方差矩阵被定义为

EZ~=FESFH.

理想地创建的渲染输出场景的目标协方差C可被定义为

C=REXRH.

计算混音矩阵F,使得最终输出的协方差矩阵近似于或等于目标协方差C,如

EZ~C.

例如,将混音矩阵F计算为已知量F=F(ES,EX,R)的函数,如

F=(UTUH)H(VQ-1VH),

其中,可例如使用协方差矩阵ES及C的奇异值分解(SVD)来确定矩阵U、T以及V、Q, 产生

C=UTUH,ES=VQVH

可根据针对直接信号路径和解相关信号路径的所期望的权重来选择原型矩阵H。

例如,可将可能的原型矩阵H确定为

其中,

在下面将提供针对一般矩阵F结构的一些数学推导。

换言之,针对一般解决方案的混音矩阵F的推导将会在下面描述。

可以使用例如奇异值分解(SVD)将协方差矩阵ES以及C表达为

ES=VQVH,C=UTUH

其中,T及Q是分别具有奇异值C及ES的对角矩阵,且U和V是包括对应奇异向量的酉 矩阵。

要注意的是,应用Schur三角或特征值分解(替代SVD)导致类似的结果(或甚至相 同的结果,如果对角矩阵Q和T被限制为正值)。

向条件EZ≈C应用该分解,(至少近似地)产生

C=FESFH

UTUH=FVQVHFH

(UTUH)(UTUH)=F(VQVH)(VQVH)FH,

(UTUH)(UTUH)=(FVQVH)(VQVHFH),

(UTUH)(UTUH)H=(FVQVH)(FVQVH)H.

为了考虑到协方差矩阵的维度,在一些情况下需要正则化。例如,可应用大小为 NUpmixCh×2NUpmixCh的具有属性的原型矩阵H

(UTUH)HHH(UTUH)=F(VQVH)(VQVH)FH,

(UTUH)H=F(VQVH).

其遵循:混音矩阵F可被确定为

F=(UTUH)H(VQ-1VH).

根据针对直接信号路径和解相关信号路径的所期望的权重来选择原型矩阵H。例 如,可将可能的原型矩阵H确定为

其中,

根据组合信号的协方差矩阵ES的情况,最后的等式可能需要包括某些正则化,但 在其他情况下,它应该在数值上是稳定的。

总而言之,已经提出了以下概念:基于渲染音频信号(由矩阵或等价地,由向量表示)和解相关音频信号(由矩阵W,或等价地,由向量w表示)来导出输出音频信号(由矩阵 或等价地,由向量表示)。可以看出,通常确定一般矩阵结构的两个混音矩阵P及M。例如, 可确定如上所定义的组合矩阵F,使得输出音频信号1552a至1562n的一协方差矩阵近似 于或等于所期望的协方差(也指定为目标协方差)C。可例如基于渲染矩阵R的知识(其可例 如由用户交互提供)并基于对象协方差矩阵EX的知识(其例如可基于编码边信息1518导出) 来导出所期望的协方差矩阵C。例如,可以使用上述的对象间相关性值IOC导出对象协方差 矩阵EX,对象间相关性值IOC可包括在编码边信息中1518中。因此,目标协方差矩阵C可例如 由边信息处理器1570作为信息1574或信息1574的一部份来提供。

然而,备选地,边信息处理器1570也可以直接向混音器1598提供作为信息1574的 混音矩阵F。

此外,已描述了针对混音矩阵F的计算规则,其使用了奇异值分解。然而,应该注意 的是,既然可以选择原型矩阵H的项ai,i及bi,i,因此存在一定的自由度。优选地,将原型矩阵 H的项选择为在0到1之间的某个位置。如果将值ai,i选择为更接近1,则将存在显著的渲染输 出音频信号混音,同时解相关音频信号的影响相对较小,这在某些情况下是所期望的。然 而,在其他一些情况中,可能更期待解相关音频信号具有相对较大的影响,同时在渲染音频 信号之间只存在微弱的混音。在该情况下,通常将值bi,i选择为大于ai,i。因此,通过适当地 选择原型矩阵H的项,可将解码器1550适配于该要求。

14.4.用于输出协方差校正的简化方法

在该节描述上述混音矩阵F的两个备选结构以及用于确定其值的示例性算法。针 对不同的输入内容(例如,音频内容),该两个备选被设计为:

-针对高关联性内容(例如,在不同声道对之间具有高相关性的基于声道的输入) 的协方差调整方法。

-针对独立输入信号(例如,基于对象的输入,假设其通常是独立的)的能量补偿方 法。

14.4.1.协方差调整方法(A)

考虑到从MMSE的意义上而言,信号(例如,渲染音频信号1582a至1582n)已经是最 优的,通常不建议为了提高输出的协方差属性而去修改参数化重构(例如,输出音频信 号1552a至1552n),因为这可能影响分离质量。

如果仅处理解相关信号W的混音物,可以将混音矩阵P缩减至单位矩阵(或多个单 位矩阵)。因此,可通过以下设置来描述该简化方法:

可将系统的最终输出表示为:

Z~=Z^+MW.

因此,可将系统的最终输出协方差表示为:

EZ~=EZ^+MEWMH

通过以下等式给出理想(或所期望的)输出协方差矩阵C与(例如,渲染音频信号 的)渲染参数化重构的协方差矩阵之间的差异ΔE

ΔE=C-EZ^.

因此,可确定混音矩阵M,以使得

ΔE≈MEWMH.

计算混音矩阵M,使得混音的解相关信号MW的协方差矩阵等于或近似于所期望的 协方差与(例如渲染音频信号的)干信号的协方差之间的协方差差。因此,最终输出的协方 差将近似于目标协方差EZ≈C:

M=(UTUH)(VQ-1VH),

其中,可例如使用协方差矩阵ΔE及EW的奇异值分解(SVD)来确定矩阵U、T以及V、Q, 产生

ΔE=UTUH,EW=VQVH

该方案确保了良好的互相关重构,并利用了仅混音解相关信号的自由度,该良好 的互相关重构最大化对(例如,渲染音频信号1582a至1582n的)干输出的使用。换言之,当将 渲染音频信号(或其缩放版本)与一个或多个解相关音频信号进行组合时,不允许不同渲染 音频信号之间的混音。然而,为了调整输出音频信号的互相关特性或互协方差特性,允许 (具有相同或不同缩放的)给定解相关信号与多个渲染音频信号或其缩放版本进行组合。通 过例如此处定义的矩阵M来定义组合。

在下面将提供针对受限矩阵F结构的一些数学推导。

换言之,将解释针对简化方法“A”的混音矩阵M的推导。

可以使用例如奇异值分解(SVD)将协方差矩阵ΔE以及EW表达为

ΔE=UTUH,EW=VQVH

其中,T及Q是分别具有奇异值ΔE及EW的对角矩阵,且U和V是包括对应奇异向量的 酉矩阵。

要注意的是,应用Schur三角或特征值分解(替代SVD)导致类似的结果(或甚至相 同的结果,如果对角矩阵Q和T被限制为正值)。

向条件EZ≈C应用该分解,(至少近似地)产生

ΔE=MEWMH

UTUH=MVQVHMH

(UTUH)(UTUH)=M(VQVH)(VQVH)MH,

(UTUH)(UTUH)=(MVQVH)(VQVHMH),

(UTUH)(UTUH)H=(MVQVH)(MVQVH)H,

(UTUH)=M(VQVH).

要注意的是,该等式的两边表示了矩阵的平方,我们将此平方丢弃并针对整个矩 阵M求解。

其遵循:混音矩阵M可被确定为

M=(UTUH)(VQ-1VH)

可通过如下设置原型矩阵H来根据一般方法导出该方法:

根据湿信号的协方差矩阵EW的情况,最后的等式可能需要包括某些正则化,但在 其他情况下,它应该在数字上是稳定的。

14.4.2.能量补偿方法(B)

有时(取决于应用场景)不希望允许(例如渲染音频信号的)参数化重构或解相关 信号的混音,而是仅允许将每个参数化重构的信号(例如,渲染音频信号)与其自身的解相 关信号单独进行混音。

为了实现该要求,应将附加的限制引入到该简化方法“A”。现在要求湿信号(解相 关信号)的混音矩阵M具有对角形式:

该方案的主要目的是在忽略输出信号的协方差矩阵的非对角修改(即,不存在对 互相关的直接处理)时,使用解相关信号来补偿参数化重构中(如渲染音频信号)的能量损 失。因此,在解相关信号的应用中不引入输出对象/声道之间(例如渲染音频信号之间)的交 叉泄漏

因此,仅目标协方差矩阵(或是期望协方差矩阵)的主对角线是可达到的,以及非 对角线取决于参数化重构及所添加的解相关信号的准确性。此方法最适合仅基于对象的应 用,在仅基于对象的应用中,信号可被视为不相关的。

该方法的最终输出(例如输出音频信号)由给出,其中将对角矩阵M计 算为使得与重构信号的能量相对应的协方差矩阵项等于所期望的能量

EZ~(i,i)=C(i,i).

针对一般情况,可如上所述地确定C。

例如,通过将补偿信号(所期望的能量(其可由互协方差矩阵C的对角元素来描述) 与参数化重构的能量(其可由音频解码器确定)之间的差)的所期望的能量除以解相关信号 (其可由音频解码器确定)的能量,可直接导出混音矩阵M。

M(i,j)=min(λDec,max(0,C(i,i)-EZ^(i,i)max(EW(i,i),ϵ)))i=j,0ij.

其中,λDec是使用来限制添加到输出信号的解相关分量的量的非负阈值(例如,λDec=4)。

应该注意的是,可由解码器参数化地重构(例如,使用OLD、IOC及渲染系数)或者实 际地运算能量(这通常在计算上是更加昂贵的)。

可通过如下设置原型矩阵H来根据一般方法导出该方法:

该方法明确地最大化了干渲染输出的使用。在协方差矩阵没有非对角项时,该方 法等价于简化“A”。

该方法具有降低的计算复杂度。

然而,应该注意的是,能量补偿方法并不是必然暗示不对交叉协方差项进行修改。 这仅在我们使用理想解相关器且针对解相关单元不降低复杂度的情况下成立。该方法的思 想是恢复能量并忽略交叉项中的修改(交叉项中的改变将不会实质上修改相关性属性)。

14.5.混音矩阵F的条件

下面将解释混音矩阵F满足避免退化的条件,混音矩阵F的推导已在第14.3节和 14.4节中描述。

为了避免输出中的退化,用于对参数化重构误差进行补偿的任何方法应该产生具 有以下属性的结果:如果渲染矩阵等于下混音矩阵,这输出声道应等于(或至少近似于)下 混音声道。所提出的模型满足该属性。如果渲染矩阵等于下混音矩阵R=D,这参数化重构被 给出为:

Z^=RX^=DX^=DGY=DEDH(DEDH)-1YY,

且所期望的协方差矩阵将会是:

C=REXRH=DEXDH=EY.

因此,要求解以获得混音矩阵F的等式是

EY=FEY0NUpmixCh0NUpmixChEWFH,

其中,是大小为NUpmixCh×NUpmixCh个零的方阵。针对F求解之前的等式,可以 得到:

这意味着解相关信号在求和中将具有零权重,且最终的输出将由与下混音信号相 同的干信号给出

Z~=PZ^+MW=Z^Y.

因此,满足该渲染场景中系统输出等于下混音信号的给定条件。

14.6.估计信号协方差矩阵ES

为了获得混音矩阵F,组合信号S的协方差矩阵ES的知识是所需的,或至少是所期 望的。

理论上,有可能直接根据可用信号(即,根据参数化重构和解相关输出W)估计协 方差矩阵ES。虽然该方案可产生更精确的结果,其可能因为相关联的计算复杂度而不可行。 所提出的方法使用协方差矩阵ES的参数化近似。

可将协方差矩阵ES的一般结构表示为

ES=EZ^EZ^WHEZ^WEW,

其中,矩阵是直接信号与解相关信号W之间的互协方差。

假设解相关是理想的(即,节能的,输出与输入正交,且所有的输出都相互正交), 则可使用简化形式将协方差矩阵ES表示为

ES=EZ^00EW.

可将参数化地重构的信号的协方差矩阵参数化地确定为

EZ^=REX^RH=RGDEXDHGHRH.

假设解相关信号W的协方差矩阵EW满足相互正交属性并仅包含的对角项,如下 所示:

EW(i,j)=EZ^(i,i)fori=j,0forij.

如果相互正交假设和/或节能相冲突(例如,在可用的解相关器的数目小于要解相 关的信号的数目的情况下),则可将协方差矩阵EW估计为

EW=Mpost[matdiag(MpreEZ^MpreH)MpostH.

14.7可选改进使用解相关信号和能量调整单元的输出协方差校正

下面将描述特别有利的概念,该概念可与本文中描述的其他概念组合。

所提出的输出协方差误差校正方法将输出信号编写为参数化重构信号与其解相 关部分的加权和。可如下表示该和:

Z^=PZ^+MW.---(I1)

应用组合矩阵的符号

F=[PM]

和信号

S=Z^W

其产生:

Z~=FS---(I1)

然而,应该注意的是,该等式可被视为最一般性的构思。可选地,可将改变应用到 上述公式,该公式对于本文中描述的所有“简化方法”而言是有效的。

下面将描述可例如由能量调整单元执行的功能.

为了避免在最终输出中引入伪像,在极端情况下,可将不同的限制施加到混音矩 阵F(或混音矩阵)。可由关于目标和/或参数化重构信号(例如,渲染音频信号)的能量和/ 或相关性属性的绝对阈值或相对阈值来表示所提及的限制。

在本节中描述的方法提议通过在最终输出混音框中添加能量调整步骤来对此进 行实现。这样的处理步骤的提出是为了确保在与矩阵F(或根据其导出的“已修改”混音矩阵 )的混音步骤之后,解相关(湿)信号(例如,AwetMW)的能量级和/或参数化重构(干)信号 (例如,)的能量级和/或最终输出信号(例如)的能量级不超 过某些阈值。

可通过将组合混音矩阵F的定义修改为以下所示来实现该额外功能

F~=AdryPAwetM,---(I3)

其中,将两个能量调整方(对角)阵Adry和Awet(其也可被称为“能量校正矩阵”)分别 应用到参数化重构(干)信号和解相关(湿)信号的混音权重(例如,P和M)。因此,最终输出将 会是

Z~=F~S=AdryPZ^+AwetMW.---(I4)

计算干能量校正矩阵Adry和湿能量校正矩阵Awet,使得由于与矩阵的混音步骤而 导致的干信号和/或湿信号(例如,和W)对最终输出信号(例如)等级的贡献不超过关于 参数化重构信号(例如)和/或解相关信号(例如W)和/或目标信号的某个相对阈值。换言 之,一般而言存在计算校正矩阵的多个可能。

可根据以下各项来计算干能量校正矩阵Adry和湿能量校正矩阵Awet:干信号(例如, )和/或湿信号(例如,W)和/或所期望的最终信号的能量和/或相关性和/或协方差属性, 和/或对干信号和/或湿信号和/或混音步骤之后的最终输出信号的协方差矩阵的估计。应 该注意的是,上述可能性描述了可如何获得校正矩阵的一些示例。

通过以下表达式给出了一个可能的解决方案:

Adry(i,j)=min(1,max(0,λdryEZ^(i,i)max(Cestim(i,i),ϵ)))i=j,0ij.,

Awet(i,j)=min(1,max(0,λdwetEZ^(i,i)max(Cestim(i,i),ϵ)))i=j,0ij.,

其中,λdry和λwet是根据信号属性(例如,能量、相关性和/或协方差)可以是常数或 时间/频率变量的两个阈值,ε是(可选的)较小非负正则常数,例如ε=10-9,表示参数化重 构(干)信号的协方差和/或能量信息,以及Cestim表示对在与矩阵F的混音步骤之后的干信号 或湿信号的协方差矩阵的估计,或表示对在在与矩阵F的混音步骤之后的输出信号的协方 差矩阵的估计,如果不会应用本发明所提出的能量调整步骤,其将会被获得(或换言之,如 果不使用能量调整单元,其将会被获得)。

在上述等式中,分母中提供幅角Cestim(i,i)和ε中的最大值的“max(.)”操作可例如 替换为添加ε或另一机制以避免为零所除。

例如,可将Cestim给出为:

Cestim=MEWMH-对在与矩阵M的混音步骤之后的湿信号的协方差矩阵的估计。

-对在与矩阵P的混音步骤之后的干信号的协方差矩阵的估计。

-对在与矩阵F的混音步骤之后的输出信号的协方差矩阵 的估计。

下面,将描述一些其他简化。换言之,将描述输出协方差校正的简化方法。

考虑到从MMSE的意义上而言,信号已经是最优的,通常不建议为了提高输出的 协方差属性而去修改参数化重构(干信号)因为这可能影响分离质量。

如果仅处理解相关(湿)信号W的混音物,可以将混音矩阵P缩减至单位矩阵。在该 情况下,与参数化重构(干)信号相对应的能量调整矩阵也可被缩减至单位矩阵。因此,可通 过以下设置来描述该简化方法:

可将系统的最终输出表示为:

Z~=Z^+AwetMW

15.解相关单元的复杂度降低

下面,将描述可如何降低在根据本发明的实施例中使用的解相关器的复杂度。

应该注意的是,解相关功能实现在计算上通常是复杂的。在一些应用(例如,可移 植解码器解决方案)中,由于有限的计算资源,可能需要引入对解相关器的数目的限制。本 节提供对以下手段的描述:通过控制所应用的解相关器(或解相关)的数目,降低解相关器 单元复杂度。在图16和图17中描绘了解相关单元接口。

图16示出简单(常规)解相关单元的示意框图。根据图6的解相关单元1600被配置 为接收N个解相关器输入信号1610a至1610n,如例如渲染音频信号此外,解相关单元1600 提供N个解相关器输出信号1612a至1612n。例如,解相关单元1600可例如包括N个单独的解 相关器(或解相关函数)1620a至1620n。例如,每个单独的解相关器1620a至1620n可基于解 相关器输入信号1610a至1610n中相关联的一个来提供解相关器输出信号1612a至1612n中 的一个。因此,N个单独的解相关器或解相关函数1620a至1620n可基于N个解相关器输入信 号1610a至1610n提供N个解相关信号1612a至1612n。

然而,图17示出复杂度降低的解相关单元1700的示意框图。复杂度降低的解相关 单元1700被配置为接收N个解相关器输入信号1710a至1710n,并基于该N个解相关器输入信 号1710a至1710n提供N个解相关器输出信号1712a至1712n。例如,解相关器输入信号1710a 至1710n可以是渲染音频信号且解相关器输出信号1712a至1712n可以是解相关音频信号 W。

解相关器1700包括预混音器(或等价地,预混音函数)1720,预混音器1720被配置 为接收第一组N个解相关器输入信号1710a至1710n,并基于该第一组N个解相关器输入信号 1710a至1710n提供第二组K个解相关器输入信号1722a至1722k。例如,预混音器1720可以执 行所谓的“预混音”或“下混音”,以基于第一组N个解相关器输入信号1710a至1710n导出第 二组K个解相关器输入信号1722a至1722k。例如,可以使用矩阵来表示第二组K个解相关 器输入信号1722a至1722k的K个信号。解相关单元(或等价地,多声道解相关器)1700还包括 解相关器核心1730,解相关器核心1730被配置为接收第二组解相关器输入信号1722a至 1722k的K个信号,并基于该K个信号提供构成第一组解相关器输出信号1732a至1732k的K个 解相关器输出信号。例如,解相关器核心1730可以包括K个单独的解相关器(或解相关函 数),其中每个单独的解相关器(或解相关函数)基于第二组K个解相关器输入信号1722a至 1722k中相对应的解相关器输入信号提供第一组K个解相关器输出信号1732a至1732k中的 一个解相关器输出信号。备选地,给定解相关器或解相关函数可被应用K次,使得第一组K个 解相关器输出信号1732a至1732k中的每一个解相关器输出信号基于第二组K个解相关器输 入信号1722a至1722k中的单个解相关器输入信号。

解相关单元1700还包括后置混音器1740,后置混音器1740被配置为接收第一组解 相关器输出信号的K个解相关器输出信号1732a至1732k,并基于该K个解相关器输出信号 1732a至1732k提供第二组解相关器输出信号的N个信号1712a至1712n(其构成“外部”解相 关器输出信号)。

应该注意的是,预混音器1720可优选地执行线性混音操作,可通过预混音矩阵Mpre对此进行描述。此外,后置混音器1740优选地执行线性混音(或上混音)操作,以从第一组K 个解相关器输出信号1732a至1732(即,从解相关器核心1730的输出信号)导出第二组解相 关器输出信号中的N个解相关器输出信号1712a至1712n,该线性混音可由后置混音矩阵 Mpost来表示。

该所提出方法和装置的主要思想是通过以下方式将至解相关器(或解相关器核 心)的输入信号的数目从N减少到K:

通过以下等式,将信号(例如,渲染音频信号)预混音到较低数目的声道

Z^mix=MpreZ^.

通过以下等式,使用(例如,解相关器核心的)可用的K个解相关器来应用解相关

Z^mixdec=Decorr(Z^mix).

通过以下等式,将解相关信号上混音回到N个声道

Z^mixdec=Decorr(Z^mix).

可基于下混音/渲染/相关性/等等信息构造预混音矩阵Mpre,使得此矩阵乘积 变成状态良好的(对于反转操作而言)。可将后置混音计算为:

MpostMpreH(MpreMpreH)-1.

即使中间解相关信号(或)的协方差矩阵是对角的(假设是理想的解相关器), 当使用这种处理时,最终的解相关信号W的协方差矩阵将很有可能不再是对角的。因此,可 使用混音矩阵将协方差矩阵估计为

EW=Mpost[matdiag(MpreEZ^MpreH)]MpostH

所使用的解相关器(或单独的解相关)的数目K未被规定,且取决于所期望的计算 复杂度以及可用的解相关器。其值可从N(最高计算复杂度)向下变到1(最低计算复杂度)。

至解相关器单元的输入信号的数目N是任意的,且独立于系统的渲染配置,所提出 的方法支持任何数目的输入信号。

例如,在使用三维音频内容且具有大数目的输出声道的应用中,根据输出配置,针 对预混音矩阵Mpre的一个可能表示式描述如下。

下面将描述如果在多声道音频解码器中使用解相关单元1700,如何对预混音器 1720所执行的预混音(以及,因此,后置混音器1740执行的后置混音)进行调整,其中第一组 解相关器输入信号的解相关器输入信号1710a至1710n与音频场景的不同多个空间位置相 关联。

为此,图18示出针对不同输出格式使用的扬声器位置的表格表示。

在图18的表格1800,第一栏1810描述扬声器索引编号。第二栏1820描述扬声器标 签。第三栏1830描述相应扬声器的方位角位置,且第四栏1832描述扬声器的位置的方位角 公差。第五栏1840描述相应扬声器的位置的标高,以及第六栏1842描述对应的标高公差。第 七栏1850指示哪些扬声器被用于输出格式O-2.0。第八栏1860指示哪些扬声器被用于输出 格式O-5.1。第九栏1864指示哪些扬声器被用于输出格式O-7.1。第十栏1870指示哪些扬声 器被用于输出格式O-8.1,第十一栏1880指示哪些扬声器被用于输出格式O-10.1,以及第十 二栏1890指示哪些扬声器被用于输出格式O-22.2。可看出,两个扬声器被用于输出格式O- 2.0,六个扬声器被用于输出格式O-5.1,八个扬声器被用于输出格式O-7.1,九个扬声器被 用于输出格式O-8.1,11个扬声器被用于输出格式O-10.1,以及24个扬声器被用于输出格式 O-22.2。

然而,应该注意的是,将一个低频效益扬声器用于输出格式O-5.1、O-7.1、O-8.1以 及O-10.1,且将两个低频效益扬声器(LFE1、LFE2)用于输出格式O-22.2。此外,应该注意的 是,在优选实施例中,可将一个渲染音频信号(例如,渲染音频信号1582a至1582n中的一个) 与除了该一个或多个低频效益扬声器之外的每个扬声器相关联。因此,将两个渲染音频信 号与根据此O-2.0格式使用的两个扬声器相关联,如果使用O-5.1格式,将五个渲染音频信 号与五个非低频效益扬声器相关联,如果使用O-7.1格式,将七个渲染音频信号与七个非低 频效益扬声器相关联,如果使用O-8.1格式,将八个渲染音频信号与八个非低频效益扬声器 相关联,如果使用O-10.1格式,将十个渲染音频信号与十个非低频效益扬声器相关联,以及 如果使用O-22.2格式,将22个渲染音频信号与22个非低频效益扬声器相关联。

然而,如上所述,通常希望使用较少数目的(个别)解相关器(解相关核心)。下面将 描述当多声道音频解码器使用O-22.2输出格式时可如何灵活地减少解相关器的数目,使得 存在22个渲染音频信号1582a至1582n(可由矩阵或是向量表示))。

假设有N=22个渲染音频信号,图19a至第19g图表示用于预混音渲染音频信号 1582a至1582n的不同选项。例如,图19a示出预混音矩阵Mpre的项的表格表示。在图19a中标 记为1至11的行表示预混音矩阵Mpre的行,且标记为1至22的列与预混音矩阵Mpre的列相关 联。此外,应该注意的是,预混音矩阵Mpre的每行与第二组解相关器输入信号的K个解相关器 输入信号1722a至1722k之一相关联(与解相关器核心的输入信号相关联)。此外,预混音矩 阵Mpre的每列与第一组解相关器输入信号的N个解相关器输入信号1710a至1710n之一相关 联,且因此与渲染音频信号1582a至1582n之一相关联(因为在实施例中,第一组解相关器输 入信号的解相关器输入信号1710a至1710n一般与渲染音频信号1582至1582n相同)。因此, 预混音矩阵Mpre的每列与特定的扬声器相关联,且因此,由于扬声器与空间位置相关联,预 混音矩阵Mpre的每列与特定空间位置相关联。行1910指示预混音矩阵Mpre的列与哪个扬声器 (且因此,与哪个空间位置)相关联(其中,在表格1800的行1820中定义扬声器标记)。

下面将更详细地描述图19a的预混音Mpre定义的功能。可以看出,将与扬声器(或等 价地,扬声器位置)相关联的渲染音频信号“CH_M_000”和“CH_L_000”进行组合,以获得第二 组解相关器输入信号的第一解相关器输入信号(即,第一下混音解相关器输入信号),该第 一解相关器输入信号以“1”(预混音矩阵Mpre的第一行的第一列和第二列中的值)来指示。类 似地,将与扬声器(或等价地,扬声器位置)相关联的渲染音频信号“CH_U_000”和“CH_T_ 000”进行组合,以获得第二下混音解相关器输入信号(即,第二组解相关器输入信号的第二 解相关器输入信号)。此外,可看出,图19a的预混音矩阵Mpre定义了各自具有两个渲染音频 信号的11个组合,使得可根据22个渲染音频信号导出11个下混音解相关器输入信号。还可 以看出,对四个中间的信号进行组合,以获得两个下混音解相关器输入信号(参照预混音矩 阵的第1列至第4列以及第1行和第2行)。此外,可看出,通过组合与音频场景的相同侧相关 联的两个音频信号,可分别获得其他下混音解相关器输入信号。例如,可通过组合与方位角 位置+135°相关联的渲染音频信号(“CH_M_L135”及“CH_U_L135”)获得由预混音矩阵的第三 行表示的第三下混音解相关器输入信号。此外,可通过组合与方位角位置-135°相关联的渲 染音频信号(“CH_M_R135”及“CH_U_R135”)获得(由预混音矩阵的第四行表示的)第四相关 器输入信号。因此,通过组合与相同(或相似)方位角位置(或等价地,水平位置)相关联的两 个渲染音频信号来获得各个下混音解相关器输入信号,其中通常存在与不同标高(或等价 地,垂直位置)相关联的信号组合。

现在参考第19b图,其示出针对N=22及K=10的预混音系数(预混音矩阵Mpre的 项)。图19b的表格结构与图19a的表格结构相同。然而,可看出的是,图19b的预混音矩阵Mpre与图19a的预混音矩阵Mpre的不同之处是第一行描述了具有声道ID(或位置)“CH_M_000”、 “CH_L_000”、“CH_U_000”以及“CH_T_000”的四个渲染音频信号的组合。换言之,为了减少所 需的解相关器数目,在预混音中对与垂直相邻的多个位置相关联的四个渲染音频信号进行 组合(针对根据图19a的矩阵,10个解相关器而不是11个解相关器)。

现在参考图19c,图19c示出了针对N=22且K=9的预混音系数(预混音矩阵Mpre的 项),可以看出,根据图19c的预混音矩阵Mpre仅包括9行。此外,从图19c的预混音矩阵Mpre的 第二行可看出,(在根据图19c的预混音矩阵配置的预混音器中)将与声道ID(或位置)“CH_ M_L135”、“CH_U_L135”、“CH_M_R135”以及“CH_U_R135”相关联的渲染音频信号进行组合,以 获得第二下混音解相关器输入信号(第二组解相关器输入信号的解相关器输入信号)。可以 看出,通过根据图19a及图19b预混音矩阵组合为分别的下混音解相关器输入信号的渲染音 频信号被下混音为根据图19c的普遍下混音解相关器输入信号。此外,应该注意的是,具有 声道ID“CH_M_L135”和“CH_U_L135”的渲染音频信号与音频场景的相同侧上的相同水平位 置(或是方位角位置)以及空间相邻的垂直位置(标高)相关联,且具有声道ID“CH_M_R135” 和“CH_U_R135”的渲染音频信号与音频场景的第二侧上的相同水平位置(或方位角位置)以 及空间相邻的垂直位置(标高)相关联。此外,可以说,具有声道ID“CH_M_L135”、“CH_U_ L135”、“CH_M_R135”及“CH_U_R135”的渲染音频信号与空间位置的水平配对(或甚至是水平 四重位置(quadruple))相关联,该水平配对包括左侧位置和右侧位置。换言之,从图19c的 预混音矩阵Mpre的第二行可看出,该四个渲染音频信号中进行组合以使用单个给定解相关 器解相关的两个渲染音频信号与音频场景的左侧上的空间位置相关联,以及该四个渲染音 频信号中进行组合以使用相同的给定解相关器解相关的两个渲染音频信号与音频场景的 右侧上的空间位置相关联。此外,可看出,(所述四个渲染音频信号中)左侧的渲染音频信号 与关于音频场景的中央平面对称的空间位置相关联(该对称是与和(所述四个渲染音频信 号中)右侧的渲染音频信号相关联的空间位置对称),使得可通过预混音对“对称的”四重位 置的渲染音频信号进行组合,以由单个(个别的)相关器进行解相关。

参考图19d、图19e、图19f以及图19g可看出,以减少数目的(个别)解相关器(如,减 少K个)来组合越来越多的渲染音频信号。从图19a至图19g可以看出,当解相关器的数目减 少1时,通常对被下混音为两个分别的下混音解相关器输入信号的渲染音频信号进行组合。 此外,可看出,通常对与空间位置中的“对称的四重位置”相关联的这样的渲染音频信号进 行组合,其中,针对相对较高数目的解相关器,仅与相同或至少相似的水平位置(或方位角 位置)相关联的渲染音频信号才被组合,而针对相对较低数目的解相关器,也对与音频场景 的相反侧上的空间位置相关联的渲染音频信号进行组合。

现在参考图20a至图20d、图21a至图21c、图22a至图22b以及图23,应该注意的是, 相似的概念也可以应用于不同数目的渲染音频信号。

例如,图20a至图20d描述了N=10以及K介于2到5之间的预混音矩阵Mpre的项。

类似地,图21a至图21c描述了N=8以及K介于2到4之间的预混音矩阵Mpre的项。

类似地,图21d至图21f描述了N=7以及K介于2到4之间的预混音矩阵Mpre的项。

图22a至22b示出N=5且K等于2和K等于3的预混音矩阵的项。

最后,图23示出了N=2且K=1的预混音矩阵的项。

总而言之,在作为多声道音频解码器的一部分的多声道解相关器中,可例如通过 可切换的方式使用根据图19图至图23预混音矩阵。例如,依靠所希望的输出配置(其通常确 定渲染音频信号的数目N)且还依靠所希望的解相关复杂度(其确定参数K,且可例如依靠音 频内容的编码表示中包括的复杂度信息对其进行调整),可执行预混音矩阵间的切换。

现在参考图24,将更详细地描述22.2输出格式的复杂度降低。如上所述,建构预混 音矩阵和后置混音矩阵的一个可能的解决方案是使用再现布局的空间信息选择要混音在 一起的声道并计算混音系数。基于其位置,采用垂直配对和水平配对的方式将几何相关的 扬声器(且例如与其相关联的渲染音频信号)分组在一起,如在图24的表格中所描述的。换 言之,图24以表格的形式示出了可以与渲染音频信号相关联的扬声器位置的分组。例如第 一行2410描述第一组扬声器位置,其在音频场景的中央。第二组2412表示空间相关的第二 组扬声器位置。扬声器位置“CH_M_L135”及“CH_U_L135”与相同的方位角位置(或等价地,水 平位置)和相邻的标高位置(或等价地,垂直相邻位置)相关联。类似地,位置“CH_M_R135”以 及“CH_U_R135”包括相同的方位角(或等价地,相同的水平位置)以及相似的标高(或等价 地,垂直相邻位置)。此外,位置“CH_M_L135”、“CH_U_L135”、“CH_M_R135”以及“CH_U_R135” 形成四重位置,其中,位置“CH_M_L135”及“CH_U_L135”关于音频场景的中央平面与位置 “CH_M_R135”及“CH_U_R135”对此。此外,位置“CH_M_180”以及“CH_U_180”还包括相同的方 位角位置(或等价地,相同的水平位置)以及相似的标高(或等价地,相邻的垂直位置)。

第三行2414表示第三组位置。应该注意的是,位置“CH_M_L030”和“CH_L_L045”是 空间相邻的位置,且包括相似的方位角(或,等价地,相似的水平位置)以及相似的标高(或, 等价地,相似的垂直位置)。对于位置“CH_M_R030”和“CH_L_R045”而言,这同样适用。此外, 第三组位置的位置形成四重位置,其中,位置“CH_M_L030”及“CH_L_L045”是空间相邻的,且 关于音频场景的中央平面与位置“CH_M_R030”及“CH_L_R045”对此。

第四行2416表示四个附加位置,其在与第二行的前四个位置相比较时具有相似的 特征,且形成对称的四重位置。

第五行2418表示另一四重对称位置“CH_M_L060”、“CH_U_L045”、“CH_M_R060”及 “CH_U_R045”。

此外,应该注意的是,与不同组位置中的位置相关联的渲染音频信号可随着解相 关器的数目减少而被越来越多地组合。例如,在多声道解相关器存在11个个别的解相关器 的情形下,可针对每个组对与在第一列和第二列中的位置相关联的渲染音频信号进行组 合。此外,可针对每个组对与在第三列和第四列中表示的位置相关联的渲染音频信号进行 组合。此外,针对第二组,可对与在第五列和第六列中示出的位置相关联的渲染音频信号进 行组合。因此,可获得11个下混音解相关器输入信号(其被输入到个别的解相关器中)。然 而,如果希望具有较少的个别解相关器,可针对一个或多个组来对与在第1列到第4列中示 出的位置相关联的渲染音频信号进行组合。此外,如果希望进一步减少个别解相关器的数 目,可对与第二组的所有位置相关联的渲染音频信号进行组合。

总而言之,馈入到输出布局(例如,到扬声器)的信号具有水平和垂直相依性,在解 相关处理期间应对其进行保留。因此,将混音系数计算为使得对应于不同扬声器组的声道 不被混音在一起。

取决于可用解相关器的数目或所希望的解相关等级,在每个组中,(在中间层与上 层之间或者是在中间层与下层之间的)垂直配对被首先混音在一起。其次,将(左边和右边 之间的)水平配对或剩余的垂直配对混音在一起。例如,在第三组中,左垂直配对中(“CH_M_ L030”以及“CH_L_L045”)以及右垂直配对中(“CH_M_R030”以及“CH_L_R045”)的声道首先被 混音在一起,通过这种方式,针对该组将所需的解相关器的数目从四降低到二。如果希望减 少甚至更多数目的解相关器,将所获得的水平配对下混音至仅一个声道,且针对该组将所 需的解相关器的数目从四降低到一。

基于所呈现的混音规则,上述表格(例如,图19到图23中示出的表格)是针对所希 望的不同解相关等级(或针对所希望的解相关复杂度的不同等级)而导出的。

16.与辅助外部渲染器/格式转换器的兼容性

当SAOC解码器(或,更一般地,多声道音频解码器)与外部辅助渲染器/格式转换器 一起使用时,可以使用以下对所提出概念(方法或装置)的改变:

-(例如,渲染器的)内部渲染矩阵R被设置为单位矩阵(在使用外部渲染 器时),或被利用从中间渲染配置导出的混音系数进行初始化(当使用外部格式转换器时)。

-利用根据从渲染器/格式转换器接收的反馈信息计算出的预混音矩阵Mpre(例如, Mpre=Dconvert,其中,Dconvert格式转换器内部使用的下混音矩阵),使用在第15节中描述的方 法来减少解相关器的数目。在SAOC解码器外部将被混音在一起的声道被预混音在一起且馈 送到SAOC解码器内部的相同解相关器。

使用外部格式转换器,SAOC内部渲染器将会预渲染至中间配置(例如,具有最高数 目扬声器的配置)。

总而言之,在一些实施例中,与在外部渲染器或格式转换器中将输出音频信号中 的哪些混音在一起有关的信息被用来确定预混音矩阵Mpre,使得预混音矩阵可定义(第一组 解相关器输入信号中)这样的解相关器输入信号的组合,该组合在外部渲染器中被实际组 合。因此,使用从外部渲染器/格式转换器(其接收多声道解码器的输出音频信号)接收的信 息来选择或调整预混音矩阵(例如,当多声道音频解码器的内部渲染矩阵被设置为单位矩 阵,或被利用从中间渲染配置导出的混音系数来进行初始化时),且该外部渲染器/格式转 换器被连接以接收以上关于多声道音频解码器描述的输出音频信号。

17.比特流

下面将描述在比特流中(或者是,等价地,在音频内容的编码表示中)可以使用哪 些附加的信令信息。在根据本发明的实施例中,可在比特流中信号传输解相关方法,以确保 所希望的质量等级。通过这种方式,用户(或音频编码器)具有用于基于内容来选择方法的 更大灵活性。为此,可使用用来指定所使用的解相关方法的两个比特和/或指定该配置(或 复杂度)的两个比特来例如扩展MPEGSAOC比特流语法。

图25示出了比特流元素的语法表示“bsDecorrelationMethod”和 “bsDecorrelationLevel”,其可以被添加到例如比特流部份“SAOCSpecifigConfig()”或 “SAOC3DSpecificConfig()”。在图25可以看出,可两个比特用于比特流元素 “bsDecorrelationMethod”,以及可两个比特用于比特流元素“bsDecorrelationLevel”。

图26以表格的形式示出了在比特流变量“bsDecorrelationMethod”的值之间的关 联性及不同的解相关方法。例如,可以通过所述比特流变量的不同值来信号传输三个不同 的解相关方法。例如,如在第14.3节中所述,可将使用解相关信号的输出协方差校正作为选 项之一进行信号传输。作为另一选项,可以信号传输例如14.4.1节所描述的协方差调整方 法。作为又一选项,可以信号传输例如14.4.2节所描述的能量补偿方法。可依靠比特流变量 来选择用于基于渲染音频信号和解相关音频信号来重构输出音频信号的信号特征的三种 不同方法。

能量补偿模式使用如14.4.2节所描述的方法,有限协方差调整模式使用如14.4.1 节中所描述的方法,以及通用协方差调整模式使用如14.3节中所描述的方法。

参考图27,将描述用于选择解相关复杂度的方法,图27以表格表示的形式示出了 如何通过比特流变量“bsDecorrelationLevel”来信号传输不同的解相关等级。换言之,可 由包括上述的多声道解相关器的多声道音频解码器来评估所述变量,以决定使用哪个解相 关复杂度。例如,所述比特流参数可以信号传输不同的解相关“等级”,其可以被指定为值: 0、1、2以及3。

图27的表格中给出了解相关配置(其可例如被指定为解相关等级)的示例。图27示 出针对不同的“等级”(例如,解相关等级)和输出配置的解相关器数目的表格表示。换言之, 图27示出了多声道解相关器所使用的(第二组解相关器输入信号的)解相关器输入信号的 数目K。在图27的表格中可以看出,针对22.2输出配置,依靠比特流参数 “bsDecorrelationLevel”信号传输哪个“解相关等级”,在11、9、7和5之间切换在多声道解 相关器中使用的(个别)解相关器的数目。依靠由所述比特流参数信号传输的“解相关等 级”,针对10.1输出配置,在10、5、3及2个个别的解相关器之间进行选择,针对8.1输出配置, 在8、4、3及2个个别的解相关器之间进行选择,以及针对7.1输出配置,在7、4、3及2个解相关 器之间进行选择。在5.1输出配置中,针对个别解相关器的数目,仅存在三个有效选项,即5、 3或2。针对2.1输出配置,仅存在两个个别的解相关器(解相关等级0)以及一个个别的解相 关器(解相关等级1)之间的选择。

总而言之,基于计算功率和解相关器的可用数目,可在解码器侧确定解相关方法。 此外,对解相关器的数目的选择可在编码器侧完成,并使用比特流参数来信号传输。

因此,在图25中示出并在图26及图27中更详细地定义了以下两个方法:如何应用 解相关音频信号以获得输出音频信号,以及可如何从音频解码器侧使用比特流参数参数控 制提供解相关信号的复杂度。

18.本发明的处理的应用领域

应该注意的是,所介绍方法的目的之一是恢复音频线索,这对于音频场景的人类 感知具有更大的重要性。根据本发明的实施例改进了能量等级以相关性属性的重构准确 性,且因此提高了最终输出信号的感知音频质量。根据本发明的实施例可以应用于任意数 目的下混音/上混音声道。此外,在此描述的方法及装置可以与已存在的参数化源分离算法 进行组合。根据本发明的实施例通过对所应用的解相关器功能的数目设置限制,来允许控 制系统的计算复杂度。根据本发明的实施例可通过移除MPS转码步骤导致对基于对象的参 数化构造算法(如SAOC)的简化。

19.编码/解码环境

下面描述可应用根据本发明的概念的音频编码/解码环境。

可使用根据本发明的概念的三维音频编解码系统是基于用于编码声道及对象信 号以提高编码大量对象的效率的MPEG-DUSAC编解码器。MPEG-SAOC技术也已适用。三种类 型的渲染器执行将对象渲染到声道,将声道渲染到耳机或将声道渲染到不同的扬声器设置 的任务。当使用SAOC显式地发送对象信号或对对象进行参数化编码时,将对应的对象元数 据信息进行压缩且复用到三维音频串流中。

图28、29及30示出了三维音频系统的不同算法块。

图28示出了这样的音频编码器的示意性框图,且图29示出了这样的音频解码器的 示意性框图。换言之,图28及图29示出了三维音频系统的不同算法块。

参考图28,其示出三维音频编码器2900的示意性框图,某些细节将会被解释。编码 器2900包括可选的预渲染器/混音器2910,预渲染器/混音器2910接收一个或多个声道信号 2912以及一个或多个对象信号2914,并在其基础上提供一个或多个声道信号2916以及一个 或多个对象信号2918、2920。音频编码器也包括USAC编码器2930且可选地包括SAOC编码器 2940。SAOC编码器基于向SAOC编码器提供的一个或多个对象2920来提供一个或多个SAOC运 送声道2942以及SAOC边信息2944。此外,USAC编码器2930被配置为接收声道信号2916,从预 渲染器/混音器2910接收一个或多个对象信号2918,接收一个或多个SAOC运送声道2942以 及SAOC边信息2944,并基于以上所述提供编码表示2932,其中声道信号2916包括来自预渲 染器/混音器2910的声道和预渲染对象。此外,音频编码器2900还包括对象元数据编码器 2950,对象元数据编码器2950被配置为接收对象元数据2952(其可由预渲染器/混音器2910 进行评估)并编码该对象元数据,以获得编码对象元数据2954。编码元数据也由USAC编码器 2930所接收,且被用来提供编码表示2932。

以下将描述关于音频编码器2900的个别元素的一些细节。

现在参考图29,将描述音频解码器3000将会被描述。音频解码器3000被配置为接 收编码表示3010,并基于编码表示3010以备选格式(例如,以5.1格式)提供多声道扬声器信 号3012、耳机信号3014和/或扬声器信号3016。音频解码器3000包括USAC解码器3020,USAC 解码器3020基于编码表示3010提供一个或多个声道信号3022、一个或多个预渲染对象信号 3024、一个或多个对象信号3026、一个或多个SAOC运送声道3028、SAOC边信息3030以及压缩 对象元数据信息3032。音频解码器300还包括对象渲染器3040,对象渲染器3040被配置为基 于一个或多个对象信号3026以及对象元数据信息3044提供一个或多个渲染对象信号3042, 其中,由对象元数据解码器3050基于压缩对象元数据信息3032来提供对象元数据信息 3044。音频解码器3000还可选地包括SAOC解码器3060,SAOC解码器3060被配置为接收SAOC 运送声道3028以及SAOC边信息3030,并基于SAOC运送声道3028和SAOC边信息3030提供一个 或多个渲染对象信号3062。音频解码器3000还包括混音器3070,混音器3070被配置为接收 声道信号3022、预渲染对象信号3024、渲染对象信号3042以及渲染对象信号3062,并基于这 些信号提供多个混音声道信号3072,该多个混音声道信号3072可例如构成多声道扬声器信 号3012。音频解码器3000还可例如包括双耳渲染器3080,双耳渲染器3080被配置为接收混 音声道信号3072,并基于混音声道信号3072提供耳机信号3014。此外,音频解码器3000可以 包括格式转换器3090,格式转换器3090被配置为接收混音声道信号3072和再现布局信息 3092,并基于混音声道信号3072和再现布局信息3092提供用于备选扬声器设置的扬声器信 号3016。

下面将描述关于音频编码器2900和音频解码器3000的组件的某些细节。

19.1.预渲染器/混音器

在编码之前,可以可选地将预渲染器/混音器2910用于将声道加对象输入场景转 换为声道场景。从功能上,其可以例如与如下所述的对象渲染器/混音器相同。

对象的预渲染可例如在编码器输入上确保决定性的信号熵,该信号熵基本上独立 于同时活跃的对象信号的数目。

利用对象的预渲染,不再要求对象元数据的传输。

离散对象信号被渲染至编码器被配置使用的声道布局,而针对每个声道的对象的 权重是根据相关联的对象元数据(OAM)1952获得的。

19.2.USAC核心编解码器

用于扬声器声道信号、离散对象信号、对象下混音信号以及预渲染信号的核心编 解码器2930、3020基于MPEG-DUSAC技术。通过基于对象指派以及输入声道的几何与语义信 息来创建信号与对象映射信息,其对大量信号的解码进行处理。该映射信息描述如何将输 入声道和对象映射到USAC声道元素(CPE、SCE、LFE)以及如何向解码器发送对应信息。

所有附加的有效载荷(如SAOC数据或对象元数据)已通过扩展元素且已在编码器 速率控制中考虑。取决于对于渲染器的速率/失真需求以及互动需求,对象的解码可以通过 不同的方式进行。以下对象编码变型是可能的:

预渲染对象:在编码前,将对象信号预渲染并混音为22.2声道信号。随后的编码链 看到22.2声道信号。

离散对象波形:作为单声道波形应用到编码器的对象。除了声道信号之外,编码器 使用单个声道元素SCE来发送对象。解码对象在接收侧渲染和混音。将压缩对象元数据信息 一起发送给接收机/渲染器。

参数化对象波形:通过SAOC参数的方式来描述对象属性及他们彼此间关系。利用 USAC对对象信号的下混音进行编码。将参数化信息一起发送。取决于对象的数目以及整体 数据速率来选择下混音声道的数目。向SAOC渲染器发送压缩对象元数据信息。

19.3.SAOC

对象信号的SAOC编码器2940和SAOC解码器3060以MPEGSAOC技术为基础。基于较 低数目的传输声道和附加参数数据(对象级差OLD、对象间相关性IOC、下混音增益DMG),此 系统能够重新创建、更改以及渲染多个音频对象。附加参数数据展示出比针对所发送的所 有对象个别地所需的数据速率低得多的数据速率,使得解码非常高效。SAOC编码器以作为 单声道波形的对象/声道信号作为输入,且输出参数信息(其被打包在三维音频比特流 2932、3010中)和SAOC运送声道(其是使用单个声道元素来编码的,且被发送)。SAOC解码器 3000根据解码出的SAOC运送声道3028以及参数信息3030重构对象/声道信号,并基于再现 布局、解压缩的对象元数据信息以及可选地基于用户交互信息来产生输出音频场景。

19.4.对象元数据编解码器

针对每个对象,通过在时间及空间中对象属性的量化来对指示对象在三维空间中 的几何位置及体积的相关联元数据进行高效编码。将压缩对象元数据cOAM2954、3032作为 边信息向接收机发送。

19.5.对象渲染器/混音器

根据给定的再现格式,对象渲染器利用解压缩对象元数据OAM3044来产生对象波 形。每个对象根据其元数据被渲染至某些输出声道。该块的输出来自于部份结果的总和。

如果对基于内容的声道以及离散/参数化对象进行解码,在输出结果波形之前(或 在向后置处理器模块馈送它们之前,后置处理器模块例如是双耳渲染器或是扬声器渲染器 模块),将基于声道的波形和渲染对象波形进行混音。

19.6.双耳渲染器

双耳渲染器模块3080产生多声道音频材料的双耳下混音,使得可通过虚拟声音源 来表示每个输入声道。该处理是在QMF域中逐帧进行。该双耳化基于所测量的双耳室脉冲响 应。

19.7.扬声器渲染器/格式转换器

扬声器渲染器3090在所发送的声道配置和所希望的再现格式之间进行变换。因此 下面将其称为“格式转换器”。格式转换器执行至较低数目的输出声道的转换,即,创建下混 音。针对输入及输出格式的给定组合,该系统自动地产生优化的下混音矩阵,并在下混音处 理中应用这些矩阵。格式转换器允许标准扬声器配置并允许具有非标准扬声器位置的随机 配置。

图30示出格式转换器的示意性框图。换言之,图示出了格式转换器的结构。

可以看出,格式转换器3100接收混音器输出信号3110(如混音声道信号3072),并 提供扬声器信号3112,(如扬声器信号3016)。格式转换器包括QMF域中的下混音处理3120以 及下混音配置器3130,其中,基于混音器输出布局信息3032和再现布局信息3034,下混音配 置器为下混音处理3020提供配置信息。

19.8.一般评述

此外,应该注意的是,例如,这中所描述的概念(例如,音频解码器100,音频编码器 200,多声道解相关器600,多声道音频解码器700,音频编码器800或音频解码器1550)可以 用在音频编码器2900中和/或音频解码器3000中。例如,上述的音频编码器/解码器可被用 作SAOC编码器2940的一部份和/或SAOC解码器3060的一部份。然而,上述概念也可以用在三 维音频解码器3000和/或音频编码器2900的其他位置。

自然地,上述的方法也可以用在根据图28及图29对音频信息进行编码或解码的概 念中。

20.附加实施例

20.1介绍

以下,将描述根据本发明的另一实施例。

图31示出根据本发明的实施例的下混音处理器的示意框图。

下混音处理器3100包括解混音器3110,渲染器3120,组合器3130以及多声道解相 关器3140。渲染器向组合器3130并向多声道解相关器3140提供渲染音频信号Ydry。多声道解 相关器包括预混音器3150,预混音器3150接收渲染音频信号(其可被视为第一组解相关器 输入信号),并基于渲染音频信号向解相关器核心3160提供被预混音的第二组解相关器输 入信号。解相关器核心基于第二组解相关器输入信号提供第一组解相关器输出信号,以由 后置混音器3170使用。后置混音器对解相关器核心提供的解相关输出信号进行后置混音 (或上混音),以获得后置混音的第二组解相关器输出信号,并将其提供给组合器3130。

渲染器3130可例如针对渲染应用矩阵R,预混音器可例如针对预混音应用矩阵 Mpre,后置混音器可例如针对后置混音应用矩阵Mpost,以及组合器可例如针对组合应用矩阵 P。

应该注意的是,下混音处理器3100或其个别元素或功能可以用在本文中描述的音 频解码器中。此外,应该注意的是,可通过本文中描述的任何特征和功能对下混音处理器进 行补充。

20.2SAOC三维处理

应用在ISO/IEC23003-1:2007中描述的混合滤波器库。参数DMG、OLD、IOC的量化 遵守在ISO/IEC23003-2:2010的7.1.2中定义的相同规则。

20.2.1信号和参数

针对每个时隙n及每个混合子频带k定义音频信号。针对每个参数时隙l以及处理 频带m定义对应的SAOC三维参数。混合与参数域之间的后续映射由ISO/IEC23003-1:2007 的表格A.31指定。因此,所有的计算都是关于某些时间/频带索引来执行的,且针对每个所 引入的变量隐含了对应维度。

SAOC三维解码器处可用的数据由多声道下混音信号X、协方差矩阵E、渲染矩阵R以 及下混音矩阵D组成。

20.2.1.1对象参数

大小为N×N的具有元素ei,j的协方差矩阵E表示原始信号协方差矩阵E≈SS*的近 似,且可通过以下公式根据OLD和IOC参数获得:

ei,j=OLDiOLDjIOCi,j.

在此,通过以下公式获得解量化对象参数:

OLDi=DOLD(i,l,m),IOCi,j=DIOC(i,j,l,m)。

20.2.1.3下混音矩阵

向输入音频信号应用的下混音矩阵D将下混音信号S确定为X=DS。通过以下公式 获得大小为Ndmx×N的下混音矩阵D:

D=DdmxDpremix.

取决于处理模式,矩阵Ddmx和矩阵Dpremix具有不同大小。根据DMG参数将矩阵Ddmx获 得为:

在此,通过以下公式获得解量化下混音参数:

DMGi,j=DDMG(i,j,l)

20.2.1.3.1直接模式

在直接模式的情况下,不使用预混音。矩阵Dpremix具有大小N×N,并被给出为: Dpremix=I.根据20.2.1.3,矩阵Ddmx具有大小Ndmx×N,且根据DMG参数而获得。

20.2.1.3.2预混音矩阵

在预混音模式的情况下,矩阵Dpremix具有大小(Nch+Npremix)×N,并给出为:

Dpremix=I00A,

其中,从对象渲染器接收大小为Npremix×Nobj的预混音矩阵Npremix×Nobj,作为SAOC 三维解码器的输入。

根据20.2.1.3,矩阵Ddmx具有大小Ndmx×(Nch+Npremix),且根据DMG参数而获得。

20.2.1.4渲染矩阵

向输入音频信号应用的渲染矩阵R将目标渲染输出S确定为Y=RS。大小为Nout×N 的渲染矩阵R被给出为

R=(RchRobj),

大小为Nout×Nch的Rch表示与输入声道相关联的渲染矩阵,且大小为Nout×Nobj的 Robj表示与输入对象相关联的渲染矩阵。

20.2.1.4目标输出协方差矩阵

大小为Nout×Nout的具有元素ci,j的协方差矩阵C表示目标输出信号协方差矩阵C≈ YY的近似,且可通过以下公式根据协方差矩阵E和渲染矩阵R获得:

C=RER*.

20.2.2解码

描述了使用SAOC三维参数和渲染信息获得输出信号的方法。SAOC三维解码器可例 如由SAOC三维参数处理器和SAOC三维下混音处理器构成。

20.2.2.1下混音处理器

将下混音处理器的输出信号(表示在混合QMF域中)馈送到如ISO/IEC23003-1: 2007中描述的对应综合滤波器库中,产生SAOC三维解码器的最终输出。在图31中描绘了下 混音处理器的详细结构。

根据多声道下混音信号x和解相关多声道信号Xd将输出信号计算为:

Y^=PdryRUX+PwetMpostXd,

其中,U表示参数化解混音矩阵,并定义在20.2.2.1.1和20.2.2.1.2中。

根据20.2.3计算解相关多声道信号Xd

Xd=decorrFunc(MpreYdry).

在20.2.3中描述了混音矩阵P=(PdryPwet)。在图19至图23中给出了针对不同输出 配置的矩阵Mpre,且矩阵Mpost是使用以下等式获得的:

Mpost=Mpre*(MpreMpre*)-1.

如图32中所示,由比特流元素bsNumSaocDmxObjects来控制解码模式。

20.2.2.1.1组合解码模式

在组合解码模式的情况下,参数化解混音矩阵U给出为:

U=ED*J。

大小为Ndmx×Ndmx的矩阵J被给出为J≈Δ-1,其中Δ=DED*

20.2.2.1.2独立解码模式

在独立解码模式的情况下,解混音矩阵U给出为:

U=Uch00Uobj,

其中,且

通过仅选择对应的对角框,根据协方差矩阵E获得大小为Nch×Nch的基于声道的协 方差矩阵Ech和大小为Nobj×Nobj的基于对象的协方差矩阵Eobj

E=EchEch,objEobj,chEobj,

其中,矩阵Ech,obj=(Eobj,ch)*表示输入声道和输入对象之间的互协方差矩阵,且不 要求计算。

通过仅选择对应的对角框,根据下混音矩阵D获得大小为的基于声道的 下混音矩阵Dch和大小为的基于对象的下混音矩阵Dobj

D=Dch00Dobj.

针对根据20.2.2.1.4相应地导出大小为的矩阵

针对根据20.2.2.1.4相应地导出大小为的矩阵

20.2.2.1.4矩阵J的计算

使用以下等式将矩阵J≈Δ-1计算为:

J=VΛinvV*.

在此,使用以下特征方程获得矩阵Δ的奇异向量v:

VΛV*=Δ。

将对角奇异值矩阵Λ的正则取逆Λinv计算为:

使用绝对阈值Treg和Λ的最大值将相对正则化标量确定为:

TregΛ=max(λi,i)Treg,Treg=10-2.

20.2.3解相关

根据图19至24中的表格,利用bsDecorrConfig==0和解相关器索引X,来从ISO/ IEC23003-1:2007的6.6.2中描述的解相关器创建解相关信号。因此,decorrFunc()表示解 相关处理:

Xd=decorrFunc(MpreYdry).

20.2.4混音矩阵P-第一选项

由比特流元素bsDecorrelationMethod控制混音矩阵P=(PdryPwet)的计算。矩阵P 具有大小Nout×2Nout,且Pdry和Pwet都具有大小Nout×Nout

20.2.4.1能量补偿模式

能量补偿模式使用解相关信号来补偿参数化重构中的能量损失。混音矩阵Pdry和 Pwet被给出为:

Pdry=I,

pi,jwet=min(λDec,max(0,C(i,i)-EYdry(i,i)max(ϵ,EYwet(i,i))))i=j,0ij.

其中,λDec=4是使用来限制添加到输出信号的解相关分量的量的常数。

20.2.4.2有限协方差调整模式

有限协方差调整模式确保被混音的解相关信号的协方差矩阵PwetYdry近似于差分 协方差矩阵ΔE:使用以下等式来定义混音矩阵Pdry和Pwet

Pdry=I,

Pwet=(V1Q1V1*)(V2Q2invV2*),

将对角奇异值矩阵Q2的正则取逆计算为:

使用绝对阈值Treg和的最大值将相对正则化标量确定为:

TregΛ=max(Q2inv(i,i))Treg,Treg=10-2.

使用奇异值分解将矩阵ΔE分解为:

ΔE=V1Q1V1*

还使用奇异值分解将解相关信号的协方差矩阵表达为:

EYwet=V2Q2V2*.

20.2.4.3通用协方差调整模式

通用协方差调整模式确保最终输出信号的协方差矩阵近似于目标 协方差矩阵:使用以下等式将混音矩阵P定义为:

P=(V1Q1V1*)H(V2Q2invV2*),

其中,将对角奇异值矩阵Q2的正则取逆计算为:

使用绝对阈值Treg和的最大值将相对正则化标量确定为:

TregΛ=max(Q2inv(i,i))Treg,Treg=10-2.

使用奇异值分解将目标协方差矩阵C分解为:

C=V1Q1V1*.

还使用奇异值分解将组合信号的协方差矩阵表达为:

EYcom=V2Q2V2*.

矩阵H表示大小为(Nout×2Nout)的原型加权矩阵,并由以下等式给出:

20.2.4.4所引入的协方差矩阵

矩阵ΔE表示目标输出协方差矩阵C与参数化地重构的信号的协方差矩阵之间 的差,并被给出为:

ΔE=C-EYdry.

矩阵表示参数化地估计的信号的协方差矩阵且使用以下等式 来定义:

EYdry=RUEU*R*.

矩阵表示解相关信号的协方差矩阵且使用以下等式来定义:

EYwet=Mpost[matdiag(MpreEYdryMpre*)]Mpost*.

考虑由参数化估计信号与解相关信号的组合构成的信号Ycom

Ycom=YdryYwet,

由以下等式将Ycom的协方差矩阵定义为:

EYcom=EYdry00EYwet.

矩阵表示例如在已应用混音矩阵Pwet之后所估计的解相关信号的协方差矩阵, 且使用以下等式来定义:

E^Ywet=PwetEYwetPwet*.

20.2.5混音矩阵P-第二选项

由比特流元素bsDecorrelationMethod控制混音矩阵P=[PdryAwetPwet]的计算。 矩阵P具有大小Nout×2Nout,且Pdry和Pwet都具有大小Nout×Nout。大小为Nout×Nout的限制矩阵 Awet被给出为

Awet=matdiag(min(1,max(0,λDecEYdry(i,i)max(ϵE^Ywet(i,i))))),

其中,例如在20.2.4.4节中给出了协方差矩阵和且λDec=4是用于 限制添加到输出信号的解相关分量的量的常数。

20.2.5.1能量补偿模式

能量补偿模式使用解相关信号来补偿参数化重构中的能量损失。混音矩阵Pdry和 Pwet被给出为:

Pdry=I,

pi,jwet=max(0,C(i,i)-EYdry(i,i)max(ϵ,EYwet(i,i))))i=j,0ij.

20.2.5.2其他概念和细节

关于其他概念和附加细节,还参考20.2.4.2节至20.2.4.4节。

20.3关于符号的评述

应该注意到在本申请中使用了不同的符号。然而,根据上下文,很清楚哪个符号应 用于特定的等式。

例如,在描述的一些部分中将混音矩阵指定为F或For而在描述的其他部分中 以P来指定混音矩阵。

然而,在描述的一些部分中将要应用到干信号(或多个干信号)的混音矩阵的分量 指定为P,而在描述的其他部分中指定为Pdry。类似地,在描述的一些部分中将要应用到湿信 号(或多个湿信号)的混音矩阵的分量指定为M,而在描述的其他部分中指定为Pwet。此外,湿 信号的协方差矩阵EW(在与矩阵M的混音步骤之前)等于解相关信号的协方差矩阵

21.实现备选

虽然在设备的上下文中已描述一些方案,但是明显地,这些方案还表示对应的方 法的描述,其中框或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文 中,所述的方案还表示对应的设备的对应的框或项或特征的描述。方法步骤中的一些或全 部可由(使用)硬件设备来执行,该硬件设备如例如微处理器、可编程计算机或电子电路。在 一些实施例中,最重要的方法步骤中的某一个或多个步骤可由此设备来执行。

本发明的编码音频信号可储存在数字储存介质上,或可经由诸如无线传输介质或 有线传输介质的传输介质来发送,该传输介质诸如因特网。

取决于某些实现要求,本发明的实施例可实现在硬件中或软件中。可使用数字储 存介质来执行实现,该数字储存介质例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪 存,该数字储存介质上储存有电子可读的控制信号,该电子可读的控制信号与可编程计算 机系统合作(或能够与可编程计算机系统合作),使得可执行相应方法。因此,数字储存介质 可以是计算机可读的。

根据本发明的一些实施例,包括具有电子可读的控制信号的数据载体,该电子可 读的控制信号能够与可编程计算机系统合作,使得可执行本文所述方法之一。

通常,本发明的实施例可实行为具有程序代码的计算机程序产品,当计算机程序 产品在计算机上执行时,该程序代码可操作用于执行方法之一。程序代码可例如储存在机 器可读载体上。

其他实施例包括用于执行本文所述方法之一的计算机程序,该计算机程序储存在 机器可读载体上。

换言之,本发明的方法的实施例因此是具有程序代码的计算机程序,当在计算机 上执行计算机程序时,所述程序代码用于执行本文所述方法之一。

本发明的方法的另一实施例因此是数据载体(或数字储存介质,或计算机可读介 质),该数据载体包括记录在该数据载体上的用于执行本文所述方法之一的计算机程序。数 据载体、数字储存介质或记录介质通常是有形的和/或非暂时性的。

本发明的方法的另一实施例因此是表示用于执行本文所述方法之一的计算机程 序的数据流或信号序列。数据流或信号序列可例如被配置为经由数据通信连接(例如经由 因特网)传递。

另一实施例包括处理装置,例如计算机或可编程逻辑设备,该处理装置被配置或 适配为执行本文所述方法之一。

另一实施例包括计算机,该计算机上安装有用于执行本文所述方法之一的计算机 程序。

根据本发明的另一实施例包括装置或系统,该装置或系统被配置为将用于执行本 文所述方法之一的计算机程序传递(例如,电子地或光学地)至接收机。接收机可例如是计 算机、移动设备、存储设备等。装置或系统可例如包括用于将计算机程序传递至接收器的文 件服务器。

在一些实施例中,可编程逻辑设备(例如现场可编程门阵列)可用来执行本文所述 方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器合作,以执 行本文所述方法之一。通常,方法优选地由任何硬件装置执行。

以上所述实施例对于本发明的原理仅是示意性的。将理解的是,本领域技术人员 将显而易见本文所述布置及细节的修改及变化。因此,意图是仅受即将出现的专利权利要 求的范围而不是通过本文实施例的描述及解释的方式呈现的特定细节来限制。

参考文献

[BCC]C.FallerandF.Baumgarte,“BinauralCueCoding-PartII:Schemes andapplications,”IEEETrans.onSpeechandAudioProc.,vol.11,no.6,Nov.2003.

[Blauert]J.Blauert,“SpatialHearing-ThePsychophysicsofHumanSound Localization”,RevisedEdition,TheMITPress,London,1997.

[JSC]C.Faller,“ParametricJoint-CodingofAudioSources”,120thAES Convention,Paris,2006.

[ISS1]M.ParvaixandL.Girin:“InformedSourceSeparationof underdeterminedinstantaneousStereoMixturesusingSourceIndexEmbedding”, IEEEICASSP,2010.

[ISS2]M.Parvaix,L.Girin,J.-M.Brossier:“Awatermarking-basedmethod forinformedsourceseparationofaudiosignalswithasinglesensor”,IEEE TransactionsonAudio,SpeechandLanguageProcessing,2010.

[ISS3]A.LiutkusandJ.PinelandR.BadeauandL.GirinandG.Richard: “Informedsourceseparationthroughspectrogramcodinganddataembedding”, SignalProcessingJournal,2011.

[ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:“Informedsource separation:sourcecodingmeetssourceseparation”,IEEEWorkshopon ApplicationsofSignalProcessingtoAudioandAcoustics,2011.

[ISS5]S.ZhangandL.Girin:“AnInformedSourceSeparationSystemfor SpeechSignals”,INTERSPEECH,2011.

[ISS6]L.GirinandJ.Pinel:“InformedAudioSourceSeparationfrom CompressedLinearStereoMixtures”,AES42ndInternationalConference:Semantic Audio,2011.

[MPS]ISO/IEC,“Informationtechnology-MPEGaudiotechnologies-Part1: MPEGSurround,”ISO/IECJTC1/SC29/WG11(MPEG)internationalStandard23003-1: 2006.

[OCD]J.Vilkamo,T.andA.Kuntz.“Optimizedcovariancedomain frameworkfortime-frequencyprocessingofspatialaudio”,Journalofthe AudioEngineeringSociety,2013.inpress.

[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:″FromSACToSAOC-Recent DevelopmentsinParametricCodingofSpatialAudio″,22ndRegionalUKAES Conference,Cambridge,UK,April2007.

[SAOC2]J.B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.L.Terentiev,J.Breebaart,J.Koppens,E.SchuijersandW.Oomen:″SpatialAudio ObjectCoding(SAOC)-TheUpcomingMPEGStandardonParametricObjectBased AudioCoding″,124thAESConvention,Amsterdam2008.

[SAOC]ISO/IEC,“MPEGaudiotechnologies-Part2:SpatialAudioObject Coding(SAOC),”ISO/IECJTC1/SC29/WG11(MPEG)InternationalStandard23003-2.

InternationalPatentNo.WO/2006/026452,″MULTICHANNELDECORRELATIONIN SPATIALAUDIOCODING″issuedon9March2006.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号