首页> 中国专利> 相对于球面谐波系数执行空间掩蔽

相对于球面谐波系数执行空间掩蔽

摘要

一般来说,本发明描述借此相对于球面谐波系数执行空间掩蔽的技术。作为一个实例,一种包括处理器的音频编码装置可执行所述技术的各个方面。所述处理器可经配置以基于描述三维声场的所述球面谐波系数来执行空间分析,以识别空间掩蔽阈值。所述处理器可进一步经配置以从所述多个球面谐波系数渲染多声道音频数据,并基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据,以产生位流。

著录项

  • 公开/公告号CN105247612A

    专利类型发明专利

  • 公开/公告日2016-01-13

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201480030439.7

  • 申请日2014-05-28

  • 分类号G10L19/008;

  • 代理机构北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 13:38:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-17

    未缴年费专利权终止 IPC(主分类):G10L19/008 专利号:ZL2014800304397 申请日:20140528 授权公告日:20181218

    专利权的终止

  • 2018-12-18

    授权

    授权

  • 2016-02-10

    实质审查的生效 IPC(主分类):G10L19/008 申请日:20140528

    实质审查的生效

  • 2016-01-13

    公开

    公开

说明书

本申请案主张2013年5月28日申请的第61/828,132号美国临时申请案的权益。

技术领域

所述技术涉及音频数据,并且更具体来说涉及音频数据的编码。

背景技术

高阶立体混响(HOA)信号(常由多个球面谐波系数(SHC)或其它层级要素表示)是声 场的三维表示。此HOA或SHC表示可以独立于用以重放从此SHC信号渲染的多声道 音频信号的局部扬声器几何结构的方式表示此声场。此SHC信号还可促进向后相容性, 因为可将此SHC信号渲染为众所周知的且被广泛采用的多通道格式(例如,5.1音频声道 格式或7.1音频声道格式)。SHC表示因此可实现对声场的更好表示,其也适应向后兼容 性。

发明内容

一般来说描述相对于球面谐波系数(其也可被称作高价态立体混响(HOA)系数)执行 空间掩蔽的技术。空间掩蔽可利用当相对较响的声音在空间上接近较安静的声音的位置 处发生时,人听觉系统无法检测所述较安静的声音的事实。本发明中描述的技术可使音 频译码装置能够评估球面谐波系数所表达的声场,以识别可能被相对较响(或能量较大) 声音掩蔽的这些较安静(或能量较小)声音。所述音频译码装置可接着为译码较安静声音 指派较多的位,同时为译码较响声音指派较多的位(或维持若干位)。在这方面中,本发 明中描述的技术可促进球面谐波系数的译码。

在一个方面中,一种方法包括:解码位流来产生具有对应于布置成限定扬声器几何 结构的扬声器的多个声道的第一多声道音频数据;;相对于所产生的多声道音频数据执 行逆渲染过程,以产生多个球面谐波系数;以及基于所述多个球面谐波系数来渲染具有 对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据。

在另一方面,一种音频解码装置包括一或多个处理器,其经配置以:解码位流以产 生具有对应于布置成第一扬声器几何结构的扬声器的多个声道的以产生多声道音频数 据;相对于所产生的多声道音频数据执行逆渲染过程,以产生多个球面谐波系数;以及 基于所述多个球面谐波系数渲染具有对应于布置成局部扬声器几何结构的扬声器的多 个声道的第二多声道音频数据。

在另一方面,一种音频解码装置包括:用于解码位流以产生的装置具有对应于布置 成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据;用于相对于所产生 的多声道音频数据执行逆渲染过程以产生多个球面谐波系数的装置;以及用于基于所述 多个球面谐波系数渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的 第二多声道音频数据的装置。

在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执 行时,致使音频解码装置的一或多个处理器:解码位流以产生具有对应于布置成第一扬 声器几何结构的扬声器的多个声道的第一多声道音频数据;相对于所产生的多声道音频 数据执行逆渲染过程以产生多个球面谐波系数;且基于所述多个球面谐波系数渲染具有 对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据。

在另一方面,一种压缩音频数据的方法包括:基于描述三维声场的多个球面谐波系 数执行空间分析以识别空间掩蔽阈值;以及基于所识别的空间掩蔽阈值来压缩所述音频 数据以产生位流。

在另一方面,一种装置包括一或多个处理器,其经配置以基于描述三维声场的多个 球面谐波系数执行空间分析以识别空间掩蔽阈值,且基于所识别的空间掩蔽阈值来压缩 所述音频数据以产生位流。

在另一方面,一种装置包括:用于基于描述三维声场的多个球面谐波系数执行空间 分析以识别空间掩蔽阈值的装置;以及用于基于所识别的空间掩蔽阈值来压缩所述音频 数据以产生位流的装置。

在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执 行时,致使一或多个处理器基于描述三维声场的多个球面谐波系数执行空间分析以识别 空间掩蔽阈值,且基于所识别的空间掩蔽阈值来压缩所述音频数据以产生位流。

在另一方面,一种压缩音频的方法包括:渲染以三维形式描述音频的声场的多个球 面谐波系数以产生多声道音频数据;相对于所述多声道音频数据执行空间分析以识别空 间掩蔽阈值;以及基于所识别的空间掩蔽阈值来压缩所述多声道音频数据以产生位流。

在另一方面,一种装置包括一或多个处理器,其经配置来渲染以三维形式描述音频 的声场的多个球面谐波系数以产生多声道音频数据;相对于所述多声道音频数据执行空 间分析以识别空间掩蔽阈值;且基于所述所识别的空间掩蔽阈值来压缩所述多声道音频 数据以产生位流。

在另一方面,一种装置包括:用于渲染以三维形式描述音频的声场的多个球面谐波 系数以产生多声道音频数据的装置;相对于所述多声道音频数据执行空间分析以识别空 间掩蔽阈值的装置;以及基于所识别的空间掩蔽阈值来压缩所述多声道音频数据以产生 位流的装置。

在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执 行时,致使一或多个处理器:渲染以三维形式描述音频的声场的多个球面谐波系数以产 生多声道音频数据;相对于所述多声道音频数据执行空间分析以识别空间掩蔽阈值;且 基于所述所识别的空间掩蔽阈值来压缩多声道音频数据以产生位流。

在另一方面,一种压缩音频数据的方法包括:为表示经压缩音频数据的位流确定目 标位速率;基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析以 识别空间掩蔽阈值;以及基于所述目标位速率,执行i)参数声道间音频编码以及所述空 间掩蔽阈值的空间掩蔽,或ii)使用空间掩蔽阈值的空间掩蔽。而不执行参数声道间音频 编码,以产生表示经压缩音频数据的位流。

在另一方面,一种装置包括一或多个处理器,其经配置以:为表示经压缩音频数据 的位流确定目标位速率;基于以三维形式描述音频数据的声场的多个球面谐波系数执行 空间分析,以识别空间掩蔽阈值;以及基于所述目标位速率,执行i)参数声道间音频编 码和使用空间掩蔽阈值的空间掩蔽;或ii)使用空间掩蔽阈值的空间掩蔽,而不执行参数 声道间音频编码,以产生表示经压缩音频数据的位流。

在另一方面,一种装置包括:用于为表示经压缩音频数据的位流确定目标位速率的 装置;用于基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析以 识别空间掩蔽阈值的装置;以及用于基于所述目标位速率,执行i)参数声道间音频编码 和使用空间掩蔽阈值的空间掩蔽或ii)使用空间掩蔽阈值的空间掩蔽而不执行参数声道 间音频编码以产生表示经压缩音频数据的位流的装置。

在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执 行时,致使一或多个处理器:为表示经压缩音频数据的位流确定目标位速率,基于以三 维形式描述音频数据的声场的多个球面谐波系数执行空间分析,以识别空间掩蔽阈值, 基于所述目标位速率,执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,或 ii)使用空间掩蔽阈值的空间掩蔽,而不执行参数声道间音频编码,以产生表示经压缩音 频数据的位流。

在另一方面,一种压缩多声道音频数据的方法,所述方法包括:基于以三维形式描 述多声道音频数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值; 渲染所述球面谐波系数,以产生多声道音频数据;使用所述空间掩蔽阈值,相对于所述 多声道音频数据的一或多个基础声道执行空间掩蔽;相对于所述多声道音频数据(包含所 述多声道音频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码,以产生 位流。

在另一方面,一种装置包括一或多个处理器以:基于以三维形式描述多声道音频数 据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;渲染所述球面谐 波系数,以产生多声道音频数据;使用所述空间掩蔽阈值,相对于所述多声道音频数据 的一或多个基础声道,执行空间掩蔽;且相对于所述多声道音频数据(包含所述多声道音 频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码,以产生位流。

在另一方面,一种装置包括:用于基于以三维形式描述多声道音频数据的声场的多 个球面谐波系数来执行空间分析以识别空间掩蔽阈值的装置;用于渲染所述球面谐波系 数以产生多声道音频数据的装置;用于使用所述空间掩蔽阈值相对于所述多声道音频数 据的一或多个基础声道执行空间掩蔽的装置;用于相对于所述多声道音频数据(包含所述 多声道音频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码以产生位 流的装置。

在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执 行时,致使一或多个处理器:基于以三维形式描述多声道音频数据的声场的多个球面谐 波系数来执行空间分析以识别空间掩蔽阈值;渲染所述球面谐波系数以产生多声道音频 数据;使用所述空间掩蔽阈值,相对于所述多声道音频数据的一或多个基础声道来执行 空间掩蔽;且相对于所述多声道音频数据(包含所述多声道音频数据的经空间掩蔽的一或 多个基础声道)执行参数声道间音频编码,以产生位流。

在另一方面,一种压缩音频数据的方法,所述方法包括:基于以三维形式描述音频 数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;使用所述空间 掩蔽阈值,相对于所述多个球面谐波系数执行空间掩蔽;以及产生包含所述多个经空间 掩蔽的球面谐波系数的位流。

在另一方面,一种装置包括一或多个处理器,其用以:基于以三维形式描述音频数 据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;使用所述空间掩 蔽阈值,相对于所述多个球面谐波系数执行空间掩蔽;以及产生包含所述多个经空间掩 蔽的球面谐波系数的位流。

在另一方面,一种装置包括:用于基于以三维形式描述音频数据的声场的多个球面 谐波系数来执行空间分析以识别空间掩蔽阈值的装置;用于使用所述空间掩蔽阈值,相 对于所述多个球面谐波系数执行空间掩蔽的装置;以及用于产生包含所述多个经空间掩 蔽的球面谐波系数的位流的装置。

在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执 行时,致使一或多个处理器:基于以三维形式描述音频数据的声场的多个球面谐波系数 来执行空间分析,以识别空间掩蔽阈值;使用所述空间掩蔽阈值,相对于所述多个球面 谐波系数执行空间掩蔽;且产生包含所述多个经空间掩蔽的球面谐波系数的位流。

在附图和以下描述中陈述所述技术的一或多个方面的细节。这些技术的其它特征、 目标和优点将从所述描述和图式以及所附权利要求书中显而易见。

附图说明

图1到3是说明具有各种阶和子阶的球面谐波基底函数的图。

图4A和4B各自为说明可执行本发明中描述的技术的各个方面以译码描述二维或三 维声场的球面谐波系数的实例音频编码装置的框图。

图5是说明可执行本发明中描述的技术的各个方面以解码描述二维或三维声场的球 面谐波系数的实例音频解码装置的框图。

图6A到6C是更详细地说明图4A的实例中所示的音频编码单元的实例变化的框图。

图7是更详细地说明图2的音频解码单元的实例的框图。

图8是更详细地说明图5的实例中所示的音频渲染单元的框图。

图9是说明音频编码装置在执行本发明中描述的技术的各种方面中的示范性操作的 流程图。

图10是说明音频解码装置在执行本发明中描述的技术的各种方面中的示范性操作 的流程图。

图11是说明本发明中描述的空间掩蔽技术的各个方面的图。

图12是说明其中可根据本发明中描述的技术的各个方面执行产生位流的不同形式 的图4A的实例中所示的音频编码装置的变化的框图。

图13是说明可执行本发明中描述的技术的各种方面的示范性音频编码装置的框图。

具体实施方式

环绕声的演进现今已使得许多输出格式可用于娱乐。此类环绕声格式的实例包含流 行的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中央或前方中央、左后或环 绕左、右后或环绕右以及低频效果(LFE)),发展的7.1格式和即将到来的22.2格式(例如, 用于与超高清电视标准一起使用)。进一步的实例包含用于球面谐波阵列的格式。

到将来MPEG编码器的输入任选地是三种可能格式中的一者:(i)传统的基于声道的 音频,其意图经由预先指定的位置处的扩音器进行播放;(ii)基于对象的音频,其涉及具 有含有其位置坐标(以及其它信息)的相关联元数据的用于单个音频对象的离散脉码调制 (PCM)数据;和(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也称为“球 面谐波系数”或SHC)来表示声场。

市场中存在各种‘环绕声’格式。它们的范围(例如)是从5.1家庭影院系统(其在使 起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发 的22.2系统。内容创建者(例如,好莱坞工作室)将希望产生电影的音轨一次,而不花费 精力来针对每一扬声器配置对其进行重混(remix)。最近,标准委员会已经考虑将编码提 供到标准化位流中及在再现器的位置处的扬声器几何结构及声学条件可调适及不可知 的后续解码的方式。

为向内容创建者提供此种灵活性,可使用分层要素集合来表示声场。所述分层要素 集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声音场的完整表示 的一组元素。当所述组扩展到包含较高阶要素时,所述表示变得更详细。

分层要素集合的一个实例是SHC集合。以下表达式示范使用SHC对声场的描述或 表示:

此表达式显示,声场的任一点处的压力pi可由SHC唯一地表示。此 处,c为音速(~343m/s),为参考点(或观察点),jn(·)为阶n的球贝塞 尔函数,且为阶n和子阶m的球面谐波基础函数。可认识到,方括号中的术 语是信号的频域表示(即,),其可通过各种时频变换来近似表示,例如离 散傅立叶变换(DFT)、离散余弦变换(DCT),或小波变换。分层组的其它实例包含数组小 波变换系数和其它数组多分辨率基函数系数。

图1是说明零阶球面谐波基底函数(第一行)一阶球面谐波基底函数(第二行)和二阶 球面谐波基底函数(第三行)的图。阶(n)由表格的行识别,其中第一行指代零阶,第二行 指代第一阶,且第三行指代第二阶。子阶(m)由表格的列识别,其在图3中更详细地示 出。对应于零阶球面谐波基底函数的SHC可被认为是指定声场的能量,而对应于其余 高阶球面谐波基底函数的SHC可指定能量的方向。

图2为说明从零阶(n=0)到第四阶(n=4)的球面谐波基底函数的图。如可看出,对 于每一阶,存在子阶m的扩展,出于易于说明的目的,在图2的实例中展示所述子阶但 未明确注释。

图3为说明从零阶(n=0)到第四阶(n=4)的球面谐波基底函数的另一图。在图3中, 在三维坐标空间中展示了球面谐波基底函数,其中展示了阶与子阶两者。

在任何情况下,SHC可由各种麦克风阵列配置以物理方式获取(例如,记录), 或者其可从声场的基于声道或基于对象的描述导出。前者表示到编码器的基于场景的音 频输入。举例来说,可使用涉及1+24个(25,且因此为第四阶)系数的四阶表示。

为说明可如何从基于对象的描述导出这些SHC,考虑以下等式。对应于个别音频对 象的声场的系数可表达为

其中i为为阶n的球汉克函数(第二类),且为对象的位置。已 知源能量g(ω)为频率的函数(例如,使用时频分析技术,例如对PCM流执行快速傅立叶 变换)允许我们将每一PCM对象及其位置转换成SHC另外,可显示(由于上文 是线性且正交分解)每一对象的系数是加性的。以此方式,大量PCM对象可由 系数表示(例如,表示为个别对象的系数向量的总和)。基本上,这些系数含有关于 声场的信息(压力作为3D坐标的函数),且以上表示从个别对象到观察点附近 的整个声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其 余各图。

图4A和4B各自为说明可执行本发明中描述的技术的各个方面以译码描述二维或三 维声场的球面谐波系数的实例音频编码装置10的框图。在图4A的实例中,音频编码装 置10通常表示能够编码音频数据的任何装置,例如桌上型计算机、膝上型电脑、工作 站、平板或板状计算机、专用音频记录装置、蜂窝式电话(包含所谓的“智能电话”)、 个人媒体播放器装置、个人游戏装置,或能够编码音频数据的任何其它类型的装置。

当示出为单个装置时,即图4A的实例中的装置10,下文称为包含在装置10内的 各种组件或单元可实际上形成在装置10外部的单独裝置。换句话说,虽然本发明中描 述为由单个装置(即,在图4A的实例中的装置10)执行,但所述技术可由包括多个装置 的系统实施或另外执行,其中这些装置中的每一者可各自包含以下更详细地描述的各种 组件或单元中的一或多者。因此,所述技术不应限于图4A的实例。

如图4A的实例中示出,音频编码装置10包括时频分析单元12、音频渲染单元14、 音频编码单元16和空间分析单元18。时频分析单元12可表示经配置以执行球面谐波系 数(SHC)20A的时频分析以便将SHC20A从时域变换到频域的单元。时频分析单元12 可输出端SHC20B,其可将SHC20A表示为在频域中表达。尽管相对于时频分析单元 12来描述,但所述技术可相对于留在时域中的SHC20A来执行,而不是相对于如变换 到频域的SHC20B执行。

SHC20A可指与一或多个球面谐波相关联的系数。这些球面谐波可类似于傅立叶级 数的三角基底函数。也就是说,球面谐波可表示麦克风周围的球面的基本振动模式,类 似于傅立叶级数的三角函数可如何表示链带的基本振动模式。这些系数可通过解涉及这 些球面谐波的使用的球面坐标中的波动方程来导出。在此意义上SHC20A可将麦克风 周围的3D声场表示为具有表示对应球面谐波的体积乘数的系数的一系列球面谐波。

低阶立体混响(其也可被称作一阶立体混响)可将声音信息编码到表示为W、X、Y 和Z的四个声道中。此编码格式常称作“B格式”。W声道指代对应于全向麦克风的输 出的所捕获的声音信号的非定向单声道分量。X、Y和Z声道是三个维度中的定向分量。 X、Y和Z声道通常分别对应于三个八字麦克风的输出,所述麦克风中的一者面向前, 其中的另一者面向左,且其中的第三者面向上。这些B格式信号通常是基于声场的球面 谐波分解,且对应于空间中的点处的压力(W)和三个分量压力梯度(X、Y和Z)。这四个 B格式信号(即,W、X、Y和Z)一起近似表示麦克风周围的声场。形式上这些B格式信 号可表达多极扩展的一阶截断。

高阶立体混响是指与原始一阶B格式相比,表示使用较多声道的声场,表示较精细 的模态分量的形式。因此,高阶立体混响可捕获显著较多的空间信息。术语“高阶立体 混响”中的“高阶”是指球面上关于球面谐波的函数的多模态扩展的进一步术语。借助 于高阶立体混响来增加空间信息可将所捕获的声音较好地表达为球面上的压力。使用高 阶立体混响来产生SHC20A可实现存在于音频解码器处的扬声器对所捕获的声音的较 好再现。

音频渲染单元14表示经配置以将SHC20B渲染到一或多个声道22A到22N(“声道 22”,其也可被称作“扬声器馈送22A到22N”)的单元。或者,当不将SHC20A变换 到SHC20B时,音频渲染单元14可表示经配置以从SHC20A渲染一或多个声道22A 到22N的单元。在一些情况下,音频渲染单元14可将SHC20B渲染到对应于布置成密 集T设计几何结构的32个扬声器的32个声道(在图4的实例中示出为声道22)。音频渲 染单元14可将SHC20B渲染到对应于布置成密集T设计的32个扬声器的32个声道, 以促进SHC20B在解码器处的恢复。就是说,将SHC20B渲染到对应于布置成此密集 T设计的32个扬声器的这32个声道涉及到的数学包含矩阵,其为可逆的,使得此矩阵(其 可由变量R表示)乘以倒置矩阵(其可表示为R-1)等于单位矩阵(表示为I,其中整个数学 表达式为RR-1=I)。上述数学表达式暗示当在音频解码器处恢复SHC32B时,不存在损 失(或换句话说,引入极少到无错误)。

音频编码单元16可表示经配置以执行某一形式的音频编码以将声道22压缩到位流 24中的单元。在一些实例中,音频编码单元16可包含符合已知空间音频编码标准的音 频编码器的经修改版本,所述标准例如为国际标准化组织(ISO)/国际电工委员会 (IEC)23003-1或MPEG-D部分1(其也可被称作“空间音频译码”或“SAC”)中所定义 的移动图片专家组(MPEG)环绕声,或MPEG-2标准的部分7(其也被称作ISO/IEC 13818-7:1997)和MPEG-4标准的部分3中的子部分4(其也被称作ISO/IEC14496-3:1999) 两者中所定义的MPEG高级音频编码(AAC)。

空间分析单元18可表示经配置以执行SHC20A的空间分析的单元。空间分析单元 18可执行此空间分析,以识别声场中相对较高和较低压力密度(常表达为方位角、角度、 仰角和半径(或等效的笛卡尔坐标)中的一或多者的函数)的区域,从而分析SHC20A以 识别空间特性26。这些空间特性26可指定SHC20A的具有某些特性的各种部分的方位 角、角度、仰角和半径中的一或多者。空间分析单元18可识别空间特性26,以促进音 频编码单元16的音频编码。就是说,空间分析单元18可将空间特性26提供给音频编 码单元16,其可经修改以利用心理声学空间或位置掩蔽以及由SHC20A表示的声场的 其它空间特性。

空间掩蔽可利用人类听觉系统的趋势来在声场中存在高能声波能量时,掩蔽声场的 邻近空间部分(或3D片段)。就是说,声场的高能部分可淹没人类听觉系统,使得能量 的若干部分(通常,低能的邻近区域)不能够被人类听觉系统检测到(或辨别)。因此,音频 编码单元18可允许降低位数(或等效地较高量化噪声)来表示空间的这些所谓的“掩 蔽”片段中的声场,其中当在SHC20A所定义的声场的邻近区域中检测到高能部分时, 人类听觉系统可能不能够检测(或辨别)声音。这类似于以较低精确度(意味着可能较高噪 声)来表示那些“掩蔽”空间区中的声场。

在操作中,音频编码装置10可通过首先调用空间分析单元18来相对于描述三维声 场的SHC20A执行空间分析,以识别所述声场的空间特性26,来实施本发明中描述的 技术的各个方面。音频编码装置10可接着调用音频渲染单元14来从SHC20A(当如上 所述不执行时频分析时)或SHC20B(当执行时频分析时)渲染声道22(其也可被称作“多 声道音频数据22”)。在渲染此多声道音频数据22之后或与之同时,音频编码装置10 可调用音频编码单元16来基于所识别的空间特性26编码多声道音频数据22,以产生位 流24。如上所述音频编码单元16可以各种方式执行已经修改的音频编码的标准顺应形 式,以利用空间特性26(例如,以执行上述空间掩蔽)。

以此方式,技术可有效地编码SHC20A,使得如下文更详细地描述,音频解码装置, 例如图5的实例中所示的音频解码装置30,可恢复SHC20A。通过选择将SHC20A或 SHC20B(取决于是否执行时频分析)渲染到布置成密集T设计的32个扬声器,数学表达 式是可逆的,这意味着存在极少到无归因于所述渲染的准确性损失。通过选择包含比通 常存在于解码器处的扬声器多的扬声器的密集扬声器几何结构,所述技术提供所述声场 的良好再合成。换句话说,通过在假定密集扬声器几何结构的情况下渲染多声道音频数 据,所述多声道音频数据包含足够量的描述所述声场的数据,使得在音频解码装置30 处重构SHC20A后,音频解码装置30可即刻使用配置成次理想扬声器几何结构的解码 器局部扬声器来再合成具有充分保真度的声场。短语“理想扬声器几何结构”可指那些 由标准指定的结构,例如那些由各种风行环绕声标准定义的结构,和/或粘附到某些几何 结构的扬声器几何结构,例如密集T设计几何结构或理想的实心几何结构。

在一些情况下,可结合其它类型的掩蔽,例如同时掩蔽,来执行此空间掩蔽。同时 掩蔽,很像空间掩蔽,涉及人类听觉系统的现象,其中与其它声音同时(且常常至少部分 地同步)产生的声音掩蔽所述其它声音。通常,以比其它声音高的音量产生掩蔽声音。所 述掩蔽声音也可类似于在频率上接近于被掩蔽的声音。因此,虽然在本发明中描述为独 立执行,但可结合其它形式的掩蔽(例如上文所述的同时掩蔽)或与其它形式的掩蔽同时 执行空间掩蔽技术。

图4B是说明图4A的实例中所示的音频编码装置10的变化的框图。在图4B的实 例中,将音频编码装置10的所述变化表示为“音频编码装置11”。音频编码装置11可 类似于音频编码装置10,因为音频编码装置11也包含时频分析单元12、音频渲染单元 14、音频编码单元16和空间分析单元18。然而,不同于对SHC20A操作,音频编码装 置11的空间分析单元18可处理声道22,以识别空间参数26(其可包含空间掩蔽阈值)。 在这方面中,音频编码装置11的空间分析单元18可在声道域而不是空间域中执行空间 分析。

以此方式所述技术可使音频编码装置11能够渲染以三维形式描述音频的声场的多 个球面谐波系数20B,以产生多声道音频数据(其在图4B的实例中示出为声道22)。音 频编码装置11可接着相对于所述多声道音频数据执行空间分析,以识别空间掩蔽阈值, 且基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据,以产生位流。

在一些情况下,当压缩音频数据时,音频编码装置11可基于空间掩蔽阈值,为多 声道音频数据的基于时间的表示或多声道音频数据的基于频率的表示分配位流中的位。

在一些情况下,当压缩音频数据时,音频编码装置11可基于空间掩蔽阈值和时间 掩蔽阈值,为多声道音频数据的基于时间的表示或多声道音频数据的基于频率的表示分 配位流中的位。

在一些情况下,当压缩音频数据时,音频编码装置11可相对于多声道音频数据执 行参数声道间音频编码(例如MPEG环绕音频编码),以产生位流。

在一些情况下,当压缩音频数据时,音频编码装置11可基于空间掩蔽阈值分配用 于表示多声道音频数据的位,以产生位流。

在一些情况下,音频编码装置11可将多声道音频数据从空间域变换到时域。当压 缩音频数据时,音频编码装置11可接着基于空间掩蔽阈值来分配用于表示经变换的多 声道音频数据的各种频段的位,以产生位流。

图5是说明可执行本发明中描述的技术的各个方面以解码描述二维或三维声场的球 面谐波系数的实例音频解码装置10的框图。音频解码装置30通常表示能够解码音频数 据的任何装置,例如桌上型计算机、膝上型计算机、工作站、平板或板状计算机、专用 音频记录装置、蜂窝式电话(包含所谓的“智能电话”)、个人媒体播放机装置、个人游 戏装置或能够解码音频数据的任何其它类型的装置。

一般来说,音频解码装置30执行与音频编码装置10所执行的编码过程互反的音频 解码过程,执行空间分析除外,空间分析通常由音频编码装置10用来促进外来不相关 数据(例如话将被掩蔽或不能被人类听觉系统察觉的数据)的移除。换句话说,音频编码 装置10可能降低音频数据表示的精确度,因为典型的人类听觉系统可能不能够辨别这 些区域(例如“掩蔽”区域,在时间上且如上所述在空间上)中缺乏精确度。在假定此音 频数据不相关的情况下,音频解码装置30无需执行空间分析来重新插入此类外来音频 数据。

虽然示出为单个装置,即图5的实例中的装置30,但下文参考为包含在装置30内 的各种组件或单元可形成在装置30外部的单独裝置。换句话说,虽然本发明中描述为 由单个装置(即,在图5的实例中的装置30)执行,但所述技术可由包括多个装置的系统 实施或另外执行,其中这些装置中的每一者可各自包含下文更详细地描述的各种组件或 单元中的一或多者。因此,所述技术不应限于图5的实例。

如图5的实例中示出,音频解码装置30包括音频解码单元32、逆音频渲染单元34、 逆时频分析单元36和音频渲染单元38。音频解码单元16可表示经配置以执行某一形式 的音频解码以解压缩位流24来恢复声道22的单元。在一些实例中,音频解码单元32 可包含符合已知空间音频编码标准(例如MPEGSAC或MPEGACC)的音频解码器的经 修改版本。

逆音频渲染单元34可表示经配置以执行与音频编码装置10的音频渲染单元14所 执行的渲染过程相反的渲染过程,以恢复SHC20B。逆音频渲染单元34可应用上文所 述的逆变换矩阵R-1。或者,当SHC20A未经变换以产生SHC20B时,逆音频渲染单元 34可表示经配置以通过逆矩阵R-1的应用来从声道22渲染SHC20A的单元。处于上述 原因,在一些情况下,逆音频渲染单元34可从对应于布置成密集T设计的32个扬声器 的32个声道渲染SHC20B。

逆时频分析单元36可表示经配置以执行球面谐波系数(SHC)20B的逆时频分析以便 将SHC20B从频域变换到时域的单元。逆时频分析单元36可输出SHC20A,其可表示 如在时域中表达的SHC20B。尽管相对于逆时频分析单元36来描述,但可相对于时域 中的SHC20A来执行而不是相对于频域中的SHC20B来执行所述技术。

音频渲染单元38表示经配置以渲染声道40A到40N(“声道40”,其还可通常被称 作“多声道音频数据40”或“扩音器馈送40”)的单元。音频渲染单元38可将变换(常 以矩阵的形式来表达)应用于SHC20A。因为SHC20A以三维形式描述声场,所以SHC 20A以能够适应大多数解码器局部扬声器几何结构(其可指将重放多声道音频数据40的 扬声器的几何结构)的方式来表示促进多声道音频数据40的渲染的音频格式。此外,通 过将SHC20A渲染到用于音频编码装置10处布置成密集T设计的32个扬声器的声道, 所述技术在解码器处提供充分的音频信息(呈SHC20A的形式),以使音频渲染单元38 能够使用解码器局部扬声器几何结构,以充分的保真度和准确性来再现所捕获的音频数 据。下文相对于图8描述关于多声道音频数据40的渲染的更多信息。

在操作中,音频解码装置30可调用音频解码单元32来解码位流24,以产生具有对 应于布置成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据22。此第一 扬声器几何结构可包括上文所述的密集T设计,其中作为一个实例,扬声器的数目可为 32。虽然在本发明中描述为包含32个扬声器,蛋密集T设计扬声器几何结构可包含64 个或128个扬声器,以提供几个替代实例。音频解码装置30可接着调用逆音频渲染单 元34来相对于所产生的第一多声道音频数据22执行逆渲染过程,以产生SHC20B(当 执行时频变换时)或SHC20A(当不执行时频分析时)。当音频编码装置10执行时频分析 时,音频解码装置30还可调用逆时频分析单元36来将SHC20B从频域变换回到时域, 从而产生SHC20A。在任何情况下音频解码装置30可接着基于经编码-解码的SHC20A 来调用音频渲染单元38,以渲染具有对应于布置成局部扬声器几何结构的扬声器的多个 声道的第二多声道音频数据40。

图6A到6C各自是更详细地说明图4A的实例中所示的音频编码单元16的不同实 例变化的框图。在图4A的实例中,音频编码单元16包含环绕声编码器50A到50N(“环 绕声编码器50”)和音频编码器52A道52N(“音频编码器52”)。环绕声编码器50中的 每一者可表示经配置以执行某一形式的音频环绕声编码来编码多声道音频数据以便产 生多声道音频数据的环绕声音经编码版本(其可被称为环绕声音音频经编码多声道音频 数据)的单元。音频编码器52中的每一者可表示经配置以对环绕声音音频经编码多声道 音频数据进行音频编码以产生位流24A(其可指图4A的实例中所示的位流24的一部分) 的单元。

环绕声编码器50中的每一者可执行上文所参考的MPEG环绕声的经修改版本,以 编码多声道音频数据。此经修改版本可表示基于空间分析模块18(图1的实例中所示)所 确定的空间特性26来编码多声道音频数据22的MPEG环绕声的版本。环绕声编码器 50中的每一者可包含空间参数估计单元54A到54N(“空间参数估计单元54”)中的对应 一者。音频编码器52中的对应一者可详细编码声道22的对应子集中的一个声道。然而, 在详细编码声道22的对应子集中的此一个声道之前,相应的空间参数估计单元54中的 每一者可相对于声道22的对应子集中的所述一个声道来编码声道22的对应子集中的其 余声道。就是说,空间参数估计单元54中的每一者可确定或,在一些情况下,估计反 映声道22的对应子集中的一个声道与声道22的对应子集中的其余声道之间的差异的空 间参数。这些空间参数可包含声道间层级、声道间时间和声道间相关,提供几个实例。 空间参数估计单元54可各自输出这些空间参数作为位流24B(其再次可表示图4A的实 例中所示的位流24的一部分)。

在一些情况下,空间参数估计单元54可各自经修改以至少部分地基于空间分析单 元18所确定的空间特性26,来确定这些空间参数。为了说明,空间参数估计单元54中 的每一者可计算声道之间的增量或差异,且从而基于空间特性26来确定空间参数(其可 包含声道间层级、声道间时间和声道间相关)。举例来说,基于空间特性26,空间参数 估计单元54可确定用以指定空间参数的准确性(或换句话说,当不存在大量能量时,如 何粗略地量化参数)。

在任何情况下环绕声编码器50中的每一者将声道22的对应子集中的一个声道输出 到音频编码器52中的对应一者,其将声道22的对应子集中的此一个声道编码为单声道 音频信号。就是说,音频编码器52中的每一者表示单声道听觉音频编码器52。音频编 码器52可包含熵编码器56A到56N(“熵编码器56”)中的对应一者。熵编码器56中的 每一者可执行一种形式的无损统计译码(其通常由误称“熵编码”指代),例如霍夫曼译 码,以编码声道22的对应子集中的一个声道。在一些情况下,熵编码器56可各自基于 空间特性26来执行此熵译码。熵编码器56中的每一者可输出多声道音频数据的经编码 版本,其可与多声道音频数据的其它经编码版本以及空间参数24B多路复用,以形成位 流24。

在图6B的实例中,并非音频编码器52中的每一者包含单独的熵编码器56,而是 音频编码单元16包含单个熵编码器56,其对音频编码器52的输出中的每一者进行熵编 码(其也可被称作“统计无损译码”)。在几乎所有其它方面,图6B的实例中所示的音频 编码单元16可类似于图6C的实例中所示的音频编码单元16。虽然图6B的实例中未图 示,但音频编码单元16可包含混频器或混频单元,以合并或以其它方式组合音频编码 器52中的每一者的输出,以形成单个位流,熵编码器56可对其执行统计无损译码,以 压缩此位流,且形成位流24A。

在图6C的实例中,音频编码单元16包含音频编码器52A到52N,其不包含熵编码 器56。图6C的实例中所示的音频编码单元16不包含用于编码音频数据的任何形式的 熵编码。实情为,此音频编码单元16可执行本发明中描述的空间掩蔽技术。在一些情 况下,图6C的音频编码装置16仅执行掩蔽(在时间上或空间上,或在时间和空间两者 上,如下文更详细地描述),而不执行任何形式的熵编码。

图7是更详细地说明图5的音频解码单元32的实例的框图。首先参看图7的实例, 音频解码单元32的第一变化包含音频解码器70A到70N(“音频解码器70”)以及环绕 声解码器72A到72N(“环绕声解码器72”)。音频解码器70中的每一者可执行与上文 相对于图6A的实例所述的音频编码器50所执行的过程互反的单声道听觉音频解码过 程。尽管图7的实例中为了便于说明的目的而未图示,但音频解码器70中的每一者可 包含熵解码器,或不类似于熵编码单元16的上文相对于图6A到6C所述的变化。音频 解码器70中的每一者可接收位流24的相应部分,在图7的实例中表示为部分24A,妾 解码部分24A中的相应一者,以输出声道22的对应子集中的一个声道。可使用多路分 用器来对位流24的部分24A和位流24的部分24B进行多路分用,为了便于说明的目的, 所述多路分用器在图7的实例中未示出。

环绕声解码器72A可表示经配置以基于表示为位流部分24B的空间参数来重新和成 声道22的对应子集中的其余声道的单元。环绕声解码器72可各自包含声音合成单元76A 到76N(“声音合成单元76”)中的对应一者,其接收声道22的对应子集中的经解码声 道,以及这些空间参数。基于所述空间参数,声音合成单元76中的每一者可重新合成 声道22的对应子集中的其余声道。以此方式,音频解码单元32可解码位流24,以产生 多声道音频数据22。

图8是更详细地说明图5的实例中所示的音频解码单元32的音频渲染单元38的框 图。一般来说,图8说明从SHC20A到与解码器局部扬声器几何结构兼容的多声道音 频数据40的转换。对于一些局部扬声器几何结构(其可再次指代在解码器处的扬声器几 何结构),确保可逆性的一些变换可导致不太合乎需要的音频图像质量。就是说,当正所 捕获的音频相比较时,声音再现可并不总是导致声音的正确定位。为了对此不大合意的 图像质量进行校正,可进一步扩充技术以引入可被称作“虚拟扬声器”的概念。可修改 以上框架以包含某一形式的平移,例如向量基础振幅平移(VBAP)、基于距离的振幅平移 或其它形式的平移,而不是需要将一或多个扩音器再定位或定位于具有由例如上述的 ITU-RBS.775-1等标准指定的特定角度公差的空间的特定或所定义的区中。出于说明 的目的而聚焦于VBAP上,VBAP可有效地引入可被表征为“虚拟扬声器”的东西。 VBAP可通常修改去往一或多个扩音器的馈送,使得这些一或多个扩音器有效地输出看 起来源自虚拟扬声器的声音,所述虚拟扬声器处于不同于支持所述虚拟扬声器的一或多 个扩音器的位置和/或角度中的至少一者的位置和角度中的一或多者处。

为进行说明,用于根据SHC确定扩音器馈送的以上等式可如下修改:

A00(ω)A11(ω)A1-1(ω)...A(Order+1)(Order+1)-(Order+1)(Order+1)(ω)=-ikVBAPMATRIXMxNDNx(Order+1)2g1(ω)g2(ω)g3(ω)...gM(ω).

在以上等式中,VBAP矩阵具有M行×N列的大小,其中M表示扬声器的数目(且 在以上等式中将等于五),且N表示虚拟扬声器的数目。可依据从收听者的经定义位置 到扬声器的位置中的每一者的向量以及从收听者的经定义位置到虚拟扬声器的位置中 的每一者的向量来计算VBAP矩阵。以上等式中的D矩阵可具有N行×(阶数+1)2列的大 小,其中阶数可指代SH函数的阶数。D矩阵可表示以下矩阵:

g矩阵(或在仅存在单个列的条件下,向量)可表示布置成解码器局部几何结构的扬 声器的扬声器馈送的增益。在等式中,g矩阵具有大小M。A矩阵(或在仅存在单个列的 条件下,向量)可表示SHC520,且具有大小(阶数+1)(阶数+1),其也可表示为(阶数+1)2

实际上,VBAP矩阵为M×N矩阵,其提供可被称作“增益调整”的调整,所述调 整将扬声器的位置和虚拟扬声器的位置考虑在内。以此方式引入平移可导致多通道音频 的较好再现,这导致在由局部扬声器几何结构再现时的较好质量图像。此外,通过将 VBAP并入到此等式中,技术可克服与各种标准中所指定的几何结构不一致的不佳扬声 器几何结构。

实际上,可反转和使用所述等式以将SHC变换回到用于扩音器的特定几何结构或 配置的多声道馈送,所述特定几何结构或配置在本发明中可再次被称作解码器局部几何 结构。就是说,可反转等式来求解g矩阵。经反转的等式可如下:

g1(ω)g2(ω)g3(ω)...gM(ω)=-ikVBAPMATRIX-1MxND-1Nx(Order+1)2A00(ω)A11(ω)A1-1(ω)...A(Order+1)(Order+1)-(Order+1)(Order+1)(ω).

g矩阵可表示在此实例中用于5.1扬声器配置中的五个扩音器中的每一者的扬声器 增益。此配置中所使用的虚拟扬声器位置可对应于5.1多声道格式规格或标准中所定义 的位置。可使用任何数目的已知音频定位技术来确定可支持这些虚拟扬声器中的每一者 的扩音器的位置,所述技术中的许多技术涉及播放具有特定频率的音调,以确定每一扩 音器相对于头端单元(例如音频/视频接收器(A/V接收器)、电视机、游戏系统、数字视频 光盘系统或其它类型的头端系统)的位置。或者,头端单元的用户可手动地指定扩音器中 的每一者的位置。在任何情况下,在给定这些已知位置和可能角度的情况下,假定虚拟 扩音器的通过VBAP的理想配置,头端单元可求解增益。

在这方面中,所述技术可使装置或设备能够对多个虚拟声道执行向量基础振幅平移 或其它形式的平移,以产生多个声道,其驱动解码器局部几何结构中的扬声器发出声音, 所述声音看起来源自配置成不同局部几何结构的虚拟扬声器。所述技术可因此使音频解 码单元32能够对多个球面谐波系数(例如SHC20A)执行变换,以产生多个声道。所述多 个声道中的每一者可与空间的对应不同区相关联。此外,所述多个声道中的每一者可包 括多个虚拟声道,其中所述多个虚拟通道可与空间的对应不同区相关联。在一些情况下, 所述技术可使装置能够对虚拟声道执行向量基础振幅平移,以产生多声道音频数据40 的多个声道。

图9是说明音频编码装置(例如图4的实例中所示的音频编码装置10)在执行本发明 中描述的技术的各个方面中的示范性操作的流程图。在操作中,音频编码装置10可通 过首先调用空间分析单元18来相对于描述三维声场的SHC20A执行空间分析,以识别 所述声场的空间特性26,来实施本发明中描述的技术的各个方面(90)。音频编码装置10 可接着调用音频渲染单元14来从SHC20A(当如上所述不执行时频分析时)或SHC 20B(当执行时频分析时)渲染多声道音频数据22(其也可被称作“多声道音频数据 22”)(92)。在渲染此多声道音频数据22之后或与之同时,音频编码装置10可调用音频 编码单元16来基于所识别的空间特性26编码多声道音频数据22,以产生位流24(94)。 如上所述音频编码单元16可以各种方式执行已经修改的音频编码的标准顺应形式,以 利用空间特性26(例如,以执行上述空间掩蔽)。

图10是说明音频解码装置(例如图5的实例中所示的音频解码装置30)在执行本发 明中描述的技术的各个方面中的示范性操作的流程图。在操作中,音频解码装置30可 调用音频解码单元32来解码位流24,以产生具有对应于布置成第一扬声器几何结构的 扬声器的多个声道的第一多声道音频数据22(100)。此第一扬声器几何结构可包括上文 所述的密集T设计,其中作为一个实例,扬声器的数目可为32。一般来说,第一扬声器 几何结构中的扬声器的数目应超过解码器局部扬声器几何结构中的扬声器的数目,以在 解码器局部扬声器几何结构对音频数据的重放期间,提供高保真度。

音频解码装置30可接着调用逆音频渲染单元34来相对于所产生的第一多声道音频 数据22执行逆渲染过程,以产生SHC20B(当执行时频变换时)或SHC20A(当不执行时 频分析时)(102)。当音频编码装置10执行时频分析时,音频解码装置30还可调用逆时 频分析单元36来将SHC20B从频域变换回到时域,从而产生SHC20A。在任何情况下, 音频解码装置10可接着调用音频渲染单元38来基于SHC20A而渲染具有对应于布置 成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据40(104)。

以此方式,所述技术可使用现有的音频译码器(并修改其各个方面,以适应来自SHC 的空间信息)。为了这样做,所述技术可取SH系数,并(使用渲染器R1)将其渲染到任意 但密集的一组扩音器。这些扩音器的几何结构可使得逆渲染器(R1_inv)可重新产生SH 信号。在一些实例中,渲染器可为仅单个矩阵(与频率无关),且其中的一者具有逆配对 矩阵,使得R1xR1_inv=单位矩阵。这些渲染器针对T设计或柏拉图多面体(Platonic Solids)所描述的几何结构而存在。可使用将由从SHC搜集/分析的空间信息修改的“现 成”音频译码器来译码渲染器(R1)所产生的扩音器馈送。在一些情况下,所述技术可采 取常见的音频译码方法,借此维持扬声器馈送之间的声道间层级/时间/相关中的一或多 者。使用压缩来讲较多声道打包到为单个声道等分配的位中。

在解码器处,所述技术可使解码器能够恢复扬声器馈送,并使其通过逆渲染器 (R1_inv),以检索原始SHC。可将这些SHC馈送到另一渲染器(R2)中,意在迎合局部扬 声器几何结构。通常,所述技术规定R1的输出处所产生的扬声器馈送的数目相对于渲 染器R2的输出处可能存在的扬声器的数目来说较密集。换句话说,当渲染第一多声道 音频数据时,假定扬声器的数目比R2渲染器的输出处可能存在的扬声器的实际数目高 得多。

应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可用不 同序列来执行,可添加、合并或全部省略所述动作或事件(例如,实践所述技术未必需要 所有所描述动作或事件)。此外,在某些实例中,可(例如)经由多线程处理、中断处理或 多个处理器同时而非循序地执行动作或事件。

图11是说明本发明中描述的空间掩蔽技术的各个方面的图。在图11的实例中,曲 线110包含x轴,其表示表达为SHC的声场内的三维空间中的点。曲线110的y轴指示 单位为分贝的增益。曲线110描绘如何在某一给定频率(例如频率f1)下为点二(P2)计算空 间掩蔽阈值。可将空间掩蔽阈值计算为每一其它点(从P2的角度)的能量的总和。就是说, 短划线表示从P2的角度来说点一(P1)和点三(P3)的掩蔽能量。能量的总量可表达空间掩 蔽阈值。除非P2具有大于空间掩蔽阈值的能量,否则不必发送或以其它方式编码P2的 SHC。数学上,可根据以下等式来计算空间掩蔽(SMth)阈值:

SMth=Σi=1nEpi

其中表示点Pi处的能量。可从所述点的角度针对每一点且针对每一频率(或可表 示频带的频段)来计算空间掩蔽阈值。

作为一个实例,图4A的实例中所示的空间分析单元18可根据以上等式来计算空间 掩蔽阈值,以便潜在地减小所得位流的大小。在一些情况下,经执行以计算空间掩蔽阈 值的此空间分析可结合声道22上的单独掩蔽块以及到音频编码单元16中的反馈来执 行。虽然曲线110描绘dB域,但所述技术也可在空间域中执行。

在一些实例中,空间掩蔽阈值可与时间(或换句话说,同时)掩蔽阈值一起使用。通 常,可将空间掩蔽阈值添加到时间掩蔽阈值,以产生整体掩蔽阈值。在一些情况下,当 产生整体掩蔽阈值时,将权重应用于空间和时间掩蔽阈值。这些阈值可表达为比率(例如 信噪比(SNR))的函数。当将位分配给每一频段时,位分配器可使用整体阈值。图4A的 音频编码单元16可表示一种形式的位分配器,其使用空间掩蔽阈值、时间掩蔽阈值或 整体掩蔽阈值中的一或多者将位分配给频段。

图12是说明其中可根据本发明中描述的技术的各个方面执行产生位流24的不同形 式的图4A的实例中所示的音频编码装置的变化的框图。如图12的实例中示出,音频编 码装置10的所述变化表示为音频编码装置10'。音频编码装置10'类似于图4A的音频编 码装置10,因为音频编码装置10'包含相似单元,即图12的实例中的时频分析单元12、 音频渲染单元14、音频编码单元16和空间分析单元18。

然而,音频编码装置10'还包含模式选择器单元150,其表示确定是在编码声道22 之前渲染SHC20B还是将SHC20B直接发射到音频编码单元16而不首先将SHC20B 渲染到声道22的单元。模式选择器单元150可接收目标位速率152作为来自用户、另 一装置或经由可输入目标位速率152的任何其它方式的输入。目标位速率152可表示定 义位流24的位速率或压缩等级的数据。

在一个实例中,对于位速率152所指定的较高位速率,模式选择器单元150可确定 音频编码单元16将使用本发明中描述的技术的空间掩蔽方面来直接对SHC20B进行音 频编码。较高位速率的一个实例可为等于或高于256千位每秒(Kbps)的位速率。因此, 对于例如256Kbps、512Kbps和/或1.2兆位每秒(Mbps)(其中在此实例中,256Kbps可 表示用以从较低位速率确定较高位速率的阈值位速率)的位速率,音频编码单元16可直 接对SHC20B操作,且音频渲染单元14不再将SHC20B渲染到声道22。

对于位速率152所指定的较低位速率,模式选择器单元150可确定音频渲染单元14 将首先渲染SHC20B以产生声道22,且接着随后音频编码单元16对SHC20B进行编 码。在此实例中音频编码单元16可相对于第一声道执行空间掩蔽技术,而其余声道经 历参数编码,例如根据MPEG环绕声和其它参数声道间编码方案来执行的编码。

音频编码单元16可在位流中指定(以经编码或未经编码形式)模式选择器单元150所 选择的模式,使得解码装置可确定当产生位流24时,是否执行参数声道间编码。虽然 未详细展示,但音频解码装置30可以与音频编码装置10'的修改方式类似的方式修改(其 中此音频解码装置30可被称为音频解码装置30')。此音频解码装置30'可同样地包含类 似于模式选择器单元150的模式选择器单元,其确定是将声道22输出到逆音频渲染单 元34还是将SHC20B输出到逆时频分析单元36。在一些情况下,可从位流24所对应 于的目标位速率152(其中此目标位速率152可在位流24中指定,且在音频解码装置30' 可从目标位速率152推断此模式的条件下,有效地表示所述模式)推断此模式。

在这方面中,本发明中描述的技术可使音频编码装置10'能够执行压缩音频数据的 方法。在执行此方法时,音频编码装置10'可确定表示经压缩音频数据的位流的目标位 速率,且基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析,以 识别空间掩蔽阈值。基于目标位速率,音频编码装置10'可执行i)参数声道间音频编码和 使用空间掩蔽阈值的空间掩蔽,或ii)使用空间掩蔽阈值的空间掩蔽,而不执行参数声道 间音频编码,以产生表示经压缩音频数据的位流。

在一些情况下,当执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,或 ii)使用空间掩蔽阈值的空间掩蔽,而不执行参数声道间音频编码时,音频编码装置10' 可确定目标位速率低于阈值位速率,且响应于确定目标位速率低于阈值位速率,执行参 数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,以产生位流。阈值位速率可例如等 于256千位每秒(Kbps)。

在一些情况下,当执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,或 ii)使用空间掩蔽阈值的空间掩蔽而不执行参数声道间音频编码时,音频编码装置10'可确 定目标位速率等于或超过阈值位速率,且响应于确定目标位速率等于或超过阈值位速 率,执行使用空间掩蔽阈值的空间掩蔽,而不执行参数声道间音频编码,以产生位流。

在一些情况下,音频编码装置10'可进一步将多个球面谐波系数渲染到多声道音频 数据。当执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,或ii)使用空间掩 蔽阈值的空间掩蔽而不执行参数声道间音频编码时,音频编码装置10'可确定目标位速 率低于阈值位速率,且响应于确定目标位速率低于阈值位速率,相对于多声道音频数据 的一或多个基础声道,执行使用空间掩蔽阈值的空间掩蔽,且相对于所述多声道音频数 据执行参数声道间音频编码,以产生位流。并且,阈值位速率可等于256千位每秒(Kbps)。

在一些情况下,音频编码装置10'还可基于空间掩蔽阈值,为基于音频数据的时间 的表示或音频数据的基于频率的表示分配位流中的位。

在一些情况下,参数声道间音频编码包括移动图片专家组(MPEG)环绕声。

此外,本发明中描述的技术可使音频编码装置10'能够执行压缩多声道音频数据的 方法。在执行此方法时,音频编码装置10'可基于以三维形式描述多声道音频数据的声 场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值,且渲染球面谐波系数以 产生多声道音频数据。音频编码装置10'还可使用空间掩蔽阈值,相对于多声道音频数 据的一或多个基础声道执行空间掩蔽,且相对于所述多声道音频数据(包含所述多声道音 频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码,以产生位流。

在一些情况下,音频编码装置10'可确定将多声道音频数据编码为位流的目标位速 率。在此背景下当执行空间掩蔽和参数声道间音频编码时,在目标位速率小于阈值位速 率时,音频编码装置10'相对于多声道音频数据的一或多个基础声道执行空间掩蔽,且 相对于所述多声道音频数据(包含所述多声道音频数据的经空间掩蔽的一或多个基础声 道)执行参数声道间音频编码,以产生位流。

在一些情况下,阈值位速率等于256千位每秒(Kbps)。在一些情况下,此阈值位速 率由用户或应用程序指定。就是说,此阈值位速率可为可配置的,或可静态设定。在一 些情况下,目标位速率等于128千位每秒(Kbps)。在一些情况下,参数声道间音频编码 包括移动图片专家组(MPEG)环绕声。

在一些情况下,音频编码装置10'还使用时间掩蔽阈值,相对于多声道音频数据执 行时间掩蔽。

另外,所述技术的各个方面可进一步(或替代地)使音频编码装置10'能够执行压缩音 频数据的方法。执行此方法时,音频编码装置10'可基于以三维形式描述音频数据的声 场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;使用所述空间掩蔽阈值, 相对于所述多个球面谐波系数执行空间掩蔽;以及产生包含所述多个经空间掩蔽的球面 谐波系数的位流。

在一些情况下,音频编码装置10'可确定将多声道音频数据编码为位流的目标位速 率。当执行空间掩蔽时,在目标位速率等于或大于阈值位速率时,音频编码装置10'可 相对于所述多个球面谐波系数执行空间掩蔽。在一些情况下,阈值位速率等于256千位 每秒(Kbps)。在这些情况下,目标位速率等于或大于256千位每秒(Kbps)。

在一些情况下,音频编码装置10'可进一步使用时间掩蔽阈值,相对于多个球面谐 波系数执行时间掩蔽。

虽然上文描述为相对于球面谐波系数执行空间掩蔽分析,但上文相对于图12的实 例所描述的技术也可在所谓的“声道域”中执行,类似于图4B的音频编码装置11如何 在声道域中执行空间分析。因此,所述技术在这方面不应限于图12的实例。

图13是说明可执行本发明中描述的技术的各种方面的示范性音频编码装置160的 框图。如图13的实例中示出,音频编码装置160可包含时频分析单元162、同时掩蔽单 元164、空间掩蔽单元166和位分配单元168。时频单元162可类似于或大体类似于图 4A的实例中所示的音频编码装置10的时频分析单元12。时频单元162可接收SHC 170A,将SHC170A从时域变换到频域(其中SHC170A的频域版本表示为“SHC 170B”)。

同时掩蔽单元164表示执行SHC170B的同时分析(其也可被称作“时间分析”)以 确定一或多个同时掩蔽阈值172的单元。同时掩蔽单元164可评估SHC170B所描述的 声场,以识别(作为一个实例)同时但分开的声音。当两个同时声音之间的增益存在较大 差异时,通常仅需要准确地表示最响的声音(其可表示具有最大能量的声音),而可较不 准确地表示相比之下较安静的声音(这通常通过将较小的位分配给相比之下安静的声音 来进行)。在任何情况下,同时制作单元164可输出一或多个同时掩蔽阈值172(常常在 逐频段基础上指定)。

空间掩蔽单元166可表示相对于SHC170B且根据上述技术的各个方面执行空间分 析以确定一或多个空间掩蔽阈值174(其同样地可在逐频段基础上指定)的单元。空间掩 蔽单元166可输出空间掩蔽阈值174,其由组合器176与时间掩蔽阈值172组合以形成 总掩蔽阈值178。组合器176可添加或执行任何其它形式的数学运算,来组合时间掩蔽 阈值172与空间掩蔽阈值174,以产生总掩蔽阈值178。

位分配单元168表示能够基于阈值(例如总掩蔽阈值178)分配表示音频数据的位流 180中的位的任何单元。位分配单元168可使用各种阈值178来分配位,以识别何时分 配较多或较少的位。通常,位分配单元168在多个所谓的“遍次”中操作,其中位分配 单元168在第一初始位配置遍次期间,分配用于表示位流180中的SHC170B的位。位 分配单元168可在此第一遍次期间保守地分配位,使得不超过位预算(其可对应于目标位 速率)。在第二和可能后续位配置遍次期间,位分配单元168可分配位预算(其可对应于 目标位速率)中剩余的任何位,以进一步细化如何在位流180中表示SHC170B的各种频 段。虽然描述为基于总掩蔽阈值178来分配位,但位分配单元168可基于空间掩蔽阈值 174、时间掩蔽阈值172和总掩蔽阈值178中的任何一或多者来分配位。

图14是说明音频解码装置(例如图13的实例中所示的音频编码装置160)在执行本 发明中描述的技术的各个方面中的示范性操作的流程图。在操作中,音频解码的时频单 元162可接收SHC170A(200),将SHC170A从时域变换到频域(其中SHC170A的频域 版本表示为“SHC170B”)(202)。

音频编码装置160的同时掩蔽单元164可接着执行SHC170B的同时分析(其也可被 称作“时间分析”),以确定一或多个同时掩蔽阈值172(204)。同时制作单元164可输出 一或多个同时掩蔽阈值172(常常在逐频段基础上指定)。

音频编码装置160的空间掩蔽单元166可相对于SHC170B且根据上述技术的各个 方面执行空间分析,以确定一或多个空间掩蔽阈值174(其同样地可在逐频段基础上指 定)(206)。空间掩蔽单元166可输出空间掩蔽阈值174,其由组合器176与同时掩蔽阈值 172(其也可被称作“时间掩蔽阈值172”)组合,以形成总掩蔽阈值178(208)。组合器176 可添加或执行任何其它形式的数学运算,来组合时间掩蔽阈值172与空间掩蔽阈值174, 以产生总掩蔽阈值178。

位分配单元168表示能够基于阈值(例如总掩蔽阈值178)分配表示音频数据的位流 180中的位的任何单元。位分配单元168可使用各种阈值178以上文所描述的方式来分 配位,以识别何时分配较多或较少的位(210)。并且,虽然描述为基于总掩蔽阈值178来 分配位,但位分配单元168可基于空间掩蔽阈值174、时间掩蔽阈值172和总掩蔽阈值 178中的任何一或多者来分配位。

在一或多个实例中,所描述的功能可在硬件、软件、固件或其任何组合中实施。如 果在软件中实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或 传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其 对应于有形媒体,例如数据存储媒体,或包含任何促进将计算机程序从一处传送到另一 处的媒体(例如,根据一种通信协议)的通信媒体。以此方式,计算机可读媒体总体上可 对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据 存储媒体可为可由一个或一个以上计算机或一个或一个以上处理器存取以检索用于实 施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可 包含计算机可读媒体。

借助于实例而非限制,此类计算机可读存储媒体可以包括RAM、ROM、EEPROM、 CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以 用来存储指令或数据结构的形式的期望程序代码并且可以由计算机存取的任何其它媒 体。而且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、 光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、 服务器或其它远程源发射指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、 无线电及微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒 体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂 时性的有形存储媒体。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学 光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数 据,而光盘用激光以光学方式再现数据。上述各项的组合也应该包含在计算机可读媒体 的范围内。

指令可由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理 器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA),或其它 等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构 或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中, 本文所描述的功能性可以提供于经配置用于编码及解码的专用硬件和/或软件模块内,或 者并入于组合式编码解码器中。并且,所述技术可完全实施于一或多个电路或逻辑元件 中。

本发明的技术可在各种各样的.装置或设备中实施,包含无线手持机、集成电路(IC) 或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所 揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描 述,各种单元可结合合适的软件及/或固件组合在编解码器硬件单元中,或者通过互操作 硬件单元的集合来提供,所述硬件单元包括如上文所描述的一或多个处理器。

已描述所述技术的各种实施例。所述技术的这些和其它方面在所附权利要求书的范 围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号