首页> 中国专利> 用于对降混合矩阵进行解码及编码的方法、用于呈现音频内容的方法、用于降混合矩阵的编码器及解码器、音频编码器及音频解码器

用于对降混合矩阵进行解码及编码的方法、用于呈现音频内容的方法、用于降混合矩阵的编码器及解码器、音频编码器及音频解码器

摘要

描述一种方法,该方法对用于将音频内容的多个输入声道(300)映射至多个输出声道(302)的降混合矩阵(306)进行解码,输入及输出声道(300,302)与位于相对于收听者位置的预定位置处的各个扬声器相关联,其中通过利用多个输入声道(300)的扬声器对(S

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-08

    授权

    授权

  • 2016-07-27

    实质审查的生效 IPC(主分类):G10L19/008 申请日:20141013

    实质审查的生效

  • 2016-06-29

    公开

    公开

说明书

技术领域

本发明涉及音频编码/解码的领域,尤其涉及空间音频编码及空间音频对象编码,例如,涉及3D音频编解码器系统的领域。本发明的实施例涉及用于对用于将音频内容的多个输入声道映射至多个输出声道的降混合矩阵进行编码及解码的方法、涉及用于呈现音频内容的方法、涉及用于对降混合矩阵进行编码的编码器、涉及用于对降混合矩阵进行解码的解码器、涉及音频编码器以及涉及音频解码器。

背景技术

在本技术领域中,空间音频编码工具是众所周知的并且,例如,在MPEG-surround标准中已被标准化。空间音频编码从诸如在再现装备(setup)中通过其布置而识别的五个或七个声道(即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道)的原始输入声道开始。空间音频编码器可从原始声道得到一个或多个降混合声道,且此外可得到关于空间线索(cues)参数化数据,例如在声道相干数值中的声道间水平差异、声道间相位差异、声道间时间差异等等。一个或多个降混合声道与指示空间线索的参数化旁侧信息一起被传输至用于对降混合声道及相关联的参数化数据进行解码以最终获得原始输入声道的近似版本的输出声道的空间音频解码器。声道在输出装备的布置可为固定的,例如,5.1格式、7.1格式等等。

同样,空间音频对象编码工具在此技术领域中是众所周知的,且(例如)在MPEGSAOC(SAOC=空间音频对象编码)标准中被标准化。相比于空间音频编码从原始声道开始,空间音频对象编码从音频对象开始,该音频对象不自动专用于某个渲染再现装备。相反,音频对象在再现场景中的布置是灵活的且可由用户(例如)通过将某些渲染信息输入至空间音频对象编码解码器中而设定。可选地或此外地,渲染信息可作为附加旁侧信息或元数据而被传输,渲染信息可包括某个音频对象在再现设置中(例如,随时间)待被放置的位置处的信息。为获得某个数据压缩,使用SAOC编码器对多个音频对象进行编码,SAOC编码器通过根据某个降混合信息对对象进行降混合以从输入对象计算一个或多个传输声道。此外,SAOC编码器计算表示对象间线索(诸如,对象水平差异(OLD)、对象相干值等)的参数化旁侧信息。如在SAC(SAC=空间音频编码)中,针对个别时间/频率平铺(time/frequencytiles)计算对象间参数化数据。对于音频信号的某个帧(例如,1024或2048个样本),考虑多个频带(例如,24、32或64个频带),以便为每个帧及每个频带提供参数化数据。举例而言,当音频片段具有20个帧且当每个帧被细分成32个频带时,时间/频率平铺的数目为640。

在3D音频系统中,可能期望使用扩音器(loudspeaker)或扬声器(speaker)配置在接收器处提供音频信号的空间印象,因为扩音器或扬声器配置在接收器处是可用的,但可不同于用于原始音频信号的原始扬声器配置。在此情形下,根据哪些输入声道依据音频信号的原始扬声器配置而被映射至根据接收器的扬声器配置定义的输出声道,需要进行转换,该转换亦被称作“降混合”。

发明内容

本发明的目标在于提供用于为接收器提供降混合矩阵的改良方法。

此目标由根据权利要求1、2及20的方法、根据权利要求24的编码器、根据权利要求26的解码器、根据权利要求28的音频编码器及根据权利要求29的音频解码器实现。

本发明基于以下发现:可通过利用对称性实现稳定的降混合矩阵的更有效率的编码,可在关于与各个声道相关联的扬声器的放置的输入声道配置及输出声道配置中发现该对称性。本发明的发明者已发现,利用此对称性允许将对称地布置的扬声器(例如,具有关于收听者位置的具有相同仰角及具有相同绝对值但带有不同正负号的方位角的位置的那些扬声器)组合至降混合矩阵的共同行/列。此允许生成具有减小的尺寸的紧密降混合矩阵,因此,当与原始降混合矩阵相比时,可更容易且更有效率地对该紧密降混合矩阵进行编码。

根据实施例,不仅定义了对称扬声器组,且实际上创建了三类扬声器组(即,上述的对称扬声器、中心扬声器及不对称扬声器),然后其可用于生成紧密表示。此方法为有利的,因为它允许不同地且因此更有效率地处置来自各个类别的扬声器。

根据实施例,对紧密降混合矩阵进行编码包含:对与关于实际的紧密降混合矩阵的信息分开的增益值进行编码。通过创建紧密显著性(significance)矩阵来对关于实际的紧密降混合矩阵的信息进行编码,通过将输入及输出对称扬声器对中的每个并入一个组,该紧密显著性矩阵关于紧密输入/输出声道配置指示非零增益的存在。此方法为有利的,因为它允许基于行程长度方案的显著性矩阵的有效率的编码。

根据实施例,可提供模板矩阵,该模板矩阵类似于紧密降混合矩阵,其中模板矩阵的矩阵元素中的条目大体上对应于紧密降混合矩阵中的矩阵元素中的条目。大体而言,在编码器及解码器处提供此模板矩阵,且此模版矩阵与紧密降混合矩阵的不同之处仅在于矩阵元素的减少的数目,从而通过利用此模板矩阵将逐元素地XOR应用至紧密显著性矩阵,将大幅减少矩阵元素的数目。此方法为有利的,因为它允许再次使用(例如)行程长度方案更进一步地增大对显著性矩阵进行编码的效率。

根据又一实施例,编码进一步基于正常扬声器是否仅混合至正常扬声器且LFE扬声器仅混合至LFE扬声器的指示。此为有利的,因为它进一步改良了显著性矩阵的编码。

根据又一实施例,至于行程长度编码所应用于的一维向量,提供紧密显著性矩阵或上述XOR运算的结果以将其转换为成串的零,其中一跟随其后,此为有利地,因为它提供用于对信息进行编码的极有效率的可能性。为实现更有效率的编码,根据实施例,将有限哥伦布-莱斯编码应用于行程长度值。

根据另一实施例,对于每个输出扬声器组,指示对称性及可分离性的属性是否适用于生成其的所有对应的输入扬声器组。此为有利的,因为它指示在(例如)由左扬声器及右扬声器组成的扬声器组中,输入声道组中的左扬声器仅被映射至对应的输出扬声器组中的左声道,输入声道组中的右扬声器仅被映射至输出声道组中的右扬声器,且不存在自左声道至右声道的混合。此允许由单一增益值替换原始降混合矩阵的2×2子矩阵中的四个增益值,该单一增益值可被引入至紧密矩阵中,或在紧密矩阵为显著性矩阵的情况下可被单独地编码。在任何情况下,待编码的增益值的总数减少。因此,对称性及可分离性的信号发送的(signaled)属性为有利的,因为它们允许对与输入及输出扬声器组中的每对相对应的子矩阵进行有效率地编码。

根据实施例,为了对增益值进行编码,使用信号发送的最小及最大增益以及信号发送的期望精度以特定次序创建可能增益的列表。以常用增益位于列表或表格的开始处的此次序创建增益值。此为有利的,因为它允许通过将用于对增益值进行编码的最短码字应用于最频繁使用的增益而对增益值进行有效率地编码。

根据实施例,可在列表中提供生成的增益值,列表中的每个条目具有与其相关联的索引。当对增益值进行编码而非对实际值进行编码时,增益的索引被编码。此可(例如)通过应用有限哥伦布-莱斯编码方法来进行。此增益值的处置为有利的,因为它允许对其进行有效率地编码。

根据实施例,可连同降混合矩阵一起传输均衡器(EQ)参数。

附图说明

将关于附图描述本发明的实施例,其中:

图1示出3D音频系统的3D音频编码器的概述;

图2示出3D音频系统的3D音频解码器的概述;

图3示出可在图2的3D音频解码器中实施的立体声渲染器的实施例;

图4示出如在本技术领域中已知的用于从22.2输入配置映射至5.1输出配置的例示性降混合矩阵;

图5示意性地示出用于将图4的原始降混合矩阵转换成紧密降混合矩阵的本发明的实施例;

图6示出根据本发明的实施例的图5的紧密降混合矩阵,该紧密降混合矩阵具有经转换的输入及输出声道配置,其中矩阵条目表示显著性值;

图7示出用于使用模板矩阵对图5的紧密降混合矩阵的结构进行编码的本发明的又一实施例;及

图8(a)至图8(g)示出根据输入及输出扬声器的不同组合可从图4中所示的降混合矩阵得出的可能子矩阵。

具体实施方式

将描述本发明方法的实施例。以下描述将从可实施本发明方法的3D音频编解码器系统的系统概述开始。

图1及图2示出根据实施例的3D音频系统的算法区块。更具体地,图1示出3D音频编码器100的概述。音频编码器100在可选地提供的预渲染器/混合器电路102处接收输入信号,更具体地,在提供至音频编码器100的多个输入声道处接收多个声道信号104、多个对象信号106及对应的对象元数据108。由预渲染器/混合器102处理的对象信号106(参见信号110)可被提供至SAOC编码器112(SAOC=空间音频对象编码)。SAOC编码器112生成被提供至USAC编码器116(USAC=统一语音及音频编码)的SAOC传输声道114。此外,信号SAOC-SI118(SAOC-SI=SAOC旁侧信息)也被提供至USAC编码器116。USAC编码器116进一步直接从预渲染器/混合器接收对象信号120,以及声道信号与预渲染的对象信号122。对象元数据信息108应用于用于将经压缩的对象元数据信息126提供至USAC编码器的OAM编码器124(OAM=对象相关联的元数据)。USAC编码器116基于上述输入信号生成如在128处所示的经压缩的输出信号mp4。

图2示出3D音频系统的3D音频解码器200的概述。在音频解码器200处,更具体地在USAC解码器202处接收由图1的音频编码器100生成的经编码的信号128(mp4)。USAC解码器202将接收的信号128解码成声道信号204、预渲染的对象信号206、对象信号208及SAOC传输声道信号210。另外,经压缩的对象元数据信息212及信号SAOC-SI214由USAC解码器202输出。对象信号208被提供至输出渲染的对象信号218的对象渲染器216。SAOC传输声道信号210被供应至输出渲染的对象信号222的SAOC解码器220。经压缩的对象元信息212被供应至OAM解码器224,该OAM解码器224将各个控制信号输出至对象渲染器216及SAOC解码器220以用于生成渲染的对象信号218及渲染的对象信号222。解码器进一步包含接收(如图2中所示)输入信号204、206、218及222以用于输出声道信号228的混合器226。声道信号可被直接输出至扩音器,如,如在230处所指示的32声道扩音器。信号228可被提供至格式转换电路232,该格式转换电路232接收指示声道信号228待被转换的方式的再现布局信号作为控制输入。在图2中描绘的实施例中,假设以信号可被提供至如在234处所指示的5.1扬声器系统的方式进行转换。同样,声道信号228可被提供至生成(例如)用于如在238处所指示的耳机的两个输出信号的立体声渲染器236。

在本发明的实施例中,图1及图2中所描绘的编码/解码系统基于用于声道及对象信号(参见信号104及106)的编码的MPEG-DUSAC编解码器。为增加对大量对象进行编码的效率,可使用MPEGSAOC技术。三种类型的渲染器可执行将对象渲染至声道、将声道渲染至耳机或将声道渲染至不同扩音器装备(参见图2,附图标记230、234及238)的任务。当使用SAOC明确地传输或参数化地编码对象信号时,对应的对象元数据信息108被压缩(参见信号126)且被多工至3D音频比特流128。

以下将进一步详细描述图1及图2中所示的总体3D音频系统的算法区块。

可选地提供预渲染器/混合器102以在编码前将声道加对象输入场景转换成声道场景。该预渲染器/混合器102在功能上与以下将描述的对象渲染器/混合器相同。可期望对象的预渲染以确保在编码器输入端处确定性信号熵,该确定性信号熵基本上独立于多个同时活跃的对象信号。利用对象的预渲染,无需对象元数据的传输。离散对象信号被渲染至声道布局,编码器被配置为使用该声道布局。从相关联的对象元数据(OAM)获得用于每个声道的对象的权重。

USAC编码器116为用于扩音器-声道信号、离散对象信号、对象降混合信号及预渲染信号的核心编解码器。其基于MPEG-DUSAC技术。该核心编解码器通过基于输入声道及对象分配的几何和语义信息创建声道及对象映射信息来处置以上信号的编码。此映射信息描述输入声道及对象如何被映射至USAC声道元素,如声道对元素(CPE)、单一声道元素(SCE)、低频效应(LFE)及四声道元素(QCE)及CPE、SCE及LFE,且对应信息被传输至解码器。所有的附加有效载荷(如SAOC数据114、118或对象元数据126)被视为处于编码器的速率控制下。依据对渲染器的速率/失真要求及互动性要求,以不同方式对对象进行编码是可能的。根据实施例,以下对象编码变体是可能的:

预渲染的对象:在编码前将对象信号预渲染并混合至22.2声道信号。随后编码链见到22.2声道信号。

离散对象波形:对象作为单音波形被供应至编码器。编码器使用单一声道元素(SCE)传输除声道信号之外的对象。在接收器侧渲染并混合经解码的对象。经压缩的对象元数据信息被传输至接收器/渲染器。

参数化对象波形:借助于SAOC参数描述对象属性及其彼此的关系。利用USAC对对象信号的降混合进行编码。沿旁侧传输参数化信息。依据对象的数目及总数据速率,选择降混合声道的数目。经压缩的对象元数据信息被传输至SAOC渲染器。

用于对象信号的SAOC编码器112及SAOC解码器220可基于MPEGSAOC技术。系统能够基于较少数目的传输声道及附加的参数化数据(诸如,OLD、IOC(对象间相干性)、OMG(降混合增益))重创建、修改及渲染多个音频对象。附加的参数化数据展现明显低于各自地传输所有对象所需的数据速率,从而使编码非常有效率。SAOC编码器112将作为单音波形的对象/声道信号当作输入,并输出参数化信息(其被封装至3D音频比特流128内)及SAOC传输声道(使用单一声道元素对其进行编码并传输)。SAOC解码器220从经解码的SAOC传输声道210及参数化信息214重构建对象/声道信号,并基于再现布局、经解压缩的对象元数据信息以及可选地基于用户互动信息而生成输出音频场景。

提供对象元数据编解码器(参见OAM编码器124及OAM解码器224),以使得对于每个对象,通过在时间及空间中的对象属性的量化而对指定对象在3D空间中的几何位置和体积的相关联的元数据进行有效率地编码。经压缩的对象元数据cOAM126被传输至接收器200作为旁侧信息。

对象渲染器216利用经压缩的对象元数据根据给定再现格式生成对象波形。每个对象根据其元数据而被渲染至某个输出声道。此区块的输出自部分结果的总和产生。若基于声道的内容和离散/参数化对象二者被解码,则在输出所得波形228前或在将其馈入至后处理器模块(如立体声渲染器236或扩音器渲染器模块232)前,基于声道的波形和渲染的对象波形被混合器226混合。

立体声渲染器模块236产生多声道音频材料的立体声降混合,以使得每个输入声道由虚拟声源表示。在QMF(正交镜像滤波器组)域中逐帧地进行该处理,且立体声化基于测量的立体声房间脉冲响应。

扩音器渲染器器232在传输的声道配置228与期望的再现格式之间转换。其也可被称为“格式转换器”。格式转换器执行至较低数目的输出声道的转换,即,其创建降混合。

图3示出图2的立体声渲染器236的实施例。立体声渲染器模块可提供多声道音频材料的立体声降混合。立体声化可基于测量的立体声房间脉冲响应。房间脉冲响应可被视为真实房间的声学属性的“指纹”。测量并储存房间脉冲响应,且任意声学信号可设有此“指纹”,借此允许在收听者处的与房间脉冲响应相关联的房间的声学属性的模拟。立体声渲染器236可被编程化或配置以用于使用头部相关转移函数或立体声房间脉冲响应(BRIR)而将输出声道渲染至两个立体声声道中。举例而言,对于移动装置而言,需要用于附接至此移动装置的耳机或扩音器的立体声渲染。在此移动装置中,归因于约束,可能有必要限制解码器及渲染复杂性。除了省略在此处理情景下的解相关之外,首先使用降混合器250对中间降混合信号252(即,对较低数目的输出声道)进行降混合可能是较佳的,较低数目的输出声道导致用于实际立体声转换器254的较低数目的输入声道。举例而言,22.2声道材料可由降混合器250降混合至5.1中间降混合,或可选地,中间降混合可由图2中的SAOC解码器220以一种“捷径”的方式直接计算。然后,相比于在22.2输入声道待被直接渲染的情况下应用44个HRTF或BRIR函数,立体声渲染仅必须应用十个HRTF(头部相关转移函数)或BRIR函数以在不同位置处渲染五个单独的声道。立体声渲染所必需的卷积操作需要大量的处理能力,且因此,降低此处理能力同时仍获得可接受的音频品质对于移动装置是特别有用的。立体声渲染器236产生多声道音频材料228的立体声降混合238,以使得每个输入声道(不包括LFE声道)由虚拟声源表示。可在QMF域中逐帧地进行该处理。立体声化基于测量的立体声房间脉冲响应,且可使用QMF域上的快速卷积在伪FFT域中经由卷积方法将直达声及早期回声压印至音频资料,而可对后期混响单独地进行处理。

多声道音频格式当前存在于大量的多种配置中,该格式用于如以上已详细地对其进行描述的3D音频系统中,3D音频系统用于(例如)提供DVD及蓝光光盘上提供的音频信息。一个重要问题为适应多声道音频的实时传输同时维持与现有可用的客户物理扬声器装备的兼容性。解决方案为以(例如)生产中使用的原始格式对音频内容进行编码,该格式通常具有大量的输出声道。此外,提供降混合旁侧信息以生成具有少量独立声道的其他格式。假设(例如)N个数目的输入声道及M个数目的输出声道,接收器处的降混合程序可由大小为N×M的降混合矩阵指定。此特定程序(正如其可在上述格式转换器或立体声渲染器的降混合器中进行)表示被动降混合,意味着不存在依赖于实际音频内容的适应性信号处理被应用至输入信号或经降混合的输出信号。

降混合矩阵试图不仅匹配音频信息的物理混合,还可传达生产者(生产者可使用其关于被传输的实际内容的知识)的艺术意图。因此,存在若干个生成降混合矩阵的方式,例如,通过使用关于输入及输出扬声器的角色及位置的通用声学知识手动地生成降混合矩阵、通过使用关于实际内容及艺术意图的知识手动地生成降混合矩阵及例如通过使用软件工具自动地生成降混合矩阵,该软件工具使用给定输出扬声器计算近似值。

在本技术领域中,存在用于提供此降混合矩阵的多个已知方法。然而,现有方案做了许多假设并对结构的重要部分及实际降混合矩阵的内容进行硬编码。在现有技术参考[1]中,描述了使用特定降混合程序,该降混合程序被明确地定义以用于从5.1声道配置(参见现有技术参考[2])降混合至2.0声道配置、从6.1或7.1前部或前高度或后部环绕变体降混合至5.1或2.0声道配置。这些已知方法的缺点在于,在将一些输入声道与预定义权重进行混合(例如,在将7.1后部环绕映射至5.1配置的情况下,L、R及C输入声道被直接映射至对应的输出声道)以及将减少数目的增益值共享于一些其他输入声道(例如,在将7.1前部映射至5.1配置的情况下,使用仅一个增益值将L、R、Lc及Rc输入声道映射至L及R输出声道)的意义上,降混合方案仅具有有限自由度。此外,增益仅具有有限范围及精度,例如,从0dB至-9dB,其中共八个等级。对于每个输入及输出配置对,明确地描述降混合程序是费力的并暗示以延迟的顺应性为代价的对现有标准的补充。现有技术参考[5]中描述另一建议。此方法使用表示灵活性的改良的明确的降混合矩阵,然而,该方案再次限制0dB至-9dB(其中共16个等级)的范围及精度。此外,以4个比特的固定精度对每个增益进行编码。

因此,鉴于已知的现有技术,需要用于对降混合矩阵进行有效率地编码的改良方法,包括选择合适的表示域及量化方案以及对量化值进行无损编码的方面。

根据实施例,通过允许以由生产者根据其需要指定的范围及精度对任意降混合矩阵进行编码来实现不受限制的灵活性以用于处置降混合矩阵。同样,本发明的实施例提供非常有效率的无损编码,所以典型矩阵使用少量比特,且背离典型矩阵将仅逐渐地降低效率。此意味着矩阵与典型矩阵越类似,则根据本发明的实施例所描述的编码将越有效率。

根据实施例,所需精度可由生产者指定为1dB、0.5dB或0.25dB以用于均匀量化。应注意,根据其他实施例,也可选择用于精度的其他值。与此相反,现有方案仅允许用于约0dB的值的1.5dB或0.5dB的精度,同时使用用于其他值的较低精度。使用用于一些值的较粗略量化影响所实现的最差情况容差并使得经解码的矩阵的解释更加困难。在现有技术中,将较低精度用于一些值,此为使用均匀编码减少所需比特数的简单方式。然而,实际上,可在不牺牲精度的情况下通过使用以下将进一步详细描述的改良编码方案实现相同结果。

根据实施例,可在最大值(例如,+22dB)与最小值(例如,-47dB)之间指定混合增益的值。该值也可包括负无穷大值。在比特流中,矩阵中使用的有效值域被指示作为最大增益及最小增益,借此不浪费实际上未使用的值上的任何比特而不限制期望的灵活性。

根据实施例,假设音频内容(将为此提供降混合矩阵)的输入声道列表以及指示输出扬声器配置的输出声道列表是可用的。这些列表提供关于输入配置及输出配置中的每个扬声器的几何信息,如,方位角及仰角。可选地,还可提供扬声器的惯用名称。

图4示出如在本技术领域中已知的用于从22.2输入配置映射至5.1输出配置的例示性降混合矩阵。在矩阵的右手列300中,根据22.2配置的各个输入声道由与各个声道相关联的扬声器名称指示。底部行302包括输出声道配置(5.1配置)的各个输出声道。再次,各个声道由相关联的扬声器名称指示。矩阵包括多个矩阵元素304,每个矩阵元素304保持有增益值,又被称作混合增益。混合增益指示当对各个输出声道302有贡献时,如何调整给定输入声道(例如,输入声道300中的一个)的等级。举例而言,左上方矩阵元素示出值“1”,意味着输入声道配置300的中心声道C与输出声道配置302的中心声道C完全匹配。同样地,两个配置中的各个左及右声道(L/R声道)被完全映射,即,输入配置中的左/右声道完全对输出配置中的左/右声道有贡献。输入配置中的其他声道(例如,声道Lc及Rc)以0.7的降低的等级(level)映射至输出配置302的左及右声道。如从图4可见,也存在多个不具有条目的矩阵元素,意味着与矩阵元素相关联的各个声道未彼此映射,或意味着经由不具有条目的矩阵元素的链接至输出声道的输入声道不对各个输出声道有贡献。举例而言,左/右输入声道皆未映射至输出声道Ls/Rs,即,左及右输入声道不对输出声道Ls/Rs有贡献。替代在矩阵中提供空,也可以已指示零增益。

在下文中将描述若干技术,根据本发明的实施例应用该若干技术以实现降混合矩阵的有效率的无损编码。在以下实施例中,将对图4中所示的降混合矩阵的编码进行参考,然而,显而易见的是,下文中描述的细节可应用于可被提供的任何其他降混合矩阵。根据实施例,提供用于对降混合矩阵进行解码的方法,其中通过利用多个输入声道的扬声器对的对称性以及多个输出声道的扬声器对的对称性来对降混合矩阵进行编码。降混合矩阵在其传输至解码器之后(例如)在音频解码器处被解码,该音频解码器接收包括经编码的音频内容及表示降混合矩阵的经编码的信息或数据的比特流,允许在解码器处建构对应于原始降混合矩阵的降混合矩阵。对降混合矩阵进行解码包含:接收表示降混合矩阵的经编码的信息并对经编码的信息进行解码以用于获得降混合矩阵。根据其他实施例,提供用于对降混合矩阵进行编码的方法,该方法包含利用多个输入声道的扬声器对的对称性以及多个输出声道的扬声器对的对称性。

在本发明的实施例的以下描述中,将在对降混合矩阵进行编码的上下文中描述一些方面,然而,对于本领域的读者,明显的是,这些方面也表示用于对降混合矩阵进行解码的对应方法的描述。类似地,在对降混合矩阵进行解码的上下文中描述的方面也表示用于对降混合矩阵进行编码的对应方法的描述。

根据实施例,第一步骤为利用矩阵中的相当大数目的零条目。在随后的步骤中,根据实施例,利用全局及精细等级正则性,该正则性通常存在于降混合矩阵中。第三步骤为利用非零增益值的典型分布。

根据第一实施例,本发明方法从降混合矩阵开始,因为其可由音频内容的生产者提供。对于以下论述,为简单起见,假设所考虑的降混合矩阵为图4的降混合矩阵。根据本发明方法,转换图4的降混合矩阵以用于提供紧密降混合矩阵,当与原始矩阵相比时,该紧密降混合矩阵可被更有效率地编码。

图5示意性表示刚提及的转换步骤。在图5的上部部分中,示出图4的原始降混合矩阵306,以下文将进一步详细描述的方式将该原始降混合矩阵306转换成图5的下部部分中示出的紧密降混合矩阵308。根据本发明方法,使用“对称扬声器对”的概念,该概念意味着相对于收听者位置,一个扬声器在左半平面中,而另一扬声器在右半平面中。此对称对配置对应于具有相同仰角以及具有相同绝对值但带有不同正负号的方位角的两个扬声器。

根据实施例,定义不同类别的扬声器组,主要为对称扬声器S、中心扬声器C及不对称扬声器A。中心扬声器为当改变扬声器位置的方位角的正负号时其位置不改变的那些扬声器。不对称扬声器为缺乏给定配置中的另一个或对应的对称扬声器的那些扬声器,或在一些罕见配置中,另一侧上的扬声器可具有不同仰角或方位角,从而在此情况下存在两个单独的不对称扬声器,而非对称对。在图5中示出的降混合矩阵306中,输入声道配置300包括图5的上部部分中指示的九个对称扬声器对S1至S9。举例而言,对称扬声器对S1包括22.2输入声道配置300的扬声器Lc及Rc。同样,22.2输入配置中的LFE扬声器为对称扬声器,因为其关于收听者位置具有相同仰角及具有相同绝对值但带有不同正负号的方位角。22.2输入声道配置300进一步包括六个中心扬声器C1至C6,即,扬声器C、Cs、Cv、Ts、Cvr及Cb。输入声道配置中不存在不对称声道。不同于输入声道配置,输出声道配置302仅包括两个对称扬声器对S10及S11,及一个中心扬声器C7及一个不对称扬声器A1

根据所描述的实施例,通过将形成对称扬声器对的输入及输出扬声器分组在一起而将降混合矩阵306转换为紧密表示308。将各个扬声器分组在一起产生包括与原始输入配置300中相同的中心扬声器C1至C6的紧密输入配置310。然而,当与原始输入配置300相比时,对称扬声器S1至S9分别被分组在一起,以使得各对此时仅占据单一行,如图5的下部部分中所指示。以类似方式,原始输出声道配置302也被转换成也包括原始中心及不对称扬声器(即,中心扬声器C7及不对称扬声器A1)的紧密输出声道配置312。然而,各个扬声器对S10及S11被组合至单一列中。因此,如从图5可见,原始降混合矩阵306的24×6的尺寸减小为紧密降混合矩阵的15×4的尺寸。

在关于图5所描述的实施例中,可看到在原始降混合矩阵306中,指示输入声道多强地有贡献于输出声道的与各个对称扬声器对S1至S11相关联的混合增益针对输入声道及输出声道中的对应的对称扬声器对而被对称地布置。举例而言,在查看对S1及S10时,各个左及右声道经由增益0.7组合,而左/右声道的组合以增益0组合。因此,当以如在紧密降混合矩阵308中所示出的方式将各个声道分组在一起时,紧密降混合矩阵元素314可包括也关于原始矩阵所306描述的各个混合增益。因此,根据上述实施例,通过将对称扬声器对分组在一起来减小原始降混合矩阵的大小,从而相比于原始降混合矩阵,“紧密”表示308可被更有效率地编码。

关于图6,现将描述本发明的又一实施例。图6再次示出具有如已关于图5所示出及描述的经转换的输入声道配置310及输出声道配置312的紧密降混合矩阵308。在图6的实施例中,不同于在图5中,紧密降混合矩阵的矩阵条目314不表示任何增益值而表示所谓的“显著性值”。显著性值指示在各个矩阵元素314处与其相关联的任何增益是否为零。示出值“1”的那些矩阵元素314指示各个元素已具有与其相关联的增益值,而空矩阵元素指示无增益值或零增益与此元素相关联。根据此实施例,当与图5相比时,用显著性值替代实际增益值允许更进一步对紧密降混合矩阵进行有效率地编码,因为可使用(例如)每条目一个比特(指示用于各个显著性值的值1或值0)来对图6的表示308进行简单地编码。此外,除对显著性值进行编码之外,也将有必要对与矩阵元素相关联的各个增益值进行编码,从而在对所接收的信息进行解码后,可重建构完整的降混合矩阵。

根据另一实施例,可使用行程长度方案对呈如图6中所示出的紧密形式的降混合矩阵的表示进行编码。在此行程长度方案中,通过将以行1开始且以行15结束的行串接在一起而将矩阵元素314变换成一维向量。然后将此一维向量转换成含有行程长度(例如,以1结束的连续零的数目)的列表。在图6的实施例中,此产生以下列表:

其中(1)表示在比特向量以0结束的情况下的虚拟终止。可使用适当的编码方案(如,将可变长度的前缀码分配给每个数字的有限哥伦布-莱斯编码)对以上所示出的行程长度进行编码,从而使总比特长度最小化。哥伦布-莱斯编码方法用以使用非负整数参数p≥0对非负整数n≥0进行编码如下:首先,使用一元编码对数字进行编码,h一(1)比特后跟着终止零比特;然后使用p个比特对数字l=n-h·2p进行均匀地编码。

有限哥伦布-莱斯编码为在提前已知n<N时所使用的平凡变体。当对h的最大可能值(其为)进行编码时,有限哥伦布-莱斯编码不包括终止零比特。更准确地,为了对h=hmax进行编码,使用仅h一(1)比特而无需终止零比特,不需要终止零比特是因为解码器可隐含地检测此条件。

如上所提及,需要对与各个元素314相关联的增益进行编码及传输,且以下将进一步详细描述用于进行此的实施例。在详细论述增益的编码之前,现将描述用于对图6中所示出的紧密降混合矩阵的结构进行编码的另外实施例。

图7描述用于通过利用典型紧密矩阵具有某一有意义结构从而其大体上类似于在音频编码器及音频解码器二者处可用的模板矩阵的事实来对紧密降混合矩阵的结构进行编码的又一实施例。图7示出如也在图6中示出的具有显著性值的紧密降混合矩阵308。另外,图7示出具有相同输入声道配置310'及输出声道配置312'的可能模板矩阵316的示例。模板矩阵(如紧密降混合矩阵)包括各个模板矩阵元素314'中的显著性值。除了如上所提及的仅“类似于”紧密降混合矩阵的模板矩阵在一些元素314'中不同之外,显著性值基本上以与在紧密降混合矩阵中相同的方式分布在元素314'中。模板矩阵316与紧密降混合矩阵308的不同之处在于,在紧密降混合矩阵308中,矩阵元素318及320不包括任何增益值,而在对应的矩阵元素318'及320'中,模板矩阵316包括显著性值。因此,关于高亮的条目318'及320',模板矩阵316不同于需被编码的紧密矩阵。为实现紧密降混合矩阵的更进一步有效率的编码,当与图6比较时,逻辑地组合两个矩阵308、316中的对应的矩阵元素314、314'以按与关于图6所描述的类似的方式获得可以以上述类似方式而被编码的一维向量。矩阵元素314、314'中的每个可经受XOR运算,更具体地,使用紧密模板将逐逻辑元素地XOR运算应用于紧密矩阵,此产生被转换成含有以下行程长度的列表的一维向量:

现可(例如)通过也使用有限哥伦布-莱斯编码对此列表进行编码。当与关于图6所描述的实施例相比时,可以看出,可甚至更有效率地对此列表进行编码。在最好情况下,当紧密矩阵与模板矩阵相同时,整个向量仅由零组成,且仅需对一个行程长度数目进行编码。

关于模板矩阵的使用,如已关于图7对其进行描述,应注意,与由扬声器的列表所确定的输入或输出配置相比,编码器及解码器均需要具有由输入及输出扬声器集合唯一地确定的此紧密模板的预定义集合。此意味着输入及输出扬声器的次序与模板矩阵的确定无关,相反,可在用以匹配给定紧密矩阵的次序之前变更该次序。

在下文中,如上所提及,将描述关于原始降混合矩阵中所提供的混合增益的编码的实施例,该混合增益不再存在于紧密降混合矩阵中且需要被编码及传输。

图8描述用于对混合增益进行编码的实施例。根据输入及输出扬声器组(即,组S(对称的L及R)、C(中心)及A(不对称))的不同组合,此实施例利用对应于原始降混合矩阵中的一个或多个非零条目的子矩阵的属性。图8描述可根据输入及输出扬声器(即,对称扬声器L及R、中心扬声器C及不对称扬声器A)的不同组合从图4中所示的降混合矩阵得到的可能子矩阵。在图8中,字母a、b、c及d表示任意增益值。

图8(a)示出四个可能子矩阵,正如其可从图4的矩阵得到。第一个为定义两个中心声道(例如,输入配置300中的扬声器C及输出配置302中的扬声器C)的映射的子矩阵,且增益值“a”为矩阵元素[1,1](图4中的左上方元素)中指示的增益值。图8(a)中的第二子矩阵表示(例如)将两个对称输入声道(例如,输入声道Lc及Rc)映射至输出声道配置中的中心扬声器(如,扬声器C)。增益值“a”及“b”为矩阵元素[1,2]及[1,3]中指示的增益值。图8(a)中的第三子矩阵指的是图4的输入配置300中的中心扬声器C(如,扬声器Cvr)至输出配置302中的两个对称声道(如,声道Ls及Rs)的映射。增益值“a”及“b”为矩阵元素[4,21]及[5,21]中指示的增益值。图8(a)中的第四子矩阵表示映射两个对称声道的情况,例如,输入配置300中的声道L、R被映射至输出配置302中的声道L、R。增益值“a”至“d”为矩阵元素[2,4]、[2,5]、[3,4]及[3,5]中指示的增益值。

图8(b)示出映射不对称扬声器时的子矩阵。第一表示为通过映射两个不对称扬声器而获得的子矩阵(图4中未给出此子矩阵的示例)。图8(b)的第二子矩阵指的是两个对称输入声道至不对称输出声道的映射,该映射在图4的实施例中为(例如)两个对称输入声道LFE及LFE2至输出声道LFE的映射。增益值“a”及“b”为矩阵元素[6,11]及[6,12]中指示的增益值。图8(b)中的第三子矩阵表示输入不对称扬声器与输出扬声器的对称对相匹配的情况。在示例的情况下,不存在不对称输入扬声器。

图8(c)示出用于将中心扬声器映射至不对称扬声器的两个子矩阵。第一子矩阵将输入中心扬声器映射至不对称输出扬声器(图4中未给出此子矩阵的示例),且第二子矩阵将不对称输入扬声器映射至中心输出扬声器。

根据此实施例,对于每个输出扬声器组,检查对应列对于所有条目是否满足对称性及可分离性的属性,且使用两个比特将此信息传输作为旁侧信息。

将关于图8(d)及图8(e)描述对称性属性,且对称性属性意味着包含L及R扬声器的S组以相同增益混合至中心扬声器或不对称扬声器,或自中心扬声器或不对称扬声器以相同增益混合,或S组得以同等地混合至另一S组或自另一S组同等地混合。图8(d)中描绘出混合S组的刚提及的两个可能性,且两个子矩阵对应于以上关于图8(a)所描述的第三子矩阵及第四子矩阵。应用刚提及的对称性属性(即,使用相同增益混合)产生图8(e)中所示出的第一子矩阵,其中使用相同增益值将输入中心扬声器C映射至对称扬声器组S(例如,参见图4中输入扬声器Cvr至输出扬声器Ls及Rs的映射)。此在相反方面亦适用,例如,在查看输入扬声器Lc、Rc至输出声道的中心扬声器C的映射时;此处可发现相同的对称性属性。对称性属性进一步导致图8(e)中所示出的第二子矩阵,根据此,在对称性扬声器中的混合为等同的,其意味着左扬声器的映射与右扬声器的映射使用相同增益因数,且也使用相同增益值来进行左扬声器至右扬声器的映射与右扬声器至左扬声器的映射。在图4中(例如)关于输入声道L、R至输出声道L、R的映射来描绘此,其中增益值“a”=1,且增益值“b”=0。

可分离性属性意味着通过保持从左侧向左的所有信号及从右侧向右的所有信号对称组得以混合至另一对称组或自另一对称组混合。此适用于图8(f)中所示出的子矩阵,该子矩阵对应于以上关于图8(a)所描述的四个子矩阵。应用刚提及的可分离性属性导致图8(g)中所示出的子矩阵,根据此,左输入声道仅被映射至左输出声道且右输入声道仅被映射至右输出声道,且归因于零增益因数,不存在“声道间”映射。

使用在多数已知的降混合矩阵中遇到的以上提及的两个属性允许进一步显著地减少需被编码的增益的实际数目,且在满足可分离性属性的情况下还直接消除大量零增益所需要的编码。举例而言,当考虑包括显著性值的图6的紧密矩阵时且当将以上引用的属性应用于原始降混合矩阵时,可以看到,(例如)以如图5中在下部部分中所示出的方式足以定义用于各个显著性值的单一增益值,这是因为,归因于可分离性及对称性属性,已知与各个显著性值相关联的各个增益值在解码后需要以何种方式分布在原始降混合矩阵中。因此,当关于图6中所示出的矩阵应用图8的上述实施例时,足以仅提供需要与经编码的显著性值一起被编码并传输的19个增益值,以用于允许解码器重建构原始降混合矩阵。

在下文中,将描述用于动态地创建增益表的实施例,该增益表可用于(例如)由音频内容的生产者定义原始降混合矩阵中的原始增益值。根据此实施例,使用指定精度在最小增益值(minGain)与最大增益值(maxGain)之间动态地创建增益表。优选地,创建该增益表以使得最频繁使用的值及较多“舍入”的值被布置为比其他值(即,不常用的值或未如此舍入的值)更靠近表格或列表的开头。根据实施例,使用maxGain、maxGain及精度等级的可能值的列表可被如下地创建:

-添加3dB的整数倍,从0dB降低至minGain;

-添加3dB的整数倍,从3dB上升至maxGain;

-添加1dB的剩余整数倍,从0dB降低至minGain;

-添加1dB的剩余整数倍,从1dB上升至maxGain;

在精度等级为1dB时停止;

-添加0.5dB的剩余整数倍,从0dB降低至minGain;

-添加0.5dB的剩余整数倍,从0.5dB上升至maxGain;

在精度等级为0.5dB时停止;

-添加0.25dB的剩余整数倍,从0dB降低至minGain;及

-添加0.25dB的剩余整数倍,从0.25dB上升至maxGain。

举例而言,当maxGain为2dB且minGain为-6dB且精度为0.5dB时,创建以下列表:

0、-3、-6、-1、-2、-4、-5、1、2、-0.5、-1.5、-2.5、-3.5、-4.5、-5.5、0.5、1.5。

关于以上实施例,应注意,本发明并不限于以上指示的值,相反,替代使用3dB的整数倍并从0dB开始,可选择其他值,且也可依据情况选择用于精度等级的其他值。

大体而言,增益值列表可被如下地创建:

-在最小增益(含)与起始增益值(含)之间以递减次序添加第一增益值的整数倍;

-在起始增益值(含)与最大增益(含)之间以递增次序添加第一增益值的剩余整数倍;

-在最小增益(含)与起始增益值(含)之间以递减次序添加第一精度等级的剩余整数倍;

-在起始增益值(含)与最大增益(含)之间以递增次序添加第一精度等级的剩余整数倍;

-在精度等级为第一精度等级时停止;

-在最小增益(含)与起始增益值(含)之间以递减次序添加第二精度等级的剩余整数倍;

-在起始增益值(含)与最大增益(含)之间以递增次序添加第二精度等级的剩余整数倍;

-在精度等级为第二精度等级时停止;

-在最小增益(含)与起始增益值(含)之间以递减次序添加第三精度等级的剩余整数倍;及

-在起始增益值(含)与最大增益(含)之间以递增次序添加第三精度等级的剩余整数倍。

在以上实施例中,当起始增益值为零时,以递增次序添加剩余值且满足相关联的倍数性条件的部分将最初地添加第一增益值或第一或第二或第三精度等级。然而,在一般情况下,以递增次序添加剩余值的部分将最初地添加最小值,满足在起始增益值(含)与最大增益(含)之间的间隔中的相关联的倍数性条件。对应地,以递减次序添加剩余值的部分将最初地添加最大值,满足在最小增益(含)与起始增益值(含)之间的间隔中的相关联的倍数性条件。

考虑类似于以上示例但具有起始增益值=1dB的示例(第一增益值=3dB、maxGain=2dB、minGain=-6dB且精度等级=0.5dB)产生以下:

下:0、-3、-6

上:[空]

下:1、-2、-4、-5

上:2

下:0.5、-0.5、-1.5、-2.5、-3.5、-4.5、-5.5

上:1.5

为对增益值进行编码,优选地,在表格中查找增益,并输出其在表格内部的位置。将始终发现期望增益,因为所有增益事先被量化至(例如)1dB、0.5dB或0.25dB的指定精度的最近整数倍。根据优选实施例,增益值的位置具有与其相关联的索引,其指示在表格中的位置,且可(例如)使用有限哥伦布-莱斯编码方法对增益的索引进行编码。此导致小索引使用比大索引较少数目的比特,且如此,频繁使用的值或典型值(如0dB、-3dB或-6dB)将使用最少数目的比特,且较多的“舍入”值(如-4dB)将比并非如此舍入的数(例如,-4.5dB)使用较少数目的比特。因此,通过使用上述实施例,不仅音频内容的生产者可生成期望的增益列表,且也可非常有效率地对这些增益进行编码,从而当根据又一实施例应用所有上述方法时,可实现降混合矩阵的高度有效率的编码。

上述功能性可为音频编码器的部分,正如以上已关于图1对其进行描述,可选地,其可由单独的编码器装置提供,该编码器装置将降混合矩阵的经编码的版本提供至音频编码器以在比特流中将其传输至接收器或解码器。

在接收器侧接收到经编码的紧密降混合矩阵后,根据实施例,提供解码方法,该方法对经编码的紧密降混合矩阵进行解码且将经分组的扬声器取消分组(分离)成单一扬声器,借此产生原始降混合矩阵。当矩阵的编码包括对显著性值及增益值进行编码时,在解码步骤期间,显著性值及增益值被解码从而基于显著性值及基于期望的输入/输出配置,降混合矩阵可被重建构,且各个经解码的增益可与重建构的降混合矩阵的各个矩阵元素相关联。此可由单独解码器执行,该解码器产生至音频解码器的完整降混合矩阵(音频解码器(例如,以上关于图2、图3及图4描述的音频解码器)可在格式转换器中使用它)。

因此,如上所定义的本发明方法也提供用于将具有具体输入声道配置的音频内容呈现至具有不同输出声道配置的接收系统的系统及方法,其中用于降混合的附加信息与经编码的比特流一起被从编码器侧传输至解码器侧,且根据本发明方法,归因于降混合矩阵的非常有效率的编码,开销明显地降低。

在下文中,描述实施有效率的静态降混合矩阵编码的又一实施例。更具体地,将描述用于利用可选的EQ编码的静态降混合矩阵的实施例。也如较早所提及的,与多声道音频有关的一个问题为适应其实时传输,同时维持与所有现有可用的客户物理扬声器装备的兼容性。一个解决方案为在呈原始生产格式的音频内容旁提供降混合旁侧信息以生成具有较少独立声道的其他格式(若需要)。假设inputCount个输入声道及outputCount个输出声道,通过大小为inputCount乘outputCount的降混合矩阵指定降混合程序。此特定程序表示被动降混合,意味着取决于实际音频内容的适应性信号处理被应用至输入信号或经降混合的输出信号。根据现在描述的实施例,本发明方法描述用于降混合矩阵的有效率的编码的完整方案(包括关于选择合适的表示域及还关于经量化的值的无损编码的量化方案的方面)。每个矩阵元素表示混合增益,该混合增益调整给定输入声道对给定输出声道有贡献的程度。现在描述的实施例旨在通过允许对具有可由生产者根据其需要指定的范围及精度的任意降混合矩阵的编码来实现不受限制的灵活性。同样,期望有效率的无损编码,从而典型矩阵使用少量比特,且背离典型矩阵将仅逐渐地降低效率。此意味着矩阵越类似于典型矩阵,则该矩阵的编码将越有效率。根据实施例,所需的精度可由生产者指定为1dB、0.5dB或0.25dB以用于均匀量化。混合增益的值可被指定在最大值+22dB至最小值-47dB(含)之间,且还包括值-∞(线性域中的0)。降混合矩阵中使用的有效值域在比特流中被指示为最大增益值maxGain及最小增益值minGain,因此不浪费实际上未使用的值上的任何比特,同时不限制灵活性。

假设(例如)根据现有技术参考[6]或[7],提供关于每个扬声器的几何信息(如,方位角及仰角及可选地,扬声器的惯用名称)的输入声道列表以及输出声道列表是可用的,根据实施例,用于对降混合矩阵进行编码的算法可在表1中示出如下:

表1-DownmixMatrix的语法

根据实施例,用于对增益值进行解码的算法可在表2中示出如下:

表2-DecodeGainValue的语法

根据实施例,用于定义读取范围函数的算法可在表3中示出如下:

表3-ReadRange的语法

根据实施例,用于定义均衡器配置的算法可在表4中示出如下:

表4-EqualizerConfig的语法

根据实施例,降混合矩阵的元素可在表5中示出如下:

表5-降混合矩阵的元素

哥伦布-莱斯编码用以使用给定的非负整数参数p≥0对任何非负整数n≥0进行编码如下:首先使用一元编码对数字进行编码,因为h一比特后跟着终止零比特;然后使用p个比特对数字l=n-h·2p均匀地进行编码。

有限哥伦布-莱斯编码为在提前已知n<N(对于给定整数N≥1)时所使用的平凡变体。当对最大可能值h(其为)进行编码时,有限哥伦布-莱斯编码不包括终止零比特。更准确地,为了对h=hmax进行编码,我们仅写h一比特,而不写终止零比特,不需要该终止零比特是因为解码器可隐含地检测此条件。

以下所描述的函数ConvertToCompactConfig(paramConfig,paramCount)用于将由paramCount个扬声器组成的给定paramConfig配置转换成由compactParamCount个扬声器组组成的紧密compactParamConfig配置。compactParamConfig[i].pairType字段可在组表示成对的对称扬声器时为SYMMETRIC(S)、在组表示中心扬声器时为CENTER(C)或在组表示没有对称对的扬声器时为ASYMMETRIC(A)。

函数FindCompactTemplate(inputConfig,inputCount,outputConfig,outputCount)用于发现匹配由inputConfig及inputCount表示的输入声道配置和由outputConfig及outputCount表示的输出声道配置的紧密模板矩阵。

通过在编码器及解码器二者处可用的紧密模板矩阵的预定义列表中搜索具有与inputConfig相同的输入扬声器集合及与outputConfig相同的输出扬声器集合的紧密模板矩阵而发现紧密模板矩阵,与不相关的实际扬声器次序无关。在回传所发现的紧密模板矩阵之前,函数可需要重排序其行及列以匹配如从给定输入配置得到的扬声器组的次序以及如从给定输出配置得到的扬声器组的次序。

若未发现匹配的紧密模板矩阵,则函数应回传具有正确数目的行(其为输入扬声器组的计算数目)及列(其为输出扬声器组的计算数目)的矩阵,对于所有条目,该矩阵具有值一(1)。

函数SearchForSymmetricSpeaker(paramConfig,paramCount,i)用于在由paramConfig及paramCount表示的声道配置中搜索对应于扬声器paramConfig[i]的对称扬声器。该对称扬声器paramConfig[j]应位于扬声器paramConfig[i]之后,因此,j可在i+1至paramConfig–1(含)的范围中。此外,其不应已为扬声器组的部分,意味着paramConfig[j].alreadyUsed必须为假(false)。

函数readRange()用于读取在0…alphabetSize-1(含)的范围中的均匀分布的整数,该范围可具有总数为alphabetSize的可能值。此可通过读取ceil(log2(alphabetSize))个比特但不利用未使用的值而简单地完成。举例而言,当alphabetSize为3时,函数将仅使用一个比特用于整数0,及两个比特用于整数1及2。

函数generateGainTable(maxGain,minGain,precisionLevel)用于动态地生成增益表gainTable,该增益表gainTable含有具有精度precisionLevel的在minGain与maxGain之间的所有可能增益的列表。选择值的次序,从而最频繁使用的值以及较多“舍入”值将通常更靠近列表的开头。具有所有可能增益值的列表的增益表可如下地产生:

-添加3dB的整数倍,从0dB降低至minGain;

-添加3dB的整数倍,从3dB上升至maxGain;

-添加1dB的剩余整数倍,从0dB降低至minGain;

-添加1dB的剩余整数倍,从1dB上升至maxGain;

-在precisionLevel为0(对应于1dB)时停止;

-添加0.5dB的剩余整数倍,从0dB降低至minGain;

-添加0.5dB的剩余整数倍,从0.5dB上升至maxGain;

-在precisionLevel为1(对应于0.5dB)时停止;

-添加0.25dB的剩余整数倍,从0dB降低至minGain;

-添加0.25dB的剩余整数倍,从0.25dB上升至maxGain。

举例而言,当maxGain为2dB,及minGain为-6dB,且precisionLevel为0.5dB时,我们创建以下列表:0、-3、-6、-1、-2、-4、-5、1、2、-0.5、-1.5、-2.5、-3.5、-4.5、-5.5、0.5、1.5。

根据实施例,用于均衡器配置的元素可在表6中示出如下:

表6-EqualizerConfig的元素

在下文中,将描述根据实施例的解码过程的方面,从降混合矩阵的解码开始。

语法元素DownmixMatrix()含有降混合矩阵信息。解码首先读取由语法元素EqualizerConfig()表示的均衡器信息(若被使能)。然后读取字段precisionLevel、maxGain及minGain。使用函数ConvertToCompactConfig()将输入及输出配置转换成紧密配置。然后,读取指示对于每个输出扬声器组是否满足可分离性及对称性属性的旗标。

然后通过a)每条目原始使用一个比特或b)使用行程长度的有限哥伦布莱斯编码,且接着将经解码的比特从flactCompactMatrix复制至compactDownmixMatrix并应用compactTemplate矩阵来读取显著性矩阵compactDownmixMatrix。

最后,读取非零增益。对于compactDownmixMatrix的每个非零条目,取决于对应输入组的字段pairType及对应输出组的字段pairType,必须重建构大小高达2乘2的子矩阵。使用可分离性及对称性相关联的属性,使用函数DecodeGainValue()读取多个增益值。可通过使用函数ReadRange()或使用增益在gainTable表中的索引的有限哥伦布-莱斯编码来对增益值进行均匀地编码,该gainTable表含有所有可能增益值。

现在将描述对均衡器配置进行解码的方面。语法元素EqualizerConfig()含有待应用于输入声道的均衡器信息。首先numEqualizers个均衡器滤波器的编号被解码且之后使用eqIndex[i]而被选择用于具体的输入声道。字段eqPrecisionLevel及eqExtendedRange指示缩放增益及峰值滤波器增益的量化精度及可用范围。

每个均衡器滤波器为存在于峰值滤波器的多个numSections和一scalingGain中的串联级联。每个峰值滤波器完全由其centerFreq、qualityFactor及centerGain定义。

必须以非递减次序给出属于给定均衡器滤波器的峰值滤波器的centerFreq参数。参数限于10…24000Hz(含),且可被计算如下:

centerFreq=centerFreqLd2×10centerFreqP10

峰值滤波器的qualityFactor参数可表示具有0.05的精度的在0.05与1.0(含)之间的值及具有0.1的精度的从1.1至11.3(含)的值,且可被计算如下:

引入给出对应于给定eqPrecisionLevel的以dB为单位的精度的向量eqPrecisions,及给出用于对应于给定eqExtendedRange及eqPrecisionLevel的增益的以dB为单位的最小值及最大值的eqMinRanges矩阵及eqMaxRanges矩阵。

eqPrecisions[4]={1.0,0.5,0.25,0.1};

eqMinRanges[2][4]={{-8.0,-8.0,-8.0,-6.4},{-16.0,-16.0,-16.0,-12.8}};

eqMaxRanges[2][4]={{7.0,7.5,7.75,6.3},{15.0,15.5,15.75,12.7}};

参数scalingGain使用精度等级min(eqPrecisionLevel+1,3),该精度等级为下一个较佳精度等级(若尚不是最后一个精度等级)。从字段centerGainIndex及scalingGainIndex至增益参数centerGain及scalingGain的映射被计算如下:

centerGain=eqMinRanges[eqExtendedRange][eqPrecisionLevel]

+eqPrecisions[eqPrecisionLevel]×centerGainIndex

scalingGain=eqMinRanges[eqExtendedRange][min(eqPrecisionLevel+1,3)]

+EqPrecisions[min(eqPrecisionLevel+1,3)]×scalingGainIndex

尽管已在装置的上下文中描述了一些方面,但显然,这些方面还表示对应方法的描述,其中区块或装置对应于方法步骤或方法步骤的特征。类似地,方法步骤的上下文中所描述的方面还表示对应区块或对应装置的项目或特征的描述。可由(或使用)硬件装置(例如,微处理器、可编程计算机或电子电路)执行方法步骤中的一些或全部。在一些实施例中,可由此装置执行最重要方法步骤中的某一步或多步。

依据某些实施要求,本发明的实施例可以以硬件或软件实施。可使用具有存储于其上的电子可读控制信号的诸如数字存储介质的非暂时性存储介质,例如软盘、硬盘、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或闪存,执行实施方案,电子可读控制信号与(或能够与)可编程计算机系统协作,从而执行各个方法。因此,数字存储介质可是计算机可读的。

根据本发明的一些实施例包含具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,从而执行本文中所描述的方法中的一个。

大体而言,本发明的实施例可被实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作用于执行所述方法中的一个。程序代码可(例如)储存于机器可读载体上。

其他实施例包含储存于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。

换言之,因此,本发明方法的实施例为具有程序代码的计算机程序,当计算机程序在计算机上运行时,该程序代码用于执行本文中所描述的方法中的一个。

因此,本发明方法的另一实施例为数据载体(或数字存储介质,或计算机可读介质),其包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常为有形的及/或非暂时性的。

因此,本发明方法之另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可(例如)被配置为通过数据通信连接(例如,通过因特网)进行传送。

另一实施例包含处理装置(例如,计算机或可编程逻辑装置),其被配置为或编程为执行本文中所描述的方法中的一个。

另一实施例包含一种计算机,其具有安装于其上的用于执行本文中所描述的方法中的一个的计算机程序。

根据本发明的另一实施例包含用于将用于执行本文中所描述的方法中的一个的计算机程序传输(例如,电子地或光学地)至接收器的装置或系统。接收器可(例如)为计算机、移动装置、存储器装置或类似。装置或系统可(例如)包含用于将计算机程序传输至接收器的文件服务器。

在一些实施例中,可编程逻辑装置(例如,现场可编程门阵列)可用于执行本文中所描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器协作,以执行本文中所描述的方法中的一个。大体而言,优选地由任何硬件装置执行方法。

上文所描述的实施例仅仅说明本发明的原理。应理解的是,本文中所描述的配置及细节的修改及变化对于本领域的其他技术人员是显而易见的。因此,其仅受到所附的专利权利要求的范围的限制,而不受本文中以实施例的描述及解释方式所呈现的特定细节的限制。

文献

[1]Informationtechnology-Codingofaudio-visualobjects-Part3:Audio,AMENDMENT4:NewlevelsforAACprofiles,ISO/IEC14496-3:2009/DAM4,2013.

[2]ITU-RBS.775-3,“Multichannelstereophonicsoundsystemwithandwithoutaccompanyingpicture,”Rec.,InternationalTelecommunicationsUnion,Geneva,Switzerland,2012.

[3]K.Hamasaki,T.Nishiguchi,R.Okumura,Y.NakayamaandA.Ando,“A22.2MultichannelSoundSystemforUltrahigh-definitionTV(UHDTV),”SMPTEMotionImagingJ.,pp.40-49,2008.

[4]ITU-RReportBS.2159-4,“Multichannelsoundtechnologyinhomeandbroadcastingapplications”,2012.[5]Enhancedaudiosupportandotherimprovements,ISO/IEC14496-12:2012PDAM3,2013.

[6]InternationalStandardISO/IEC23003-3:2012,Informationtechnology-MPEGaudiotechnologies-Part3:UnifiedSpeechandAudioCoding,2012.

[7]InternationalStandardISO/IEC23001-8:2013,Informationtechnology-MPEGsystemstechnologies-Part8:Coding-independentcodepoints,2013.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号