首页> 中国专利> 通过多通道音频信号的主分量分析进行编码的设备和方法

通过多通道音频信号的主分量分析进行编码的设备和方法

摘要

本发明涉及一种用于通过多通道音频信号的主分量分析(PCA)编码的系统和方法,包括下面步骤:将所述音频信号的至少两个通道(L,R)分解为多个子频带(1(b1),…,1(bN),r(b1),…,r(bN));根据所述多个子频带中的至少一部分计算至少一个变换参数(θ(b1),…,θ(bN));根据所述至少一个变换参数(θ(b1),…,θ(bN))将所述多个子频带中的至少一部分变换为多个频率子分量,所述多个频率子分量包括主频率子分量(CP(b1),…,CP(bN));组合所述主频率子分量(CP(b1),…,CP(bN))中的至少一部分,以便形成主分量(CP);以及定义表示所述多通道音频信号(C1,…,CM)的编码音频信号(SC),所述编码音频信号(SC)包括所述主分量(CP)和所述至少一个变换参数(θ(b1),…,θ(bN))。

著录项

  • 公开/公告号CN101401152A

    专利类型发明专利

  • 公开/公告日2009-04-01

    原文格式PDF

  • 申请/专利权人 法国电信公司;

    申请/专利号CN200780008700.3

  • 发明设计人 曼纽尔·布赖恩德;戴维·维雷特;

    申请日2007-03-08

  • 分类号G10L19/00(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人张玉红

  • 地址 法国巴黎

  • 入库时间 2023-12-17 21:44:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-04-18

    授权

    授权

  • 2009-05-27

    实质审查的生效

    实质审查的生效

  • 2009-04-01

    公开

    公开

说明书

技术领域

本发明涉及通过在各种数据率的各种传输网络上、对用于音频数字传输的多通道音频信号的主分量分析来进行编码的领域。更具体地,本发明旨在允许立体声(2通道)或5.1(6通道)类型等的多通道音频信号的低数据率传输。

背景技术

在多通道音频信号的编码框架中,两种方法特别为人所知并使用。

第一种较旧的方法包括以减少要传输的信号数的方式使原始多通道信号的各通道矩阵化。作为示例,多通道音频编码方法执行将5.1信号的六个通道矩阵化为两个信号来传输。可应用几种类型的解码,以便尽可能如实地重建该六个原始通道。

称为参数音频编码的第二种方法基于提取空间参数,以便重建听者的空间感觉。该方法主要基于称作“技术心理声学编码”(Binaural Cue Coding,BCC)的方法,该方法一方面旨在提取然后编码听觉定位的索引,另一方面旨在编码从原始多通道信号的矩阵化得到的单声道或立体声信号。

此外,存在这样的方法,其是基于称为“主分量分析”(PCA)的方法而对上述两种方法的混合。实际上,PCA可以被视为要编码的多通道信号的各通道的动态矩阵化。更精确地,至少对于立体声情况,通过将其角度与主声源的空间位置相对应的数据进行旋转而得到PCA。此外,该变换被认为是允许多分量信号的各分量的能量紧凑(compact)的最佳去相关方法。使用PCA的立体声音频编码的一个示例在文献WO 03/085643和WO 03/085645中公开。

然而,根据现有技术执行的PCA不允许要编码的信号的精确表征,因此,从该分析得到的信号能量在主分量上不够紧凑。

发明内容

本发明涉及一种用于通过多通道音频信号的主分量分析(PCA)来进行编码的方法。该方法包括下面的步骤:

将所述音频信号的至少两个通道分解为多个子频带;

根据所述多个子频带中的至少一些计算至少一个变换参数;

根据所述至少一个变换参数将所述多个子频带中的至少一些变换为多个频率子分量,所述多个频率子分量包括主频率子分量;

组合所述主频率子分量中的至少一些以便形成主分量;以及

定义表示所述多通道音频信号的编码音频信号,所述编码音频信号包括所述主分量和所述至少一个变换参数。

因此,根据本发明的主分量分析是在频域使用子频带的分析,该子频带可根据与听觉的关键频带的等级相等的等级建立,并且允许对要编码的信号获得更精确的表征。因此,从通过子频带执行的主分量分析PCA得到的信号的能量与从在时域中执行的PCA得到的信号的能量相比,在主分量上进一步紧凑。

因此,作为原始多通道音频信号的很紧凑的信号的编码音频信号可以在低数据率传输网络上传输而无论原始信号中的通道数如何,同时允许在感觉上与原始音频信号非常接近的高质量音频信号的重建。

根据本发明的一个特征,所述多个频率子分量还包括残留频率子分量。

残留频率子分量代表去相关的次级和背景声源,并且可用于更好地重建背景声音。

根据本发明的另一特征,根据本发明的编码方法包括根据残留频率子分量形成/提取一组子频带的能量参数。

根据本发明的另一特征,该组能量参数通过提取主频率子分量和残留频率子分量之间的子频带的能量差而形成。

根据本发明的另一特征,该组能量参数对应于残留频率子分量的子频带的能量。

提取残留子分量的子频带的能量差或能量允许逐频带传输与背景声音相对应的能量。

根据本发明的另一特征,根据本发明的编码方法包括在提取该组能量参数之前滤波主频率子分量。

在解码中也使用的滤波修改了信号的幅度的情况下,其允许幅度上的任何潜在修改得到补偿。

根据本发明的另一特征,编码音频信号还包括该组能量参数中的至少一个能量参数。

因此,可以从编码音频信号中所包括的能量参数和主分量开始容易地合成背景声音,从而进一步改进了原始音频信号的感知。

根据本发明的另一特征,根据本发明的编码方法包括组合所述残留频率子分量中的至少一些,以便形成至少一个残留分量,所述编码音频信号还包括所述至少一个残留分量。

这是允许从编码音频信号尽可能如实地重建背景声音、换句话说原始信号的一个变体。

根据本发明的另一特征,根据本发明的编码方法包括所述至少两个通道之间的相关分析,以便确定相应相关值,所述编码音频信号还包括该相关值。

因此,相关值可以指示原始信号中可能的混响的存在,这允许了编码信号的解码质量得到改进。

根据本发明的另一特征,所述多个子频带根据感觉等级定义。

因此,编码方法考虑到人类听觉系统的频率分辨率。

根据本发明的另一特征,所述编码音频信号的定义包括所述主分量的音频编码和所述至少一个变换参数的量化和/或所述至少一个能量参数的量化,和/或所述至少一个残留分量的量化。

因此,可以在各种传输网络上以各种数据率容易地传输编码音频信号。

将注意到,在多于两个的通道的编码的情况下,将可能用立体声编码器等编码(至少)两个主分量。

根据本发明的另一特征,所述音频信号通过连续帧定义,因而对每个帧定义所述至少两个通道。

这允许主分量分析的精确度增加,并因而允许编码信号的质量改进。

根据本发明的另一特征,所述多通道音频信号是立体声信号。

根据本发明的另一特征,多通道音频信号是包括下面的通道的5.1格式的音频信号:左、中、右、左环绕、右环绕和低频效果。

根据本发明的另一特征,根据本发明的编码方法包括形成包括左、中、和左环绕通道的第一信号三元组、和包括右、中、和右环绕通道的第二信号三元组,所述第一和第二三元组分开使用,以便依赖于包括第一和第二欧拉角的变换参数分别形成第一和第二主分量。

本发明的另一目的是一种用于解码所接收的信号的方法,该接收信号包括根据如上所述的编码方法构造的编码音频信号。该解码方法包括下面的步骤:

接收编码音频信号;

提取解码主分量和至少一个解码变换参数;

将所述解码主分量分解为解码主频率子分量;

将所述解码主频率子分量变换为多个解码子频带;以及

组合解码子频带,以便形成与从所述原始多通道音频信号得到的所述至少两个通道相对应的至少两个解码通道。

根据本发明的一个特征,根据本发明的解码方法包括对在编码音频信号中所包括的能量参数进行逆量化,以便合成解码残留频率子分量。

根据本发明的另一特征,根据本发明的解码方法包括用于去相关解码残留频率子分量以便形成去相关的残留子分量的步骤。

根据本发明的另一特征,根据本发明的解码方法的去相关根据编码音频信号中所包括的相关值通过去相关或混响滤波来执行。

本发明的另一目的是一种使用多通道音频信号的主分量分析(PCA)的编码器,包括:

分解部件,用于将所述音频信号的至少两个通道分解为多个子频带,

计算部件,用于根据所述多个子频带中的至少一些计算至少一个变换参数,

变换部件,用于根据所述至少一个变换参数,将所述多个子频带的至少一些变换为多个频率子分量,所述多个频率子分量包括主频率子分量,

组合部件,用于组合所述主频率子分量中的至少一些,以便形成主分量,以及

定义部件,用于定义表示所述多通道音频信号的编码音频信号,所述编码音频信号包括所述主分量和所述至少一个变换参数。

本发明的另一目的是一种包括从原始多通道信号得到的编码音频信号的接收信号的解码器,所述原始多通道信号至少包括两个通道。所述解码器包括:

提取部件,用于提取解码主分量和至少一个解码变换参数,

解码分解部件,用于将所述解码主分量分解为解码主频率子分量,

逆变换部件,用于将所述解码主频率子分量变换为多个解码子频带,以及

解码组合部件,用于组合所述解码子频带,以便形成与从所述原始多通道音频信号得到的所述至少两个通道相对应的至少两个解码通道。

本发明的另一目的是一种包括根据如上所述的本发明的编码器和解码器的系统。

作为变体,上述编码和解码方法的各种步骤通过计算机程序指令确定。

因此,本发明的另一目的是一种包括指令的计算机程序,当所述程序由计算机执行时,该指令用于执行上述编码和/或解码方法的步骤。

该程序可使用任何编程语言,并且可以是源代码、目标代码的形式,或源代码和目标代码中间的代码的形式,如部分编译的形式,或可以是可能预期的任何其他形式。

本发明的另一目的是一种可由计算机读取的记录介质,在该记录介质上记录包括用于执行上述编码和/或解码方法的步骤的指令的计算机程序。

该信息介质可以是能够存储程序的任何实体或设备。例如,该介质可以包括如ROM的存储部件,例如,CD ROM或微电子电路ROM,或者,该介质可以是磁记录部件,例如软盘或硬盘。

此外,信息介质可以是通过无线电或其他手段经由电缆或光缆传送的可传输介质,如电或光信号。特别地,根据本发明的程序可以上载到因特网类型的网络或从因特网类型的网络下载。

作为替代,信息介质可以是并入程序的集成电路,该电路被设计来执行所述方法或在所述方法的执行中使用。

因此,本发明使用用于编码从PCA得到的信号的方法,其与现有技术WO 03/085643和WO 03/085645的文献中描述的方法相比,更好地适配信号的特性。实际上,这些文献中描述的方法使用从PCA得到的信号的线性预测。然而,线性预测是适于产生与所处理的信号的差相关的、具有低能量的误差信号的相关信号的编码的方法。因此,在这些文献中使用的、应用到从PCA得到的去相关信号的线性预测不再很好地适用。

为此,本发明提出了一种用于基于子频带的频率分析来编码从PCA得到的信号的新颖的方法,其允许提取从PCA得到的分量之间的能量差或(在量化后)逐频带传输背景声音分量的能量。

应当指出,通过子频带执行的PCA传递带限(band-limited)分量,从该带限分量开始,子频带的频率分析是直接的。因此,解码器可以使用已编码和传输的主能量分量、以及量化和传输的能量参数生成从PCA得到的低能量分量。

以获得彼此去相关的分量的方式,解码器默认使用称为去相关滤波器的全通滤波器。与在文献WO 03/085643和WO 03/085645中使用混响滤波器相比,本发明提出了仅当编码时执行的信号分析已经检测到在原始信号中存在混响时才在去相关滤波器和混响滤波器之间进行切换。实际上,在编码器仅计算索引,并且对处理的每个帧传输该索引,以便通知解码器要使用的滤波器的类型。要使用的滤波器之间的切换因而允许避免原来没有混响的信号的混响,因而允许解码信号的音频质量改进。

最后,本发明提出了适于5.1类型的信号的编码的新颖的编码方法,这构成了基于子频带中的PCA对立体声信号的编码方法进行扩展。为此,实现三维PCA并且其参数由欧拉角设置。该扩展还可以用作关于通道数方面是增强的声音场景(例如,对于6.1,7.1,高保真等)的参数音频编码的基础。

附图说明

在参照附图阅读以下通过非限制示例呈现的描述后,本发明的其他特征和优点将变得明显,附图中:

图1是包括根据本发明的编码设备和解码设备的通信系统的示意图;

图2是根据本发明的编码器的示意图;

图3和图4是图2的变体;

图5是根据本发明的解码器的示意图;

图6是图5的一个变体;

图7到图15是根据本发明的具体实施例的编码器和解码器的示意图;以及

图16是实现根据图1到图15的编码器和解码器的计算机系统的示意图。

具体实施方式

根据本发明,图1是包括编码设备3和解码设备5的通信系统1的示意图。编码设备3和解码设备5可通过通信网络或线路7连接到一起。

编码设备3包括编码器9,其在接收到多通道音频信号C1,...,CM时,生成表示原始多通道音频信号C1,...,CM的编码音频信号SC。

编码器9可连接到传输部件11,以便将编码信号SC经由通信网络7传输到解码设备5。

解码设备5包括用于接收由编码设备3所传输的编码信号SC的接收器13。此外,解码设备5包括解码器15,该解码器15在接收到编码信号SC时,生成与原始多通道音频信号C1,...,CM相对应的解码音频信号C’1,...,C’M

图2是包括分解部件21、计算部件23、变换部件25、组合部件27和定义部件29的编码器9的示意图。

图2还是根据本发明的编码方法的主要步骤的图示。

分解部件21被设计来将多通道音频信号C1,...,CM的至少两个通道L和R分解为多个子频带1(b1),...,1(bN),r(b1),...,r(bN)。

有利地,多个子频带1(b1),...,1(bN),r(b1),...,r(bN)根据感觉等级定义。

此外,可通过首先将每个时间通道L或R变换为频率通道、然后形成两个频率分量来执行两个通道L和R的分解。作为示例,通过将短时傅立叶变换(STFT)施加到两个通道L和R来执行这两个频率信号的形成。随后,频率信号的频率系数可以被分组为子频带(b1,...,bN),以便获得多个子频带1(b1),...,1(bN),r(b1),...,r(bN)。

计算部件23被设计为根据多个子频带中的至少一些子频带,计算多个变换参数θ(b1),...,θ(bN)中的至少一个变换参数θ(bi)。

作为示例,可通过对多个子频带1(b1),...,1(bN),r(b1),...,r(bN)的每个子频带计算协方差矩阵来执行变换参数的计算。因此,协方差矩阵允许对每个子频带计算特征值。最后,这些特征值允许计算变换参数θ(b1),...,θ(bN)。

因此,对于每个子频带,bi可以对应于变换参数θ(bi),该变换参数θ(bi)定义与子频带的主声源的位置对应的旋转角。

将注意到,还可能仅基于两个原始通道L和R的协方差来计算变换参数。

变换部件25被设计来根据至少一个变换参数θ(bi),通过PCA将多个子频带1(b1),...,1(bN),r(b1),...,r(bN)中的至少一些变换为多个频率子分量。多个频率子分量包括主频率子分量CP(b1),...,CP(bN)。

实际上,变换参数θ(bi)允许执行按子频带来旋转数据,这导致其能量与对子频带bi计算的最高特征值相对应的主分量CP(bi)。

组合部件27被设计来组合主频率子分量CP(b1),...,CP(bN)中的至少一些,以便形成一个单独的主分量CP。

这可以通过对主频率子分量CP(b1),...,CP(bN)求和以形成主频率分量来执行。随后,将逆短时傅立叶变换(STFT)-1施加到主频率分量,以便形成主时间分量CP。

定义部件29被设计来定义表示多通道音频信号C1,...,CM的编码音频信号SC。该编码音频信号SC包括主分量CP和多个变换参数θ(b1),...,θ(bN)中的至少一个变换参数θ(bi)。

因此,子频带的PCA允许对要编码的信号获得更精确的表征。因此,与从在时域中执行的PCA得到的信号的能量相比,从按子频带执行的PCA得到的信号的能量在主分量上进一步紧凑。

将认识到,多通道音频信号可以由连续帧n、n+1等定义,使得对每个帧n定义两个通道L和R。

图3是图2的变体,它示出多个频率子分量还包括残留频率子分量A(b1),...,A(bN)。

实际上,对于每个子频带,变换参数θ(bi)允许进行按子频带来旋转数据,这导致主分量CP(bi)和至少一个残留分量A(bi)。残留分量A(bi)的能量还与和其相关联的特征值成比例。将认识到,与主分量CP(bi)相关联的特征值高于与残留分量A(bi)相关联的特征值。因此,残留分量A(bi)的能量低于主分量CP(bi)的能量。

因此,编码器9包括频率分析部件31,该频率分析部件31被设计为根据残留频率子分量A(b1),...,A(bN)和/或主频率子分量CP(b1),...,CP(bN),形成一组能量参数E(b1),...,E(bN)中的至少一个能量参数E(bi)。

根据第一实施例,通过提取主频率子分量CP(b1),...,CP(bN)和残留频率子分量A(b1),...,A(bN)之间的子频带的能量差来形成能量参数E(b1),...,E(bN)。

根据另一实施例,能量参数E(b1),...,E(bN)直接对应于残留频率子分量A(b1),...,A(bN)的子频带的能量。

此外,为了补偿潜在的幅度修改,编码器9可以包括滤波部件32,以便在提取能量参数E(b1),...,E(bN)之前滤波主频率子分量。

因此,为了更好地合成背景声音,编码音频信号SC可以有利地包括一组能量参数E(b1),...,E(bN)中的至少一个能量参数。

此外,编码器9可以包括相关分析部件33,用于在两个通道L和R之间执行时间相关分析,以便确定索引或对应的相关值c。因此,编码音频信号SC可以有利地包括该相关值c,以便指示原始信号中可能的混响的存在。

定义部件29可以包括用于编码主分量CP的音频编码部件29a以及用于量化变换参数或多个变换参数以及能量参数或多个能量参数E的量化部件29b、29c和29d。

可选地,在多于两个通道的编码的情形,可能用立体声编码部件等编码至少两个所得到的主分量。

图4是示出编码器9的一个变体,其与图3的不同仅在于,频率分析部件31被另一组合部件28代替,这允许至少一些残留频率子分量组合,以便形成至少一个残留分量A。因此,在此情形下,编码音频信号还包括由量化部件29e量化的该残留分量A。

图5是根据本发明的解码器15的示意图,该解码器15包括提取部件41、解码分解部件43、逆变换部件47、和解码组合部件49。

图5还示出根据本发明的解码方法的主要步骤。

因此,当解码器15接收到编码音频信号SC时,提取部件41对通过音频解码部件41a的解码主分量CP’执行提取,并且通过去量化部件41b执行至少一个解码变换参数θ’(bi)的提取。

解码分解部件43被设计为将解码主分量CP’分解为解码主频率子分量CP’(b1),...,CP’(bN)。

逆变换部件47被设计为将解码的主频率子分量CP’(b1),...,CP’(bN)变换为多个解码的子频带1’(b1),...,1’(bN)和r’(b1),...,r’(bN)。

最后,解码组合部件49被设计为组合解码的子频带,以便形成与从原始多通道音频信号得到的两个通道L和R相对应的至少两个解码通道L’和R’。

图6是示出解码器15的一个变体,其与图5的不同仅在于,它包括除了去量化部件41b以外的其他去量化部件41c和41d、频率合成部件45和滤波部件51。

因此,去量化部件41c执行包括在编码音频信号SC中的至少一个能量参数E(bi)的逆量化,并且频率合成部件45执行解码残留频率子分量A’(b1),...,A’(bN)的合成。

此外,去量化部件41d执行包括在编码音频信号SC中的相关值c的逆量化,并且滤波部件51执行解码残留频率子分量A’(b1),...,A’(bN)的去相关,以便形成去相关的残留子分量AH’(b1),...,AH’(bN)。

滤波部件51根据相关值c,执行基于去相关或混响滤波的去相关。

图7到图15示意性图示本发明的具体实施例。

图7图示用于根据子频带的PCA编码立体声信号的编码器9。立体声信号通过连续帧n、n+1等定义,并且包括两个通道:标记为L的左通道和标记为R的右通道。

因此,对于给定帧n,分解部件21将两个通道L(n)和R(n)分解为多个子频带FL(n,b1),...,FL(n,bN),FR(n,b1),...,FR(n,bN)。

实际上,分解部件21包括短时傅立叶变换(STFT)部件61a和61b以及频率加窗模块63a和63b,这允许短时傅立叶变换的系数分组为子带。

因此,短时傅立叶变换施加到输入通道L(n)和R(n)的每个。这些以频域表达的通道然后根据按照与关键频带相效的感觉等级定义的N个频带,通过加窗模块63a和63b在频率上加窗。

然后可以通过计算部件23对每个分析的信号帧n和每个子频带bi计算协方差矩阵。然后对每个帧n和每个子频带bi估计立体声信号的特征值λ1(n,bi)和λ2(n,bi),从而允许计算变换参数或旋转角θ(n,bi)。

该旋转角θ(n,bi)对应于对于子频带bi在帧n处主声源的位置,然后允许旋转或变换部件25按子频带执行数据的旋转,以便确定主频率分量CP(n,bi)和残留(或背景声音)频率分量A(n,bi)。分量CP(n,bi)和A(n,bi)的能量与特征值λ1和λ2成比例,使得:λ12。因此,信号A(b)具有比信号CP(b)远远更低的能量。

组合部件27组合主频率子分量CP(n,b1),...,CP(n,bN),以便形成一个单独的主分量CP(n)。

实际上,这些组合部件27包括逆STFT部件65a和加法部件67a。使用加法部件67a对这些频带受限的频率分量CP(n,bi)的求和则允许获得频域中的全频带主分量CP(n)。分量CP(n)的逆STFT生成全频带时间分量。

根据该示例的编码器9包括其他组合部件28,还包括其他逆STFT部件65b和其他加法部件67b,从而允许执行分量A(n,bi)的求和的逆STFT。

将注意到,主分量CP(n)包含主声源和与原始信号中存在的这些主声源在空间上一致的背景声音分量的部分的和。残留分量A(n)对应于与主声源频谱重叠的次级声源和其他背景声音分量的和。

最后,定义部件29定义表示立体声音频信号的音频流或编码音频信号SC(n)。根据该示例,定义部件29包括用于编码主分量CP(n)的单声道音频编码部件29a、用于残留分量A(n)的音频编码部件29e、以及用于量化变换参数的部件(未示出)。

立体声信号的编码然后包括使用传统的单声道音频编码器29a(例如,MPEG-1第III层或高级音频编码编码器)编码信号CP(n)、量化对每个子频带计算的旋转角θ(n,bi)以及执行信号A(n)的参数编码。

图8图示一个变体,其与图7的不同在于,其他组合部件28由执行残留频率分量A(n,bi)的参数编码的频率分析部件31代替。

该参数编码包括提取信号A(n,bi)和信号CP(n,bi)之间的子频带的能量差E(n,bi)。

实际上,参数编码的目的在于能够基于由单声道音频解码器41a解码的信号CP’(n)、和由编码器9量化和传输的能量参数E(n,bi),在解码时(见图9)合成残留分量A’(n,bi)。

此外,根据该示例的编码器9包括用于确定帧n处原始信号的相关值c(n)的相关分析部件33。

最后,主分量或信号CP(n)如之前一样由单声道音频编码器29a编码。此外,能量参数E(n,bi)、每个子频带的旋转角θ(n,bi)、以及相关值c(n)由量化部件29c、29b和29d分别量化,并且传输到解码器15以便执行逆PCA。

图9是用于解码所编码的音频信号SC(n)的解码器15的示意图,该音频信号SC(n)包括用于根据子频带的逆PCA解码为立体声信号的参数和音频流。

因此,在接收到编码音频信号SC(n)后,解码器15包括用于提取解码主分量CP’(n)的单声道解码部件41a、和用于提取变换参数或旋转角θQ(n,bi)、能量参数EQ(n,bi)、和相关值CQ(n)的去量化部件41b、41c和41d。

解码分解部件43使用具有N个频带的频率窗口,将解码的主分量CP’(n)分解为解码主频率子分量。

此外,频率合成部件45可以从由去量化能量参数EQ(n,b)频谱调节的解码音频流CP’(n,bi)合成残留分量A’(n,bi)。

解码器15然后对编码器执行逆操作,因为PCA是线性变换。逆变换部件通过将信号CP’(n,bi)和A’H(n,bi)乘以在编码中使用的旋转矩阵的转置矩阵来执行逆PCA。这多亏子频带的旋转角的逆量化而变得可能。

将注意到,信号A’H(n,bi)对应于由去相关或混响滤波部件49去相关的残留分量A’(n,bi)。

实际上,由于PCA的去相关性质,可期望使用去相关或混响滤波器,以便合成信号A’(n,bi)的去相关分量A’H(n,bi),并因而合成信号CP’(n,bi)。

滤波部件49包括其脉冲响应h(n)是原始信号的特性的函数的滤波器。实际上,在帧n处,原始信号的相关的时间分析确定与在解码中要使用的滤波器的选择相对应的相关值c(n)。默认地,c(n)施加具有随机相位的全通滤波器的脉冲响应,这极大降低了信号A’(n,bi)和A’H(n,bi)的互相关。如果立体声信号的时间分析揭示混响的存在,则c(n)例如以对信号A’(n,bi)的内容进行混响的方式施加降低能量的高斯白噪声的使用。

最后,包括逆STFT部件71a和71b和加法部件73a和73b的组合部件49和51组合解码子频带,以便形成与从原始立体声音频信号得到的两个分量L(n)和R(n)相对应的两个解码分量L’(n)和R’(n)。

图10和图11是图7到9的变体,图示编码器9和相应的解码器15。

实际上,如果滤波修改滤波信号的幅度,则可以构思上述的编码方法的一个变体,在混响滤波器的情况下尤其是这样。

因此,图10中的编码器9包括用于滤波形成滤波信号CPH(n,bi)的主分量CP(n,bi)的滤波部件79。

此外,解码器15包括与图9中的那些类似的滤波部件49。

在此情形,在估计信号CPH(n,bi)和A(n,bi)之间的能量参数E(n,bi)之前在解码和编码中使用滤波。能量参数E(n,bi)因此表征信号CPH(n,bi)和A(n,bi)之间的子频带的能量差。

这样,在解码时(见图11),可以从由去量化能量参数EQ(n,b)频谱调节的解码信号CP’H(n,bi)的滤波合成残留分量A’(n,bi)。

此外,根据另一变体,传输能量EQ(n,b)可以对应于残留分量A(n,bi)的子频带的能量,因此被施加到解码主分量,以便在逆PCA之前,合成背景声音或残留信号A’(n)。

图12图示将PCA施加到三个通道的多通道信号的编码器109。实际上,该编码器使用具有三个通道的信号的三维PCA,该三个通道的参数由对每个子频带b估计的欧拉角(α,β,γ)b设置。

编码器109与图7中的编码器的不同在于,它包括三个短时傅立叶变换(STFT)部件61a、61b和61c以及三个频率加窗模块63a、63b和63c。

此外,它包括三个逆STFT部件65a、65b和65c以及三个加法部件73a、73b和73c。

PCA然后被施加到信号三元组L、C和R。然后通过其参数由欧拉角(α,β,γ)设置的数据的3D(三维)旋转来执行3D PCA。如在立体声的情况下,从原始多通道信号的协方差和特征值对每个子频带估计这些旋转角。

信号CP包含主声源和与原始信号中存在的这些声源在空间上一致的背景声音分量的部分的和。

频谱上与主声源重叠的次级声源和其他背景声音分量的和在信号A1和A2中与特征值λ2和λ3成比例地分布,该信号A1和A2远比信号CP的能量小,因为:λ123

因此,施加到立体声信号的编码方法可以扩展到包括下面的通道的5.1格式的多通道信号C1,...,C6的情形:左L、中C、右R、左环绕Ls、右环绕Rs、和低频效果LFE。

实际上,图13是图示5.1格式的多通道信号的编码器209的示意图。根据该示例,5.1信号的参数音频编码基于沿中间平面分开的信号的两个3DPCA。

因此,该编码器209允许根据图12中的编码器109执行信号三元组80a(L,C,Ls)的第一PCA1,类似地,允许根据编码器109执行信号三元组80b(R,C,Rs)的第二PCA2

因此,主分量对(CP1,CP2)可被认为是与原始多通道信号在空间上一致的立体声信号(L,R)。

应当指出,信号LFE可以与其他信号独立地编码,因为离散特性的该通道的低频内容对通道间冗余的减少不敏感。

通过传输由立体声音频编码器81a编码的、伴随有通过对每个帧n和每个子频带bi定义的量化部件81b、81c和81d量化的参数的立体声信号,根据图13的编码可适配传输网络的数据率限制。

因此,立体声音频编码器81a允许编码主分量对(CP1,CP2)。量化部件81b允许量化对每个信号三元组的PCA有用的欧拉角(α,β,γ)。

量化部件81d允许量化确定要用于每个信号三元组的滤波器的选择的值c1(n)和c2(n)。

此外,滤波和频率分析部件83a和83b允许分别确定信号CP1和A11、A12之间以及信号CP2和A21、A22之间的子频带的差或能量参数Eij(n,b)(1≤i,j≤2)。

作为变体,能量参数对应于信号A11、A12和A21、A22的子频带的能量。

最后,能量参数Eij(n,b)可通过量化部件81c量化。

图14图示由图13中的编码器209编码的信号的解码器215。

该解码器215包括与之前的图中的解码器15的部件类似的部件。

此外,解码器215包括立体声解码部件241a和去量化部件241b、241c和241d。

它们还包括短时傅立叶变换(STFT)部件244a和244b以及频率加窗模块246。

此外,解码器215包括滤波部件249a和249b、频率合成部件245和逆变换部件247a(PCA1-1)和247b(PCA2-1)。

解码包括处理由滤波部件249a和249b滤波的解码主分量,该滤波部件249a和249b可以看到它们的脉冲响应从全通、随机相位滤波器切换到其脉冲响应可以采取具有根据相关值CQ1和GQ2而降低的包络的白噪声的形式的混响滤波器。

随后,频率合成部件245在频域执行合成,该频域的参数由在编码时提取的、从图13中的3D的两个PCA1和PCA2得到的分量之间的能量差(或子频带的背景声音信号的能量)设置。

一旦背景声音分量被合成,就由逆变换部件247a(PCA1-1)和247b(PCA2-1)用3D旋转矩阵的转置执行逆3D PCA,该转置的参数由去量化欧拉角设置,以便形成信号对(L’,C’,L’s)和(R’,C”,R’s)。

将注意到,信号C’和C”可以求和,以便形成由C=C+C2给出的信号C”’,从而生成与原始信号C尽可能接近的中心通道。还可能选择两个信号C’和C”中的一个。

信号LFE然后(由滤波部件249a)独立地解码,或(由滤波部件249a)通过解码中心通道C”’的低通滤波(截止频率为120Hz)获得,或可选地通过从在信号C和信号LFE之间编码时提取的能量参数以及解码中心信号C”’开始的频率合成获得。

如此描述的编码技术确保5.1声音系统与立体声系统的兼容性,因为解码主分量(CP’1和CP’2)形成与原始5.1信号空间上一致的立体声信号。

还可以通过执行由两个3D PCA在编码时提取的两个主分量的二维PCA(2D PCA)来使得与单声道系统的兼容性成为可能。

实际上,图15是包括两个三维PCA部件380a(PCA1)和380b(PCA1)的编码器305的示意图。

因此,编码器350根据沿中间平面分开的信号,基于两个三维PCA部件380a(PCA1)和380b(PCA1),执行5.1信号的参数音频编码。

此后跟随由二维PCA部件对原始5.1信号的主分量进行二维PCA。

因此,编码器305通过单声道编码部件329a对分量CP执行单声道音频编码。

此外,滤波和频率分析部件383a和383b允许分别对每个帧n和每个子频带bi确定信号CP1和A11、A12以及信号CP2和A21、A22之间的能量参数或差Eij(n,bi)(1≤i,j≤2)。(作为变体,能量参数对应于信号A11、A12以及A21、A22的子频带的能量。)

这些能量参数Eij(n,b)可通过量化部件381c量化。

量化部件381b1和381b2允许量化对每个信号三元组的PCA有用的欧拉角(α1,β1,γ1)和(α2,β2,γ2)。

量化部件81d1、81d2和329d允许对确定要用来生成从主分量去相关的背景声音分量的滤波器的选择的值c1(n)、c2(n)和c(n)分别进行量化。

量化部件329b允许对来自变换部件325(2D PCA)的主分量的2D PCA有用的旋转角进行量化。

此外,对于每帧n和每个子频带b,来自滤波和频率分析部件331的信号A(或信号A的子频带的能量)和CP之间的能量差E(n,bi)可以通过量化部件329c量化。

因此,相关联的解码器可以直接将流解码为单声道信号CP’。通过使用适当的去量化参数(EQ(n,b),CQ(n)和θ(n,b)),解码器可以生成背景声音分量A’并执行逆2D PCA。随后,解码器可传递立体声信号CP’1、CP’2。同样,通过使用适当的去量化参数(对于1≤i,j≤2,EijQ(n,b),C1Q(n),C2Q(n),(α1,β1,γ1)(n,b)和(α2,β2,γ2)(n,b)),解码器可合成执行两个逆3D PCA所需的背景声音分量,并因此重建5.1信号。

所提出的用于编码5.1类型的音频信号的方法基于将信号沿中间平面(分离听者的左右的垂直平面)分开,这允许两个信号三元组(L,C,Ls)和(R,C,Rs)的3D PCA。应当指出,还可以构思前/后分开信号。在此情形,可采用信号三元组的3D PCA(L,C,R:前场景)和信号对的2D PCA(Ls,Rs:后场景)。用于编码从这些PCA得到的信号的技术采用如之前所描述的相同的原理。然而,在此情形,可能丧失与立体声系统的兼容性。

可基于2D PCA和/或3D PCA模块的关联构思多个配置。图15中的示例仅表示这些多个可能的配置中的一个。

实际上,5.1类型的音频信号的编码可以例如通过成对的(L,Ls)、(C,LFE)和(R,Rs)的三个2D PCA、之后的对三个得到的主分量(CP1,CP2,CP3)的3D PCA来执行。

图16非常示意性地图示实现根据图1到图15的编码器或解码器的计算机系统。该计算机系统通常包括经由信号432进行控制的中央处理单元430、存储器434、输入单元436和输出单元438。所有元件经由数据总线440连接在一起。

此外,该计算机系统可以用于执行包括用于实现根据本发明的编码或解码方法的程序代码指令的计算机程序。

实际上,本发明的另一目的在于提供一种可从通信网络下载的计算机程序产品,该计算机程序产品包括当其在计算机上执行时、用于执行根据本发明的编码或解码方法的步骤的程序代码指令。该计算机程序可存储在可由计算机读取的介质上,并可由微处理器执行。

该程序可以使用任何编程语言,并可以是源代码、目标代码的形式,或源代码和目标代码中间的代码的形式,如部分编译的形式,或可以是可期望的任何其他形式。

本发明的另一目的在于提供一种可由计算机读取并包括用于如上所述的计算机程序的指令的信息介质。

该信息介质可以是能够存储程序的任何实体或设备。例如,该介质可包括如ROM的存储部件,例如CD ROM或微电子电路ROM,或替代地为磁记录部件,例如软盘或硬盘。

此外,信息介质可以是可通过无线电或其他手段经由电缆或光缆传输的可传输介质,如电或光信号。根据本发明的程序尤其可以上载到因特网类型的网络或从因特网类型的网络下载。

作为替代,该信息介质可以是并入程序的集成电路,该电路被设计来执行所述方法,或用在所述方法的执行中。

因此,通过根据本发明的子频带执行的PCA允许原始分量的能量与在时域执行的PCA相比进一步紧凑。背景声音分量A的能量(相应地,CP)比通过子频带执行的PCA低(相应地,高)。

此外,本方法可以扩展到各种类型的多通道音频信号(2D和3D音频格式)的编码。

此外,根据本发明的编码方法在解码通道的数量上可变化(scalable)。例如,5.1格式的信号的编码还允许其解码为立体声信号,以便确保与各种再现系统的兼容性。

本发明应用的领域是在各种数据率的各种传输网络上的音频数字传输,因为所提出的方法允许编码率根据网络或所期望的质量来适配。

此外,该方法可对具有更大量信号的多通道音频编码通用。实际上,所提出的方法其本质上对各种音频2D和3D格式(格式6.1,7.1,高保真,波场合成等)是可通用和可应用的。

应用的一个具体示例是在用户(听者)请求/购买之后在因特网上对多通道音频信号进行压缩、传输然后再现。此外,该服务通常被称为“音频点播”。所提出的方法则允许多通道信号(立体声或5.1类型)以将听者与服务器连接的因特网网络支持的数据率编码。因此,听者可以在他的多通道声音系统上听到以期望的格式编码的声音场景。在要传输的信号是5.1类型、但用户没有多通道再现系统的情况下,则传输可限制为初始多通道信号的主分量;随后,解码器传递具有较少通道的信号,如例如立体声信号。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号