首页> 中国专利> 增强一阶高保真度立体声响复制信号的方向性的方法和装置

增强一阶高保真度立体声响复制信号的方向性的方法和装置

摘要

来自提供被称为B格式信号的一阶高保真度立体声响复制信号的麦克风的记录提供对声音方向性的有限认知。声源被感知为比它们实际的更宽,特别是对于偏离中心的收听位置,并且声源往往被定位成来自最靠近的扬声器位置。在增强一阶高保真度立体声响复制信号的方向性的方法和装置中,从较低阶高保真度立体声响复制输入信号(10)提取(SFA)另外的方向性信息(22,23)。使用另外的方向性信息来估计更高阶高保真度立体声响复制系数(25a),然后将其与输入信号的系数结合(CS)。从而增强高保真度立体声响复制信号的方向性,这在将高保真度立体声响复制信号解码成大声扬声器信号时得到空间源定位的增加的精确度。得到的输出信号具有比输入信号更多的能量。

著录项

  • 公开/公告号CN105051813A

    专利类型发明专利

  • 公开/公告日2015-11-11

    原文格式PDF

  • 申请/专利权人 汤姆逊许可公司;

    申请/专利号CN201480015676.6

  • 发明设计人 J.贝姆;

    申请日2014-03-17

  • 分类号G10L19/008(20060101);H04S3/00(20060101);H04S7/00(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人吕晓章

  • 地址 法国伊西莱穆利诺

  • 入库时间 2023-12-18 11:52:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-22

    授权

    授权

  • 2016-08-03

    专利申请权的转移 IPC(主分类):G10L19/008 登记生效日:20160712 变更前: 变更后: 申请日:20140317

    专利申请权、专利权的转移

  • 2016-04-27

    实质审查的生效 IPC(主分类):G10L19/008 申请日:20140317

    实质审查的生效

  • 2015-11-11

    公开

    公开

说明书

技术领域

本发明涉及高保真度立体声响复制(Ambisonics)音频信号处理和声学 的领域。

背景技术

高保真度立体声响复制是在2D和3D两者中,根据声压来描述音频场 景,并且使用出众的空间分辨率来处理复杂音频场景的记录、制作、传送和 回放的技术。在高保真度立体声响复制中,空间音频场景由傅立叶-贝塞尔 级数(Fourier-Besselseries)的系数来描述。已知有提供被称为B格式 信号的一阶高保真度立体声响复制信号的麦克风阵列。但是,将一阶高保真 度立体声响复制信号解码并且呈现给2D环绕或3D的扬声器布置只提供对 声音方向性的有限认知。声源往往被感知为比它们实际的更宽。特别是对于 偏离中心的收听位置,声源往往被定位成来自最靠近的扬声器位置,而不是 它们在扬声器之间的想要的虚拟位置。一阶高保真度立体声响复制(B格式) 信号由声压的傅立叶-贝塞尔级数描述的四个系数构成,其形成3D声场表 示。这些是W信道(单声道混合或零阶)以及X、Y、Z信道(一阶)。更 高阶信号使用更多的系数,这在将系数解码成扬声器信号时增加空间源定位 的精确度。但是,这样的更高阶信号并不包括在由麦克风阵列提供的B格式 信号中。

定向音频编码(DirectionalAudioCoding,DirAC)是用于表示或再现音 频信号的已知技术[5,9]。其使用B格式解码器,B格式解码器将直达声(direct sound)从扩散声(diffusesound)分离,然后使用基于矢量的幅度平移 (Vector-BasedAmplitudePanning,VBAP)对频域中的直达声进行选择性放 大,并且在合成滤波之后最终在其输出处提供扬声器信号。

图1a)示出基于DirAC的B格式解码的结构。B格式信号10是时域信 号,并且在分析滤波器组(analysisfilterbank)AFBD中被滤波成K个频带 11。声场分析块SFAD估计扩散估计(diffusenessestimate)Ψ(fk)13和到达方 向(directions-of-arrival,DoA)12。DoA是针对带k的特定中频处的源的方 向的方位角φ(fk)和倾斜角Θ(fk)。一阶高保真度立体声响复制解码器AmbD将 高保真度立体声响复制信号呈现为L个扬声器信号14。直达-扩散分离块 DDS使用根据扩散估计13确定的滤波器将一阶高保真度立体声响复制信号 分离成L个直达声信号15和L个扩散声信号16。通过将解码器AmbD的输 出14与根据扩散估计13获得的相乘来得出L个扩散声信号16。根据 与的乘法来得出定向信号。进一步使用被称作矢量基幅度平移(Vector BaseAmplitudePanning,VBAP)[8]的技术来处理直达声信号15。在VBAP 单元VP中,乘以(每个频带中的)每个扬声器信号的增益值以根据DoA12 和扬声器的位置,将直达声平移(pan)到所期望的方向。通过解相关滤波 DF对扩散信号16进行解相关,并且将解相关的扩散信号17添加到从VPAB 单元VP获得的直达声信号。合成滤波器组SFBD将频带与可以由L个扬声 器再现的时域信号19结合。应用用于时间整合的平滑滤波器(未在图1中 示出)以计算扩散估计Ψ(f)13和平滑由VBAP得出的增益值。

图1b)示出声场分析块SFAD的细节。B格式信号表示原点(观察位置, r=0)处的频域中的声场。声强描述声场中动能和势能的传输。在声场中, 并非所有的声能的局部运动都对应于净传输。活动强度(activeintensity)Ia(时间平均的声学强度,DoA~Ia)是有向净能量传输的速率(三个笛卡尔 (Cartesian)方向的每个单位时间的能量)。在活动强度分析块AIAD中获得 B格式信号11的活动强度11a,并且将其提供给扩散分析块DABD和DoA 分析块DOAABD,其分别输出DoA12和扩散估计13。在[9]中对DirAC进 行更多的描述,基础理论在[5]中描述。

发明内容

将期望增强诸如B格式麦克风记录这样的一阶高保真度立体声响复制 信号的方向性。对于更逼真的回放,或者对于将真实记录的声音与其他更高 阶内容混合(例如对打算针对不同扬声器设置回放的电影声音进行配音), 期望这样的方向性增强。本发明所要解决的一个问题是增强一阶高保真度立 体声响复制信号或B格式信号的方向性,即使在这样的信号的更高阶系数不 可用的情况下也是如此。

根据本发明,可以通过选择性地放大直达声分量同时不改变扩散声分量 来解决这个以及其他问题。当选择性地放大直达声时,获得具有增加的阶的 高保真度立体声响复制格式化的信号是有利的,因为它可以容易地与其他高 保真度立体声响复制格式化的信号混合。使用本发明,能够增加一阶高保真 度立体声响复制信号的阶,从而仅考虑定向声分量。这再次得到高保真度立 体声响复制格式化的信号,但是具有更高的阶(亦即,至少二阶)。原则上, 所公开的用于增强一阶高保真度立体声响复制信号的方向性的方法根据一 阶系数信息得出更高阶的系数,并且将得出的更高阶的系数添加到高保真度 立体声响复制信号。因此,有利地维持(除了在一个实施例中的重新格式化 之外)一阶高保真度立体声响复制信号的一阶系数信息(亦即,零阶系数和 一阶系数)。

换句话说,从较低阶的高保真度立体声响复制信号中提取另外的方向性 信息,并且使用另外的方向性信息来估计更高阶的系数。由此,增强高保真 度立体声响复制信号的方向性,这在将高保真度立体声响复制信号解码成扬 声器信号时得到空间源定位的增加的精确度。本发明的一个效果是所得到的 输出信号具有比输入信号更多的能量。

本发明涉及一种增强输入信号的方向性的方法,输入信号是一阶高保真 度立体声响复制信号并且具有零阶和一阶系数,如在权利要求1中所定义的 那样。

本发明还涉及一种增强具有零阶和一阶的系数的一阶高保真度立体声 响复制信号的方向性的装置,如在权利要求9中所定义的那样。

另外,本发明涉及一种计算机可读存储介质,其上存储有计算机可读的 指令,所述指令当在计算机上被执行时使计算机执行如权利要求1所定义的 增强具有零阶和一阶的系数的一阶高保真度立体声响复制信号的方向性的 方法。

要注意的是,尽管未在本文中显式地提及,但是任何给定阶的高保真度 立体声响复制信号通常不仅包括给定阶的系数,而且包括所有较低阶的系 数。例如,二阶HOA信号不仅包括二阶的系数,而且包括零阶和一阶的系 数。

在相关的权利要求书、下面的描述和附图中公开本发明的有利实施例。

附图说明

参考附图来描述本发明的示例性实施例,在附图中:

图1a)示出已知的基于DirAC的B格式解码器的结构;

图1b)示出已知的声场分析块的一般结构;

图2示出根据本发明的一般实施例的装置的结构;

图3示出根据在时域中使用结合的实施例的装置的结构;

图4示出根据在频域中使用结合的第一实施例的装置的结构;

图5示出根据在频域中使用结合的第二实施例的装置的结构;

图6示出根据本发明的方法的流程图;以及

图7示出结合步骤的细节的流程图。

具体实施方式

图2示出根据本发明的一般实施例的装置的结构。在分析滤波器组AFB 中对时域一阶高保真度立体声响复制输入信号10(诸如B格式信号)进行 滤波,其中获得四个频域信道21。这些是输入信号10的频域表示:频域信 道中的一个表示零阶系数(亦即,W信道),并且其他三个频域信道表示一 阶系数(X、Y、Z信道)。

直达声分离器单元DSS将四个频域信道21中的直达声(亦即定向声) 20从扩散声分离。在实施例中,直达声分离器单元DSS简单地选择W信道 并且使用它作为直达声20。另外,声场分析单元SFA执行四个频域信道的 声场分析,获得频域信道的每个频带的源方向Θ,Φ22和扩散估计Ψ23。在 实施例中,声场分析单元SFA包括用于获得方向信息22的到达方向(DoA) 分析单元。

然后,在滤波器F中对通过直达声分离器DSS所获得的直达声20进行 滤波,由此抑制扩散分量,并且因此选择性地(相对地)放大定向声。滤波 器F将扩散估计Ψ23用于选择性放大;原则上,它将直达声20与相乘以获得选择性放大的直达声24。然后,在HOA编码器HOAe中对选择 性放大的直达声24进行高保真度立体声响复制编码,其中获得预先定义的 阶N0(N0>1,亦即至少二阶)的HOA信号25。HOA编码器HOAe将源方 向Θ,Φ22用于编码。根据B格式,可以使用具有零阶和一阶系数的高保真 度立体声响复制格式。代替地,也可以使用不同的高保真度立体声响复制格 式。不同的高保真度立体声响复制格式通常具有与B格式的顺序(sequential order)不同的定义的顺序的系数,或者与B格式的系数缩放(coefficient scaling)不同的系数缩放,或者二者。

选择器SEL选择HOA信号25的所定义的部分,然后在结合器与合成 单元CS中将所选择的部分25a与原始的B格式信号结合。所选择的部分25a 是HOA信号25的更高阶部分,亦即至少二阶的部分(在实施例中,系数)。 结合器与合成单元CS在其输出上提供时域信号29(以HOA格式),时域信 号29可以被用于呈现扬声器信号。结合器与合成单元CS包括用于对高保真 度立体声响复制格式化的信号进行滤波并且获得时域信号的合成滤波器SF。

图2还示出可选的另外的混合器单元MX,在其中可以将所获得的HOA 输出信号29与另外的更高阶的HOA输入信号30混合。其他HOA输入信 号30也可以由于下面描述的HOA格式适配器HFA而具有与输入信号10不 同的高保真度立体声响复制格式。混合器MX生成包括所获得的HOA输出 信号29(亦即增强的B格式输入信号)与HOA输入信号30的混合的HOA 信号31。

下面描述结合器与合成单元CS的两种基本类型的实施例:在一种类型 的实施例中,结合器与合成单元CS在时域中结合所选择的部分25a与原始 的B格式信号10。因此,它执行到时域中的仅所选择的部分25a的合成。 在另一种类型的实施例中,结合器与合成单元CS在频域中结合所选择的部 分25a与原始的B格式信号10,然后执行到时域中的合成。

图3示出第一类型的实施例。在该实施例中,结合器与合成单元CS在 合成滤波器组SFB中仅合成HOA信号25的所选择的更高阶系数25a以获 得合成的时域信号26。时域结合器单元CBt在时域中结合合成的时域信号 26与输入信号,以获得时域输出信号29。在一个实施例中,时域HOA格式 适配器单元HFAt根据HOA编码器HOAe使用的格式来适配时域输入信号的 格式。这简化在时域结合器单元CBt中的所获得的时域HOA信号28与合成 的时域信号26的结合。在一些实施例中,例如在HOA编码器HOAe使用与 HOA输入信号兼容的格式的情况下,可能不需要HOA格式适配器单元 HFAt。HOA格式适配器单元HFAt可以重新布置和/或重新调节HOA信号的 系数。

分析滤波器组AFB例如通过执行FFT(快速傅立叶变换)来获得不同 的频带。这生成时间延迟。在一个实施例中,时域输入信号的延迟补偿单元 DC补偿例如分析滤波器组AFB、选择性放大滤波器F等的滤波器组延迟。 虽然在所示的实施例中在HOA格式适配HFA之前进行延迟补偿,但是在另 外的实施例中,也可以在HOA格式适配之后进行。在又一个实施例中,延 迟补偿可以以两个步骤来进行,一个延迟补偿单元在格式适配之前而另一个 在其后。

图4和5示出使用第二类型的结合器与合成单元CS的实施例。在该实 施例中,结合器与合成单元CS接收从分析滤波器组获得的输入信号的频域 零阶和一阶高保真度立体声响复制系数。这可以是单独的分析滤波器组 AFB’,如在图4中所示出的实施例中那样,或者可以是先前提到的分析滤波 器组AFB,如在图5中所示出的实施例中那样。在后者情况下,由分析滤波 器组AFB提供的四个频域信道21直接输入到结合器与合成单元CS。频域 结合器单元CSf在频域中结合HOA信号25的所选择的更高阶系数25a与输 入信号的零阶和一阶高保真度立体声响复制系数。合成滤波器组SFB’合成 结合的高保真度立体声响复制系数,其中获得时域输出信号29。在一个实施 例中,对输入信号的零阶和一阶高保真度立体声响复制系数执行可选的频域 HOA格式适配HFAf,之后将它们与HOA信号25的所选择的更高阶系数结 合。HOA格式适配器单元HFAf可以重新布置和/或重新调节HOA信号的系 数。如上所述,在一些实施例中可能不需要HOA格式适配器单元HFAf。另 外,同样如上所述,在一个实施例中,针对可能插入在处理链(例如选择性 放大滤波器F、HOA编码器HOAe)中的任何延迟,可以使用延迟补偿(未 示出)。但是,通常将不需要它,因为不需要补偿由分析滤波器组AFB、AFB’ 插入的延迟。

时域结合器CBt是在时域中操作的结合器,而频域结合器CBf是在频域 中操作的结合器。两种类型的结合器都将所选择的部分25a的所获得的系数 添加到输入信号10的(可能重新格式化的)系数。

一般地,增强具有零阶和一阶系数的一阶高保真度立体声响复制时域信 号的方向性的装置包括:分析滤波器组AFB,用于对一阶高保真度立体声响 复制信号进行滤波,其中获得作为一阶高保真度立体声响复制信号的频域表 示的四个频域信道21,并且其中频域信道中的一个频域信道20表示零阶系 数并且频域信道中的三个表示一阶系数;声场分析单元SFA,用于执行四个 频域信道的声场分析,由此获得源方向Θ,Φ22和扩散估计Ψ23;选择性 放大滤波器F,用于对具有零阶系数的频域信道20进行滤波,其中使用扩 散估计Ψ23,并且其中获得直达声分量24;更高阶高保真度立体声响复制 编码器HOAe,用于以具有至少为二的预先定义的阶的高保真度立体声响复 制格式对直达声分量24进行编码,其中使用源方向Θ,Φ22,并且其中获得 以预先定义的阶的高保真度立体声响复制格式的编码的直达声25,以高保真 度立体声响复制格式的编码的直达声具有至少零阶、一阶和二阶的高保真度 立体声响复制系数;选择器SEL,用于从所获得的以预先定义的阶的高保真 度立体声响复制格式的编码的直达声25中选择至少二阶的高保真度立体声 响复制系数25a;以及结合与合成单元CS,用于结合编码的直达声的所选择 的至少二阶的高保真度立体声响复制系数25a与一阶高保真度立体声响复制 输入信号10的高保真度立体声响复制系数,其中获得至少二阶的高保真度 立体声响复制信号的时域表示29。要注意的是,所选择的至少二阶的高保真 度立体声响复制系数25a不包括零阶或一阶的系数。亦即,选择器SEL省略 (omit)较低阶的系数。

在一个实施例中,本发明涉及增强一阶高保真度立体声响复制信号10 (亦即仅具有零阶和一阶系数的高保真度立体声响复制信号)的方向性的方 法。一般地,该方法包括以下步骤:在声场分析单元SFA中根据一阶高保真 度立体声响复制信号生成扩散估计Ψ23和方向信息Θ,Φ22;从一阶高保 真度立体声响复制信号中分离并选择性地放大直达声24,其中用于选择性放 大的滤波器F使用扩散估计Ψ23;在HOA编码器HOAe中对选择性放大 的直达声24进行编码,其中使用方向信息Θ,Φ22并且获得至少二阶的 HOA信号25;选择HOA信号25的更高阶部分,其中所选择的更高阶部分 仅包括比一阶更高的阶的系数(亦即,不包括零阶系数,并且不包括一阶系 数);以及在结合器与合成单元CS中结合HOA信号25的所选择的更高阶 系数与输入的一阶高保真度立体声响复制信号,其中获得更高阶高保真度立 体声响复制信号(亦即至少二阶的高保真度立体声响复制信号)的时域表示 29。

在一个实施例中,结合HOA信号25的所选择的更高阶系数与输入的一 阶高保真度立体声响复制信号10的步骤包括:从分析滤波器组AFB接收输 入信号的频域零阶和一阶高保真度立体声响复制系数;在频域中结合HOA 信号25的所选择的更高阶(亦即二阶或更高)系数25a与输入信号的零阶 和一阶高保真度立体声响复制系数;以及在合成滤波器组SFB中合成结合的 高保真度立体声响复制系数以获得时域输出信号29。

在实施例中,该方法还包括以下步骤:对输入信号的零阶和一阶高保真 度立体声响复制系数执行频域HOA格式适配HFAf,之后将它们与HOA信 号25的所选择的更高阶系数结合。

在另外的实施例中,结合HOA信号25的所选择的更高阶系数25a与输 入的一阶高保真度立体声响复制信号10的步骤包括以下步骤:在合成滤波 器组SFB中仅合成HOA信号25的所选择的更高阶系数25a以获得合成的 时域信号26;以及在时域中结合所获得的合成时域信号与输入信号以获得时 域输出信号29。在实施例中,在结合之前执行时域输入信号的时域HOA格 式适配HFAt。在另外的实施例中,在结合的步骤之前执行用于补偿滤波器 组延迟的时域输入信号的延迟补偿DC。

在分析滤波器组AFB中对一阶高保真度立体声响复制输入信号10进行 滤波来执行经滤波的信号的到达方向(DoA)分析,由此获得扩散估计Ψ23 和方向信息Φ,Θ22,使用扩散估计Ψ23对W信道(零阶系数)进行滤波, 由此分离直达声S(f)20,并且在更高阶高保真度立体声响复制编码器HOAe 中以高保真度立体声响复制格式对直达声S(f)20进行编码,由此获得更高 阶系数。根据得到的HOA信号25,仅更高阶系数被使用,与输入信号的较 低阶系数结合,并且根据结果,合成高保真度立体声响复制输出信号29。

一般地,结合HOA信号25的所选择的更高阶系数25a与输入的一阶高 保真度立体声响复制信号10的步骤包括添加它们相应的系数,亦即输出信 号29包括输入信号10的所有系数以及另外的系数即所选择的部分25a的更 高阶系数。

图6示出根据本发明的一个实施例的方法的流程图。增强输入信号10 (具有零阶和一阶系数的一阶高保真度立体声响复制信号)的方向性的方法 60包括以下步骤:

对输入信号10进行滤波s1,其中获得四个频域信道21,它们中的一个 是高保真度立体声响复制W信道20;

执行s2四个频域信道21的声场分析SFA,由此获得源方向22和扩散 估计23;

选择并滤波s3频域高保真度立体声响复制W信道20,其中使用扩散 估计23并且其中获得输入信号10的直达声分量24;

在更高阶高保真度立体声响复制编码器HOAe中以具有预先定义的阶 No的高保真度立体声响复制格式对直达声分量24进行编码s4,其中使用源 方向22,并且其中获得以预先定义的阶No的高保真度立体声响复制格式的编 码的直达声25;

从所获得的以高保真度立体声响复制格式的编码的直达声25中选择s5 包括至少二阶(亦即二阶或更高阶,省略较低阶)的高保真度立体声响复制 系数的所定义的部分25a;以及

结合s6表示编码的直达声的所选择的部分25a的至少二阶的高保真度 立体声响复制系数的信号与表示输入信号10的信号,其中获得至少二阶的 高保真度立体声响复制信号29。

在滤波步骤s1中获得的四个频域信道21是一阶高保真度立体声响复制 信号的频域表示,其中频域信道21中的一个第一频域信道(W信道)20表 示零阶系数,而三个剩余的频域信道21(X、Y、Z信道)表示一阶系数。

在编码步骤s4中,更高阶高保真度立体声响复制编码器HOAe使用源 方向Φ,Θ22、以具有预先定义的阶No的高保真度立体声响复制格式对直达 声分量24进行编码,其中预先定义的阶No至少为二,并且以预先定义的阶 的高保真度立体声响复制格式的编码的直达声具有至少二阶的高保真度立 体声响复制系数。

图7a)示出结合的步骤s6使用四个频域信道21作为输入信号10的表示 的情况下的实施例(对应于在图4、5中示出的装置)。其包括以下步骤:在 频域结合器单元CBf中结合s61由四个频域信道21、21’、28的系数表示的 一阶高保真度立体声响复制信号10的高保真度立体声响复制系数与至少二 阶的增强更高阶高保真度立体声响复制信号25的所选择的频率系数25a,其 中获得作为至少二阶的高保真度立体声响复制信号的频域表示并且与一阶 高保真度立体声响复制输入信号10相比具有增强的方向性的信号37;以及 在合成滤波器组SFB’中对所获得的信号37进行滤波s64,其中获得具有至 少二阶的系数的增强更高阶高保真度立体声响复制信号的时域表示。

图7b)示出结合的步骤s6使用输入信号10的时域系数的情况下的实施 例(对应于在图3中示出的装置)。其包括以下步骤:在合成滤波器组SFB 中滤波s62对来自编码的直达声25的所选择的至少二阶的高保真度立体声 响复制系数25a进行滤波s62,其中获得具有至少二阶的系数的增强更高阶 高保真度立体声响复制信号的时域表示26;以及

在时域结合器CBt中结合s65一阶高保真度立体声响复制信号10的高 保真度立体声响复制系数(更确切地说,表示一阶高保真度立体声响复制信 号10的高保真度立体声响复制系数的系数,因为可以适配实际的HOA格式) 与至少二阶的增强更高阶高保真度立体声响复制信号的时域表示26,其中获 得与一阶高保真度立体声响复制信号10相比具有增强的方向性的至少二阶 的高保真度立体声响复制信号的时域表示29。

下面的描述提供关于高保真度立体声响复制的更多细节。在高保真度立 体声响复制理论中,空间音频场景由傅立叶-贝塞尔级数的系数描述。 对于无源音量(source-freevolume),观察位置处的声压(r,θ,φ)可以通过下式 而被描述为其球面坐标(半径r,倾斜角Θ,方位角Φ)与空间频率的函数:

p(r,θ,φ,k)=Σn=0NΣm=-nnAnm(k)jn(kr)Ynm(θ,φ)---(1)

其中,是高保真度立体声响复制系数;jn(kr)是描述径向依赖(radial dependency)的第一类球贝塞尔函数(Spherical-Besselfunction);是 在实际中具有实值(reavalue)的球谐函数(SphericalHarmonics,SH)。它 们负责角度依赖(angulardependency)。n是高保真度立体声响复制阶指数, 并且m是次数(degree)。由于贝塞尔函数的只针对小的kr具有有效值 (significantvalue)的性质,可以在具有足够精确度的某个阶n=N处截断求和 级数;对于理论上的完美重构,N→∞。可以在[11]、[6]、[7]、[3]、[13]中 回顾更多的信息和细节。高保真度立体声响复制系数形成高保真度立体 声响复制信号;它们具有声压的物理单位(1Pa)并且随时间变化。信号可以看作高保真度立体声响复制记录的单声道版本。高保真度立体声响复制 系数的实际值由SH的定义来确定,其归一化方案更精确。等式(1)中的系 数的数量对于2D表示由O=2N+1给出,而对于3D表示由O=(N+1)2给 出。

实际上,高保真度立体声响复制使用实值的球谐函数(SH)。在下面给 出定义,因为关于SH存在不同的公式化和不同种类的归一化方案,其影响 编码和解码操作,亦即高保真度立体声响复制系数的值。这里,使用无符号 表达式的实值SH的公式化将如下那样:

Ynm(θ,φ)=N~n,mPn,|m|(cos(θ))φm(φ)---(2)

其中是归一化因子(参见表格1),其对应于与之间的正交关系。 即

ΩS2Ynm(Ω)Ynm(Ω)*dΩ=N~n,m(2-δ0,m)(2n+1)(n-|m|)!4π(n+|m|)!N~n,m(2-δ0,m)(2n+1)(n-|m|)!4π(n+|m|)!δnnδmm

其中,对于a=a′,克罗内克符号(Kroneckerdelta)δaa′等于1,否则等于 0。在下面,利用正交归一化(ortho-normalization)方案。

Pn,|m|是相关联的勒让德(Legendre)函数,其描述倾斜角cos(θ)的依赖。 n≥|m|≥0。可以由等式(3)使用罗德里格斯公式 (Rodriguesformula)来表示Pn,|m|(亦即,这里呈现的所有定义不使用康登- 肖特利相位(Condon-Shortleyphase)进行,其对实值变量的补偿可能产生 歧义),但是关于实现,存在更有效的计算方法。

Pn,|m|(x)=12nn!(1-x2)|m|2dn+|m|dxn+|m|(x2-1)n---(3)

对方位角部分φ的依赖由下式给出:

φm(φ)=cos(mφ),m>01m=0sin(|m|φ)m<0---(4)

表格1示出在高保真度立体声响复制内使用的常用归一化方案。对于 m=0,δ0,m取值1,否则取值0。命名约定SN3D、N3D取自[3]。

表格1:高保真度立体声响复制内使用的常用归一化方案

由SoundFieldTM式麦克风记录的信号使用B格式来表示。该技术在[2] 中描述。存在四个B格式信号:W信号携带与由全向麦克风记录的声压成比 例、但是按照因子缩放的信号。X、Y、Z信号携带与三个笛卡尔方向上 的压力梯度成比例的信号。四个B格式系数W、X、Y、Z按照X=A11N3D/3,Y=A1-1N3D/3,Z=A10N3D/3与使用N3D归一化方案[3]、 [4]的一阶HOA系数相关,并且按照与使用SN3D归一化的HOA系数相关。另外,B 格式假设在系数表示内省略因子in的平面波编码模型。

HOA信号也可以由平面波来表示。平面波的声压由[11]给出:

p(r,θ,φ,k)=Σn=0NΣm=-nninPS0ynm(Θs,φs)*jn(kr)Ynm(θ,φ)---(5)

对于球谐函数使用N3D归一化方案,并且严格地,将变成:

Anm(f)=4πinPS0(f)YRm(Θ(f)s,φ(f)s)*---(6)

其中是频率f的坐标系的原点处的声压。Θ(f)s、φ(f)s是到源的方向(倾 斜角、方位角)(DoA),并且*指示共轭复数。许多高保真度立体声响复制 格式和系统(包括B格式和SoundFieldTM麦克风系统)假定平面波编码和解 码模型并且省略因子in。于是,变成:

Anm(f)=4πPS0(f)Ynm(Θs(f),φs(f))*---(7)

如上所述,图1b)图示声场分析块SFAD的构建块。原理上,其与本发明 的声场分析块SFA的相同,除了这里使用一般化的时间频率考虑,这允许使 用任意的时间窗口,亦即针对不同的时间归一化简化声场分析。该一般化允 许使用任意的复数滤波器组(complexfilterbank)。这里采用的另外的一般 化是从平面波的叠加来组装活动声场。所有声场参数都是频率的函数,并且 可以针对滤波器组带k的每个中心频率来计算它们。在下面的详细描述中省 略来自k的fk的依赖。

接下来描述活动强度。

活动强度Ia(f)根据下式定义(参见[5]):

Ia=Re{P(f)*U(f)}(8)

活动强度的单位是W/m2=N/(ms)。p(f)*是共轭复数声压(以帕斯卡 (Pascal)=1N/m2),U(f)是以m/s的粒子速度即三个笛卡尔维度中的矢量。 Re{.}表示实部(realpart)。活动强度的其他公式化使用另外的因子如在 [11]中那样,然后将得到用于等式(13)的另外的因子。B格式信号W与声 压信号P(f)成比例,并且信号X(f)=[X(f),Y(f),Z(f)]T与声速U成比例。

U(f)=1Z0(X(f)ex+Y(f)ey+Z(f)ez)---(9)

其中,ei是笛卡尔坐标轴的单位矢量,并且eu是传播的平面波的单位矢量 方向。ZO是特性阻抗(characteristicimpedance)(声音的速度与空气的密度 的乘积ZO=ρOc)。然后,活动强度Ia可以使用B格式信号表示为(参见[5]):

Ia(f)=2Z0Re{W(f)*X(f)}---(10)

其中,因子考虑B格式内的W系数的缩放比例;*表示共轭复数。Ia(f)、 X(f)是笛卡尔坐标中的频率的矢量函数。

接下来描述到达方向。

活动强度的单位矢量eI(f)=[eIx(f),eIy(f),eIz(f)]T由eI(f)=Ia(f)/||Ia(f)|| 给出。DoA的方位角以拉德(rad)为单位由下式给出:

φ(f)=atan2(eIy(f)eIx(f))---(11)

其中,Iai(f)是Ia(f)的笛卡尔分量,并且atan2是四象限反正切。仰角Θ(f) 可以由下式计算:

Θ(f)=atan2(eIx(f)2+eIy(f)2eIz(f))---(12)

接下来描述扩散。

能量密度,亦即声场的每单位体积的声能(物理单位为N/m2=kgm/s21/m2) 由[5]描述:

E(f)=ρ02(Z0-2|P(f)|2+||U(f)||2)---(13)

其中||U||描述矩阵范数2,即矢量的欧几里得长度。

对于高保真度立体声响复制信号,一阶/B格式变成:

E(f)=ρ0Z0(|W(f)|2+||X(f)||22)---(14)

下面,为了更好的可读性,不考虑记法中的频率的依赖。将扩散估计Ψ 定义为[5]:

是期望值运算符,其可以使用由窗口化平均实现的时间平均或由IIR滤波器 实现的一阶来实现。Ψ表示声场的不活动的能量部分的贡献。值1描述完全 扩散的声场(没有动能贡献),而值0描述完全活动的声场。使用B格式信 号,扩散可以表示为:

扩散估计的替代实现[1]由下式给出

接下来描述平均滤波。

扩散估计和DoA方向需要时间平均。为了近似期望值平滑 滤波器输出由[12]来定义:

y(n,k)=(1-g)x(n,k)+gy(n-1,k)(18) 其中,x(n,k)是输入,并且y(n-1,k)是滤波器组k中的样本(变换块)延 迟输出。滤波器参数g由给出,其中fc是子采样滤波器组的采 样率。对于具有50%重叠窗口的基于块的滤波器组,fc变成其中 跳大小(hopsize)Nhop是针对该50%重叠的情况的窗口大小的一半。时间 常量τ确定平均器的特性。在需要跟随输入信号的快速变化时,小的值是适 合的,大的值适合于长期平均。

存在替代的实现,例如(参见[10]):

y(k,n)=ax(k,n)+(1-a)y(k,n-1)(19) 其中,并且这里看到τ与fs绝对相关。

具有块相关的切换参数cc和两个时间常量τmax、τmin的自适应滤波器 可以用于时间常量:

τ=τmin+ccmax-ccccmax(τmax-τmin)---(20)

多数情况下,任何一阶高保真度立体声响复制记录将是B格式信号。根 据本发明的方法针对现有的一阶高保真度立体声响复制记录得出更高阶高 保真度立体声响复制系数,同时维持一阶系数信息。执行到达方向(DoA) 分析以得出频率上的最强方向。W信道表示所有这些信号的单声道混合。对 W信号进行滤波,使得在频率上去除扩散部分。因此,经滤波的W信道变 成频率上直达声的估计。将DoA方向用于经滤波的W信道信号的高保真度 立体声响复制编码以形成预先分配的高保真度立体声响复制阶N_order>1 的新的HOA信号,其中对于3D实现,具有O=(Norder+1)2个系数,而对于 2D实现,具有O=(2Norder+1)个系数。B格式信号(亦即一阶信号)的四个 系数是被转换成与新的高保真度立体声响复制信号相同的格式(如有必要) 并且与新的系数结合以形成输出信号的格式。从零阶和一阶分量的转换的B 格式系数中并且根据更高阶分量的新的HOA系数来编译得到的输出HOA 信号系数

在分析滤波器组的滤波器组频域中应用处理或处理的一部分。

一个实施例使用基于FFT的分析滤波器组。将50%重叠的正弦窗口应 用于960个样本,或者替代地应用于例如640或512个样本。使用向左和右 的零填充来获得1024样本FFT长度。逆滤波器组(合成滤波器组)使用窗 口化和重叠添加来恢复480(320、256)个样本的块。使用更好地匹配人类 感知的滤波器带宽的替代的可用滤波器组在ISO/IEC23003/2007/2010 (MPEGSurround,SAOC)中描述。当使用FFT滤波器组时,两个或多个 滤波器带可以结合以更好地适配人类感知,特别是针对高频。在一个实施例 中,以一个FFT滤波器带的粒度使用一组的大约四分之一的带宽,并且使用 所结合的带上的活动强度和能量的平均值(meanvalue)。在各种实施例中, 使用声场参数“活动强度”和/或“能量密度”来得出DoA角度和扩散估计。

在一个实施例中,将根据等式(18)的特殊平滑滤波器用于DoA方向 和扩散估计;然后,如下地实现扩散估计的平滑(为了清晰,省略频带依赖):

根据等式(15)的扩散估计由给出。通过对三个分量使用相 同的时间常量的一阶IIR滤波器来实现枚举器(enumerator)的平滑滤波器 另外,滤波器具有由小的τmin和大的时间 常量τmax表征的双系数。根据||Ia||的变化和另外的状态计数器cc来执行时 间常量之间的切换,其中,Ia(n)是滤波器输入,并且是先前操作的滤 波器输出。

如果cc==0并且则使用具有大的时间常量 τmax的系数。

如果则使用由小的时间常量τmin表征的系数, 并且将cc设置为ccmax大于1(例如ccmax=10)。

如果cc>0并且则使用时间常量 并且然后只要其不等于零就确定cc(块处理)。

1是正的常量。使用单独的滤波器但是相同的自适应滤波器结构、以类 似的方式来执行对能量E的平滑。其由τmax、τmin和其自身的cc状态计数 器来表征,其中使用|E(n)|的改变在大的、小的和内插的时间常量之间切换。

通过创造两个复数信号,根据活动强度的单位矢量eI(f)=Ia(f)/||Ia(f)|| 来得出φ(f)、Θ(f):

a1=eIx+ieIy(21) 以及

a2=eIx2+eIy2+ieIz---(22)

其中,并且eIx、eIy、eIz是活动强度的单位矢量的笛卡尔分量。 根据等式(18),针对每个子带,使用自适应IIR一阶滤波器对信号a1、a2进 行滤波:

b1(n)=(1-g(Ψ))a1(n)+g(Ψ)b1(n-1)(23) 并且针对b2(n)类似地,使用输入的a2(n)和取决于扩散Ψ的相同的滤波器参 数g(Ψ)。依赖可以是线性的:

g(Ψ)=(gmax-gmin)Ψ+gmin其中gmin接近于0并且gmax≤1。

定向信号φ,Θ可以如下那样根据滤波器输出来计算:

φ=atan2(Im{b1}Re{b1})---(24)

Θ=atan2(Re{b2}Im{b2})---(25)

参考图2-5在上面描述的实施例在B格式的情况下将四个分析滤波器用 于由W、X、Y、Z表示的一阶系数。在中心频率为fk的k个频带中使用上述 自适应平滑滤波器执行扩散估计分析。在每个频带中,在B格式的情况下, 将W系数信号与相乘,并且在其他归一化的一阶信号的情况下, 与相乘,以实现信号S。DoA方向用于在频带中对信号进行高保 真度立体声响复制编码S以形成预先分配的高保真度立体声响复制阶

N_order>1的新的HOA信号,其中对于3D实现,具有O=(Norder+1)2个 系数,而对于2D实现,具有O=(2Norder+1)个系数。O个新的高保真度立体声 响复制信号由表示。在一个实施例中,HOA编码器使用N3d或省略因子 in的正交归一化的球谐函数。使用平面波编码方案:

B(fk)=Ξ(fk)S(fk)---(26)

其中,B(fk)是每个频带k的矢量,其正中心(midcenter)fk持有O个高保真 度立体声响复制系数B(fk)=[B00(fk),B1-1(fk),B10(fk),B11(fk),B2-2(fk),..]T,并且是 持有定向球谐函数的大小为Ox1的模态矢量: Ξ(fk)=[Y00(ΘS(fk),φs(fk))*,Y1-1(Θs(fk),φs(fk))*,Y10(Θs(fk),φs(fk))*,...]T.

B格式输入信号(例如记录)的四个系数被格式转换成与由HOA编码 器HOAe生成的新的高保真度立体声响复制信号相同的格式。这可以意味着 适配于球谐函数的不同的归一化以及对因子in(其有时包括在高保真度立体 声响复制系数中)的可选的考虑,以及用于适配2D球谐函数的3D至2D转 换或者反过来。经转换并再分开(resorted)的B格式系数记为具有关系:[W,Y,Z,X][A00,A1-1,A10,A11],并且对于2D:[W,Y,X][A00,A1-1,A11].

从转换的B格式信号和新的HOA系数中编译得到的HOA信号29,省略零阶和一阶分量:Cnm:[A00,A1-1,A10,A11,B2-2,B2-1,B20,B21,B22,...].得到的HOA 信号29对于3D实现具有O=(Norder+1)2个分量,或者对于具有 的2D实现具有O=(2Norder+1)个分量。该过程可以 被视为高保真度立体声响复制信号的阶上混(orderupmix)。

参考图3在上面描述的实施例在时域中结合原始的系数与新的系数,并 且使用O-4个合成滤波器(注意,意思是字母“O”,不是零)以及另外的 延迟以补偿滤波器组延迟。在图4-5中示出的实施例在滤波器组域中结合并 利用O(不是零)个合成滤波器。

在根据本发明阶上混之后,新的信号可以用于若干目的,例如与 N_order的其他高保真度立体声响复制内容混合以形成信号使用N_order 个高保真度立体声响复制解码器对或进行解码以便使用L个扬声器进 行回放、传送和/或存储或在数据库中等。在一些情况下(例如传送和/ 或存储),元数据可以用于指示高保真度立体声响复制信号的起源和所执行 的处理。

虽然本发明适合于将任何较低阶高保真度立体声响复制信号的方向性 增强到相应的更高阶高保真度立体声响复制信号,但是在本文中描述的示例 性实施例仅使用一阶(B格式)信号以便增强到例如二阶信号。然而,相同 的原理可适用于将给定阶的高保真度立体声响复制信号增强到任何更高阶, 例如二阶信号到三阶信号、一阶信号到四阶信号等。一般地,生成高于四阶 的更高阶系数是没有意义的。

本发明的一个优点是,其允许混合B格式信号(例如一阶麦克风记录) 与更高阶内容,以在对混合进行解码时增强空间再现精确度。

虽然本领域熟练技术人员可以对所描述的装置和方法在所公开的设备 的形式和细节方面以及它们的操作的方面进行各种省略、代替和改变,但是 清楚地预期到以基本上相同的方式来执行基本上相同的功能以实现相同的 结果的那些元件的所有组合都在本发明的范围内。将理解的是,已经通过示 例描述了本发明,并且在描述以及(在适当情况下)权利要求书和附图中公 开的每个特征可以独立地或以任何适当的组合来提供。在适当情况下,特征 可以实现为硬件、软件或二者的组合。权利要求书中出现的标号仅用于例示, 并且对权利要求书的范围将没有限制作用。

参考文献

[1]JukkaAhonen和VillePulkki。Diffusenessestimationusingtemporal variationofintensityvectors。2009IEEEWorkshoponApplicationsofSignal ProcessingtoAudioandAcoustics,2009年10月18-21日,新帕尔茨,纽约。

[2]PeterG.Craven和MichaelA.Gerzon。Coincidentmicrophone simulationcoveringthreedimensionalspaceandyieldingvariousdirectional outputs,1975年。

[3]Daniel。Représentationdechampsacoustiques,applicationàla transmissionetàlareproductiondescènessonorescomplexesdansuncontexte multimédia。博士论文,巴黎大学,2001年6月。

[4]DaveMalham。SpaceinMusic–MusicinSpace。博士论文,纽约大 学,2003年4月。

[5]JuhaMerimaa,Analysis,Synthesis,andPerceptionofSpatialSound– BinauralLocalizationModelingandMultichannelLoudspeakerReproduction。博 士论文,赫尔辛基理工大学,2006年。

[6]M.A.Poletti。Three-dimensionalsurroundsoundsystemsbasedon sphericalharmonics。J.AudioEng.Soc.,53(11):1004-1025,2005年1月。

[7]MarkPoletti。UnifieddescriptionofAmbisonicsusingrealandcomplex sphericalharmonics。ProceedingsoftheAmbisonicsSymposium2009,格拉茨。 奥地利,2009年6月。

[8]VillePulkki。Virtualsoundsourcepositioningusingvectorbase amplitudepanning。J.AudioEng.Soc.,45(6):456-466,1997年6月。

[9]VillePulkki。SpatialSoundReproductionwithDirectionalAudio Coding。J.AudioEng.Soc.,55(6):503-516,2007年6月。

[10]OliverThiergart、GiovanniDelGaldo、MagdalenaPrus和Fabian Kuech。Three-dimensionalsoundfieldanalysiswithdirectionalaudiocoding basedonsignaladaptiveparameterestimators。AES40THINTERNATIONAL CONFERENCE,东京,日本,2010年10月8日。

[11]EarlG.Williams。FourierAcoustics。AcademicPress,1999年。

[12]Udo编者。DAFX–DigitalAudioEffects。JohnWiley&Sons, 2002年。

[13]FranzZotter。AnalysisandSynthesisofSoundRadiationwithSpherical Arrays。博士论文,电子音乐和声学研究所(IEM),2009年。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号