首页> 中国专利> 基于声输入信号提供空间参数的空间音频处理器和方法

基于声输入信号提供空间参数的空间音频处理器和方法

摘要

本发明公开了一种用于基于声输入信号来提供空间参数的空间音频处理器,包括信号特性确定器和可控参数估计器。信号特性确定器被配置为确定声输入信号的信号特性。用于根据可变空间参数计算规则来计算针对声输入信号的空间参数的可控参数估计器被配置为根据所确定的信号特性来修改可变空间参数计算规则。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-01-13

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L19/008 变更前: 变更后: 申请日:20110316

    专利权人的姓名或者名称、地址的变更

  • 2014-11-05

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):G10L19/008 申请日:20110316

    实质审查的生效

  • 2013-02-06

    公开

    公开

说明书

技术领域

本发明的实施方式创建了一种用于基于声输入信号来提供空间参数 的空间音频处理器。本发明的其他实施方式创建了一种用于基于声输入信 号来提供空间参数的方法。本发明的实施方式可涉及例如基于麦克风录音 的空间声音的声学分析、参数化描述和再现的领域。

背景技术

空间声音记录目的在于利用多个麦克风捕获声场,使得在再现一侧, 当声像存在于记录位置处时,听众能感知声像。用于空间声音记录的标准 方法使用简单立体声麦克风或更复杂的定向麦克风组合,例如,诸如用在 立体混响中的B格式麦克风。通常,这些方法被称为同步麦克风技术。

可替代地,可应用基于声场的参数再现的方法,该方法被称为参数空 间音频处理器。近来,已提出针对空间音频的分析、参数化描述和再现的 几种技术。各系统关于参数化描述的类型、所需输入信号的类型、与具体 扬声器设置的相关性和无关性等具有独特优势和缺陷。

用于空间声音的有效参数化描述的一个实例由定向音频编码 (DirAC)给出(V.Pulkki:Spatial Sound Reproduction with Directional Audio Coding,Journal of the AES,Vol.55,No.6,2007)。DirAC表示用于空间声音 的声学分析和参数化描述(DirAC分析)以及用于其再现(DirAC合成) 的方法。DirAC分析采用多个麦克风信号作为输入。以一个或几个下混音 频信号和包括声音方向和扩散度的参数侧信息的形式为多个频率子带提 供空间声音的描述。扩散度参数描述了所记录的声场如何扩散。此外,扩 散度可被用作对方向估计的可靠性测量。另一应用由空间音频信号的方向 相关处理构成(M.Kallinger et al.:A Spatial Filtering Approach for Directional Audio Coding,126th AES Convention,Munich,May 2009)。基于 参数化表示,可利用任意扬声器设置来再现空间音频。此外,DirAC分析 可被视为参数化编码系统的声学前端,该参数化编码系统的声学前端能够 编码、传输和再现多信道空间音频,例如MPEG环绕。

空间声场分析的另一方法由所谓的空间音频麦克风(SAM)来表示 (C.Faller:Microphone Front-Ends for Spatial Audio Coders,in Proceedings of the AES 125th International Convention,San Francisco,Oct.2008)。SAM 采用同步定向麦克风的信号作为输入。与DirAC类似,SAM连同扩散声 音分量的估计一起来确定用于声场的参数化描述的声音DOA(DOA-波达 方向)。

用于空间音频的记录和分析的参数化技术(诸如DirAC和SAM)依 赖于对具体声场参数的估计。因此,这些方法的性能强烈取决于空间隐含 参数(诸如声音的波达方向或声场扩散度)的估计性能。

一般地,当估计空间隐含参数时,可对声输入信号(例如,对稳定性 或者对音调)作出特定假设,以采用用于音频处理的最佳(即,最有效或 最准确)算法。传统上,为此可定义单个时间不变信号模型。然而,通常 出现的问题是不同音频信号可能表现出极为瞬时的变化,使得描述音频输 入的通用的时间不变模型经常不充分。尤其是当考虑用于处理音频的单个 时间不变信号模型时,可能发生模型失配,这降低了所应用的算法的性能。

本发明的实施方式的目的在于提供用于具有由声输入信号的瞬时变 化或瞬时非稳定引起的较低模型失配的声输入信号的空间参数。

发明内容

该目的由根据权利要求1所述的空间音频处理器、根据权利要求14 所述的用于基于声输入信号来提供空间参数的方法以及根据权利要求15 所述的计算机程序来解决。

本发明的实施方式创建了一种用于基于声输入信号来提供空间参数 的空间音频处理器。空间音频处理器包括信号特性确定器和可控参数估计 器。信号特性确定器被配置为确定声输入信号的信号特性。可控参数估计 器被配置为根据可变空间参数计算规则来计算针对声输入信号的空间参 数。参数估计器还被配置为根据所确定的信号特性来修改可变空间参数计 算规则。

本发明的实施方式的思想在于当基于声输入信号的信号特性来修改 用于计算空间参数的计算规则时,可创建用于基于声输入信号来提供空间 参数的空间音频处理器,该空间音频处理器减小了由声输入信号的瞬时变 化引起的模型失配。已发现当确定声输入信号的信号特性时,可减小模型 失配,并基于所确定的信号特性来计算用于声输入信号的空间参数。

换言之,通过例如在预处理步骤中(在信号特性确定器中)确定声输 入信号的特性(信号特性)并随后识别最适合当前情况(当前信号特性) 的信号模型(例如,空间参数计算规则或空间参数计算规则的参数),本 发明的实施方式可处理由声输入信号的瞬时变化引起的模型失配问题。该 信息可被馈送至参数估计器,该参数估计器随后可选择最佳参数估计策略 (针对声输入信号的瞬时变化)来计算空间参数。因此,本发明的实施方 式的优势在于可实现具有显著减小的模型失配的参数化场描述(空间参 数)。

声输入信号例如可以是利用一个或多个麦克风(例如,利用麦克风阵 列或者利用B格式麦克风)测量的信号。不同麦克风可具有不同方向性。 声输入信号例如可以是例如在时域或频域中(例如,在STFT域中,STFT= 短时傅里叶变换)或者换言之,以时间表示或频率表示的声压“P”或特 定速度“U”。声输入信号例如可包括在三个不同(例如,正交)方向上的 分量(例如,x分量、y分量和z分量)以及全方位分量(例如,w分量)。 此外,声输入信号可仅包括三个方向的分量且不包括全方位分量。此外, 声输入信号可仅包括全方位分量。此外,声输入信号可包括两个定向分量 (例如,x分量和y分量、x分量和z分量、或者y分量和z分量)和全 方位分量,或者不包括全方位分量。此外,声输入信号可仅包括一个定向 分量(例如,x分量、y分量或z分量)和全方位分量,或者不包括全方 位分量。

由信号特性确定器根据声输入信号(例如,根据麦克风信号)确定的 信号特性例如可以是:与时间、频率、空间有关的稳定间隔;双向通话或 多个声源的存在性;音调或瞬变的存在性;声输入信号的信噪比;或者类 似掌声信号的存在性。

类似掌声信号在本文中被定义为包括例如具有不同方向的快速瞬变 时间序列的信号。

由信号特性确定器采集的信息可被用于例如在定向音频编码 (DirAC)或空间音频麦克风(SAM)中控制可控参数估计器,例如用于 选择最适合当前情况(声输入信号的当前信号特性)的估计器策略或估计 器设置(或者换言之,用于修改可变空间参数计算规则)。

本发明的实施方式可以类似方式应用于两个系统(空间音频麦克风 (SAM)和定向音频编码(DirAC))或者任何其他参数化系统。在下文 中,重点将集中于定向音频编码分析。

根据本发明的一些实施方式,可控参数估计器可被配置为计算空间参 数,作为包括关于时隙和频率子带的扩散度参数和/或关于时隙和频率子带 的波达方向参数的定向音频编码参数,或者作为空间音频麦克风参数。

在下文中,定向音频编码和空间音频麦克风被视为对诸如例如波达方 向和声音扩散度的空间参数操作的系统声学前端。应当注意,也可将本发 明的概念直接应用于其他声学前端。定向音频编码和空间音频麦克风均提 供从声输入信号获取的具体(空间)参数来描述空间声音。传统上,当利 用声学前端(诸如定向音频编码和空间音频麦克风)来处理空间音频时, 针对声输入信号的单一通用模型被定义为使得可获得最佳(或接近最佳) 的参数估计器。只要满足通过模型考虑的基本假设,估计器就按需求执行。 如前文提及,如果不是该情况,则出现模型失配,这通常导致严重估计误 差。该模型失配代表经常性问题,因为声输入信号通常高度随时间变化。

附图说明

将参照附图来描述根据本发明的实施方式,其中:

图1示出了根据本发明实施方式的空间音频处理器的示意性框图;

图2示出了作为参考实例的定向音频编码器的示意性框图;

图3示出了根据本发明又一实施方式的空间音频处理器的示意性框 图;

图4示出了根据本发明又一实施方式的空间音频处理器的示意性框 图;

图5示出了根据本发明又一实施方式的空间音频处理器的示意性框 图;

图6示出了根据本发明又一实施方式的空间音频处理器的示意性框 图;

图7a示出了可用于根据本发明实施方式的空间音频处理器的参数估 计器的示意性框图;

图7b示出了可用于根据本发明实施方式的空间音频处理器的参数估 计器的示意性框图;

图8示出了根据本发明又一实施方式的空间音频处理器的示意性框 图;

图9示出了根据本发明又一实施方式的空间音频处理器的示意性框 图;

图10示出了根据本发明又一实施方式的方法的流程图。

具体实施方式

在利用附图更详细地说明本发明的实施方式之前,应当指出,相同或 功能等同的元件提供有相同附图标记,且将省略对这些元件的重复描述。 因此,对提供有相同附图标记的元件的描述可相互交换。

根据图1的空间音频处理器

在下文中,将参照图1来描述空间音频处理器100,图1示出了该空 间音频处理器的示意性框图。用于基于声输入信号104(或者基于多个声 输入信号104)来提供空间参数102或空间参数估计102的空间音频处理 器100包括可控参数估计器106和信号特性确定器108。信号特性确定器 108被配置为确定声输入信号104的信号特性110。可控参数估计器106 被配置为根据可变空间参数计算规则来计算针对声输入信号104的空间参 数102。可控参数估计器106还被配置为根据所确定的信号特性110来修 改可变空间参数计算规则。

换言之,根据声输入信号或声输入信号104的特性来控制可控参数估 计器106。

如上所述,声输入信号104可包括定向分量和/或全方位分量。如已 经提及,合适的信号特性110例如可以是与声输入信号104的时间、频率、 空间有关的稳定间隔、声输入信号104中的双向通话或多个声源的存在性、 声输入信号104内的音调或瞬变的存在性、声输入信号104的掌声存在性 或信噪比。合适信号特性的列举仅是信号特性确定器108可确定的信号特 性的一个实例。根据本发明的其他实施方式,信号特性确定器108也可确 定声输入信号104的其他(未提及的)信号特性,且可控参数估计器106 可基于声输入信号104的这些其他信号特性来修改可变空间参数计算规 则。

可控参数估计器106可被配置为计算空间参数102,作为包括关于时 隙n和频率子带k的扩散度参数Ψ(k,n)和/或关于时隙n和频率子带k的 波达方向参数的定向音频编码参数,或者作为例如关于时隙n和频 率子带k的空间音频麦克风参数。

可控参数估计器106还可被配置为使用除DirAC或SAM之外的另一 概念来计算空间参数102。DirAC参数和SAM参数的计算应仅被理解为 实例。例如,可控参数估计器可被配置为计算空间参数102,使得该空间 参数包括声音方向、声音扩散度或声音方向的统计测量。

声输入信号104例如可被设置在时域或(短时)频域中,例如在STFT 域中。

例如,设置在时域中的声输入信号104可包括多个声学音频流x1(t) 至xN(t),其各自包括时间上的多个声输入样本。各声输入流例如可由不同 麦克风提供,且可与不同看方向相对应。例如,第一声输入流x1(t)可与第 一方向(例如,与x方向)相对应;第二声输入流x2(t)可与第二方向相对 应,该第二方向可与第一方向正交(例如,y方向);第三声输入流x3(t) 可与第三方向相对应,该第三方向可与第一方向和第二方向正交(例如, z方向);以及第四声输入流x4(t)可以是全方位分量。这些不同声输入流可 由例如在正交方向上的不同麦克风记录,且可使用模数转换器来数字化。

根据本发明的其他实施方式,声输入信号104可包括例如在时频域 (诸如STFT域)中以频率表示的声输入流。例如,可以B格式提供声输 入信号104,该B格式包括特定速度矢量(particle velocity vector)U(k,n) 和声压矢量P(k,n),其中,k表示频率子带,以及n表示时隙。特定速度 矢量U(k,n)是声输入信号104的定向分量,其中,声压P(k,n)表示声输入 信号104的全方位分量。

如前述所提及,可控参数估计器106可被配置为提供空间参数102, 作为定向音频编码参数或者作为空间音频麦克风参数。在下文中,将作为 参考实例来给出常规定向音频编码器。该常规定向音频编码器的示意性框 图在图2中示出。

根据图2的常规定向音频编码器

图2示出了定向音频编码器200的示意性框图。该定向音频编码器 200包括B格式估计器202。B格式估计器202包括滤波器组。定向音频 编码器200还包括定向音频编码参数估计器204。定向音频编码参数估计 器204包括能量分析器206,其用于执行能量分析。此外,定向音频编码 参数估计器204包括方向估计器208和扩散度估计器210。

定向音频编码(DirAC)(V.Pulkki:Spatial Sound Reproduction with Directional Audio Coding,Journal of the AES,Vol.55,No.6,2007)表示用于 空间声音的分析和再现的有效的感知驱动方法。DirAC分析以下混音频信 号和附加侧信息(例如,声音的波达方向(DOA)和声场扩散度)的形式 来提供声场的参数化描述。DirAC考虑与人听觉有关的特征。例如,假设 双耳时间差(ITD)和双耳声强差(ILD)可由声音DOA描述。相应地, 假设双耳相干性(IC)可由声场的扩散度表示。根据DirAC分析的输出, 声音再现系统可利用任意一组扬声器来生成用于再现具有原始空间感的 声音的特征。应当注意,扩散度也可被视为对所估计的DOA的可靠性测 量。扩散度越高,DOA的可靠性越低,且反之亦然。该信息可被许多基 于DirAC的工具(诸如源定位(O.Thiergart et al.:Localization of Sound Sources in Reverberant Environments Based on Directional Audio Coding Parameters,127th AES Convention,NY,October 2009))使用。本发明的实 施方式聚焦于DirAC的分析部分而非声音再现。

在DirAC分析中,基于由B格式估计器202提供的B格式信号,经 由由声场的能量分析器206执行的能量分析来估计参数。B格式信号由与 声压P(k,n)相对应的全方位信号以及与笛卡尔坐标系的x方向、y方向和 z方向对齐的一个、两个或三个偶极信号来构成。偶极信号对应于特定速 度矢量U(k,n)的元素(element)。DirAC分析在图2中示出。时域中的麦 克风信号(即,x1(t)、x2(t)、…、xN(t))被提供给B格式估计器202。这 些时域麦克风信号在下文中可被称为“时域声输入信号”。B格式估计器 202包括短时傅里叶变换(STFT)或另一滤波器组(FB),其计算在短时 频域中的B格式信号,即声压P(k,n)和特定速度矢量U(k,n),其中,k和 n分别表示频率索引(频率子带)和时间块索引(时隙)。信号P(k,n)和 U(k,n)在下文中可被称为“短时频域声输入信号”。B格式信号可从利用 麦克风阵列的测量中获得(如在R.Schultz-Amling et al.:Planar Microphone Array Processing for the Analysis and Reproduction of Spatial Audio using Directional Audio Coding,124th AES Convention,Amsterdam,The Netherlands,May 2008中所述),或者直接通过使用例如B格式麦克风来 获得。在能量分析中,可使用方程(1)针对不同频带来单独估计有效声 音强度矢量Ia(k,n),

Ia(k,n)=Re{P(k,n)U*(k,n)},                            (1)

式中,Re(·)产生实部,以及U*(k,n)表示特定速度矢量U(k,n)的复共轭。

在下文中,有效声音强度矢量也将被称为强度参数。

使用方程1中的STFT域表示,声音的DOA可在方向估计器 208中针对每个k和n被确定为有效声音强度矢量Ia(k,n)的相反方向。在 扩散度估计器210中,根据方程(2),可基于有效强度的波动来计算声场 的扩散度,

Ψ~(k,n)=1-|E(Ia(k,n))|E(|Ia(k,n)|),---(2)

式中,|(.)|表示矢量范数,以及E(·)给出期望。在实际应用中,期望E(·)可 通过沿一个或多个具体维度(例如,沿时间、频率或空间)的有限平均化 来近似。

已发现方程2中的期望E(·)可通过沿具体维度平均化来近似。为此, 可沿时间(时间平均化)、频率(频谱平均化)或空间(空间平均化)来 执行平均化。空间平均化是指例如利用放置在不同点处的多个麦克风阵列 来估计方程2中的有效声音强度矢量Ia(k,n)。例如,我们可在房间内四个 不同点处放置四个不同(麦克风)阵列。因此,我们随后针对每个时频点 (k,n)均具有四个强度矢量Ia(k,n),这四个强度矢量Ia(k,n)可被平均化(以 与例如频谱平均化相同的方式)以获得对期望算子E(·)的近似。

例如,当使用在几个n上的时间平均化时,我们获得由方程(3)给 出的对扩散度参数的估计Ψ(k,n),

Ψ(k,n)=1-|<Ia(k,n)>n|<|Ia(k,n)|>n.---(3)

存在用于实现如(3)中所需的时间平均化的通用方法。一种方法是 在特定数目N个时刻n上的块平均化(间隔平均化),由方程(4)给出,

<y(k,n)>n=1NΣm=0N-1y(k,n-m),---(4)

式中,y(k,n)是要平均化的数量,例如,Ia(k,n)或|Ia(k,n)|。用于计算时间 平均的第二方法(由于其效率而通常用在DirAC中)是应用无限脉冲响应 (IIR)滤波器。例如,当使用具有滤波器系数α∈[0,1]的一阶低通滤波器 时,特定信号y(k,n)沿n的时间平均化可利用方程(5)来获得,

<y(k,n)>n=y(k,n)=α·y(k,n)+(1-α)·y(k,n-1),---(5)

式中,表示实际平均化结果,以及是过去平均化结果, 即针对时刻(n-1)的平均化结果。对于较小α实现了较长时间平均化,而较 长α产生更多瞬时结果,其中,过去结果计数更少。针对用于 DirAC的α的典型值为α=0.1。

已发现除使用时间平均化之外,方程2中的期望算子也可通过沿几个 或全部频率子带k的频谱平均化来近似。该方法仅适用于需要在随后处理 中(例如,当仅存在单个声源时)针对不同频率子带的非独立扩散度估计 的情况。因此,通常计算扩散度的最合适方法实际可能是利用时间平均化。

一般地,当通过平均化处理使期望算子近似为方程2中的期望算子 时,我们假设与数量有关的所考虑信号的稳定性要被平均化。平均化越长, 即考虑更多样本,结果通常越准确。

在下文中,空间音频麦克风(SAM)分析也将被简要说明。

空间音频麦克风(SAM)分析

与DirAC类似,SAM分析(C.Faller:Microphone Front-Ends for Spatial Audio Coders,in Proceedings of the AES 125th International Convention,San Francisco,Oct.2008)提供了空间声音的参数化描述。声场表示基于下混 音频信号和参数侧信息,即声音DOA以及直接和扩散声音分量的声强估 计。到SAM分析的输入是利用多个同步定向麦克风(例如,放置在同一 点处的两个心形传感器)测量的信号。SAM分析的基础是输入信号的功 率谱密度(PSD)和交叉谱密度(CSD)。

例如,令x1(k,n)和x2(k,n)为由两个同步定向麦克风测量的时间-频率 域信号。两个输入信号的PSD可利用方程(5a)来确定,

PSD1(k,n)=E{X1(k,n)X*1(k,n)}

PSD2(k,n)=E{X2(k,n)X*2(k,n)}。                        (5a)

两个输入之间的CSD由以下相关性给出:

CSD(k,n)=E{X1(k,n)X*2(k,n)}。                         (5b)

SAM假设所测量的输入信号x1(k,n)和x2(k,n)表示直接声音和扩散声音的 叠加,而直接声音和扩散声音不相关。基于该假设(其在C.Faller: Microphone Front-Ends for Spatial Audio Coders,in Proceedings of the AES 125th International Convention,San Francisco,Oct.2008中示出),可以针对 各传感器根据方程5a和5b得出所测量的直接声音和所测量的扩散声音的 PSD。根据直接声音PSD之间的比,随后可以利用麦克风定向响应的先验 知识来确定声音的DOA

已发现在实际应用中,方程5a和5b中的期望E{·}可通过时间和/或 频谱平均化操作来近似。这与前一节中描述的DirAC中的扩散度计算类 似。类似地,可使用例如方程4或5来进行平均化。为给出一个实例,可 根据方程(5c)基于递归时间平均化来执行CSD估计,

CDS(k,n)≈α·X1(k,n)X*2(k,n)+(1-α)·CDS(k,n-1)。    (5c)

如前一节所讨论,当通过平均化处理使期望算子近似为方程5a和5b 中的期望算子时,可能必须假设与要平均化的数量有关的所考虑信号的稳 定性。

在下文中,将说明根据稳定间隔来执行时间可变参数估计的本发明的 实施方式。

根据图3的空间音频处理器

图3示出了根据本发明实施方式的空间音频处理器300。空间音频处 理器300的功能可与根据图1的空间音频处理器100的功能相似。空间音 频处理器300可包括图3所示的附加特征。空间音频处理器300包括可控 参数估计器306,该可控参数估计器306的功能可与根据图1的可控参数 估计器106的功能相似,且可包括下文中描述的附加特征。空间音频处理 器300还包括信号特性确定器308,该信号特性确定器308的功能可与根 据图1的信号特性确定器108的功能相似,且可包括下文中描述的附加特 征。

信号特性确定器308可被配置为例如使用稳定间隔确定器310来确定 声输入信号104的稳定间隔,该稳定间隔构成了所确定的信号特性110。 参数估计器306可被配置为根据所确定的信号特性110(即,所确定的稳 定间隔)来修改可变参数计算规则。参数估计器306可被配置为修改可变 参数计算规则,使得用于计算空间参数102的平均化时段或平均化长度针 对相对较长的稳定间隔相对较长(较高),且针对相对较短的稳定间隔相 对较短(较低)。例如,平均化长度可等于稳定间隔。

换言之,空间音频处理器300创建了用于通过考虑声输入信号104 或声输入信号的变化的稳定间隔来改善定向音频编码中的扩散度估计的 概念。

例如,声输入信号104的稳定间隔可定义声输入信号104的声源未出 现(或仅非常轻微地出现)移动的时间段。一般地,声输入信号104的稳 定性可定义声输入信号104的特定信号特性随时间保持恒定的时间段。例 如,信号特性可以是信号能量、空间扩散度、音调、信噪比和/或其他。通 过考虑用于计算空间参数102的声输入信号104的稳定间隔,用于计算空 间参数102的平均化长度可被修改为使得可提高表示声输入信号104的空 间参数102的精度。例如,针对较长稳定间隔(这意味着声输入信号104 的声源在较长间隔内未移动),可应用比针对较短稳定间隔的更长的时间 (或时段)平均化。因此,根据声输入信号104的稳定间隔,可(总是) 由可控参数估计器306来执行至少接近最佳(或者在一些情况下,恰好为 最佳)的空间参数估计。

可控参数估计器306例如可被配置为提供例如关于频率子带k和时隙 或时间块n的STFT域中的扩散度参数Ψ(k,n)。可控参数估计器306可包 括扩散度估计器312,其用于例如基于STFT域中的声输入信号104的强 度参数Ia(k,n)的时间平均化来计算扩散度参数Ψ(k,n)。此外,可控参数估 计器306可包括能量分析器314,其用于执行声输入信号104的能量分析 以确定强度参数Ia(k,n)。强度参数Ia(k,n)也可被指定为有效声音强度矢 量,且可由能量分析器314根据方程1来计算。

因此,声输入信号104也可例如以B格式在STFT域中提供,B格式 包括关于频率子带k和时隙n的声压P(k,n)和特定速度矢量U(k,n)。

扩散度估计器312可基于例如相同频率子带k的声输入信号104的强 度参数Ia(k,n)的时间平均化来计算扩散度参数Ψ(k,n)。扩散度估计器312 可根据方程3来计算扩散度参数Ψ(k,n),其中,可由扩散度估计器312根 据所确定的稳定间隔来改变强度参数的数目以及由此改变平均化长度。

作为一个数值实例,若由稳定间隔确定器310确定了相对很长的稳定 间隔,则扩散度估计器312可对强度参数Ia(k,n-10)至Ia(k,n-1)执行强度参 数Ia(k,n)的时间平均化。针对由稳定间隔确定器310确定的相对很短的稳 定间隔,扩散度估计器312可对强度参数Ia(k,n-4)至Ia(k,n-1)执行强度参 数Ia(k,n)的时间平均化。

可以看出,由扩散度估计器312实施的时间平均化的平均化长度与用 于时间平均化的强度参数Ia(k,n)的数目相对应。

换言之,通过考虑声输入信号或声输入信号104的时间不变的稳定间 隔(也被称为连贯时间)来改善定向音频编码扩散度估计。如前所述,实 际用于估计扩散度参数Ψ(k,n)的常用方法是使用方程3,该方程3包括有 效强度矢量Ia(k,n)的时间平均化。已发现最佳平均化长度取决于声输入信 号或声输入信号104的时间稳定性。已发现当平均化长度被选择为等于稳 定间隔时,可获得最准确结果。

传统上,如采用常规定向音频编码器200所示,定义用于声输入信号 的通用时间不变模型,随后根据通用时间不变模型来定义最佳参数估计策 略,在该情况下,这意味着最佳的时间平均化长度。对于扩散度估计,通 常假设声输入信号具有特定时间间隔(例如20ms)内的时间稳定性。换 言之,所考虑的稳定间隔被设定为对于几个输入信号为典型的恒定值。根 据假设的稳定间隔,随后得出最佳时间平均化策略,例如,当使用如方程 5所示的IIR平均化时的α的最佳值,或者当使用如方程4所示的块平均 化时的最佳N。

然而,已发现不同声输入信号通常被不同稳定间隔表征。因此,假设 用于声输入信号的时间不变模型的传统方法不能成立。换言之,当输入信 号表现出与由估计器假设的稳定间隔不同的稳定间隔时,我们可能遇到模 型失配,这可能导致不良参数估计。

因此,所提出的新方法(例如,在空间音频处理器300中实现)根据 实际信号特性来自适应参数估计策略(可变空间参数计算规则),如图3 所示,对于扩散度估计:在预处理步骤中(由信号特性确定器308)确定 声输入信号104(即,B格式信号)的稳定间隔。根据该信息(根据所确 定的稳定间隔),选择最佳(或者在一些情况下接近最佳)时间平均化长 度、针对α或N的最佳(或者在一些情况下接近最佳)值,且随后利用扩 散度估计器312来执行(空间)参数计算。

应当提及,除DirAC中的信号自适应扩散度估计之外,可以以非常 类似的方式来改善SAM中的方向估计。事实上,在方程5a和5b中计算 声输入信号的PSD和CSD也需要通过时间平均化处理(例如,通过使用 方程4或5)来近似期望算子。如上所述,当平均化长度对应于声输入信 号的稳定间隔时,可获得最准确结果。这意味着可通过首先确定声输入信 号的稳定间隔并随后从该信息中选择最佳平均化长度来改善SAM分析。 如下文所述,可确定声输入信号的稳定间隔和相应的最佳平均化滤波。

在下文中,将给出确定声输入信号104的稳定间隔的示例性方法。根 据该信息,随后选择方程3所示的用于扩散度计算的最佳时间平均化长度。

稳定间隔确定

在下文中,描述了用于确定声输入信号(例如,声输入信号104)的 稳定间隔以及最佳IIR滤波器系数α(例如用于方程5)的可行方法,最 佳IIR滤波器系数α产生了相应的时间平均化。下文所述的稳定间隔确定 可由信号特性确定器308的稳定间隔确定器310来执行。所提出的方法允 许使用方程3来根据声输入信号104的稳定间隔准确估计扩散度(参数) Ψ(k,n)。作为B格式信号的一部分的频域声压P(k,n)可被视为声输入信号 104。换言之,声输入信号104可包括与声压P(k,n)相对应的至少一个分 量。

若信号能量在短时间间隔内急剧变化,则声输入信号通常表现出短稳 定间隔,且反之亦然。稳定间隔很短的典型实例是瞬变、讲话起始和“结 束”(即当扬声器停止讲话时)。后者情况通过在短时间内急剧降低信号能 量(负增益)来表征,而在两种前者情况下,能量急剧增加(正增益)。

目的在于找到最佳滤波器系数α的所需算法必须针对高度非稳定信 号提供接近α=1(对应于短时间平均化)的值,以及在稳定情况下提供接 近α=α’的值。符号α’表示与用于平均化稳定信号的滤波器系数无关的合 适信号。以数学形式表示,充分算法由方程(7)给出,

α+(k,n)=α·W(k,n)α·W(k,n)+(1-α)·W(k,n),---(7)

其中,α+(k,n)是针对各时频段的最佳滤波器系数,W(k,n)=|P(k,n)|2是P(k, n)的瞬时信号能量的绝对值,以及是W(k,n)的时间平均值。针对稳 定信号,瞬时能量W(k,n)等于时间平均值其根据需要产生 α+=α′。在高度非稳定信号情况下,由于正能量增益,方程7的分母变 为接近α′·W(k,n),因为W(k,n)相比很大。因此,根据需要获得 α+≈1。在非稳定情况下,由于负能量增益,获得不期望的结果α+≈0, 因为相比W(k,n)变得很大。因此,引入了针对最佳滤波器系数α 的替代性候选参数,即,

α-(k,n)=α·W(k,n)(1-α)·W(k,n)+α·W(k,n),---(8)

其与方程7相似,但在非稳定情况下表现出相反行为。这意味着在非稳定 情况下,由于正能量增益而获得α-≈0,而针对负能量增益则获得α-≈1。 因此,取方程7和方程8的最大值,即,

α=max(α+,α-),                        (9)

产生了所需的用于递归平均化系数α的最佳值,从而产生与声输入信号的 稳定间隔相对应的时间平均化。

换言之,信号特性确定器308被配置为基于声输入信号104的至少一 个(全方位)分量(例如,声压P(k,n))的当前(瞬时)信号能量与声输 入信号104的至少一个(全方位)分量的信号能量的给定(之前)时间段 上的时间平均值之间的比来确定加权参数α。给定时间段例如可对应于针 对不同(之前)时隙的给定数目的信号能量系数。

在SAM分析情况下,能量信号W(k,n)可由两个麦克风信号X1(k,n) 和X2(k,n)的能量组成,例如,W(k,n)=|X1(k,n)|2+|X2(k,n)|2。根据方程5c, 可适当使用上述方程9的标准来选择方程5a或方程5b中用于相关性的递 归估计的系数α。

从上文可以看出,可控参数估计器306可被配置为使用低通滤波器 (例如,所提到的无限脉冲响应(IIR)滤波器或有限脉冲响应(FIR)滤 波器)来实施声输入信号104的强度参数Ia(k,n)的时间平均化。此外,可 控参数估计器306可被配置为基于加权参数α来调整声音频信号104的当 前强度参数与声输入信号104的之前强度参数之间的加权。在方程5所示 的一阶IIR滤波器的特殊情况下,可调整当前强度参数与一个之前强度参 数之间的加权。加权因子α越高,时间平均化长度越短,且因此,与之前 强度参数的权重相比,当前强度参数的权重更高。换言之,时间平均化长 度基于加权因子α。

例如,可控参数估计器306可被配置为使得与之前强度参数的权重相 比,当前强度参数的权重针对相对较短的稳定间隔相对较高,以及使得与 之前强度参数的权重相比,当前强度参数的权重针对相对较长的稳定间隔 相对较低。因此,时间平均化长度针对相对较短的稳定间隔相对较短,且 针对相对较长的稳定间隔相对较长。

根据本发明的其他实施方式,根据本发明一种实施方式的空间音频处 理器的可控参数估计器可被配置为根据所确定的信号特性从用于计算空 间参数的多个空间参数计算规则中选择一个空间参数计算规则。例如,多 个空间参数计算规则在计算参数中可能不同,或者甚至可能彼此完全不 同。如方程4和5所示,可使用如方程4所示的块平均化或者如方程5所 示的低通滤波器来计算时间平均化。第一空间参数计算规则例如可对应于 根据方程4的块平均化,以及第二参数计算规则例如可对应于使用根据方 程5的低通滤波器的平均化。可控参数估计器可基于所确定的信号特性从 多个计算规则中选择提供最精确空间参数估计的计算规则。

根据本发明的其他实施方式,可控参数估计器可被配置为使得出自多 个空间参数计算规则的第一空间参数计算规则不同于出自多个空间参数 计算规则的第二空间参数计算规则。第一空间参数计算规则和第二空间参 数计算规则可选自由以下组成的组:频率子带中多个时隙上的时间平均化 (例如,如方程3所示)、时隙中多个频率子带上的频率平均化、时间和 频率平均化、空间平均化和未平均化。

在下文中,将使用图4和图5所示的本发明的两个示例性实施方式来 描述由可控参数估计器从多个空间参数计算规则中选择一个空间参数计 算规则的这一概念。

使用根据图4的空间编码器根据双向通话的时变波达方向和扩散度 估计

图4示出了根据本发明实施方式的空间音频处理器400的示意性框 图。空间音频处理器400的功能可与根据图1的空间音频处理器100的功 能相似。空间音频处理器400可包括下文中描述的附加特征。空间音频处 理器400包括可控参数估计器406,可控参数估计器406的功能可与根据 图1的可控参数估计器106的功能相似,且可包括下文中描述的附加特征。 空间音频处理器400还包括信号特性确定器408,信号特性确定器408的 功能可与根据图1的信号特性确定器108的功能相似,且可包括下文中描 述的附加特征。

可控参数估计器406被配置为根据所确定的信号特性110(由信号特 性确定器408确定)从用于计算空间参数102的多个空间参数计算规则中 选择一个空间参数计算规则。在图4所示的示例性实施方式中,信号特性 确定器被配置为确定是否声输入信号104包括来自不同声源的分量,或者 仅包括来自一个声源的分量。基于该确定,若声输入信号104仅包括来自 一个声源的分量,则可控参数估计器406可选择第一空间参数计算规则 410来计算空间参数102,以及若声输入信号104包括来自多于一个声源 的分量,则可控参数估计器406可选择第二空间参数计算规则412来计算 空间参数102。第一空间参数计算规则410例如可包括多个频率子带上的 频谱平均化或频率平均化,以及第二空间参数计算规则412可不包括频谱 平均化或频率平均化。

可通过信号特性确定器408的双向通话检测器414来执行对声输入信 号104是否包括来自多于一个声源的分量的确定。例如,参数估计器406 可被配置为提供STFT域中关于频率子带k和时块n的声输入信号104的 扩散度参数Ψ(k,n)。

换言之,空间音频处理器400示出了用于通过考虑双向通话情况来改 善定向音频编码中扩散度估计的概念。

或者换言之,信号特性确定器408被配置为确定声输入信号104是否 同时包括来自不同声源的分量。可控参数估计器406被配置为根据信号特 性确定的结果从用于计算空间参数102(例如,用于计算扩散度参数Ψ(k, n))的多个空间参数计算规则中选择一个空间参数计算规则(例如,第一 空间参数计算规则410或第二空间参数计算规则412)。当声输入信号104 包括最多一个声源的分量时,选择第一空间参数计算规则410,以及当声 输入信号104同时包括多于一个声源的分量时,选择出自多个空间参数计 算规则的第二空间参数计算规则412。第一空间参数计算规则410包括声 输入信号104在多个频率子带上(例如,强度参数Ia(k,n))的频率平均化。 第二空间参数计算规则412不包括频率平均化。

在图4所示实例中,根据双向通话情况,通过调整相应估计器来改善 定向音频编码分析中对扩散度参数Ψ(k,n)和/或(波达)方向参数的估计。已发现方程2中的扩散度计算实际可通过在频率子带k上平均化 有效强度矢量Ia(k,n)或者通过结合时间和频谱平均化来实现。然而,若针 对不同频率子带需要独立的扩散度估计,则频谱平均化不适合,因为这是 在所谓的双向通话情况中的例子,其中,多个声源(例如,谈话者)同时 处于活动状态。因此,由于声输入信号的通用模型总是假设双向通话情况, 所以未采用传统(如在图2所示的定向音频编码器中)频率平均化。已发 现在单向通话情况的例子中,该模型假设不是最佳的,因为已发现在单向 通话情况下,频谱平均化可改善参数估计的准确度。

如图4所示,所提出的新方法通过选择针对声输入信号104或针对声 输入信号的基本模型来选择最佳参数估计策略(最佳空间参数计算规则)。 换言之,图4示出了用于根据双向通话情况来改善扩散度估计的本发明实 施方式的应用:首先,采用双向通话检测器414,该双向通话检测器414 根据声输入信号104或声输入信号来确定在当前情况下是否存在双向通 话。若不存在,则为参数估计器决定(或者换言之,可控参数估计器406 选择空间参数计算规则),该参数估计器通过使用有效强度矢量Ia(k,n)的 频谱(频率)和时间平均化利用近似方程2来计算扩散度(参数)Ψ(k,n), 即

Ψ(k,n)=Ψ(n)=1-|<<Ia(k,n)>n>k|<<|Ia(k,n)|>n>k.---(10)

否则,若存在双向通话,则选择仅使用时间平均化的估计器(或者换 言之,可控参数估计器406选择空间参数计算规则),如方程3。类似想法 可应用于方向估计:在单向通话情况的例子中,但仅在该情况下,方向估 计可通过在几个或全部频率子带k上的频谱平均化结果来改善,即

根据本发明的一些实施方式,也可设想对频谱的一部分而不必对整个 带宽实施(频谱)平均化。

对于执行时间和频谱平均化,可控参数估计器406例如可使用能量分 析(例如,通过利用可控参数估计器406的能量分析器416)来确定例如 在STFT域中关于各子带k和各时隙n的有效强度矢量Ia(k,n)。

换言之,参数估计器406可被配置为根据所确定的信号特性,基于包 括在第一空间参数计算规则410中的所确定的声输入信号104的有效强度 矢量Ia(k,n)的频谱和时间平均化,或者仅基于所确定的有效强度矢量Ia(k, n)的时间平均化来确定声输入信号104的关于当前频率子带k和当前时隙 n的当前扩散度参数Ψ(k,n)。

在下文中,将描述本发明的另一示例性实施方式,该实施方式也基于 根据声输入信号的音调来选择用于使用图5所示空间音频处理器500来改 善声输入信号的空间参数计算的适当空间参数计算规则的概念。

使用根据图5的空间音频处理器的音调相关参数估计

图5示出了根据本发明实施方式的空间音频处理器500的示意性框 图。空间音频处理器500的功能可与根据图1的空间音频处理器100的功 能相似。空间音频处理器500还可包括下文中描述的附加特征。空间音频 处理器500包括可控参数估计器506和信号特性确定器508。可控参数估 计器506的功能可与根据图1的可控参数估计器106的功能相似,可控参 数估计器506可包括下文中描述的附加特征。信号特性确定器508的功能 可与根据图1的信号特性确定器108的功能相似。信号特性确定器508可 包括下文中描述的附加特征。

空间音频处理器500不同于空间音频处理器400的事实在于,基于所 确定的声输入信号104的音调来修改空间参数102的计算。信号特性确定 器508可确定声输入信号104的音调,且可控参数估计器506可基于所确 定的声输入信号104的音调从用于计算空间参数102的多个空间参数计算 规则中选择一个空间参数计算规则。

换言之,空间音频处理器500示出了用于通过考虑声输入信号104 或声输入信号的音调来改善定向音频编码参数的估计的概念。

信号特性确定器508可使用音调估计(例如,使用信号特性确定器 508的音调估计器510)来确定声输入信号的音调。因此,信号特性确定 器508可提供声输入信号104的音调或与声输入信号104的音调相对应的 信息作为所确定的声输入信号104的信号特性110。

可控参数估计器506可被配置为根据信号特性确定(音调估计)的结 果从用于计算空间参数102的多个空间参数计算规则中选择一个空间参数 计算规则,使得当声输入信号104的音调低于给定音调阈值水平时,选择 出自多个空间参数计算规则的第一空间参数计算规则,以及使得当声输入 信号104的音调高于给定音调阈值水平时,选择出自多个空间参数计算规 则的第二空间参数计算规则。与根据图4的可控参数估计器406类似,第 一空间参数计算规则可包括频率平均化,以及第二空间参数计算规则可不 包括频率平均化。

一般地,声信号的音调提供了信号是否具有宽带频谱的信息。高音调 表示信号频谱仅包括一些具有高能量的频率。相反,低音调表示宽带信号, 即相似能量存在于大频率范围内的信号。

关于声输入信号的音调(声输入信号104的音调)的信息可被用于改 善例如定向音频编码参数估计。参照图5所示的示意性框图,根据声输入 信号104或声输入信号,首先使用音调检测器或音调估计器510来确定输 入的音调(例如,如S.Molla and B.Torresani:Determining Local Transientness of Audio Signals,IEEE Signal Processing Letters,Vol.11,No.7, July 2007中所述)。关于音调的信息(所确定的信号特性110)控制对(空 间参数102的)定向音频编码参数的估计。可控参数估计器506的输出是 与利用根据图2的定向音频编码器示出的传统方法相比具有提高的准确度 的空间参数102。

可如下从对输入信号音调的了解来获得扩散度Ψ(k,n)的估计:扩散 度Ψ(k,n)的计算需要如方程3所示的平均化处理。该平均化传统上仅随时 间n执行。尤其在扩散声场中,仅当平均化足够长时,扩散度的准确估计 才可能。然而,由于声输入信号的短稳定间隔,长时间平均化通常不可能。 为改善扩散度估计,我们可将时间平均化与频带k上的频谱平均化相结合, 即,

Ψ(k,n)=1-|<<Ia(k,n)>n>k|<<|Ia(k,n)|>n>k.---(12)

然而,该方法可能需要扩散度对于不同频带相似的宽带信号。在音调 信号情况(其中,仅少数频率具有显著能量)下,声场的真实扩散度可沿 频带k急剧变化。这意味着当音调检测器(信号特性确定器508的音调估 计器510)指示声信号104的高音调时,则避免了频谱平均化。

换言之,可控参数估计器506被配置为在所确定的声信号104的音调 相对很小时,基于声输入信号104的强度参数Ia(k,n)的时间和频谱平均化 来导出例如STFT域中关于频率子带k和时隙n的空间参数102(例如, 扩散度参数Ψ(k,n)),以及在所确定的声输入信号104的音调相对很高时, 仅基于声输入信号104的强度参数Ia(k,n)的时间平均化而无频谱平均化来 提供空间参数102(例如,扩散度参数Ψ(k,n))。 同样想法可应用于(波达)方向参数的估计,以改善(所确定 的空间参数102的)信噪比结果。换言之,可控参数估计器506可被配置 为在所确定的声输入信号104的音调相对很小时,基于频谱平均化来确定 波达方向参数以及在音调相对很高时,导出波达方向参数而无需执行频谱平均化。

下文中将使用本发明的另一实施方式更详细地描述通过频谱平均化 波达方向参数来改善信噪比的这一想法。频谱平均化可应用于声输 入信号104或声输入信号、应用于有效声音强度、或者直接应用于(波达) 方向参数

对于本领域技术人员而言,显然空间音频处理器500也可以类似方式 应用于空间音频麦克风分析,而其差异在于,现在假如不存在双向通话或 者在低音调情况下,通过考虑频谱平均化来近似方程5a和方程5b中的期 望算子。

下文中将说明本发明的两种其他实施方式,该实施方式执行信噪比相 关方向估计来改善空间参数的计算。

使用根据图6的空间音频处理器的信噪比相关方向估计

图6示出了空间音频处理器600的示意性框图。空间音频处理器600 被配置为执行上述信噪比相关方向估计。

空间音频处理器600的功能可与根据图1的空间音频处理器100的功 能相似。空间音频处理器600可包括下文中描述的附加特征。空间音频处 理器600包括可控参数估计器606和信号特性确定器608。可控参数估计 器606的功能可与根据图1的可控参数估计器106的功能相似,且可控参 数估计器606可包括下文中描述的附加特征。信号特性确定器608的功能 可与根据图1的信号特性确定器108的功能相似,且信号特性确定器608 可包括下文中描述的附加特征。

信号特性确定器608可被配置为确定声输入信号104的信噪比 (SNR),作为声输入信号104的信号特性110。可控参数估计器606可被 配置为基于所确定的声输入信号104的信噪比来提供用于计算声输入信号 104的空间参数102的可变空间计算规则。

可控参数估计器606例如可执行用于确定空间参数102的时间平均 化,且可根据所确定的声输入信号104的信噪比来改变时间平均化的平均 化长度(或者用于时间平均化的元素数目)。例如,参数估计器606可被 配置为改变时间平均化的平均化长度,使得平均化长度针对相对很低的声 输入信号104的信噪比相对很高,以及使得平均化长度针对相对很高的声 输入信号104的信噪比相对很低。

参数估计器606可被配置为基于所提及的时间平均化来提供波达方 向参数作为空间参数102。如上所述,波达方向参数可在可 控参数估计器606中(例如,在参数估计器606的方向估计器610中)针 对各频率子带k和时隙n被确定为有效声音强度矢量Ia(k,n)的相反方向。 参数估计器606因此可包括能量分析器612,以对声输入信号104执行能 量分析来确定针对各频率子带k和各时隙n的有效声音强度矢量Ia(k,n)。 例如,方向估计器610可对为多个时隙n上的频率子带k所确定的有效强 度矢量Ia(k,n)执行时间平均化。换言之,方向估计器610可针对一个频率 子带k和多个(之前)时隙执行强度参数Ia(k,n)的时间平均化,以计算关 于频率子带k和时隙n的波达方向参数根据本发明的其他实施方 式,方向估计器610也可(例如,取代强度参数Ia(k,n)的时间平均化)对 为频率子带k和多个(之前)时隙所确定的多个波达方向参数执行 时间平均化。时间平均化的平均化长度因此与用于执行时间平均化的强度 参数的数目或波达方向参数的数目相对应。换言之,参数估计器606可被 配置为将时间平均化应用于针对多个时隙和频率子带k的强度参数Ia(k,n) 的子集或者针对多个时隙和频率子带k的波达方向参数的子集。用 于时间平均化的强度参数子集中的强度参数的数目或波达方向参数子集 中的波达方向参数的数目对应于时间平均化的平均化长度。可控参数估计 器606被配置为调整用于计算时间平均化的子集中的强度参数的数目或波 达方向参数的数目,使得强度参数子集中的强度参数的数目或波达方向参 数子集中的波达方向参数的数目针对相对很高的声输入信号104的信噪比 相对很低,以及使得强度参数的数目或波达方向参数的数目针对相对很低 的声输入信号104的信噪比相对很高。

换言之,本发明的实施方式提供了定向音频编码方向估计,该定向音 频编码方向估计基于声输入信号或声输入信号104的信噪比。

一般地,根据基于图2的定向音频编码器200定义的所估计声音方向 (或波达方向参数)的准确度受噪声影响,噪声总是存在于 声输入信号内。

噪声对估计准确度的影响取决于SNR,即取决于到达(麦克风)阵 列的声音的信号能量与噪声能量之间的比。小SNR显著降低了方向的估计准确度。噪声信号通常由测量设备(例如,麦克风和麦克风放大器) 引入,并导致误差。已发现尽管方向具有低估计或过估计的 同等概率,但的期望仍正确。

已发现例如通过重复几次测量获得波达方向参数的几次独立 估计,噪声影响可被降低,且因此,通过在几个测量实例上平均化波达方 向参数可增大方向估计的准确度。有效地,平均化处理增大了估计 器的信噪比。麦克风处(或者一般在声音记录装置处)信噪比越小,或者 估计器中所需的目标信噪比越高,平均化处理中可能需要的测量实例的数 目就越高。

图6所示的空间编码器600根据声输入信号104的信噪比来执行该平 均化处理。或者换言之,空间音频处理器600示出了用于通过考虑声输入 处或者声输入信号104的SNR来改善定向音频编码中方向估计的概念。

在利用方向估计器610估计方向之前,利用信号特性确定器 608的信噪比估计器614来确定声输入信号104或声输入信号的信噪比。 例如,可在STFT域中针对各时间块n和频带k来估计信噪比。关于声输 入信号104的实际信噪比的信息作为所确定的信号特性110从信噪比估计 器614被提供给方向估计器610,方向估计器610包括用于提高信噪比的 特定定向音频编码信号的频率和时间相关时间平均化。此外,所需的目标 信噪比可被传送至方向估计器610。例如,可由用户来外部定义所需的目 标信噪比。方向估计器610可调整时间平均化的平均化长度,使得在可控 参数估计器606的输出处获得的声输入信号104的信噪比(平均化之后) 与所需信噪比相匹配。或者换言之,执行平均化(在方向估计器610中), 直至获得所需的目标信噪比。

方向估计器610可连续比较所获得的声输入信号104的信噪比与目标 信噪比,且可执行平均化,直至获得所需的目标信噪比。使用这一概念, 连续监测所获得的声输入信号104的信噪比,且当所获得的声输入信号 104的信噪比与目标信噪比相匹配时平均化结束,因此,无需预先计算平 均化长度。

此外,方向估计器610可基于在可控参数估计器606的输入处的声输 入信号104的信噪比来确定用于声输入信号104的信噪比的平均化的平均 化长度,使得在可控参数估计器606的输出处获得的声输入信号104的信 噪比与目标信噪比相匹配。因此,使用这一概念,未连续监测所获得的声 输入信号104的信噪比。

由用于上述方向估计器610的两个概念产生的结果是相同的:在空间 参数102的估计期间,尽管(在可控参数估计器606的输入处)声输入信 号104的当前信噪比很差,但我们可将空间参数102的精度实现为就像声 输入信号104具有目标信噪比一样。

声输入信号104的信噪比相比目标信噪比越小,时间平均化越长。例 如,方向估计器610的输出为估计即具有增大的准确度的波达方 向参数如上所述,存在平均化定向音频编码信号的不同可能性: 由方程1提供的平均化针对一个频率子带k和多个时隙的有效声音强度矢 量Ia(k,n),或者直接平均化之前已定义为有效声音强度矢量Ia(k,n)沿时 间的相反方向的估计方向(波达方向参数)。

空间音频处理器600也可以类似方式应用于空间音频麦克风方向分 析。可通过平均化几个测量实例的结果来增大方向估计的准确度。这意味 着与图6中的DirAC相似,通过首先确定声输入信号104的SNR来改善 SAM估计器。关于实际SNR和所需目标SNR的信息被传送至SAM的方 向估计器,该方向估计器包括用于提高SNR的特定SAM信号的频率和时 间相关时间平均化。执行平均化,直至获得所需目标SNR。事实上,可平 均化两个SAM信号,即估计方向或在方程5a和方程5b中定义的 PSD和CSD。后者平均化简单意味着,通过长度取决于实际和所需(目标) SNR的平均化处理来近似期望算子。尽管根据图7b针对DirAC说明估计 方向的平均化,但针对SAM同样成立。

根据本发明的又一实施方式(其随后将利用图8说明),代替利用这 两种方法来明确平均化物理量,可以切换所使用的滤波器组,因为该滤波 器组可包括输入信号的固有平均化。下文中,将使用图7a和图7b更详细 说明所提及的用于平均化定向音频编码信号的两个方法。图8中示出了利 用空间音频处理器来切换滤波器组的替代方法。

根据图7a的定向音频编码中有效声音强度矢量的平均化

图7a以示意性框图示出了图6中信噪比相关方向估计器610的第一 可行实现。图7a所示的实现基于通过方向估计器610a的声学声音强度或 声音强度参数Ia(k,n)的时间平均化。方向估计器610a的功能可与根据图6 的方向估计器610的功能相似,其中,方向估计器610a可包括下文中描 述的附加特征。

方向估计器610a被配置为执行平均化和方向估计。方向估计器610a 连接至根据图6的能量分析器612,具有能量分析器612的方向估计器610 可构成可控参数估计器606a,可控参数估计器606a的功能与图6所示的 可控参数估计器606的功能相似。可控参数估计器606a首先使用如上所 说明的方程1从声输入信号104或声输入信号确定使用能量分析器612的 能量分析中的有效声音强度矢量706(Ia(k,n))。在执行平均化的方向估计 器610a的平均化块702中,该矢量(声音强度矢量706)沿时间n独立针 对所有(或者至少一部分)频带或频率子带k来平均化,这根据以下方程 产生平均化声强度矢量708(Iavg(k,n)):

Iavg(k,n)=<Ia(k,n)>n。                        (13)

为执行平均化,方向估计器610a考虑过去强度估计。到平均化块702 的一个输入是声输入104或声输入信号104的实际信噪比710,该实际信 噪比利用图6所示的信噪比估计器614来确定。声输入信号104的实际信 噪比710构成了所确定的声输入信号104的信号特性110。在短时频域中 针对各频率子带k和各时隙n来确定信噪比。到平均化块702的第二输入 是应当在可控参数估计器606a的输出处获得的所需信噪比或目标信噪比 712,即目标信噪比。目标信噪比712是例如由用户给定的外部输入。平 均化块702平均化强度矢量706(Ia(k,n)),直至获得目标信噪比712。基 于平均化(声)强度矢量708(Iavg(k,n)),最终声音方向可使用执 行方向估计的方向估计器610a的方向估计块704来计算,如上所述。波 达方向参数构成了由可控参数估计器606a确定的空间参数102。方 向估计器610a可将针对各频率子带k和时隙n的波达方向参数确 定为相应频率子带k和相应时隙n的平均化声音强度矢量708(Iavg(k,n)) 的相反方向。

根据所需目标信噪比712,可控参数估计器610a可改变对于声音强 度参数706(Ia(k,n))平均化的平均化长度,使得可控参数估计器606a输 出处的信噪比与目标信噪比712相匹配(或相等)。通常,可控参数估计 器610a可针对声输入信号104的实际信噪比710与目标信噪比712之间 的相对很高的差来选择相对很长的平均化长度。针对声输入信号104的实 际信噪比710与目标信噪比712之间的相对很低的差,可控参数估计器 610a将选择相对很短的平均化长度。

或者换言之,方向估计器606a基于平均化声强度参数的声强度。

根据图7b直接平均化定向音频编码方向参数

图7b示出了可控参数估计器606b的示意性框图,可控参数估计器 606b的功能可与图6所示的可控参数估计器606的功能相似。可控参数估 计器606b包括能量分析器612以及被配置为执行方向估计和平均化的方 向估计器610b。方向估计器610b与方向估计器610a的不同之处在于,方 向估计器610b首先执行方向估计以确定针对各频率子带k和各时隙n的 波达方向参数718并随后对所确定的波达方向参数718执行平 均化以确定针对各频率子带k和各时隙n的平均化波达方向参数平均化波达方向参数构成了由可控参数估计器606b确定的空 间参数102。

换言之,图7b示出了图6所示的信噪比相关方向估计器610的另一 可行实现。图7b所示实现基于估计方向(波达方向参数718) 的时间平均化,估计方向可利用常规音频编码方法例如针对各频率子带k 和各时隙n来获得,并作为有效声音强度矢量706(Ia(k,n))的相反方向。

根据声输入或声输入信号104,使用能量分析器612来执行能量分析, 并随后例如利用上文说明的常规定向音频编码方法,在执行方向估计的方 向估计器610b的方向估计块714中确定声音方向(波达方向参数718)。随后在方向估计器610b的平均化块716中,对该方向(对波达方 向参数718)实施时间平均化。如上所述,沿时间并针对所有(或 者至少一部分)频带或频率子带k执行平均化,该平均化产生平均化方向

针对各频率子带k和各时隙n的平均化方向构成了由可控参 数估计器606b确定的空间参数102。

如上所述,到平均化块716的输入是声输入或声输入信号104的实际 信噪比710以及应在可控参数估计器606b输出处获得的目标信噪比712。 例如在STFT域中,针对各频率子带k和各时隙n来确定实际信噪比710。 在足够数量的时间块(或时隙)上执行平均化716,直至获得目标信噪比 712。最终结果是具有增大的准确度的时间平均化方向

总之,信号特性确定器608被配置为提供声输入信号104的信噪比 710,作为针对声输入信号104的频率子带k和时隙n的多个信噪比参数。 可控参数估计器606a、606b被配置为接收目标信噪比712,作为针对频率 子带k和时隙n的多个目标信噪比参数。可控参数估计器606a、606b还 被配置为根据声输入信号的当前信噪比参数导出时间平均化的平均化长 度,使得当前(平均化)波达方向参数的当前信噪比参数与当前 目标信噪比参数相匹配。

可控参数估计器606a、606b被配置为导出针对声输入信号104的各 频率子带k和各时隙n的强度参数Ia(k,n)。此外,可控参数估计器606a、 606b被配置为基于由可控参数估计器606a、606b确定的声音频信号的强 度参数Ia(k,n)导出针对声输入信号104的各频率子带k和各时隙n的波达 方向参数可控参数估计器606a、606b还被配置为基于所导出的 声输入信号104的强度参数的至少一个子集的时间平均化或者基于所导出 的波达方向参数的至少一个子集的时间平均化来导出针对当前频率子带 和当前时隙的当前波达方向参数

可控参数估计器606a、606b被配置为例如在STFT域中导出针对各 频率子带k和各时隙n的强度参数Ia(k,n),此外,可控参数估计器606a、 606b被配置为例如在STFT域中导出针对各频率子带k和各时隙n的波达 方向参数可控参数估计器606a被配置为选择强度参数子集来执 行时间平均化,使得与强度参数子集中的所有强度参数相关的频率子信道 等于与当前波达方向参数相关的当前频率子带。可控参数估计器606b被 配置为选择波达方向参数子集来执行时间平均化716,使得与波达方向参 数子集中的所有波达方向参数相关的频率子信道等于与当前波达方向参 数相关的当前频率子信道。

此外,可控参数估计器606a被配置为选择强度参数子集,使得与强 度参数子集中的强度参数相关的时隙时间上相邻。可控参数估计器606b 被配置为选择波达方向参数子集,使得与波达方向参数子集中的波达方向 参数相关的时隙时间上相邻。强度参数子集中的强度参数数目或波达方向 参数子集中的波达方向参数数目对应于时间平均化的平均化长度。可控参 数估计器606a被配置为根据声输入信号104的当前信噪比与当前目标信 噪比之间的差来导出用于执行时间平均化的强度参数子集中的强度参数 数目。可控参数估计器606b被配置为基于声输入信号104的当前信噪比 与当前目标信噪比之间的差来导出用于执行时间平均化的波达方向参数 子集中的波达方向参数数目。

或者换言之,方向估计器606b基于平均化利用常规定向音频编码方 法获得的方向718

下文中,将描述空间音频处理器的另一实现,该实现也执行信噪比相 关参数估计。

在使用根据图8的音频编码器的定向音频编码中使用具有适当频时 分辨率的滤波器组

图8示出了空间音频处理器800,其包括可控参数估计器806和信号 特性确定器808。定向音频编码器800的功能可与定向音频编码器100的 功能相似。定向音频编码器800可包括下文中描述的附加特征。可控参数 估计器806的功能可与可控参数估计器106的功能相似,以及信号特性确 定器808的功能可与信号特性确定器108的功能相似。可控参数估计器806 和信号特性确定器808可包括下文中描述的附加特征。

信号特性确定器808与信号特性确定器608的不同之处在于,信号特 性确定器808确定声输入信号104的信噪比810,该信噪比810在时域中 而非STFT域中也被称为输入信噪比。声输入信号104的信噪比810构成 了由信号特性确定器808确定的信号特性。可控参数估计器806与图6所 示的可控参数估计器606的不同之处在于,可控参数估计器806包括B格 式估计器812,该B格式估计器812包括滤波器组814和B格式计算块 816,B格式计算块816被配置为将时域中的声输入信号104变换为例如 STFT域中的B格式表示。

此外,B格式估计器812被配置为基于由信号特性确定器808确定的 信号特性,或者换言之,根据时域中声输入信号104的信噪比810来改变 声输入信号104的B格式确定。

B格式估计器812的输出是声输入信号104的B格式表示818。B格 式表示818包括全方位分量(例如,上述声压矢量P(k,n))和定向分量(例 如,上述针对各频率子带k和各时隙n的声音速度矢量U(k,n))。

可控参数估计器806的方向估计器820导出针对各频率子带k和各时 隙n的声输入信号104的波达方向参数波达方向参数构成 了由可控参数估计器806确定的空间参数102。方向估计器820可通过确 定针对各频率子带k和各时隙n的有效强度参数Ia(k,n)以及通过基于有效 强度参数Ia(k,n)导出波达方向参数来执行方向估计。

B格式估计器812的滤波器组814被配置为接收声输入信号104的实 际信噪比810,以及接收目标信噪比822。可控参数估计器806被配置为 根据声输入信号104的实际信噪比810与目标信噪比822之间的差来改变 滤波器组814的块长度。滤波器组814的输出是声输入信号104的频率表 示(例如,在STFT域中),基于该频率表示,B格式计算块816计算声输 入信号104的B格式表示818。换言之,根据所确定的声输入信号104的 实际信噪比810以及根据目标信噪比822,可由滤波器组814执行声输入 信号104从时域向频率表示的转换。简言之,可由B格式计算块816根据 所确定的实际信噪比810和目标信噪比822来执行B格式计算。

换言之,信号特性确定器808被配置为确定时域中声输入信号104 的信噪比810。可控参数估计器806包括滤波器组814,以将声输入信号 104从时域转换为频率表示。可控参数估计器806被配置为根据所确定的 声输入信号104的信噪比810来改变滤波器组814的块长度。可控参数估 计器806被配置为接收目标信噪比812并改变滤波器组814的块长度,使 得频域中声输入信号104的信噪比与目标信噪比824相匹配,或者换言之, 使得声输入信号104的频率表示824的信噪比与目标信噪比822相匹配。

图8所示可控参数估计器806也可被理解为图6所示信噪比相关方向 估计器610的另一实现。图8所示实现基于选择滤波器组814的适当频时 分辨率。如上所述,定向音频编码在STFT域中操作。因此,例如利用麦 克风测量的时域中的声输入信号或声输入信号104使用例如短时傅里叶变 换或任何其他滤波器组来变换。B格式估计器812随后提供声输入信号104 的短时频率表示818,或者换言之,提供如分别由声压P(k,n)和特定速度 矢量U(k,n)表示的B格式信号。对时域声输入信号(对时域中的声输入 信号104)施加滤波器组814来固有地平均化所变换的信号(声输入信号 104的短时频率表示824),而平均化长度对应于滤波器组814的变换长度 (或块长度)。结合空间音频处理器800描述的平均化方法利用了输入信 号的该固有时间平均化。

使用滤波器组814,可利用麦克风测量的声输入或声输入信号104被 变换为短时频域。变换长度或滤波器长度或者块长度由声输入信号104或 声输入信号的实际输入信噪比810以及应通过平均化处理获得的所需目标 信噪比822来控制。换言之,期望在滤波器组814中执行平均化,使得声 输入信号104的时频表示824的信噪比与目标信噪比822相匹配或相等。 从时域中的声输入信号104或声输入信号来确定信噪比。在高输入信噪比 810的情况下,选择较短变换长度,且反之亦然,针对低输入信噪比810, 选择较长变换长度。如前节所述,声输入信号104的输入信噪比810由信 号特性确定器808的信噪比估计器来提供,而例如可由用户外部控制目标 信噪比822。滤波器组814的输出以及随后由B格式计算块816执行的B 格式计算例如是在STFT域中的声输入信号818,即P(k,n)和/或U(k,n)。 这些信号(STFT域中的声输入信号818)例如利用方向估计器820中的 常规定向音频编码处理来进一步处理,以获得针对各频率子带k和各时隙 n的方向

或者换言之,空间音频处理器800或方向估计器基于选择针对声输入 信号104或针对声输入信号的适当滤波器组。

简言之,信号特性确定器808被配置为确定时域中声输入信号104 的信噪比810。可控参数估计器806包括滤波器组814,该滤波器组814 被配置为将声输入信号104从时域转换为频率表示。可控参数估计器806 被配置为根据所确定的声输入信号104的信噪比810来改变滤波器组814 的块长度。此外,可控参数估计器806被配置为接收目标信噪比822并改 变滤波器组814的块长度,使得频率表示中的声输入信号824的信噪比与 目标信噪比822相匹配。

由信号特性确定器608、808执行的信噪比估计是众所周知问题。下 文中,将描述信噪比估计器的可行实施。

SNR估计器的可行实施

下文中,将描述图600中的输入信噪比估计器614的可行实施。下文 中描述的信噪比估计器可被用于图7a和图7b所示的可控参数估计器606a 和可控参数估计器606b。信噪比估计器估计例如STFT域中声输入信号 104的信噪比。可以类似方式实现时域实施(例如,在信号特性确定器808 中实施)。

SNR估计器可估计例如STFT域中针对各时间块n和频带k或者针对 时域信号的声输入信号的SNR。通过计算针对所考虑时频段的信号功率来 估计SNR。令x(k,n)为声输入信号。可利用方程(15)来确定信号功率 S(k,n),

S(k,n)=|x(k,n)|2。                            (15)

为获得SNR,计算信号功率与噪声功率N(k)之间的比值,即,

SNR=S(k,n)/N(k)。

由于S(k,n)已包括噪声,所以在低SNR情况下,更准确的SNR估计器由 方程(16)给出

SNR=(S(k,n)-N(k))/N(k)。                       (16)

噪声功率信号N(k)被假设为沿时间n恒定。它可针对每个k从声输入确定。 事实上,在不存在声音的情况下,即在无声期间,噪声功率信号N(k)等于 声输入信号的平均功率。以数学方式表示,

N(k)=<|x(k,n)|2>n,无声期间测量x(k,n)。                (17)

换言之,根据本发明的一些实施方式,信号特性确定器被配置为在声 输入信号104的无声阶段期间测量噪声信号,并计算噪声信号的功率N(k)。 信号特性确定器还可被配置为在声输入信号104的非无声阶段期间测量有 效信号,并计算有效信号的功率S(k,n)。信号特性确定器还可被配置为基 于所计算的噪声信号功率N(k)和所计算的有效信号功率S(k,n)来确定声 输入信号104的信噪比。

该方案也可被应用于信号特性确定器808,而差异在于,信号特性确 定器808确定时域中有效信号的功率S(t),并确定时域中噪声信号的功率 N(t),以获得时域中声输入信号104的实际信噪比。

换言之,信号特性确定器608、808被配置为在声输入信号104的无 声阶段期间测量噪声信号,并计算噪声信号的功率N(k)。信号特性确定器 608、808被配置为在声输入信号104的非无声阶段期间测量有效信号,并 计算有效信号的功率S(k,n)。此外,信号特性确定器608、808被配置为 基于所计算的噪声信号功率N(k)和所计算的有效信号功率S(k)来确定声 输入信号104的信噪比。

下文中,将描述执行掌声相关参数估计的本发明的另一实施方式。

使用根据图9的空间音频处理器的掌声相关参数估计

图9示出了根据本发明实施方式的空间音频处理器900的示意性框 图。空间音频处理器900的功能可与空间音频处理器100的功能相似,且 空间音频处理器900可包括下文中描述的附加特征。空间音频处理器900 包括可控参数估计器906和信号特性确定器908。可控参数估计器906的 功能可与可控参数估计器106的功能相似,且可控参数估计器906可包括 下文中描述的附加特征。信号特性确定器908的功能可与信号特性确定器 108的功能相似,且信号特性确定器908可包括下文中描述的附加特征。

信号特性确定器908被配置为确定声输入信号104是否包括瞬变分 量,该瞬变分量对应于例如使用掌声检测器910的类似掌声信号。

类似掌声信号本文中被定义为包括例如具有不同方向的快速瞬变时 间序列的信号。

可控参数估计器906包括滤波器组912,该滤波器组912被配置为基 于转换计算规则将声输入信号104从时域转换为频率表示(例如,STFT 域)。可控参数估计器906被配置为根据由信号特性确定器908执行的信 号特性确定的结果从多个转换计算规则中选择用于将声输入信号104从时 域转换为频率表示的转换计算规则。信号特性确定的结果构成了信号特性 确定器908所确定的信号特性110。可控参数估计器906从多个转换计算 规则中选择转换计算规则,使得当声输入信号包括与掌声相对应的分量 时,从多个转换计算规则中选择用于将声输入信号104从时域转换为频率 表示的第一转换计算规则,以及使得当声输入信号104不包括与掌声相对 应的分量时,从多个转换计算规则中选择用于将声输入信号104从时域转 换为频率表示的第二转换计算规则。

或者换言之,可控参数估计器906被配置为根据掌声检测来选择用于 将声输入信号104从时域转换为频率表示的适当转换计算规则。

简言之,空间音频处理器900被示出为根据声输入信号或声输入信号 104的特性来确定声场的参数化描述的本发明的示例性实施方式。在麦克 风捕捉到掌声或者声输入信号104包括与类似掌声信号相对应的分量的情 况下,使用特殊处理以增大参数估计的准确度。

掌声通常由声音波达方向在非常短的时间段内的快速变化来表征。此 外,捕捉的声音信号主要包括瞬变。已发现对于准确声音分析,采用可解 决波达方向的快速时间变化并可保留信号分量的瞬变特性的系统是有利 的。

可通过使用具有高时间分辨率的滤波器组(例如,具有短变换或短块 长度的STFT)来变换时域声输入信号来实现这些目标。当使用该滤波器 组时,系统的频谱分辨率将降低。这对掌声信号没问题,因为由于声音的 瞬变特性,声音DOA沿频率不会改变太多。然而,已发现小频谱分辨率 针对其他信号(诸如双向通话情况下的讲话)有问题,其中,特定频谱分 辨率需要能够区分各个谈话者。已发现准确参数估计可能需要根据声输入 信号或声输入信号104的特性的滤波器组(或者滤波器组的相应变换或块 长度)的信号相关切换。

图9所示空间编码器900表示执行滤波器组912的信号相关切换或者 选择滤波器组912的转换计算规则的可行实现。在利用滤波器组912将声 输入信号或声输入信号104变换为频率表示(例如,STFT域)之前,输 入信号或输入信号104被传送给信号特性确定器908的掌声检测器910。 声输入信号104在时域中被传送给掌声检测器910。信号特性确定器908 的掌声检测器910基于所确定的信号特性110来控制滤波器组912(在该 情况下,控制声输入信号104是否包括与类似掌声信号相对应的分量)。 若在声输入信号或在声输入信号104中检测到掌声,则可控参数估计器 900切换滤波器组,或者换言之,在滤波器组912中选择适用于掌声分析 的转换计算规则。在不存在掌声的情况下,使用例如可从定性音频编码器 200知晓的常规滤波器组,或者换言之,常规转换计算规则。在将声输入 信号104变换为STFT域(或者另一频率表示)之后,可执行常规定向音 频编码处理(使用可控参数估计器906的B格式计算块914和参数估计块 916)。换言之,可使用根据图2所示的定向音频编码器200所述的B格式 计算块914和参数估计块916来执行定向音频编码参数的确定,该定向音 频编码参数构成了由空间音频处理器900确定的空间参数102。例如,结 果是定向音频编码参数,即方向和扩散度Ψ(k,n)。

或者换言之,空间音频处理器900提供以下概念:在掌声信号或类似 掌声信号的情况下,通过切换滤波器组来改善定向音频编码参数的估计。

简言之,可控参数估计器906被配置为使得第一转换计算规则对应于 比第二转换计算规则更高的频率表示的声输入信号的时间分辨率,以及使 得第二转换计算规则对应于比第一转换计算规则更高的频率表示的声输 入信号的频谱分辨率。

信号特性确定器908的掌声检测器910例如可基于例如由用户生成的 元数据来确定声输入信号104是否包括类似掌声信号。

图9所示空间音频处理器900也可以类似方式应用于SAM分析,而 差异在于,现在SAM的滤波器组由信号特性确定器908的掌声检测器910 来控制。

在本发明的又一实施方式中,可控参数估计器可根据所确定的信号特 性使用不同参数估计策略来确定空间参数,使得针对各参数估计策略,可 控参数估计器确定声输入信号的空间参数集合。可控参数估计器还可被配 置为根据所确定的信号特性从所确定的空间参数集合中选择一个空间参 数集合,作为声输入信号的空间参数,且因此作为估计处理的结果。例如, 第一可变空间参数计算规则可包括:针对各参数估计策略确定声输入信号 的空间参数,并选择利用第一参数估计策略确定的空间参数集合。第二可 变空间参数计算规则可包括:针对各参数估计策略确定声输入信号的空间 参数,并选择利用第二参数估计策略确定的空间参数集合。

图10示出了根据本发明实施方式的方法1000的流程图。

用于基于声输入信号来提供空间参数的方法1000包括确定声输入信 号的信号特性的步骤1010。

方法1000还包括根据所确定的信号特性来修改可变空间参数计算规 则的步骤1020。

方法1000还包括根据可变空间参数计算规则来计算声输入信号的空 间参数的步骤1030。

本发明的实施方式涉及基于声输入信号(即,麦克风信号)的特性来 控制空间声音表示系统中的参数估计策略的方法。

下文中,将总结本发明实施方式的一些方面。

本发明的至少一些实施方式被配置为接收声学多信道音频信号,即麦 克风信号。根据声输入信号,本发明的实施方式可确定特定信号特性。基 于信号特性,本发明的实施方式可选择最合适信号模型。随后,信号模型 可控制参数估计策略。基于所控制或所选定的参数估计策略,本发明的实 施方式可估计针对给定声输入信号的最合适空间参数。

参数化声场描述的估计依赖于对声输入信号的特定假设。然而,该输 入可能表现出显著的时间变化,且因此,通用时间不变模型往往不足。在 参数化编码中,通过先验识别信号特性并随后以时变方式选择最佳编码策 略来解决该问题。本发明的实施方式并非先验而是连续地例如模块化确定 例如针对频率子带和时隙或者针对频率子带子集和/或时隙子集的声输入 信号的信号特性。本发明的实施方式可将该策略应用于针对参数化空间音 频处理和/或空间音频编码(诸如定向音频编码(DirAC)或空间音频麦克 风(SAM))的声学前端。

本发明的实施方式的想法是基于麦克风信号或其他声输入信号在参 数化空间音频编码中针对参数估计使用时变信号相关数据处理策略。

本发明实施方式的描述主要集中于定向音频编码中的参数估计,然 而,所提出的概念也可适用于其他参数化方法,诸如空间音频麦克风。

本发明的实施方式提供了基于声输入信号的针对空间声音的信号自 适应参数估计。

已描述了本发明的不同实施方式。本发明的一些实施方式根据输入信 号的稳定间隔来执行参数估计。本发明的其他实施方式根据双向通话情况 来执行参数估计。本发明的其他实施方式根据输入信号的信噪比来执行参 数估计。本发明的其他实施方式根据输入信噪比基于声音强度矢量的平均 化来执行参数估计。本发明的其他实施方式根据输入信噪比基于所估计的 方向参数的平均化来执行参数估计。本发明的其他实施方式根据输入信噪 比通过选择适当滤波器组或适当转换计算规则来执行参数估计。本发明的 其他实施方式根据声输入信号的音调来执行参数估计。本发明的其他实施 方式根据类似掌声信号来执行参数估计。

空间音频处理器一般可以是处理空间音频并生成或处理参数化信息 的装置。

替代实施

尽管已在装置背景下描述了一些方面,但显然这些方面也表示相应方 法的描述,其中,块或器件对应于方法步骤或方法步骤的特征。类似地, 在方法步骤背景下描述的方面也表示相应装置的相应块或项目或者特征 的描述。方法步骤中的一些或者全部可由(或者使用)硬件装置(例如, 微处理器、可编程计算机或电子电路)来执行。在一些实施方式中,最重 要方法步骤中的一个或多个步骤可由这一装置来执行。

根据特定实施要求,本发明的实施方式可以硬件或软件来实施。可使 用具有存储其上的电可读控制信号的数字存储介质(例如,软盘、DVD、 蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实施,电 可读控制信号与可编程计算机系统协作(或者能够协作),从而执行相应 方法。因此,数字存储介质可以是计算机可读的。

根据本发明的一些实施方式包括具有电可读控制信号的数据载体,电 可读控制信号能够与可编程计算机系统协作,从而执行本文所述方法之 一。

一般地,本发明的实施方式可被实施为具有程序代码的计算机程序产 品,当计算机程序产品在计算机上运行时,程序代码可操作地用于执行方 法之一。程序代码例如可被存储在机器可读载体上。

其他实施方式包括存储在机器可读载体上用于执行本文所述方法之 一的计算机程序。

换言之,本发明方法的实施方式因此是具有计算机代码的计算机程 序,当计算机程序在计算机上运行时,该程序代码用于执行本文所述方法 之一。

因此,本发明方法的又一实施方式因此是数据载体(或数字存储介质, 或者计算机可读介质),该数据载体包括记录其上的用于执行本文所述方 法之一的计算机程序。

因此,本发明的又一实施方式是表示用于执行本文所述方法之一的计 算机程序的数据流或信号序列。数据流或信号序列例如可被配置为经由数 据通信连接(例如,经由互联网)来传输。

又一实施方式包括处理装置,例如,计算机或可编程逻辑器件,该处 理装置被配置为或自适应地执行本文所述方法之一。

又一实施方式包括计算机,其具有安装其上的用于执行本文所述方法 之一的计算机程序。

在一些实施方式中,可编程逻辑器件(例如,现场可编程门阵列)可 被用于执行本文所述方法的一些功能或全部功能。在一些实施方式中,现 场可编程门阵列可与微处理器协作,以执行本文所述方法之一。一般地, 该方法优选由任何硬件装置来执行。

上述实施方式仅是对本发明的原理进行说明。应当理解,本文所述的 配置和细节的修改和变形对于本领域技术人员而言将是显而易见的。因 此,本发明的意图仅由所附专利权利要求来限定,而不通过以本文实施方 式的描述和说明的方式呈现的具体细节来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号