首页> 中国专利> 用于从下混信号和空间参数信息提取直接/周围信号的装置及方法

用于从下混信号和空间参数信息提取直接/周围信号的装置及方法

摘要

一种用于从下混信号和空间参数信息提取直接/周围信号的装置,该下混信号及该空间参数信息表示比该下混信号具有更多声道的多声道音频信号,其中,该空间参数信息包含该多声道音频信号的声道间关系式。该装置包含直接/周围估算器及直接/周围提取器。该直接/周围估算器被构造为用于基于该空间参数信息估算该多声道音频信号的直接部分和/或周围部分的位准信息。该直接/周围提取器被构造为用于基于该直接部分或周围部分的位准信息而从该下混信号提取直接信号部分和/或周围信号部分。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-03-09

    授权

    授权

  • 2015-12-30

    著录事项变更 IPC(主分类):G10L19/00 变更前: 变更后: 申请日:20110111

    著录事项变更

  • 2013-01-23

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20110111

    实质审查的生效

  • 2012-11-28

    公开

    公开

说明书

技术领域

本发明涉及音频信号处理,并且更明确地,涉及从下混信号和空间参 数信息提取直接/周围信号的一种装置及方法。本发明的其他实施例涉及利 用直接/周围分离用于提升音频信号的双耳再现。又一些实施例涉及多声道 声音的双耳再现,其中,多声道音频表示具有二个或多个声道的音频。具 有多声道声音的典型音频内容为电影声轨及多声道音乐记录。

背景技术

人类空间听觉系统倾向于粗略地以两部分处理声音。一方面为可局限 化部分或直接部分,而另一方面为非可局限化部分或周围部分。存在许多 音频处理应用,诸如双耳声音再现及多声道上混,其中,期望存取这二个 音频组分。

在本领域中,已知一种直接/周围分离方法,例如在“用于空间音频编 码及增强的一次周围信号分解及基于向量的局限化”,Goodwin,Jot,IEEE 国际声学、语音及信号处理会议,2007年4月;“从立体声记录的基于相 关性的周围抽取”,Merimaa,Goodwin,Jot,AES第123期刊,纽约2007 年;“立体信号的多扬声器回放”,C.Faller,AES会议,2007年10月;“立 体音频信号使用复杂相似性指针的一次周围分解”,Goodwin等人,公告 号码:US2009/0198356A1,2009年8月;“专利申请案名称:从立体信号 产生多声道音频信号之方法”,发明人:Christof Faller,代理人:FISH& RICHARDSON P.C.,受让人:LG电子公司,源自:美国明尼苏达州明尼 波里市,IPC8类别:AH04R500FI,USPC类别:3811;以及“立体信号 的周围产生”,Avendano et al.,发行日期:2009年7月28日,申请号: 10/163,158,申请日:2002年6月4日中所描述,这些方法可用于多项应 用。现有技术最先进的直接/周围分离算法则基于立体声于频带的频带间信 号比较。

此外,在“基于空间音频场景编码的双耳3-D音频呈现”,Goodwin,Jot, AES123届会议,纽约2007年,解决使用周围提取的双耳回放。关联双耳 再现的周围提取也在J.Usher及J.Benesty中叙述,“空间声音质量的提升: 新颖残响音频上混器”,IEEE音频、语音、语言处理会报,第15期第 2141-2150页2007年9月。后述报告聚焦在使用各声道的直接组分的适应 性最小均方交叉声道滤波而在立体麦克风记录的周围提取。空间音频编译 码器例如MPEG环绕,典型地由一或二声道音频串流组合空间侧边信息组 成,其将音频延伸入多个声道,如在ISO/IEC 23003-1-MPEG环绕中叙述 的那样;及Breebaart,J.,Herre,J.,Villemoes,L,,Jin,C.,Kjorling,K., Plogsties,J.,Koppens,J.(2006),“多声道进入行动装置:MPEG环绕双 耳呈现”,第29届AES会议议事录,韩国首尔。

但现代参数音频编码技术诸如MPEG环绕(MPS)及参数立体声(PS) 只提供较少数音频下混声道,在某些情况下,只提供一个声道连同额外空 间侧边信息。“原先”输入声道间的比较唯有在首次将声音解码成为期望 的输出格式后才有可能。

因此,要求从下混信号及空间参数信息提取直接信号部分或周围信号 部分的构想。但使用参数侧边信息作直接/周围提取并非既有的解决之道。

因此本发明的目的是提供一种通过使用空间参数信息而从下混信号 提取直接信号部分或周围信号部分的构想。

该目的可通过权利要求1所述的装置、根据权利要求15所述的方法、 或根据权利要求16所述的计算机程序来实现。

发明内容

基于本发明的基本观念是当基于该空间参数信息而估算多声道音频 信号的直接部分或周围部分的位准信息(level information,电平信息)并 基于该估算的位准信息而从下混信号提取直接信号部分或周围信号部分 时,可实现前述的直接/周围提取。此处,该下混信号及该空间参数信息表 示该具有比下混信号更多声道的多声道音频信号。此种解决办法允许通过 使用空间参数侧边信息而从具有一或多个输入声道的下混信号进行直接 和/或周围提取。

根据本发明的一实施例,一种用于从下混信号及空间参数信息提取直 接和/或周围信号的装置包含直接/周围估算器及直接/周围提取器 (direct/ambience estimator)。该下混信号及该空间参数信息表示比该下混 信号具有更多声道的多声道音频信号。此外,该空间参数信息包含该多声 道音频信号的声道间关系式。该直接/周围估算器被构造为用于基于该空间 参数信息而估算该多声道音频信号的直接部分或周围部分的位准信息。该 直接/周围提取器被构造为用于基于该直接部分或该周围部分的该估算得 到的位准信息而从该下混信号提取该直接信号部分或该周围信号部分。

根据本发明的另一实施例,一种用于从下混信号及空间参数信息提取 直接和/或周围信号的装置包含双耳直接声音呈现装置(binarural direct  sound rendering device)、双耳周围声音呈现装置及组合器。该双耳直接声 音呈现装置被构造为用于处理该直接信号部分来获得一第一双耳输出信 号。该双耳周围声音呈现装置被构造为用于处理该周围信号部分来获得一 第二双耳输出信号。该组合器被构造为用于组合该第一双耳输出信号及第 二双耳输出信号来获得一经组合的双耳输出信号。因此,可提供一音频信 号的双耳再现,其中,该音频信号的直接信号部分及周围信号部分被分开 处理。

附图说明

图1示出了用于从下混信号及表示多声道音频信号的空间参数信息提 取直接/周围信号的一种装置的一实施例的框图;

图2示出了用于从单声道下混信号及表示参数立体声音频信号的空间 参数信息提取直接/周围信号的一种装置的一实施例的框图;

图3a示出了根据本发明的一实施例的多声道音频信号的频谱分解的 示意说明图;

图3b示出了用于基于图3a的频谱分解而计算多声道音频信号的声道 间关系式的示意说明图;

图4示出了利用估算的位准信息下混的直接/周围提取器的实施例的 框图;

图5示出了通过施加增益参数至一下混信号的一直接/周围提取器的 又一实施例的框图;

图6示出了基于使用声道交混的最小均方(LMS)解的一直接/周围 提取器的又一实施例的框图;

图7a示出了使用立体声周围估算式的一种直接/周围估算器的实施例 的框图;

图7b示出了直接对总能比(direct-to-total energy ratio)相对于声道间 相干性的一实例的曲线图;

图8示出了根据本发明的一实施例的编码器/译码器系统的框图;

图9a示出了根据本发明的一实施例的双耳直接声音呈现的纵览的框 图;

图9b示出了图9a的双耳直接声音呈现的细节的框图;

图10a示出了根据本发明的一实施例的双耳周围声音呈现的纵览的框 图;

图10b示出了图10a的双耳周围声音呈现细节的双耳周围声音呈现细 节的框图;

图11示出了多声道音频信号的双耳再现的一实施例的构想框图;

图12示出了包括双耳再现的直接/周围提取的一实施例的总体框图;

图13a示出了用于在滤波器排组域(filterbank domain)中从单声道下 混信号提取一直接/周围信号的一种装置的一实施例的框图;

图13b示出了图13a的直接/周围提取块的一实施例的框图;以及

图14示出了根据本发明的又一实施例的MPEG环绕译码方案的一实 例的示意说明图。

具体实施方式

图1示出了用于从下混信号115及空间参数信息105提取直接/周围信 号125-1、125-2的装置100的一实施例的框图。如图1所示,下混信号 115及空间参数信息105表示比下混信号115具有更多声道Ch1…ChN的多 声道音频信号101。空间参数信息105可包含多声道音频信号101的声道 间关系式。更明确言之,装置100包含一直接/周围估算器110及一直接/ 周围提取器120。直接/周围估算器110可被构造为基于空间参数信息105 而估算该多声道音频信号101的直接部分或周围部分的位准信息113。直 接/周围提取器120可被构造为基于该估算的直接部分或周围部分的位准 信息(level information)113,而从该下混信号115提取直接信号部分125-1 或周围信号部分125-2。

图2示出了用于从一单声道下混信号215及表示参数立体声音频信号 201的空间参数信息105提取直接/周围信号125-1、125-2的装置的一实施 例的框图。图2的装置200大致上包含与图1的装置100相同的框。因此, 具有相同实现方式和/或功能的相同框系以相同组件符号标示。此外,图2 的参数立体声音频信号201可与图1的多声道音频信号101相对应,及图 2的单声道下混信号215可与图1的下混信号115相对应。在图2的实施 例中,单声道下混信号215及空间参数信息105表示参数立体声音频信号 201。参数立体声音频信号可包含以“L”指示的左声道及以“R”指示的 右声道。此处,直接/周围提取器120被构造为基于该估算的位准信息113, 而从该单声道下混信号215提取直接信号部分125-1或周围信号部分 125-2;该位准信息113可通过直接/周围估算器110的使用而从空间参数 信息105导算出。

实际上,图1或图2实施例中的空间参数(空间参数信息105)特别 是指MPEG环绕(MPS)或参数立体声(PS)侧边信息。该二项技术是 现有技术中的低位率立体声或环绕音频编码方法。参考图2,PS提供一个 具有空间参数的下混音频声道,并参考图1,MPS提供一个、二个或多个 具有空间参数的下混音频声道。

具体地,图1和图2的实施例清晰地示出了空间参数侧边信息105可 容易地用在从具有一或多个输入声道的一信号(也即下混信号115;215) 进行直接和/或周围提取的领域中。

直接和/或周围位准(位准信息113)的估算基于有关声道间关系或声 道间差值的信息,诸如位准差和/或相关性。这些值可从立体声或多声道信 号算出。图3a示出了用来计算各个Ch1…ChN的声道间关系的多声道音频 信号(Ch1…ChN)的频谱分解300的示意说明图。如图3a可知,多声道 音频信号(Ch1…ChN)的受检查的声道Chi或其余声道的线性组合R的频 谱分解,分别包含多个子频带301,其中,这些多个子频带301中的各个 子频带303沿着具有子频带值305的一横轴(时间轴310)延伸,如时间/ 频率网格的小框所指示的。此外,子频带303沿纵轴(频率轴320)连续 定位而与一滤波器排组的不同频率区域相对应。在图3a中,相应时间/频 率片(tile)或以虚线指示。此处,指数i表示声道Chi,而R表示 其余声道的线性组合,而指数n及k对应于某些滤波器排组时槽(filter bank  time slot)307和滤波器排组子频带303。基于这些时间/频率片(tile)或例如定位在相对于时间/频率轴310、320的相同时间/频率点(t0,f0), 如图3b所示,可在步骤330中求出声道间关系式335,诸如所检查的声道 Chi的声道间相干性(ICCi)或声道位准差(CLDi)。此处,声道间关系式 ICCi及CLDi的计算可通过使用下列关系式进行:

ICCi=<ChiR*><ChiChi*><RR*>

σi=<ChiChi*><RR*>

其中,Chi为所检查的声道,及R为其余声道的线性组合,而<…>表 示时间平均。其余声道的线性组合R的一例为它们的能量标准化和 (energy-normalized)。此外,声道位准差(CLDi)(channel level difference) 通常为参数σi的分贝值。

参考前述方程式,声道位准差(CLDi)或参数σi可与标准化至其余 声道的线性组合R的位准PR的声道Chi的位准Pi相对应。这里,位准Pi或PR可从声道Chi的声道间位准差参数ICLDi及其余声道的声道间位准差 参数ICLDj(j不等于i)的线性组合ICLDR中导算出。

这里,ICLDi及ICLDj分别与一参考声道Chref相关。在额外实施例中, 声道间位准差参数ICLDi及ICLDj也可与多声道音频信号(Ch1…ChN)的 属于参考声道Chref的任何其它声道相关。如此,最终将导致声道位准差 (CLDi)及参数σi的相同结果。

根据其它实施例,图3b的声道间关系式335也可通过在多声道音频 信号(Ch1…ChN)的不同或全部成对Chi、Chj输入声道上经运算而导算出。 此种情况下,可获得成对逐一计算的声道间相干性参数ICCi,j或声道位准 差(CLDi,j)或参数σij(或ICLDi,j),指数(i,j)分别表示某一对声道Chi及Chj

图4示出了一直接/周围提取器420的一实施例400的框图,其包括估 算的位准信息113的下混。图4的实施例大致上包含图1的实施例的相同 框。因此,具有类似实现方式和/或功能的相同框以相同的组件符号标示。 但对应于图1的直接/周围提取器120的图4的直接/周围提取器420被构 造为将多声道音频信号的直接部分或周围部分的估算得的位准信息113下 混,以获得该直接部分或周围部分的已下混的位准信息,并基于已下混的 位准信息而从下混信号115提取直接信号部分125-1或周围信号部分 125-2。如图4所示,空间参数信息105例如可从图1的多声道(Ch1…ChN) 音频信号101导算出,并可包含图3b所介绍的Ch1…ChN的声道间关系式 335。图4的空间参数信息105还包含将要馈送至直接/周围提取器420的 下混信息410。在实施例中,下混信息410可将原先的多声道音频信号(例 如图1的多声道音频信号101)的下混特征化为下混信号115。下混例如 可使用于任何编码域,例如在时域或频域中运算的下混器(图中未示出) 来执行。

根据其它实施例,直接/周围提取器420还被构造为通过组合具有相干 性和的直接部分的估算得到的位准信息与具有非相干性和的周围部分的 估算得到的位准信息,来执行多声道音频信号101的直接部分或周围部分 的估算的位准信息113的下混。

须指出,估算的位准信息可分别表示直接部分或周围部分的能量 (energy)位准或功率位准。

更明确言之,估算得到的直接/周围部分的能量(也即位准信息113) 的下混可通过假设声道间的完全非相干性(full incoherence)或完全相干 性来执行。在分别基于非相干性和或相干性和进行下混的情况下,可应用 如下二个公式。

对于非相干性信号,已下混的能量或已下混的位准信息可由 EDMX=Σi=1Ngi2EChi计算。

对于相干性信号,已下混的能量或已下混的位准信息可由 EDMX=(Σi=1NgiEChi)2计算。

此处,g为下混增益,其可得自于下混信息,而E(Chi)表示多声道 音频信号中的一声道Chi的直接/周围部分的能量。至于非相干性下混的典 型例,在下混5.1声道成为二声道的情况下,左下混的能量可为:

EL_DMX=ELeft+ELeft_surround+0.5*ECenter

图5示出了通过将增益参数gD、gA施加至下混信号115的直接/周围 提取器520的又一实施例。图5的直接/周围提取器520可对应于图4的直 接/周围提取器420。首先,直接部分545-1或周围部分545-2的估算的位 准信息可从如前文说明的一直接/周围估算器接收到。接收到的位准信息 545-1、545-2可在步骤550中组合/下混以分别获得直接部分555-1或周围 部分555-2的下混位准信息。然后在步骤560中,增益参数gD 565-1、gA565-2分别可针对直接部分或周围部分而从下混位准信息555-1、555-2导 算出。最后,直接/周围提取器520可用来施加导算得出的增益参数565-1、 565-3至下混信号115(步骤570),因而将获得直接信号部分125-1或周 围部分125-2。

此处,须注意,在图1、图4、图5的实施例中,下混信号115可由 分别存在于直接/周围提取器120、420、520的输入端处的多个下混声道 (Ch1…ChN)组成。

在其它实施例中,直接/周围提取器520被构造为从直接部分或周围部 分的下混位准信息555-1、555-2来测定直接对总(DTT)能比或周围对总 (ATT)能比,并使用基于所测得的DTT能比或ATT能比的提取参数作 为增益参数565-1、565-2。

在又一些实施例中,直接/周围提取器520被构造为将下混信号115 与第一提取参数sqrt(DTT)相乘来获得直接信号部分125-1,并且与第二 提取参数sqrt(ATT)相乘来获得周围信号部分125-2。此处,下混信号 115可对应于单声道下混信号215,如图2的实施例所示(「单声道下混情 况」)。

在单声道下混情况下,周围提取可通过施加sqrt(ATT)及sqrt(DTT) 进行。但更明确言之,通过对各个声道Chi施加sqrt(ATTi)及sqrt(DTTi), 对多声道下混信号相同办法也有效。

根据其它实施例,在下混信号115包含多个声道的清况下(「单声道 下混情况」),直接/周围提取器520可被构造为来施加第一多个提取参数例 如sqrt(DTTi)至下混信号115来获得直接信号部分125-1,并施加第二 多个提取参数例如sqrt(ATTi)至下混信号115来获得周围信号部分125-2。 此处,第一多个提取参数及第二多个提取参数可组成对角线矩阵。

一般而言,直接/周围提取器120、420、520还可被构造为通过施加平 方M×M提取矩阵至下混信号115来提取直接信号部分125-1或周围信号 部分125-2,其中,平方M×M提取矩阵的大小(M)与下混声道(Ch1…ChN) 的数目(M)相对应。

因此,施加周围提取可被描述为施加平方M×M提取矩阵,其中,M 为下混声道(Ch1…ChN)的数目。这可包括全部可能的方式来操纵输入信 号来获得直接/周围输出,包括基于表示平方M×M提取矩阵(被构造为对 角线矩阵)的主要组件的sqrt(ATTi)及sqrt(DTTi)参数的相当简单的 办法,或被构造为完整矩阵的LMS交混办法。后者将在后文说明,此处, 须注意,前述施加M×M提取矩阵的办法涵盖任何数目的声道,包括一个。

根据其它实施例,提取矩阵可以并非必然为M×M矩阵大小的平方矩 阵,原因在于发明人具有较少数目的输出声道。因此,提取矩阵具有减少 的行。该一实例可为提取单一直接信号来代替M。

也并非必要经常性取全部M个下混声道作为与具有提取矩阵的M列 的输入。更明确言之,可与应用用途相关,此处并非必要具有全部声道作 为输入信号。

图6示出了基于使用声道交混的LMS(最小均方)解的直接/周围提 取器620的又一实施例600的框图。图6的直接/周围提取器620可对应于 图1的直接/周围提取器120。在图6的实施例中,因此具有与图1实施例 类似的实现方式和/或功能的相同框以相同的组件符号表示。但对应于图1 的下混信号115的图6的下混信号615包含多个617下混声道Ch1…ChN, 其中,下混声道的数目(M)小于多声道音频信号101的声道Ch1…ChN的数目(N),也即M<N。更明确言之,直接/周围提取器620被构造为通 过使用声道交混的最小均方(LMS)解,来提取直接信号部分125-1或周 围信号部分125-2,LMS解并不要求相等周围位准。如下提供此种LMS 解,其并不要求相等周围位准,并且也可延伸至任何数目的声道。刚刚前 述的LMS解并非强制性,而是表示前述办法的更精准替代之道。

用于直接/周围提取的交混权值的LMS解所使用的组件符号为:

Chi  声道i

αi  在声道i中的直接声音增益

D及声音的直接部分及其估值

Ai及声道i的周围部分及其估值

PX=E[XX*]  X的估算得的能量

E[]  预期值

X的估算误差

声道i对直接部分的LMS交混权值

声道n对声道i的周围部分的LMS交混权值

在本内文中,须注意,LMS解的导算可基于多声道音频信号的各个 声道的频谱表示型态,其表示频带中的每项函数。

信号模型被表示为

Chi=aiD+Ai

导算首先处理a)直接部分,然后,b)周围部分。最后,导算出权值 的解,并描述权值的标准化方法。

a)直接部分

权值直接部分的估算为

D^=Σi=1NωD^iChi=Σi=1NωD^i(aiD+Ai)

估算误差读取

ED^=D-D^=D-Σi=1Nωσi(ai+Ai)

为了获得LMS解,发明人要求与输入信号正交

E[EσChi]=0,对于全部k

E[(D-Σi=1NwD^i(aiD+Ai))(akD+Ak)*]

=(ak-Σi=1NwD^iaiak)PD-wD^kPAk=0

Σi=1NwD^iaiakPD+wD^kPAK=akPD

呈矩阵形式,前述关系式读成

b)周围部分

发明人从相同的信号模型开始并根据下式来估算权值

Ai^=Σn=1NwA^i,nChiΣn=1NwA^i,n(aiD+Ai)

估算误差为

EA^i=Ai-A^i=Ai-Σn=1NwA^i,n(aiD+Ai)

并且正交性

E[EA^iChk]=0,对于全部k

以矩阵形式,前述关系式读成

权值的解

权值可通过颠倒矩阵A来求解,这对直接部分及周围部分的计算而言 是相同的。在立体声情况下,该解为:

wD1=a1PDPA2a2a2PDPA1+a1a1PDPA2+PA1PA2=a1PDPA2div

wD2=a2PDPA1div

wA^1,1=a2a2PDPA1+PA1PA2div

wA^1,2=a1a2PDPA1div

wA^2,1=a1a2PDPA2div

wA^2,2=a1a1PDPA2+PA1PA2div

此处,div为除数a2a2PDPA1+a1a1PDPA2+PA1PA2

权值的标准化

权值用于LMS解,但因能量级(energy level)须保留,故将权值标 准化。这如此也使得上式中由div项进行的除法变成不必要。标准化通过 确保输出直接及周围声道为PD及PAi来进行,其中,i为声道指数。

直接假设发明人知晓声道间相干性、混合因子及声道能量。为求简明, 发明人关注在二个声道的情况,并且特别为一对权值及其为从 第一输入声道及第二输入声道产生第一周围声道的增益。步骤如下:

步骤1:计算输出信号能量(其中,相干性部分逐振幅加总,而非相 干部分逐能加总)

PA^1=(wA^1,1|ICC|·P1+sign(ICC)wA^1,2|ICC|·P2)2+(1-|ICC|)P1wA^1,12+(1-|ICC|)P2wA^1,22

步骤2:计算标准化增益因子

g=PA1PA^1

并施加该结果至交混权值因子及在步骤1中,ICC的绝对 值和符号操作数被包括为也考虑输入声道为负相干的情况。其余权值因子 也以相同方式被标准化。

更明确言之,参考前文说明,直接/周围提取器620可被构造为通过假 设稳定的多声道信号模型而导算出LMS解,使得LMS解不会限于立体声 道下混信号。

图7a示出了直接/周围估算器710的实施例700的框图,该估算器基 于立体声周围估算公式。图7a的直接/周围估算器710可对应于图1的直 接/周围估算器110。更明确言之,图7a的直接/周围估算器710被构造为 针对多声道音频信号101的各声道(Chi)施加使用空间参数信息105的 立体声周围估算公式,其中,该立体声周围估算公式可以函数相依性表示 为

DTTi=fDTT[σ(Chi′R)ICCi(Chi′R)]

ATTi=1-DTTi

其明确地示出了对声道位准差(CLDi)或声道Chi的参数σi及声道间 相干性(ICCi)参数的相依性。如图7a所示,空间参数信息105被馈送至 直接/周围估算器710,并可包含各声道Chi的声道间关系式参数ICCi及σi。 在通过使用直接/周围估算器710施加此一立体声周围估算公式之后,将分 别在其输出715处获得直接对总(DTTi)能比或周围对总(ATTi)能比。 须注意,前述用来估算各个DTT能比或ATT能比的立体声周围估算公式 并非基于相等周围的条件。

更明确言之,直接/周围比值估算的执行方式为声道直接能量相对于该 声道总能的比(DTT)可以公式表示为

这里,及Ch为检查声道,并且R为其余 声道的线性组合。<>为时间平均值。当声道及其余声道的线性组合的周围 位准假设为相等,并且其相干性为零时遵照此一公式。

图7b示出了DTT(直接对总)能比760实例呈声道间相干性参数ICC 770的函数的线图750。在图7b的实施例中,声道位准差(CLD)或参数 σ例如设定为1(σ=1),使得声道Chi的位准P(Chi)与其余声道的线性 组合R位准P(R)将为相等。在此种情况下,如标示以DTT~ICC的直线 775指示,DTT能比760将与ICC参数成线性比例。从图7b可知,在ICC=0 的情况下,其可对应于完全解相干性声道间关系式,DTT能比760将为0, 其可对应于完全周围情况(情况“R1”)。但在ICC=1的情况下,其可对应 于完全相干性声道间关系式,DTT能比760将为1,其可对应于全然直接 情况(案例“R2”)。因此,在声道中相对于该声道的总能,在情况R1大 致上并无直接能量,而在情况R2大致上并无周围能量。

图8示出了根据本发明的其它实施例的编码器/译码器系统800的框 图。在该编码器/译码器系统800的译码器端上,示出了译码器820的实施 例,其可与图1的装置100相对应。由于图1与图8实施例的相似性,这 二个实施例中具有相似实现方式和/或功能的相同框以相同的组件符号表 示。如图8的实施例所示,直接/周围提取器120可在具有多个下混声道 Ch1…ChM的下混信号115上操作。图8的直接/周围估算器110进一步被 构造为接收下混信号815(选择性)的至少二个下混声道825,使得多声 道音频信号110的直接部分或周围部分的位准信息113将基于所接收的至 少个二下混声道825的空间参数信息105以外估算。最后,在由直接/周围 提取器120提取后,将获得直接信号部分125-1或周围信号部分125-2。

在该编码器/译码器系统800的编码器端上,示出了编码器810的实施 例,其可包含下混器815,用来将多声道音频信号(Ch1…ChN)下混成为 具有多个下混声道Ch1…ChM的下混信号115,其中,声道数目从N减少 成M。下混器815还可被构造为通过根据多声道音频信号101计算声道间 关系式来输出空间参数信息105。在图8的编码器/译码器系统800中,下 混信号115及空间参数信息105可从编码器810传输至译码器820。这里, 编码器810可基于下混信号115和空间参数信息105导算出编码信号用于 从编码器端传输至译码器端。此外,空间参数信息105基于多声道音频信 号101的声道信息。

另一方面,声道间关系式参数σi(Chi,R)及ICCi(Chi,R)可在编码 器810的声道Chi与其余声道的线性组合R间计算,并且在编码信号的内 部传输。译码器820又可接收编码信号,并且在所传输的声道间关系式参 数σi(Chi,R)和ICCi(Chi,R)上操作。

另一方面,编码器810还可被构造为计算欲传输的成对不同声道(Chi, Chj)间的声道间相干性参数ICCi,j。在这种情况下,编码器810应能够根 据所传输的逐对计算的ICCi,j(Chi,Chj)导算出声道Chi与其余声道的线 性组合R之间的参数ICCi(Chi,R),使得实现前文已描述的对应实施例。 在本上下文中须注意,译码器820无法单独从知晓下混信号115中来重建 参数ICCi(Chi,R)。

在实施例中,所传输的空间参数不仅关于逐对声道比较。

举例言之,最典型的MPS情况是具有二个下混声道。MPS译码中的 第一空间参数集合使得二个声道变成三个声道:中、左及右。引导此种映 射关系的参数集合被称作中心预测系数(CPC)和针对二对三组态具有专 一性的ICC参数。

空间参数的第二集合被一分为二:侧声道分成相对应的前声道和后声 道,而中心声道被分成中心声道和Lfe声道。这种映射关系与如前文介绍 的ICC及CLD参数有关。

对全部下混组态类别及所有种类的空间参数类别皆找出计算规则并 不实际。然而,虚拟地遵照下混步骤则是符合实际的。原因在于发明人知 晓二声道变成三声道,而三声道变成六声道,最终,发明人找出二输入声 道如何安排路径成为六输出声道的输入输出关系式。输出信号只有下混声 道的线性组合加上其解相关(decorrelated)版本的线性组合。并非一定实 际上译码输出信号并且测量它,而是发明人知晓此一“解码矩阵”,可以 在运算上有效地计算参数域中任何声道或声道组合的ICC及CLD参数。

与下混信号组态及多声道信号组态独立无关,译码信号的各个输出为 下混信号的线性组合加上其各自的解相关版本的线性组合。

Ch_outi=Σk=1dmx_channels(ak,iCh_dmxk+bk,iD[Ch_dmxk])

其中,操作数D[]对应于解相关器(decorrelator),也即,制成输入信 号的不相干复本的处理程序。因子a和b是已知的,原因在于其可从参数 侧边信息直接导算出。因从定义上,参数信息指导译码器如何从下混信号 形成多声道输出信号。上式可简化成

Ch_outi=Σk=1dmx_channels(ak,iCh_dmxk)+Di

原因在于全部解相关部分可组合用于能量/相干性比较。D的能量是已 知的,原因在于因子b在第一式中也是已知的。

根据这一点,须注意,发明人可在输出声道间或在输出声道的不同线 性组合间做任一种相干性及能量比较。在二下混声道及一输出声道集合的 简单例的情况下,声道号3及5相对彼此作比较,总和计算如下:

σ3,5=E[Ch_out32]E[Ch_out52]

其中,E[]为预期(实际上:平均)操作数。两项可以公式表示如下

全部前述参数皆是已知的,或从下混信号为可量测。交叉项 E[Ch_dmx*D]被定义为零,因而在公式中的较下列。同理,相干性公式为

ICC3,5=E[Ch_out3Ch_out5]E[Ch_out32]E[Ch_out52]

再者,因上式中的全部部分为输入信号加解相关信号的线性组合,故 解可直接获得。

如上实例比较二个输出声道,但同理可进行输出声道的线性组合间的 比较,诸如使用容后详述的处理程序实例。

综合前述先前实施例,所呈现的技术/构想包含下列步骤:

1.取得可能高于下混声道数目的一“原先”声道集合的声道间关系式 (相干性,位准)。

2.估算该“原先”声道集合的周围能量及直接能量。

3.将“原先”声道集合的周围能量及直接能量下混为较少的声道数目。

4.通过施加增益因子或增益矩阵,使用下混能量来提取所提供的下混 声道中的直接信号及周围信号。

空间参数侧边信息的使用通过图2的实施例将最佳地得到解释和概 括。在图2的实施例中,发明人有一参数立体声串流,其包括单一音频声 道及有关其所表示的立体声的声道间差(相干性,位准)的空间侧边信息。 现在因发明人知晓声道间差,故可将如上立体声周围估算式施加至该声道 间差,并得知原先声道集合的直接能量及周围能量。然后,发明人可通过 加总直接能量(使用相干性加法)及周围能量(使用非相干性加法)来“下 混”声道能量,并导算出该单一下混声道的直接对总能比及周围对总能比。

参考图2的实施例,空间参数信息大致上包含声道间相干性参数 (ICCL,ICCR)及声道位准差参数(CLDL,CLDR),它们分别与参数立 体声音频信号的左声道(L)及右声道(R)相对应。此处,须注意,声道 间相干性参数ICCL与ICCR是相等的(ICCL=ICCR),而声道位准差参数 CLDL与CLDR通过CLDL=-CLDR而相关。相对应地,声道位准差参数CLDL与CLDR典型地分别为参数σL及σR的分贝值,故左(L)及右(R)声道 的参数σL及σR通过σL=1/σR而相关。这些声道间差参数可以容易地用来 基于立体声周围估算公式,而对二声道(L,R)计算各个直接对总能比 (DTTL,DTTR)及周围对总能比(ATTL,ATTR)。在该立体声周围估算公式 中,左声道(L)的直接对总能比及周围对总能比(DTTL,ATTL)取决于 左声道L的声道间差参数(CLDL,ICCL),而右声道(R)的直接对总能 比及周围对总能比(DTTR,ATTR)取决于右声道R的声道间差参数 (CLDR,ICCR)。此外,对参数立体声音频信号的二声道L、R的能量(EL,ER) 可分别基于左声道(L)及右声道(R)的声道位准差参数(CLDL,CLDR) 来导算出。此处,左声道L的能量(EL)可通过施加左声道L的声道位准 差参数(CLDL)至该单声道下混信号得知,而右声道R的能(ER)可通 过施加右声道R的声道位准差参数(CLDR)至该单声道下混信号得知。 然后通过将二声道(L,R)的能量(EL,ER)与相对应的基于DTTL、DTTR、 及ATTL、ATTR的参数相乘,可获得对二声道(L,R)的直接能量(EDL,EDR) 及周围能量(EAL,EAR)。然后,二声道(L,R)的直接能量(EDL,EDR)可 通过使用相干性下混法则组合/相加来获得单声道下混信号的直接部分的 下混能量(ED,mono);而二声道(L,R)的周围能量(EAL,EAR)可通过使用 非相干性下混法则组合/相加来获得单声道下混信号的周围部分的下混能 (EA,mono)。然后,通过找出直接信号部分及周围信号部分的下混能量 (ED,mono,EA,mono)与该单声道下混信号的总能量(Emono)的关系式,将得 知该单声道下混信号的直接对总能比(DTTmono)及周围对总能比 (ATTmono)。最后,基于这些DTTmono能比及ATTmono能比,大致上可从 该单声道下混信号提取直接信号部分或周围信号部分。

在音频的再现上,经常需要通过头戴耳机而再现声音。耳机收听具有 独特特征,使得其与扬声器收听并且也与任何自然声音环境有极大的不 同。音频直接设定给左耳及右耳。再现的音频内容典型地再现给扬声器回 放。因此,音频信号并未含有人类听觉系统用在空间声音知觉的性质及提 示。除非系统中有导入双耳处理,否则即为此种情况。

基本上,双耳处理可称作为一种处理程序,其取输入声音并对其修正, 使得声音只含有知觉上正确的(就人类听觉系统处理空间声音而言)这些 耳际性质及单耳性质。双耳处理并非直接工作,根据最先进的既有解决的 方法仍然不是最佳的。

存在大量应用,其中,已经包括音频及电影回放的双耳处理,诸如被 设计用来将多声道音频信号变换成耳机的双耳对应部分的媒体播放器及 处理装置。典型的办法是使用头部相关传递函数(head-related transfer  functions(HRTF))来制作虚拟耳机,并加上室内效果给该信号。理论上, 这可相当于在特殊室内使用耳机收听。

然而,实际上重复示出这种办法尚未能一致地满足收听者。似乎需要 折衷,使用此种直接方法的良好空间化牺牲了音频质量,诸如音色或音质 改变变得不佳、室内效果恼人的知觉、以及动态的丧失。其它问题包括定 位不准确(例如,头内定位、前后混淆),缺乏音源的空间距离,并且耳 间(inter-aural)不匹配,也即由于耳间提示错误而靠近耳朵的听觉。

不同的收听者对判定的问题有极大差异。灵敏度也依输入材料各异, 诸如音乐(就音色而言,质量标准严格)、电影(较不严格)及游戏(甚 至更不严格,但定位是重要的)。根据内容也典型地存在不同的设计目的。

因此,后文的细节尽可能成功地处理克服前述问题的办法来最大化平 均知觉总体质量。

图9a示出了根据本发明其它实施例的双耳直接声音呈现装置910的 概况900的框图。如图9a所示,双耳直接声音呈现装置910被构造为用 于处理其可存在于图1实施例的直接/周围提取器120的输出处的直接信号 部分125-1,以获得第一双耳输出信号915。第一双耳输出信号915可包 含L指示的左声道及R指示的右声道。

此处,双耳直接声音呈现装置910可被构造为通过头部相关传递函数 (HRTF)馈送直接信号部分125-1来获得已变换的直接信号部分。此外, 双耳直接声音呈现装置910可被构造为施加室内效果给己变换的直接信号 部分来最终获得第一双耳输出信号915。

图9b示出了图9a的双耳直接声音呈现装置910的细节905的框图。 双耳直接声音呈现装置910可包含框912指示的“HRTF变换器”及框914 指示的室内效果处理装置(早期反映的并列混响或模拟)。如图9b所示, HRTF变换器912及室内效果处理装置914可通过并列施加头部相关传递 函数(HRTF)及室内效果,而在直接信号部125-1上操作,由此将获得 第一双耳输出信号915。

更明确言之,参考图9b,此种室内效果处理还可提供非相干性混响直 接信号919,其可通过随后的交混滤波器920处理来使该信号适应扩散声 场的耳间相干性。这里,滤波器920及HRTF变换器912组成第一双耳输 出信号915。根据其它实施例,室内效果对直接声音的处理也可为早期反 映的参数表示型态。

因此,在实施例中,室内效果可以优选地与HRTF并列施加,而非串 行施加(也即,通过HRTF馈送信号后施加室内效果)。更明确言之,唯 有从来源直接传播的声音通过或由相应的HRTF变换。间接/混响声音可经 概略估算也即以统计方式(通过采用相干性控制来代替HRTF)而进入耳 朵。这也可通过串行实施,但并列方法是优选的。

图10a示出了根据本发明的其它实施例的双耳周围声音呈现装置 1010的概况1000的框图。如图10a所示,双耳周围声音呈现装置1010 可被构造为用于处理其可存在于图1实施例的直接/周围提取器120的输出 的周围信号部分125-2,以获得第二双耳输出信号1015。第二双耳输出信 号1015可包含左声道(L)及右声道(R)。

图10b示出了图10a的双耳周围声音呈现装置1010的细节1005的框 图。在图10b中可以看出,双耳周围声音呈现装置1010可被构造为将如 标示以“室内效果处理”的框1012指示的室内效果施加给周围信号部分 125-2,使得获得非相干性混响周围信号1013。此外,双耳周围声音呈现 装置1010可被构造为通过施加滤波器(诸如框1014表示的交混滤波器) 而处理非相干性混响周围信号1013,由此将提供第二双耳输出信号1015, 第二双耳输出信号1015适用于实际扩散声场的耳间相干性。以“室内效 果处理”标示的框1012也可被构造为使得其直接产生实际扩散声场的耳 间相干性。在此种情况下,未使用框1014。

根据其它实施例,双耳周围声音呈现装置1010被构造为施加室内效 果和/或滤波器至周围信号部分125-2用于提供第二双耳输出信号1015, 使得第二双耳输出信号1015将适用于实际扩散声场的耳间相干性。

在前述实施例中,解相关性及相干性控制可以在二个连续步骤中执 行,但这不是必要的。也可以以单步骤处理实现相同的结果,而无需经中 间非相干性信号的求取公式。两种方法同等有效。

图11示出了多声道音频信号101的双耳再现的实施例1100的构想框 图。更明确言之,图11的实施例表示一种用于多声道音频信号101的双 耳再现的装置,其包含第一变换器1110(“频率变换”)、分离器1120(“直 接-周围分离”)、双耳直接声音呈现装置910(“直接来源呈现”)、双耳周 围声音呈现装置1010(“周围声音呈现”)、如“+”指示的组合器1130和 第二变换器1140(“反相频率变换”)。更明确言之,第一变换器1110可被 构造为用于将多声道音频信号101变换成频谱表示型态1115。分离器1120 可被构造为用于从频谱表示型态1115提取直接信号部分125-1或周围信号 部分125-2。这里,分离器1120可对应于图1的装置100,特别包括图1 的实施例的直接/周围估算器110和直接/周围提取器120。如前文所解释 的,双耳直接声音呈现装置910可在直接信号部分125-1上操作来获得第 一双耳输出信号915。相对应地,双耳周围声音呈现装置1010可在周围信 号部分125-2上操作来获得第二双耳输出信号1015。组合器1130可被构 造为用于组合第一双耳输出信号915及第二双耳输出信号1015来获得组 合信号1135。最后,第二变换器1140可被构造为用来将组合信号1135变 换成时域来获得立体声输出音频信号1150(“用于耳机的立体声输出信 号”)。

图11实施例的频率变换操作说明了在频率变换域中的系统功能,其 为空间音频的听觉处理中的天然域。若该系统被在已经在频率变换域中发 挥功能的系统上用作增上功能(add-on),则系统本身并非一定具有频率变 换。

前述直接/周围分离方法可被再划分成二个不同部分。在直接/周围估 算部分中,直接周围部分的位准和/或比基于信号模型的组合及音频信号的 性质估算。在直接/周围提取部分中,已知的比及输入信号可用来形成周围 信号的直接输出。

最后,图12示出了包括双耳再现情况的直接/周围估算/提取的一实施 例1200的总体框图。特定言之,图12的实施例1200可对应图11的实施 例1100。但在实施例1200中,示出了与图1实施例的框110、120,其包 括基于空间参数信息105的估算/提取处理程序,相对应的图11的分离器 1120的细节。此外,与图11的实施例1100相反,并无任何不同域间的变 换处理程序示出于图12的实施例1200。实施例1200的框也外显地在下混 信号115运算,该信号可从多声道音频信号101导算出。

图13a示出了一种用于在滤波器排组域中从单声道下混信号提取直接 /周围信号的装置1300实施例的框图。如图13a所示,装置1300包含一分 析滤波器排组1310、用于直接部分的一合成滤波器排组1320、及用于周 围部分的一合成滤波器排组1322。

更明确言之,装置1300的分析滤波器排组1310可被实施为执行短期 傅里叶变换(STFT),或例如可被构造为分析QMF滤波器排组,而装置 1300的合成滤波器排组1310可被实施为执行反相短期傅里叶变换 (ISTFT),或例如可被构造为合成QMF滤波器排组。

分析滤波器排组1310被构造为用于接收单声道下混信号1315,其可 对应于如图2的实施例所示的单声道下混信号215,并将单声道下混信号 1315变换成多个滤波器排组子频带1311。如图13a可知,多个1311滤波 器排组子频带分别连结至多个直接/周围提取框1350、1352,其中,多个 直接/周围提取框1350、1352被构造为施加基于DTTmono参数或ATTmono参数1333、1335至滤波器排组子频带。

如图13b所示,基于DTTmono或ATTmono的参数1333、1335可由 DTTmono,ATTmono计算器1330提供。更明确言之,图13b的DTTmono,ATTmono计算器1330可被构造为计算DTTmono,ATTmono能比,或从对应于参数立体 声音频信号(例如图2的参数立体声音频信号201)的左声道和右声道(L, R)的所提供的声道间相干性及声道位准差参数(ICCL,CLDL,ICCR,CLDR), 而导算出基于DTTmono或ATTmono的参数,已经对应地如前所述。此处, 对单一滤波器排组子频带,可使用相对应的参数105和基于DTTmono或 ATTmono的参数1333、1335。在本上下文中,指出了这些参数相对于频率 并非常数。

由于施加了基于DTTmono或ATTmono的参数1333、1335的结果,分别 可获得多个修正滤波器排组子频带1353、1355。随后,多个修正滤波器排 组子频带1353、1355分别被馈至合成滤波器排组1320、1322,合成滤波 器排组可被构造为合成多个修正滤波器排组子频带1353、1355,由此分别 获得单声道下混信号1315的直接信号部分1325-1或周围信号部分1325-2。 这里,图13a的直接信号部分1325-1对应于图2的直接信号部分125-1, 而图13a的周围信号部分1325-2对应于图2的直接信号部分125-2。

参考图13b,图13a的多个1350、1352直接/周围提取框的直接/周围 提取框1380特别包含DTTmono,ATTmono计算器1330和乘法器1360。乘法 器1360可被构造为将多个滤波器排组子频带1311的单一滤波器排组(FB) 子频带1301乘以相对应的基于DTTmono或ATTmono的参数1333、1335,使 得获得多个滤波器排组子频带1353、1355的修正单一滤波器排组子频带 1365。更明确言之,在框1380属于多个1350框的情况下,直接/周围提取 框1380被构造为施加基于DTTmono的参数;而在框1380属于多个框1352 的情况下,其被构造为施加基于ATTmono的参数。此外,修正单一滤波器 排组子频带1365可提供直接部分或周围部分的相应的合成滤波器排组 1320、1322。

根据实施例,空间参数及导算出的参数根据人类听觉系统的关键频带 (例如28频带)而以频率分辨率提供,通常低于滤波器排组的分辨率。

因此,根据图13a的实施例的直接/周围提取大致上基于逐子频带计算 得的声道间相干性及声道位准差参数(可与图3b的声道间关系式参数335 相对应)而在滤波器排组域的不同子频带上运算。

图14示出了根据本发明的又一实施例的MPEG环绕译码方案1400 的实例的示意说明图。更明确言之,图14实施例描述从立体声下混信号 1410译码成6个输出声道1420。此处,标示以“res”的信号为残响信号, 其为解相关信号的选择性置换(从标示以“D”的框获得)。根据图14实 施例,空间参数信息或声道间关系式参数(ICC,CLD)在MPS串流内部 从编码器,诸如图8的编码器810,传输至译码器诸如图8的译码器820, 分别可用来产生标示以“前置解相关器矩阵M1”及“混合矩阵M2”的解 码矩阵1430、1440。图14的实施例所特有的为:通过使用混合矩阵M21440 从侧声道(L,R)及中心声道(C)(L,R,C 1435)产生输出声道1420 (也即上混声道L、LS、R、RS、C、LFE)大致上由空间参数信息1405 决定,其可对应于图1的空间参数信息105,包含根据MPS环绕标准的特 殊声道间关系式参数(ICC,CLD)。

这里,将左声道(L)划分成对应的输出声道L、LS,将右声道(R) 划分成对应的输出声道R、RS,以及将中心声道(C)划分成对应的输出 声道C、LFE,这种划分可以由具有相对应的ICC、CLD参数的各个输入 信号的一分为二(OTT)的组态表示。

特别地,与“5-2-5组态”相对应的MPEG环绕译码方案1400实例例 如可包含下列步骤。在第一步骤中,空间参数或参数侧边信息可调配成译 码矩阵1430、1440,其在图14中根据既有的MPEG环绕标准示出。在第 二步骤中,解码矩阵1430、1440可用于在参数域中来提供上混声道1420 的声道间信息。在第三步骤中,使用如此提供的声道间信息,可计算各个 上混声道的直接/周围能量。在第四步骤中,如此所得的直接/周围能量可 下混至下混声道1410的数目。在第五步骤中,计算将施加给下混声道1410 的权值。

在更进一步之前,须指出,刚刚前述的处理要求量测值为

E[|Ldmx|2],E[|Rdmx|2]。

其为下混声道的平均功率,以及

E[Lmax,Rdmx*]

其可被称作为来自下混声道的交叉频谱。这里,下混声道的平均功率 有目的地被称作为能量,原因在于“平均功率”一词并非常用的术语。

由方括号指示的预期操作数在实际应用中可以由时间平均、递归或非 递归来置换。能量和交叉频谱从下混信号直接可量测。

也须注意,二声道的线性组合能量可从声道能量、混合因子、及交叉 频谱中导出公式(全部皆在参数域中,这里,无需信号运算)。

线性组合

Ch=aLdmx+bRdmx

具有下述能量:

E[|Ch|2]=E[|aLdmx+bRdmx|2]=a2E[|Ldmx|2]+b2E[|Rdmx|2]+ab(E[LdmxRdmx*]+E[RdmxLdmx*])

=a2E[|Ldmx|2]+b2E[|Rdmx|2]+2ab(Re{E[LdmxRdmx*]})

以下说明处理程序(也即译码方案)的各个步骤。

第一步骤(混合矩阵的空间参数)

如前所述,M1和M2矩阵根据MPEG环绕标准形成。M1的第a列、 第b行元素为M1(a,b)。

第二步骤(具有下混至上混声道的声道间信息的能量及交叉频谱的混 合矩阵)

现在发明人已有混合矩阵M1和M2。发明人需要用公式表达输出声 道如何根据左下混声道(Ldmx)及右下混声道(Rdmx)创建。发明人假设 使用解相关器(图14,灰色区)。MPS标准的解码/上混基本上最终提供整 个处理程序中用于总输入/输出关系式的如下公式:

L=aLLdmx+bLRdmx+cLD1[S1]+dLD2[S2]+eLD3[S3]

前文说明已上混的前左声道实例。其它声道可以以相同方式导出公 式。D组件为解相关器,a-e为从M1及M2矩阵条目可求出的权值。

具体地,因子a-e可根据矩阵条目直接以公式表示:

aL=Σi=13M1i,1M21,i

bL=Σi=13M1i,2M21,i

cL=M21,4

dL=M21,5

eL=M21,6

及相应地用于其它声道。

S信号为

Sn=M1n+3,1Ldmx+M1n+3,2Rdmx

这些S信号为从图14左侧矩阵至解相关器的输入。该能量

E[|D[Sn]|2]=E[|Sn|2]

可如前文解说的那样计算。解相关器并不影响该能量。

进行多声道周围提取的感性动机方式是通过一声道对全部其它声道 之和作比较(注意这仅为多选项中的一个选项)。现在,举例说明考虑声 道L的案例,声道的其余部分读成:

XL=ΣCh=(REST)aChLdmx+ΣCh=(REST)bChRdmx+ΣCh=(REST)cChD1[S1]+ΣCh=(REST)dChD2[S2]+ΣCh=(REST)eChD3[S3]

发明人在此处使用“X”,原因在于对“其余声道”使用“R”可能产 生混淆。

然后,声道L的能量为

E[|L|2]=aL2E[|Ldmx|2]+bL2E[|Rdmx|2]+cL2E[|S1|2]+dL2E[|S2|2]+eL2E[|S3|2]+2abRe{E[LdmxRdmx*]}

然后,声道X的能量为

E[|XL|2]=(ΣCh=(REST)aCh)2E[|Ldmx|2]+(ΣCh=(REST)bCh)2E[|Rdmx|2]+(ΣCh=(REST)cCh)2E[|S1|2]+(ΣCh=(REST)dCh)2E[|S2|2]

+(ΣCh=(REST)eCh)2E[|S3|2]+2(ΣCh=(REST)aChΣCh=(REST)bCh)Re{E[LdmxRdmx*]}

及交叉频谱为:

E[LXL*]=ΣCh=(REST)aChaLE[|Ldmx|2]+ΣCh=(REST)bChbLE[|Rdmx|2]+ΣCh=(REST)cChcLE[|S1|2]+ΣCh=(REST)dChdLE[|S2|2]

+ΣCh=(REST)eCheLE[|S3|2]+ΣCh=(REST)aLbChE[LdmxRdmx*]+ΣCh=(REST)aChbLE[LdmxRdmx*]*

现在发明人可将ICC公式化

ICCL=Re{E[LXL*]E[|L|2]E[|XL|2]

并求和总和

σL=E[|L|2]E[|XL|2]

第三步骤(上混声道的声道间信息对上混声道的DTT参数) 现在发明人可根据下式计算声道L

DTTL=12[(1-1σL)+(1σL-1)2+4ICCL2σL]

L的直接能量为

E[|DL|2]=DTT·E[|L|2]

L的周围能量为

E[|AL|2]=(1-DTT)·E[|L|2]

第四步骤(下混直接/周围能量)

若使用非相干性下混法则实例,则左下混声道周围能量为

E[|ALdmx|2]=E[|AL|2]+E[|ALs|2]+E[|AC|2]+E[|ALF|2]2

,对直接部分及左声道的直接及周围部分也相同。注意前文说明只是 一种下混法则。也可有其它下混法则。

第五步骤(计算在下混声道中的周围提取的权值)

左下混DTT比为

DTTLdmx=1-E[|ALdmx|2]E[|Ldmx|2]

然后权值因子的计算可如图5的实施例所述(也即使用sqrt(DTT) 或sqrt(1-DTT)办法)或如图6的实施例所述(也即使用交混矩阵方法) 计算。

基本上,前述处理程序的实例有关在下混声道的中MPS串流对周围 比的CPC、ICC、及CLD参数。

根据其它实施例,典型地存在其它手段来达成类似目的及其它情况。 举例言之,可存在前文说明者以外的其它法则用于下混、其它扬声器布局、 其它译码方法及其它进行多声道周围估算方式,其中,特定声道与其余声 道作比较。

尽管本发明已经在框图的背景下进行了描述,但本发明也可通过计算 机实施方法来实现,其中,框表示实际或逻辑硬件组件。在后者情况下, 框表示对应的方法步骤,其中,这些步骤代表由对应逻辑或实体硬件框执 行的功能。

所述实施例仅供举例说明本发明的原理。须了解,此处所述的配置及 细节的修正及变化为本领域技术人员显而易见。因此其旨在仅受所附权利 要求的范围所限而非受此处实施例的举例说明及解释所呈现的特定细节 所限。

根据本发明方法的若干实现要求,本发明方法可于硬件或于软件实 施。实作可使用数字储存媒体执行,特别为具有可读取控制信号储存于其 上的盘片、DVD或CD,其可与可程序规划计算机系统协力合作因而执行 本发明方法。一般而言,本发明因而可作为具有程序代码储存于机器可读 取载体上的计算机程序产品实施,当该计算机程序产品于计算机上跑时, 该程序代码可运算用于执行本发明方法。换言之,本发明方法因而为具有 程序代码的一种计算机程序,当该计算机程序于计算机上运行时该程序代 码可用于执行本发明方法中的至少一者。本发明编码音频信号可储存在任 一种机器可读取储存媒体,诸如数字储存媒体。

该新颖构想及技术的优点为本案所述前述实施例,也即装置、方法或 计算机程序允许借助于参数空间信息而从音频信号估算与提取直接和/或 周围组件。更明确言之,本发明的新颖处理在频带中发挥功能,如同典型 地在周围提取领域中那样。所呈现的构想与音频信号处理有关,原因在于 有多项应用要求直接及周围组件与音频信号分开。

与先前技术的周围提取方法相反,本构想并非仅基于立体输入信号, 其也可应用至单声道下混情况。用于单一声道下混,通常并无声道间差异 可资运算。但通过考虑空间侧边信息,周围提取在此种情况也变可能。

本发明的优点在于其利用空间参数来估算“原先”信号的周围位准。 其基于下述构想:空间参数已经含有有关“原先”立体声或多声道信号的 声道间差的相关信息。

一旦估算原先立体声或多声道信号的周围位准,也可在所提供的下混 声道导算出直接位准及周围位准。此可由周围部分的周围能量及直接部分 的直接能量或振幅的线性组合(也即加权加总)进行。因此,本发明的实 施例借助于空间侧边信息来提供周围估算及提取。

从基于侧边信息的处理的此种构想延伸,存在有下列有利性质或优 点。

本发明的实施例借助于空间侧边信息及所提供的下混声道而提供周 围估算。当连同侧边信息提供多于一个下混声道的情况下,这些及周围估 算相当重要。侧边信息及从下混声道量测得的信息可一起用在周围估算。 于具有立体声下混的MPEG环绕,此二信息源共同提供原先多声道声音的 声道间关系式的完整信息,及周围估算系基于这些关系式。

本发明的实施例也提供直接能量及周围能量的下混。在所述基于侧边 信息的周围提取的情况下,有个中间步骤于高于所提供的下混声道的多个 声道估算周围。因此,此种周围信息须以有效方式对映至下混音频声道数 目。此种处理程序可称作为下混,原因在于其与音频声道的下混相对应。 如此可通过如同所提供的下混声道下混的相同方式组合直接能量及周围 能量可最直捷地进行。

下混法则不具有一个理想解,反而可能取决于应用用途。例如,于 MPEG环绕,由于典型地信号内容不同,故有利地差异处理各声道(中心、 前扬声器、后扬声器)。

此外,实施例提供多声道周围估算,其于各个声道相对于其它声道乃 独立无关。此种性质/办法允许单纯使用所呈现的立体周围估算式给各声道 相对于全部其它声道。借此手段,无需假设全部声道的周围位准相等。所 呈现的办法系基于假设有关空间知觉,于各声道的周围组件为该组件于全 部其它声道中的部分具有不相干的对应部分。提示此种假设为有效的实例 为发出噪声的二声道中的一者(周围)可进一步划分成各自具有半量能的 二声道,而未对所接收的声音场景造成显著影响。

就信号处理而言,有利的是,通过施加所呈现的周围估算式至各声道 与全部其它声道的线性组合相比较,可进行实际直接/周围比估算。

最后,实施例提供了施加已估算的直接周围能量来提取实际信号。一 旦已知下混声道的周围位准,则可应用两种本发明方法来获得周围信号。 第一方法基于简单乘法,其中,各个下混声道的直接部分及周围部分可通 过该信号乘以sqrt(直接对总能比)及sqrt(周围对总能比)而产生。如 此对各个下混声道提供彼此相干的二个信号,但二信号具有直接部分及周 围部分经估算得的能量。

第二方法基于带有各声道交混的最小均方解,其中,声道交混(也可 能具有负号)允许比前述解,更佳地估算直接周围信号。与在“立体信号 的多扬声器回放”,C.Faller,AES会议,2007年10月;及“专利申请案 名称:从立体信号产生多声道音频信号的方法”,发明人:Christof Faller, 代理人:FISH&RICHARDSON P.C.,受让人:LG电子公司,源自:美 国明尼苏达州明尼波里市,IPC8类别:AH04R500FI,USPC类别:3811 所提供的声道的立体声输入及相等周围位准的最小平均解相反,本发明提 供了最小均方解,该方法并不要求相等的周围位准,也可延伸至任何数目 的声道。

新颖处理的额外性质如下。在双耳呈现的周围处理中,周围可使用滤 波器处理,该滤波器具有提供在频带的耳际相干性类似于实际扩散声场的 耳际相干性性质,其中,该滤波器也包括室内效果。于双耳呈现的直接部 分处理中,直接部分可馈送通过头部相关传递函数(HRTF)可能加上室 内效果,诸如早期反射和/或混响。

除此之外,与干/湿控制相对应的“分离位准”控制可在其它实施例实 现。更明确言之,在许多应用中可能并不期望全然分离,原因在于可能导 致听觉假影缺陷,例如突然改变、调变效应等。因此,所述处理程序的全 部相关部分可以“分离位准”控制实施用来控制期望且有用的分离量。至 于图11,此种分离位准控制由控制直接/周围分离1120的虚线框和/或双耳 呈现装置910、1010的控制输入信号1105指示。此项控制可类似于音频 效应处理的干/湿控制发挥效果。

所提供的解的主要效果如下。系统在全部情况下皆有效,也可使用参 数立体声及带有单声道下混信号的MPEG环绕,与只依赖于下混信息的先 前解不同。此外,比较使用下混声道的单纯声道间分析,系统可利用与音 频信号一起在空间音频位串流中传输的空间侧边信息来更准确地估算直 接能量及周围能量。因此,许多应用诸如双耳处理可通过施加不同处理用 于声音的直接部分及周围部分而获益。

实施例基于下列心理声学假设。人类听觉系统基于时间-频率片(tile) (限于某些频率及时间范围的区域)的耳间提示而定位音源。若有二个或 多个时间及频率上重迭的不相干并列音源同时呈现在不同位置,则听觉系 统无法觉察音源的所在位置。原因在于这些音源的和并未在收听者产生可 靠的耳际提示。如此听觉系统可能作如此描述,从靠近时间-频率片的音 频场景(scene)拾取而提供可靠定位信息,但将其余部分视为无法定位。 藉此手段表示听觉系统可在复杂的声音环境定位音源。同时相干性音源具 有不同效应,形成在相干性音源间的单一音源所可能形成的相同耳际提 示。

此点也为实施例所利用的性质。可估算可定位(直接)及不可定位(周 围)声音位准,然后提取这些组件。空间化信号处理只应用至可定位/直接 部分,而扩散/空间感/包封处理系应用至不可定位/周围部分。如此在双耳 处理系统的设计上获得显著效果,原因在于多项处理只能应用至需要之 处,而留下其余信号不受影响。全部处理皆系出现在近似人类听觉频率分 辨率的频带。

实施例基于信号的分解来最大化知觉质量,但将所察觉的问题最小 化。通过使用此种分解,可以分开获得音频信号的直接组分及周围组分。 然后二组分经进一步处理来达成期望的效果或表示型态。

更明确言之,本发明的实施例允许在编码域中借助于空间侧边信息做 周围估算。

本发明的优点还在于可通过分离直接信号及周围信号中的信号,来减 少头戴耳机再现音频信号的典型问题。实施例允许改善施加至用于耳机再 现的双耳声音呈现的既有直接/周围提取方法。

基于空间侧边信息的处理的主要用途案例为自然MPEG环绕及参数 立体声(以及类似的参数编码技术)。从周围提取可获益的典型应用用途 为双耳回放,原因在于其可施加不同室内效果程度至声音的不同部分;以 及上混至更多个声道,原因在于可差异地定位及处理声音的不同组分。可 能还存在一些应用用途,其中,使用者要求修正直接/周围位准,例如用于 智能地增强语音。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号