首页> 中国专利> 用于双声道提示码编码方案和类似方案的散射声音整形

用于双声道提示码编码方案和类似方案的散射声音整形

摘要

将具有输入时序包络的输入音频信号转换成具有输出时序包络的输出音频信号。所述输入音频信号的输入时序包络被特性化。所述输入音频信号被处理以产生处理后音频信号,其中所述的处理将所述输入音频信号进行去关联。所述处理后音频信号基于特性化的输入时序包络被调整以产生所述输出音频信号,其中所述输出时序包络大体上与所述输入时序包络相匹配。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-07-03

    授权

    授权

  • 2010-11-24

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20050912

    实质审查的生效

  • 2010-10-06

    公开

    公开

说明书

本发明是2005年9月12日申请的发明名称为“用于双声道提示码编码方案和类似方案的散射声音整形”的第200580035950.7号发明专利申请的分案申请。

发明背景

相关申请的参考引用

本申请要求于2004年10月20日在美国提交的第60/620,401号临时申请的利益,其代理人号为Allamanche 1-2-17-3,其启示在此引入作为参考。

另外,本申请的主题涉及下面美国申请的主题,这里将其引入作为参考:

美国申请号为09/848,877,申请日为2001年5月4日,代理人号为Faller 5;

美国申请号为10/045,458,申请日为2001年11月7日,代理人号为Baumgarte 1-6-8,该美国申请要求了于2001年8月10日提交的第60/311,565号美国临时申请的利益;

美国申请号为10/155,437,申请日为2002年5月24日,代理人号为Baumgarte 2-10;

美国申请号为10/246,570,申请日为2002年9月18日,代理人号为Baumgarte 3-11;

美国申请号为10/815,591,申请日为2004年4月1日,代理人号为Baumgarte 7-12;

美国申请号为10/936,464,申请日为2004年9月8日,代理人号为Baumgarte 8-7-15;

美国申请号为10/762,100,申请日为2004年1月20日,(Faller13-1);和

美国申请号为10/xxx,xxx,相同的申请日,代理人号为Allamanche 2-3-18-4;

本申请的主题还涉及下面论文的主题,在此将其引入作为参考:

F.Baumgarte和C.Faller,“Binaural Cue Coding-Part I:Psychoacousticfundamentals and design principles”,IEEE Trans.On Speech and Audio Proc.,卷11,第6期,2003年11月;

C.Faller和F.Baumgarte,“Binaural Cue Coding-Part II:Schemes andapplications”,IEEE Trans.on Speech and Audio Proc.,卷11,第6期,2003年11月;和

C.Faller,“Coding of spatial audio compatible with different playbackformats”,Preprint 117th Conv.Aud.Eng.Soc.,2004年10月。

技术领域

本发明涉及所述音频信号的编码和随后的从编码后的音频数据合成听觉场景。

背景技术

当人听到由特定音源产生的音频信号(即,声音)时,所述音频信号通常会在两个不同的时间抵达人的左耳与右耳且具有两个不同的音频音量大小(例如,分贝),这些不同的时间和音量大小是路径中差异的函数,通过所述路径音频信号分别传播抵达左耳与右耳,人的大脑解读这些时间和音量大小的差异从而使人感觉到所接收的音频信号是由位于相对于所述人的特定位置(例如,方向与距离)的音源所产生。听觉场景为一人同时听到的由位于相对于所述人的一个或多个不同位置的一个或多个不同音源所产生的音频合成串音。

通过大脑此处理的存在可被用来合成听觉场景,其中来自一个或多个不同音源的音频信号可以目的性地修改以产生左边与右边音频信号,所述左边和右边音频信号使听者感觉到不同音源相对于所述听者位于不同的位置。

图1表示传统的立体声信号合成器100的高级框图,其将单一音源信号(例如,单声道信号)转换成立体声信号的左边与右边音频信号,其中立体声信号被定义为在听者的鼓膜处所接收的两个信号。除所述音源信号外,合成器100接收对应于相对听者的音源的期望位置的一组空间提示信号。在典型的实施中,所述这组空间提示信号包括通道间电平差(ICLD)值(其辨识分别在左耳与右耳所接收的左与右音频信号间音频音量大小的差异),和音频通道中时差异(ICTD)值(其辨识如分别在左耳与右耳所接收的左边与右边音频信号间抵达时间的差异)。此外或作为替换,一些合成技术包括用于从音源到耳膜的声音的方向依赖转移函数的建模,也可引用头部相关的转移函数(HRTF),参见例如,J.Blauert,ThePsychophysics of Human Sound Localization,MIT Press,1983,其在此引入以供参考。

使用图1的立体声信号合成器100,由单一音源所产生的单声道音频信号可被处理以便当通过耳机收听时,所述音源通过使用适当空间提示信号组(例如,ICLD、ICTD和/或HRTF)来为每一个耳朵产生音频信号,参见例如,D.R.Begault,3-D Sound for VirtualReality and Multimedia,Academic Press,Cambridge,MA,1994。

图1的立体声信号合成器100产生最简单型式的听觉场景,它们相对于听者具有单一音源,包括相对于听者的位于不同位置的两个或多个音源的更复杂的听觉场景可使用听觉场景合成器被产生,所述听觉场景合成器通过使用多个立体声信号合成器而本质上被实施,其中每个立体声信号合成器产生对应于不同音源的立体声信号,因为每个不同音源相对于听者具有不同的位置,不同空间提示信号组被用来对每个不同音源产生立体声音频信号。

发明内容

根据一个实施例,本发明涉及用于将具有输入时序包络的输入音频信号转换成具有输出时序包络的输出音频信号的方法和设备。所述输入音频信号的所述输入时序包络被特性化。对所述输入音频信号进行处理以产生处理后音频信号,其中所述处理将所述输入音频信号去关联。基于所述特性化的输入时序包络对所属处理后音频信号进行处理以产生所述输出音频信号,其中所述输出时序包络大体上与所述输入时序包络相匹配。

依据本发明的另一实施例,本发明涉及对C个输入音频通道编码以产生E个传输音频通道的方法和设备。为所述C个输入通道中的两个或多个而产生一个或多个提示码。对所述C个输入通道进行下混以产生所述E个传输通道,其中C>E≥1。所述C个输入通道中的一个或多个和所述E个传输通道被分析,以产生一个在所述E个传输通道解码期间用来指示所述E个传输通道的解码器是否执行包络整形的标记。

根据另外一个实施例,本发明涉及通过前面段落中提到的方法产生的编码后音频比特流。

根据另外一个实施例,本发明涉及包括E个传输通道、一个或多个提示码和标记的编码后音频比特流。通过为所述C个输入通道中的两个或多个而产生一个或多个提示码从而产生一个或多个提示码。通过对所述C个输入通道进行下混产生所述E个传输通道,其中C>E≥1。通过对所述C个输入通道中的一个或多个进行分析产生所述标记,其中在所述E个传输通道解码期间用来指示所述E个传输通道的解码器是否执行包络整形。

附图说明

本发明的其他的方面、特征和优点从下面的详细描述、所附的权利要求和附图中将会更明显,其中相同的附图标记表示相似或相同的元件。

图1为传统的立体声信号合成器的高级框图;

图2为一般双声道提示码编码(BCC)音频处理系统的框图;

图3为可被使用于图2的下混器的框图;

图4为可被使用于图2的BCC合成器的框图;

图5依据本发明的实施例,显示图2中所述BCC评估器的框图;

图6表示用于五音频通道的ICTD和ICLD数据的生成;

图7表示用于五音频通道的ICC数据的生成;

图8表示图4的所述BCC合成器的实施的框图,其在单一传输总和信号s(n)加空间提示信号下可被使用于BCC解码器中以产生立体声或多通道音频信号;

图9表示ICTD与ICLD作为频率函数如何在基频带中被改变;

图10为根据本发明的一个实施例的表示BCC解码器的至少一部分的框图;

图11表示在图4的BCC合成器的范围内的图10的包络整形方案的示范应用;

图12表示图4的BCC合成器的范围内的图10的包络整形方案的替换示范应用,其中包络整形被应用到时域中;

图13(a)和(b)表示图12中的TPA和TP的可能的实施,其中只有当频率高于截止频率fTP时包络整形才可以实施;

图14表示在2004年4月1日申请的美国申请号为10/815,591,代理人号为Baumgarte7-12的申请中描述的基于后期回响的ICC合成方案范围内的图10中的包络整形方案的示范应用;

图15表示根据可以替换成图10所示方案的本发明的实施例的BCC解码器的至少一部分的框图;

图16表示根据可以替换成图10和图15所示方案的本发明的实施例的BCC解码器的至少一部分的框图;

图17表示在图4中的BCC合成器的范围内的图15的包络整形方案的示范应用;

图18(a)-(c)表示图17中的TPA、ITP和TP的可能实施的框图。

具体实施方式

在双声道提示码编码(BCC)中,编码器对C个输入音频通道编码以产生E个传输音频通道,其中C>E≥1。特别是C个输入通道中的两个或多个被提供于频域中,且一个或多个提示码被产生用于频域中两个或多个输入通道中一个或多个不同频带的每一个。此外,所述C个输入通道被下混以产生E个传输通道,在一些下混实施中,所述E个传输通道中的至少一个基于所述C个输入通道中的两个或多个,且至少所述E个传输通道中的一个仅基于C个输入通道中的单一通道。

在一个实施例中,BCC码器具有两个或多个滤波器库、一个代码评估器与一个下混器,所述两个或多个滤波器库将所述C个输入通道中的两个或多个从时域转换到频域,所述代码评估器产生一个或多个提示码用于所述两个或多个经转换输入通道中一个或多个不同频带的每一个,下混器下混C输入通道以产生E个传输通道,其中C>E≥1。

在BCC解码中,E个传输音频通道被解码以产生C回放音频通道。特别对于一个或多个频带中的每一个,一个或多个E个传输通道在频域中被上混以在频域中产生C回放通道中的两个或多个,其中C>E≥1。一个或多个提示码被施加至频域中所述两个或多个回放音频通道中的所述一个或多个不同频段的每一个以产生两个或多个经修改的通道,且所述两个或多个经修改的音道从频域被转换成时域。在一些上混实施中,至少C回放通道中的一个基于E个传输音频通道中的至少一个和至少一个提示码,且C回放通道中的至少一个仅基于E个传输音频通道中的单一一个且与任何提示码无关。

在一个实施例中,BCC解码器具有上混器、合成器和一个或多个反向滤波器库,对于一个或多个不同频带中的每一个,所述上混器在频域中上混E个传输通道中的一个或多个以便在频域中产生C个回放通道中的两个或多个,其中C>E≥1,所述合成器施加一个或多个提示码至频域中所述两个或多个回放通道中的所述一个或多个不同频段的每一个,以便产生两个或多个经修改的通道,所述一个或多个反向滤波器库将所述两个或多个修改的通道从频域转换成时域。

根据特别实施,指定的回放通道可基于一个单一传输通道,而不是两个或多个传输通道的结合。例如,当仅有一个传输通道,C个回放通道中的每一个基于所述传输通道。在这些情况下,上混对应所述相应的传输通道的复制。如此,对仅有一个传输通道的应用,所述上混器可使用为每一个回放通道复制传输通道的复制器而被实施。

BCC编码器和/或解码器可合并成一些系统或应用,其包含,例如数字录像机/放影机、数字录音机/放音机、计算机、卫星发送器/接收器、有线发送器/接收器、陆地广播发送器/接收器、家用娱乐系统与电影剧院系统。

(一般BCC处理)

图2为普通的双声道提示码编码(BCC)音频处理系统200的框图,其包括编码器202和解码器204,编码器202包含下混器206和BCC评估器208。

下混器206将C个输入音频通道xi(n)转换成E个传输音频通道yi(n),其中C>E≥1。在此说明书中,使用变量n表示的信号为时域信号,同时使用变量k表示的信号为频域信号。根据特殊的实施,下混能在时域或频域中实施。BCC评估器208从C个输入音频通道产生BCC码且传输这些BCC码作为相对于E个传输音频通道的频带内或频带外辅助信息。通常的BCC码包含一个或多个通道间时差(ICTD)、通道间电平差(ICLD)和在输入通道的某些对间被评估作为频率与时间的函数的通道间关联(ICC)数据。所述特别实施将在输入通道的特定对之间指示BCC码被评估。

ICC数据对应立体声信号的一致性,其与所述音源的感觉宽度有关。音源越宽,所产生立体声信号的左边与右边通道间的一致性越低。例如,对应于传过一个礼堂讲台的管弦乐队的立体声信号的一致性通常低于对应于单个小提琴独奏的立体声信号的一致性。通常,一致性较低的音频信号通常被感觉为在听觉空间中更能被传播。如此,ICC数据通常与听者环境的明显音源宽度和程度有关。见例如,J.Blauert,The Psychophysics of Human SoundLocalization,MIT press,1983。

根据特殊的应用,所述E个传输音频通道和对应的BCC码可直接被传输到解码器204或储存在合适类型的储存装置中用于解码器后续存取。依据所述情况,术语“传输”可引用为直接传输至解码器或是用于对解码器后续供应的储存。在任意种情况下,解码器204接收传输音频通道和辅助信息并且执行上混和使用BCC码的BCC合成以将E个传输音频通道转换成超过E(通常,但不必须,C)个回放音频通道用于音频回放。根据特殊的实施,上混可在既能在时域中也能在频域中被执行。

除图2中所示的BCC处理外,普通的BCC音频处理系统可包括有额外的编码和译码阶段以进一步分别在编码器压缩音频信号然后在解码器对所述音频信号解压缩。这些编解码器可基于传统的音频压缩/解压缩技术,例如那些基于脉冲码调制(PCM)、差分PCM(DPCM)或适应性DPCM(ADPCM)。

当下混器206产生单一总和信号(即,E=1)时,BCC编码能够在比特率仅稍高于所需要表示单声道音频的信号来表示多通道音频信号,这是因为在通道对间所述经评估的ICTD、ICLD和ICC数据含有较音频波形少约两个数量级大小的信息。

不仅对BCC编码的低位率,而且对其向后兼容性方面也是有利的。单一传输总和信号对应原先立体声或多通道信号的单声道下混。对于接收器,其不支持立体声或多通道音频重现,倾听传输总和信号是在低外形单声道再现设备上呈现所述音频素材的正确方法,BCC编码可因此也被使用以提升涉及从单声道音频素材向多通道音频的传输的现有服务。例如,如果B C C辅助信息可被嵌入到现有传输通道中,现有单声道音频无线广播系统可被提升用于立体声或多通道回放。类似的能力存在于当下混多通道音频至对应立体声的两个总和信号。

BCC处理具某时间与频率分辨率的音频信号,所用的所述频率分辨率主要由人体听觉系统的频率分辨率所引起,心理声学建议空间感觉最有可能基于所述音频输入信号的临界频带表示。此频率分辨率通过使用具有频宽等于或与人体听觉系统的临界频宽成正比的基频带的可反向滤波器库(例如,基于快速傅立叶转换(FFT)或正交镜像滤波器(QMF))被考虑。

(一般下混)

在优选实施中,所述传输总和信号包含所述输入音频信号的全部信号成份。目标为每一个信号成份被完全保持。所述音频输入通道的简单总和导致信号成份的放大或衰减。换句话说,在“简单”总和中信号成份的功率经常是大于或小于每一个音频通道的相应信号成份的功率总和。可使用下混技术,该技术使所述总和信号均衡,以便使总和信号中的信号成份的功率大约与在全部输入通道中的相应功率相同。

图3表示下混器300的框图,其可依据BCC系统200的特殊实施被使用于图2的下混器206。下混器300具有滤波器库(FB)302用于每个输入通道xi(n)、下混区块304、可选择校准/延迟区块306和反向FB(IFB)308用于每个编码通道yi(n)。

每一个滤波器库302将时域中相应的数字输入通道xi(n)的每一帧(例如,20msec)转换成频域中一组输入系数下混区块304将C相应的输入系数的每一个基频带下混成E经下混频域系数的相应基频带。方程式(1)表示输入系数的第k个基频带的下混以产生经下混系数的第k个基频带如下:

y^1(k)y^2(k)...y^E(k)=DCEx~1(k)x~2(k)...x~C(k),---(1)

其中DCE为一个实值的C-by-E下混矩阵。

选择的校准/延迟区块306包括一组乘法器310,每一个乘法器以一校准因子ei(k)乘上相应的经下混系数以产生相应的比例系数用于校准操作的动机为相等于对每一个通道用于以任意加权因子下混所一般化的等化。如果输入通道为独立的,接着每一个基频带的经下混信号的功率以方程式(2)得到如下:

py~1(k)py~2(k)...py~E(k)=DCEpx~1(k)px~2(k)...px~C(k),---(2)

其中通过对C-by-E下混矩阵DCE中的每一个矩阵组件进行平方而得到,且为输入通道i的基频带k的功率。

如果基频带不是独立的,接着所述经下混信号的功率值将大于或小于使用第(2)式所计算得值,由于当信号成份分别是同相或不同相时信号放大或取消。为避免如此,第(1)式的下混操作接着以乘法器310的校准操作被施加到基频带中,校准因子ei(k)(1≥i≥E)可由第(3)式得出如下:

ei(k)=py~i(k)py~i(k),---(3)

其中,为如以第(2)式计算的基频带功率,且为相应经下混基频带信号的功率。

除了提供可选择的校准或不用可选择的校准,校准/延迟区块306可选择地对信号施加延迟。

每一个反向滤波器库308将频域中的一组相应的经校准的系数转换成相应的数字、传输通道yi(n)的帧。

虽然图3显示输入通道的全部C被转换成频域用于后续下混,在一个替代实施中,C个输入通道中的一个或多个(但少于C-1)可避开图3中所显示的所述操作的一些或全部且可被传输作为未修改音频通道的相等数量,根据所述特别实施,这些未修改的音频通道可或不可被图2的BCC评估器208使用以产生传输BCC码。

在下混器300的实施中其产生单一总和信号y(n),E=1,且每一个输入通道c的每一个基频带的信号被加入且接着以因子e(k)相乘,依据第(4)式如下:

y~(k)=e(k)Σc=1cx~c(k),---(4)

因子e(k)以第(5)式得到如下:

e(k)=Σc=1cpx~c(k)px~(k),---(5)

其中为在时间索引k时功率的短时间评估,且为功率的短时间评估,所述相等的基频带被转换回到产生被传输至所述BCC解码器的总和信号的时域。

(一般BCC合成)

图4显示BCC合成器400的框图,其依据BCC系统200的某些实施可被使用于图2的解码器204,BCC合成器400具有滤波器库402用于每一个传输通道yi(n),上混区块404,延迟器406,乘法器408,相关区块410和反向滤波器库412用于每一个回放通道

每一个滤波器库402将时域中相应的数字、传输通道yi(n)的每一帧转换成频域中一组输入系数上混区块404将E相应的传输通道系数的每一个基频带上混成C经上混频域系数的一相应的基频带,方程式(4)表示传输通道系数的第k个基频带的上混以产生上混系数的kth基频带如下:

s~1(k)s~2(k)...s~E(k)=UECy~1(k)y~2(k)...y~E(k),---(6)

其中UEC为一个实值E-by-C上混矩阵,在频域中执行上混使上混能被独立地施加于每一个不同的基频带。

每一个延迟器406施加基于用于ICTD数据的相应的BCC码的延迟值di(k)以确保所要的ICTD值出现于回放通道的某些对中。每一个乘法器408施加基于用于ICLD数据的相应的BCC码的校准因子ai(k)以确保所要的ICLD值出现于回放通道的某些对中,相关区块410执行用于ICC数据的相应的BCC码的去关联操作A以确保所要的ICC值出现于回放通道的某些对中,相关区块的操作的进一步描述可见2002年5月24日申请的美国第10/155,437号专利申请如Baumgarte 2-10。

ICLD值的合成比ICLD和ICC值的合成容易一些,因为ICLD合成仅涉及基频带信号的校准。因为ICLD提示信号为最通常使用的方向性提示信号,ICLD值接近原始音频信号的这些值是通常更重要的,如此,ICLD数据可被评估在全部通道对之间。对每一个基频带的校准因子ai(k),(1≤i≤C)最好被选取使得每一个回放通道的基频带功率接近原始输入音频通道的相应的功率。

一个目标可施加相对少的信号修改用以合成ICTD和ICC值,这样,所述BCC值可不包含用于全部通道对的ICTD和ICC值,在所述情形中,BCC合成器400将仅在某些通道对之间合成ICTD和ICC值。

每一个反向滤波器库412将一组频域中的相应的经合成系数转换成相应的数字的、回放通道的帧。

虽然图4显示全部E个传输通道被转换成频域用于后续上混与BCC处理,在另外实施中,所述E个传输通道中的一个或多个(但非全部)可避开图4所示的处理的一些或全部。例如,传输通道的一个或多个可以是未修改通道,其未接受任何上混。除了作为C个回放通道中的一个或多个之外,这些未修改通道,轮流地,可以是但不必须被用作为参考通道,其BCC处理被施加给合成其它回放通道中的一个或多个。在任情形中,这些未修改通道可受到延迟以补偿涉及上混的操作时间与/或用以产生其余回放通道的BCC操作。

注意的是,虽然图4显示C个回放通道自E个传输通道被合成,其中,C也为原始输入通道的数目,BCC合成不限于回放通道的所述数目,通常,回放通道的数目可以是通道的任何数目,包含数目大于或小于C和可能甚至当回放通道的数目是等于或小于传输通道数目的情形。

(介于音频通道之间的“感觉上相对差异”)

假设单一总和信号,BCC合成立体声或多通道音频信号使得ICTD、ICLD和ICC接近原始音频信号的相应的提示信号,以下,关于听觉空间影像属性的ICTD、ICLD和ICC的作用将予讨论。

关于空间听觉的知识包含有对于一个听觉事件,ICTD和ICLD与感觉方向是相关的。当考虑到音源的立体声空间脉冲响应(BRIRs)时,在听觉事件的宽度和听者包封和为BRIRs的早期和后期部分评估的ICC数据之间具有关系。然而,在ICC和这些普通信号(和不只是BRIRs)的性质之间的关系不是直接的。

立体声和多通道音频信号通常包含同步主动源信号的复杂混合,所述主动源信号是从围绕空间中录音所产生的经反射信号成份所迭加,或用于人工生成的空间印象的录音工程师所赋加,不同的音源信号与它们的反射占据时间-频率平面中的不同区域。此由ICTD、ICLD与ICC所反映,其作为时间与频率的函数而改变。在此情形下,瞬时现象ICTD、ICLD和ICC和音频事件方向与空间印象间的关系是不明显的。某些BCC实施例的策略是不明显地合成这些提示信号,以便使它们接近原始音频信号的相应的提示信号。

具有基频带频宽等于两倍相等的矩形频宽(ERB)的滤波器库被使用。非正式的倾听会显示当选取较高频率分辨率时BCC的音频质量未显著改善。较低频率分辨率可为需求的,因为它导致较少ICTD、ICLD与ICC值需要被传输至解码器,且因此以较低比特率传输。

关于时间分辨率,ICTD、ICLD和ICC为通常在固定时间间距下被考虑,当ICTD、ICLD与ICC以约每4到16ms被考虑时,可得到高性能。注意的是,除非所述提示信号在非常短的时间间隔被考虑,先前效果未直接考虑,假设音频刺激的典性领先-落后对,假如所述领先和落后位于时间间隔仅一组提示信号被合成,则所述领先的局部化优势未被考虑。虽然如此,BCC达到音频质量以平均MU SHRA分数反映为平均约87(即,“极佳”音频质量),且对某些音频信号高到接近于100。

参考信号与经合成信号间的所述经常得到的感觉上小差异暗示关于宽度范围的听觉空间影像属性的提示信号为暗示性地在固定时间间隔被合成ICTD、ICLD和ICC所考虑。以下,一些论点对于ICTD、ICLD和ICC可如何与听觉空间影像属性的范围有关。

(空间提示信号的评估)

以下中,将描述ICTD、ICLD和ICC如何被评估,用于这些(经量化的与编码的)空间提示信号的传输比特率可为刚好为几个kb/s并因此,使用BCC,它可能在比特率接近对单一音频通道的要求下传输立体声与多通道音频信号。

图5显示依据本发明,图2的BCC评估器208的框图,BCC评估器208包括滤波器库(FB)502,其可与图3的滤波器库302相同,和评估区块504其对由滤波器库502所产生的每一个不同频率产生ICTD、ICLD与ICC空间提示信号。

(用于立体声信号的ICTD、ICLD和ICC的评估)

以下量测为使用于ICTD、ICLD和ICC用以相应的二(例如,立体声)音频通道的基频带信号与

ICTD[例子]

τ12(k)=argmaxd{Φ12(d,k)}---(7)

具有由以下第(8)式得到的经标准化交叉相关函数的短时间评估。

Φ12(d,k)=px~1x~2(d,k)px~1(k-d1)px~2(k-d2)---(8)

其中

d1=max{-d,0}                                (9)

d2=max{d,0}

且,为平均数的短时间评估。

ICLD[dB]

ΔL12(k)=10log10(px~2(k)px~1(k))---(10)

ICC

c12(k)=maxd|Φ12(d,k)|---(11)

注意经标准化交叉相关的绝对值被考虑且c12(k)具有[0,1]的范围。

(用于多通道音频信号的ICTD、ICLD和ICC的评估)

当有超过两个输入通道,它通常足以在参考通道间限定ICTD和ICLD(例如,音频通道号码1)与其它通道,如图6中所说明用于C=5个通道的情形,其中τ1c(k)与ΔL12(k)在参考通道1与通道c之间分别指示ICTD与ICLD。

与ICTD和ICLD相反的,ICC通常具有较多自由度,所限定的ICC在所有可能的输入通道对之间具有不同的值,对C个通道而言,具有C(C-1)/2个可能的音频通道对,例如,对5个通道会有如图7(a)中所例示的10个通道对,然而,这些方式需要在每一时间索引对每一基频带评估且传输C(C-1)/2个ICC值,导致高计算复杂度与高比特率。

或者,对每一基频带,实施ICTD与ICLD决定基频带中相应的信号成份的音频事件的方向。每基频带的单一ICC参数可接着被用于描述全部音频通道间的整体一致性,良好的结果可通过仅在每一时间索引的每一基频带中具有最多能量的两个通道间评估和传输ICC提示信号而得到。此例示于图7(b)中,其中时间瞬间k-1与k的所述通道对(3,4)与(1,2)分别为最强。启发式规则可被用于在其它通道对间决定ICC。

(空间提示信号的合成)

图8显示图4的BCC合成器400的实施框图,其在给单一传输总和信号s(n)加空间提示信号下,可被使用于BCC解码器中以产生立体声或多通道音频信号。总和信号s(n)被分解成基频带,其中指示这些基频带。为产生每一个输出通道的相应的基频带,延迟dc校准因子ac与滤波器hc被施加至总和信号的相应的基频带,(为简化表示,时间索引k在延迟、校准因子和滤波器中被省略),ICTD通过加上延迟,ICTD通过校准和ICC通过施加去相关滤波器被合成,图8中所示的处理被独立地施加至每一基频带。

(ICTD合成)

延迟dc从ICTDs τ1c(k)被决定,依据如下第(12)式:

dc=-12(max2lCτ1l(k)+min2lCτ1l(k)),c=1τ1l(k)+d12cC---(12)

用于参考通道的延迟d1被计算使得延迟dc的最大数量被最小化,越少基频带信号被修改,越少的人为危害产生,假如基频带取样率对ICTD合成未提供够高的时间分辨率,延迟可通过使用合适的全通滤波器更准确地被加于其上。

(ICLD合成)

为使输出基频带信号在通道c和参考通道1具有所要的ICLDsΔL12(k),增益因子ac应所述满足如下第(13)式:

aca1=10ΔL1c(k)20---(13)

此外,输出基频带最好被标准化使得全部输出通道的功率与输入总和信号的功率相等。因为在每一基频带中的全部原始信号功率被保存在总和信号中,在绝对基频带功率中的此标准化结果对每一个输出通道接近原始编码器音频信号的相应的功率,在这些限制下,校准因子ac由以下第(14)式得到。

(ICC合成)

在某些实施例中,ICC合成的目标为在延迟后的基频带间降低相关且校准已被施加,而不会影响ICTD和ICLD。此可通过设计图8中的滤波器hc而达到,使得ICTD和ICLD如同一频率函数有效地被改变,使得在每一基频带(音频临界频带)中平均变异为0。

图9说明ICTD和ICLD如何在一基频带中作为频率函数被改变,ICTD和ICLD变异的振幅决定去相关的程度且作为ICC函数被控制,注意ICTD被平缓地改变(如图9(a)),同时ICLD被任意改变(如图9(b))。可如同ICTD平缓般地变化ICLD,但此将导致音频信号产生更多的声染色。

用于合成ICC的另一方法,特别适合于多通道ICC合成,被更详细描述于C.Faller,“Parametric multi-channel audio coding:Synthesis ofcoherence cues,”IEEE Trans.on Speech and Audio Proc.,2003,其启示被并入于此以供参考,作为时间和频率的函数,人为后期回响(latereverberation)的特定量被加于每一个输出通道用以获得想要的ICC,另外,频谱修改可被施加以使得产生信号的频谱包络接近原始音频信号的频谱包络。

其它用于立体声信号(或音频通道对)的相关与不相关的ICC合成技术已发表于E.Schuijers,W.Oomen,B.den Brinker,andJ.Breebaart,“Advances in parametric coding for high-quality audio,”in Preprint 114th Conv.Aud.Eng.Soc.,Mar.2003,and J.Engdegard,H.Purnhagen,J.Roden,and L.Liljeryd,“Synthetic ambience in parametric stereo coding,”in Preprint 117th Cov.Aud.Eng.Soc.,May 2004,二者的启示并入于此以供参考。

(C-to-E BCC)

如先前描述,BCC可以超过传输通道被实施,BCC的变形已被描述,其代表C个音频通道并非为单一(传输)通道,但作为E个音频通道,标示为由C到E(C-to-E)BCC。对C-to-E BCC至少有两个动机:

具备传输通道的BCC提供向后(backwards)可兼容路径用以升级现有的单声道系统用于立体声或多通道音频回放,所述经升级的系统通过现有的单声道架构传输BCC下混总和信号,从C到E(C-to-E)的BCC可施加C个通道音频的向后可兼容的编码至E个通道。

从C到E的BCC以传输通道数目的不同程度的减少引进校准。可以预期当更多的音频通道被传输会有更佳的音频质量。

对从C到E的BCC的信号处理细节,诸如如何定义ICTD、ICLD和ICC提示信号,被描述于2004年1月20日的美国第10/762,100号专利申请中(Faller 13-1)。

(散射声音整形)

在某些实施中,BCC编码包括用于ICTD、ICLD和ICC合成的算法。ICC提示信号可以通过对在相应的基频带中的信号分量进行去关联被合成。这可以通过ICLD的频率相关变化、ICTD和ICLD的频率相关变化、全通滤波或者通过与回响算法相关的想法来完成。

当这些技术在音频信号上使用时,所述信号的时序包络特征不被保存。特别地,当被应用到瞬时现象上时,瞬时信号能量可能被传播了一段时期。这就导致了人为结果例如“前回声”或者“模糊的瞬时现象”。

本发明的某些实施例的一般原理与观测结果有关,所述观测结果为BCC解码器合成的声音应该不仅具有与原始声音相似的空间特征,还应该与所述原始声音的时序包络非常近似,以便具有相似的感知特征。通常这是在通过包括动态ICLD合成的类似BCC方案中实现的,其对大约每个信号通道的时序包络进行时间变化校准操作。对于瞬变信号(突发、打击乐器等),这种处理的瞬时清晰度可以,然而,不足以产生合成信号,该合成信号足够接近原始时序包络。本节描述了许多具有十分精细的时间分辨率的方法来实现这个。

另外,对于不能访问所述原始信号的时序包络的BCC解码器,思路是将所述传输“总和信号”的时序包络作为近似值替换。这样,就不需要将辅助信息从所述BCC编码器到所述BCC解码器进行传输以传送这样的包络信息。总之,本发明依赖下面的原则:

所述传输音频通道(即“总和通道”)或者BCC合成可能基于的这些通道的线性组合通过时序包络提取器进行分析用于其具有高时间分辨率的时序包络(例如,比BCC区块的大小更显著地精细)。

用于每个输出通道的所述后续合成声音被整形以便-即使是在ICC合成之后-其能够尽量地与通过所述提取器所决定的时序包络相匹配。这会保证即使在瞬时信号的情况下,所述合成的输出声音并没有被ICC合成/信号去关联处理显著地降低品质。

图10显示的是根据本发明的一个实施例,表示BCC解码器1000至少一部分的框图。在图10中,区块1002表示BCC合成处理,其包括,至少,ICC合成。BCC合成区块1002接收基通道1001并产生合成通道1003。在某些实施中,区块1002表示图4中的区块406、408和410的处理,其中基通道1001为上混区块404产生的信号,并且合成通道1003是关联区块410产生的信号。图10表示对一个基通道1001和它相应的合成通道实施的处理。相似的处理也被实施在每个其他的基通道和它相应的合成通道上。

包络提取器1004决定基通道1001’的细微时序包络a,并且包络提取器1006决定合成通道1003’的细微时序包络b。反包络调节器1008使用来自包络提取器1006的时序包络b以标准化合成通道1003’的所述包络(即“平滑”所述时序细微结构)来产生具有标记(即统一的)时间包络的平滑的信号1005’。根据特殊的实施,平滑化可以在上混前或上混后实施。包络调节器1010使用来自包络提取器1004的时序包络a以对平滑信号1005’上的原始信号包络进行再加强来产生具有与基通道1001的时序包络大体上相等的时序包络的输出信号1007’。

根据所述实施,此时序包络处理(在此也引用为“包络整形”)可以应用在整个合成通道(如所示的那样)或者只应用在所述合成通道(如后面所描述的)的正交的部分(例如,后期回响部分、去关联部分)。此外,根据所述实施,包络整形可以应用在时域信号或者以频率依赖的方式应用(例如,所述时序包络分别以不同的频率被评估和加强)。反包络调节器1008和包络调节器1010可以依不同的方式实施。在一种实施方式中,信号的包络通过信号的时域样本(或者频谱/基带样本)和时间变化的振幅改变函数(例如,用于反包络调节器1008的1/b和用于包络调节器1010的a)的相乘来进行操作。可选择地,所述信号的关于频率的频谱表示的卷积/滤波可以以在现有技术中为了对低速率音频编码器的量化噪声进行整形为目的的方式被使用。相似地,信号的时序包络可以通过分析信号的时间结构或者检查关于频率的信号频谱的自动关联直接地被提取。

图11表现的是图4中的BCC合成器400范围内的图10的包络整形方案的示范性应用。在本实施例中,有单一传输总和信号s(n),所述C个基信号通过复制那个总和来产生,并且包络整形被单独地应用到不同的基带。在替换实施例中,延迟、校准和其他处理的顺序可以不同。此外,在替换实施例中,包络整形并不限定为独立地处理每个基带。对于基于卷积/滤波的实施来说使用频带的协方差来得到关于所述信号时序细微结构的信息是特别准确的。

在图11(a)中时序处理分析器(TPA)1104与图10中的包络提取器1004相似,并且每个时序处理器(TP)1106与图10中的包络提取器1006、反包络调节器1008和包络调节器1010的组合相似。

图11(b)为TPA1104的一个可能的基于时域的实施的框图,其中所述基信号样本被平方(1110),然后被低通滤波(1112)以对所述基信号的时序包络a进行特性化。

图11(c)为TP1106的一个可能的基于时域的实施的框图,其中所述合成信号样本被平方(1114),然后被低通滤波(1116)以对所述合成信号的时序包络b进行特性化。一个校准因子(例如,sqrt(a/b))被产生,然后被应用到合成信号上以产生具有与所述原始基通道的时序包络大体上相等的时序包络的输出信号。

在TPA1104和TP1106的替换实施中,通过使用量值操作而不是将所述信号样本平方而使所述时序包络被特性化。在这样的实施中,a/b的比率可以用作校准因子而不用进行平方根的操作。

虽然图11(c)中的所述校准操作对应于TP处理的基于时域的实施,但是TP处理(又TPA和反TP(ITP)处理)也能使用频域信号,如图17~18(后面描述)中的实施例中的,进行实施。这样,为了本说明书的目的,术语“校准函数”应该被理解为覆盖时域或者频域操作,例如图18(b)和(c)中的滤波操作。

通常,TPA1104和TP1106优选地被设计以便其不修改信号功率(即,能量)。根据特殊实施,该信号功率可以是每个通道的短时间平均信号功率,例如,基于合成窗定义的时间段里的每通道的总信号功率或者一些其他合适的功率量。这样,ICLD合成(例如使用乘法器408)的校准能够在包络整形之前或之后应用。

注意到在图11(a)中,每个通道有两个输出,其中TP处理只被应用到他们其中的一个。这反映出ICC合成方案,该方案混合两个信号分量:未修改的和正交的信号,其中未修改的和正交的信号的比率决定ICC。在图11(a)所示的实施例中,TP只被应用到正交的信号分量上,其中总和节点1108将未修改信号分量和相应的时序整形的正交的信号分量重新组合。

图12表现了图4中的BCC合成器400范围内的图10中的包络整形方案的替换示范性实施,其中包络整形被应用到时域中。这样的实施例可以被保证,当频谱表示,其中ICTD、ICLD和ICC被执行,的时间分辨率对于通过加强需要的时序包络来有效阻止“前回响”的时候。例如,这会是一种情况,当BCC实施短时间傅立叶变换(STFT)的时候。

如图12(a)所示,TPA1204和每个TP1206在时域被实施,其中全基带信号被校准以便其具有期望的时序包络(例如,从传输总和信号评估的包络)。图12(b)和(c)为与图11(b)和(c)所示相似的TPA1204和TP1206的可能的实施。

在此实施例中,TP处理被应用到所述输出信号,而不仅是正交信号分量。在替换实施例中,如果希望的话,基于时域的TP处理能够被仅应用到正交信号分量上,其中未修改和正交的基频带将会被转换到具有分开的反向滤波库的时域。

由于BCC输出信号的全频带校准可以导致人为现象,所以包络整形可以只在指定的频率应用,例如,频率高于某个截止频率fTP(例如,500Hz)。注意到用于分析(TPA)的频率范围可以与用于合成(TP)的频率范围不同。

图13(a)和(b)为TPA1204和TP1206的可能的实施,其中包络整形只在高于所述截止频率fTP的频率应用。特别地,图13(a)示出了高通滤波器1302的附加部分,其在时序包络特性化之前滤出低于fTP的频率。图13为具有在两个基频带之间的fTP的截止频率的两频带滤波库1304,其中只有高频部分被时序整形。两频带反向滤波库1306然后将低频部分与时序整形的高频部分进行重新组合以产生所述输出信号。

图14表现的是所在2004年4月1日申请的代理人号是Baumgarte 7-12的美国申请号为10/815,591号申请描述的基于后期回响ICC合成方案的范围内的图10种的包络整形方案的示范性应用。在此实施例中,TPA1404和每个TP1406在时域中应用,如图12或图13所示,但是其中每个TP1406被应用到来自不同的后期回响(LR)区块1402的输出上。

图15所示的为根据本发明的实施例的表示BCC解码器1500至少一个部分的框图,其可以与图10所示的方案进行替换。在图15中,BCC合成区块1502、包络提取器1504和包络调节器1510与图10中的BCC合成区块1002、包络提取器1004和包络调节器1010相似。在图15中,然而,反包络调节器1508在BCC合成之前被应用,而不是BCC合成之后,如图10所示。这样,反包络调节器1508在BCC合成应用之前对基通道进行平滑处理。

图16所示为根据本发明的实施例的表示BCC解码器1600至少一部分的框图,其可以与图10和图15所示的方案互换。在图16中,包络提取器1604和包络调节器1610与图15中的包络提取器1504和包络调节器1510相似。在图15中的实施例,然而,合成区块,1602表示与图16所示的相似的基于后期回响的ICC合成。在这种情况下,包络整形只被应用到不关联的后期回响信号,并且总和节点1612将时序整形的后期回响信号加到所述原始基通道(其具有期望的时序包络)。要注意的是,在这种情况下,不需要使用反包络调节器,因为后期回响信号具有在区块1602中的产生处理中生成的大约平的时序包络。

图17为图4中的BCC合成器400的范围内的图15中的包络整形方案的示范性应用。在图17中,TPA1704、反TP(ITP)1708和TP1710与图15中的包络提取器1504、反包络调节器1508和包络调节器1510相似。

在此基于频率的实施例中,通过对沿着频率轴的(例如,STFT)滤波库402的频率码使用卷积来进行发散声音的包络整形。在此可参考美国专利5,781,888(Herre)和美国专利5,812,971(Herre),其启示在此饮用作为参考,其主题与这项技术相关。

图18(a)表现的是图17中的TPA1704的可能的实施地框图。在此实施中,TPA1704作为线性预测编码(LPC)分析操作被实施,其决定最合适的预测系数用于一系列有关频率的频谱系数。这种LPC分析技术是众所周知的,例如,从语音编码和很多用于LPC系数的有效计算的算法可知,例如自动关联方法(涉及信号自动关联函数和后续levinson-Durbin递归)。作为这个计算的结果,一套LPC系数在表示信号时序包络的输出是可用的。

图18(b)和(c)表示的是图17的ITP1708和TP1710的可能实施的框图。在这两个实施中,将要处理的信号的频谱系数以频率的顺序(增加或减小)被处理,其在此通过旋转开关电路被符号化,通过预先滤波处理(在此处理之后再次回来)将这些系数转化为一系列用于处理的顺序。在ITP1708的情况下,预先滤波计算预留量并以这种方式平滑所述时序信号包络。在TP1710的情况下,所述反滤波器从TPA1704重新引入LPC系数表示的所述时序包络。

对于通过TPA1704的信号时序包络的计算,重要的是消除滤波库402的分析窗的影响,如果使用这样的窗。这可以通过以分析窗整形标准化结果包络或使用分开的不使用分析窗的分析滤波库来实现。

图17中的基于卷积/滤波技术也可以在图16中的包络整形方案的范围内应用,其中包络提取器1604和包络调节器1610分别基于图18(a)的TPA和图18(c)的TP。

(另外可替换实施例)

BCC解码器能够被设计用于选择地开启/关闭包络整形。例如当合成信号的时序包络充分地波动时,BCC解码器能够应用传统的BCC合成方案和开启包络整形,以便包络整形的好处大于任何包络整形产生的人为影响。该开启/关闭控制可以通过以下方式实现:

(1)瞬时现象检测:如果检测到瞬时现象,那么TP处理被启动。瞬时现象检测能够以展望的方式实施以在瞬时现象之前和之后立刻有效的即对瞬时现象整形也能对信号整形。检测瞬时现象可能的方式包括:

当有指示瞬时现象发生的突然的功率上的增加出现时,观察传输BCC总和信号的时序包络以进行检测;和

检查预先(LPC)滤波器的倍率。如果LPC预先倍率超出指定的阀值,则可设想信号为瞬时现象或高波动。LPC的分析关于频谱自动关联被计算。

(2)随机检测:当时序包络随机假波动时,存在一些情景。在这些情景中,没有瞬时现象被检测到,但是TP处理可以仍然被实施(例如,相应于这种情景的热烈鼓掌的信号)。

另外,在某些实施中,为了阻止可能的音调信号的人为影响,当传输总和信号为高时,TP处理不被实施。

此外,相似的方法可以在BCC编码器中使用以在TP处理应该被激活时进行检测。因为编码器可以访问所有原始输入信号,其可以使用更精密的算法(例如,评估区块208的一部分)以便在TP处理应该启动时进行决定。这个决定的结果(当TP应该被激活时,发出信号)能够被传输到BCC解码器(例如,图2中的辅助信息的一部分)。

虽然本发明已就BCC编码方面被描述,其中具有单一总和信号,本发明也可在具有两个或多个总和信号的BCC编码方面被实施,在此情形下,用于每一个不同“基础”的总和信号的时序包络可于施加BCC合成前被评估,且不同的BCC输出通道可基于不同的时序包络被产生,根据总和信号被用以合成不同输出通道,输出通道从两个或多个总和通道被合成可基于有效的时序包络被产生,所述时序包络将所述构成总和通道的相对效果列入考虑(例如,通过加权平均)。

虽然本发明已描述了涉及ICTD、ICLD和ICC码的BCC码的方面,本发明也可在仅涉及这三种码(例如,ICLD、ICC而非ICTD)类型中的一个或两个的BCC码方面实施和/或额外码类型中的一个或多个,而且,BCC合成处理的顺序与包络整形可在不同实施中变化,例如,当包络整形被施加至频域信号,如图14与16,包络整形可于ICTD合成(于那些使用ICTD合成的实施例中)后但先于ICLD合成另外被实施,在其它实施例中,包络整形于任何其它BCC合成被施加前可被施加至上混信号。

虽然本发明已在BCC编码方案方面进行了描述,本发明也可在其它音频处理方面实施,其中音频信号被去相关或需要去相关信号的其它音频处理。

虽然本发明已在实施方面进行了描述,其中编码器在时域中接收输入音频信号,且在时域中产生传输音频信号,且解码器在时域中接收传输音频信号,且在时域中产生回放音频信号,本发明不限于此,例如,在其它实施中,任意一个或多个输入、传输和回放音频信号可被表示于频域中。

BCC编码器和/或解码器可与多种不同应用或系统连接或被并入多种不同应用或系统中,包含用于电视或电子音乐发布、电影院、广播、流向和/或接收的系统,这些包含系统用于编码/解码传输通过,例如,地面、卫星、有线电视、因特网、网间网络或物理媒介(例如,磁盘、数字磁盘、半导体芯片、硬盘、记忆卡和相类物),BCC编码器和/或解码器也可被使用于游戏与游戏系统中,包含,例如,想要与娱乐用的使用者互动的交互式软件产品和/或可被出版用于多项机器、平台或媒介的教育,进而BCC编码器和/或解码器可被并入于PC软件应用,其是结合数字解码(例如,播放机、解码器)和结合数字编码能力的软件应用(例如,编码器、录音器、自动点唱机)。

本发明可以以基于电路的制程被实现,包含作为单一集成电路(如,ASIC或FPGA)、多芯片模块、单一卡片或多卡电路组的可能的实施,其对本领域技术人员电路组件的各种功能也可如软件程序的处理步骤被实施将是明显的,这些软件也可被使用于例如,数字信号处理器、微控制器或一般计算机。

本发明也可具体表现在方法和用以实施这些方法的设备中,本发明也可被具体实施在包含在实体媒介的程序代码中,如磁盘、CD-ROMs、硬盘或任何其它机器可读取储存媒体,其中当程序代码被加载且通过机器如计算机执行,所述机器变成用以实施本发明的设备,本发明也可被具体表现于程序代码,例如,是否储存在储存媒体、通过机器加载或执行或传输经过一些传输媒体或载体,如以电线或有线、通过光纤或通过电磁辐射,其中,当程序代码通过机器如计算机被加载和执行,所述机器变成用以实施本发明的设备,当在一般处理器上实施时,所述程序代码区段结合所述处理器用以提供特殊装置,其操作为类似于特定逻辑电路。

它将进而了解到在细节、材料与已描述和说明以便解释本发明的本质的零件配置上的各种变化,对本领域技术人员来说,可无需脱离本发明表示在以下的权利要求书而实现。

虽然以下方法权利要求书中的步骤,若有的话,可以特定顺序和相应的标示被详述,除非所述权利要求书详述另外暗指特定顺序用以实施这些步骤的一些或全部,这些步骤不必被限定为以所述特定顺序被实施。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号