首页> 中国专利> 用空间线索参数对多通道音频信号应用混响的方法和装置

用空间线索参数对多通道音频信号应用混响的方法和装置

摘要

公开了一种用于将混响应用到指示X个单独的音频通道的M通道下混音频输入信号的方法和系统,其中X大于M。典型地,该方法包括步骤:响应指示下混输入信号的空间图像的空间线索参数,生成Y个离散混响通道信号,其中时刻t的每个混响通道信号是该时刻t的单独的音频通道的值的至少子集的线性组合,以及将混响单独应用到至少两个混响通道信号中的每个,从而生成Y个混响通道信号。优选地,被应用到至少一个通道信号的混响具有与被应用到至少一个另外的通道信号的混响不同的混响脉冲响应。t,是该时刻t的单独的音频通道的值的至少子集的线性组合,以及将混响单独应用到至少两个混响通道信号中的每个,从而生成Y个混响通道信号。优选地,被应用到至少一个通道信号的混响具有与被应用到至少一个另外的通道信号的混响不同的混响脉冲响应。

著录项

  • 公开/公告号CN102257562A

    专利类型发明专利

  • 公开/公告日2011-11-23

    原文格式PDF

  • 申请/专利权人 杜比国际公司;

    申请/专利号CN200980151156.7

  • 发明设计人 约纳什·恩德加德;

    申请日2009-12-16

  • 分类号G10L19/00;H04S3/00;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人杜诚

  • 地址 荷兰祖伊杜斯特

  • 入库时间 2023-12-18 03:51:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-09-11

    授权

    授权

  • 2012-01-04

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20091216

    实质审查的生效

  • 2011-11-23

    公开

    公开

说明书

技术领域

本发明涉及用于将混响应用到指示大量单独音频通道的多通道下混 (downmix)音频信号的方法和系统。在一些实施例中,这是通过这样的 方式完成的:响应于(指示输入信号的至少一个空间线索的)至少一个空 间线索参数来上混(upmix)输入信号以及将混响应用到至少一些单独通 道,从而针对应用了混响的单独通道中的每个应用不同的混响脉冲响应。 可选地,在应用混响之后,下混单独通道以生成N-通道混响输出信号。 在一些实施例中,输入信号是QMF(正交镜像滤波器)域MPEG环绕 (MPS)编码信号,且响应于包括通道水平差(CLD)、通道预测系数 (CPC)以及通道间互相关(ICC)中的至少一些的MPS空间线索参数 在QMF域中执行上混和混响应用。

背景技术

在包括权利要求书的整个公开中,措辞“混响器”(或“混响器系统”) 用来表示被配置为将混响应用到音频信号(例如应用至多通道音频信号中 的全部或一些通道)的系统。

在包括权利要求书的整个公开中,广义地使用措辞“系统”来表示设 备、系统或子系统。例如,可以将实施混响器的子系统称为混响器系统(或 混响器),而也可以将包括这种混响器子系统的系统(例如,响应于Q+R 个输入生成X+Y个输出信号的解码器系统,其中混响器子系统响应于Q 个输入生成X个输出,而在解码器系统的另外的子系统中生成其它的输 出)称为混响器系统(或混响器)。

在包括权利要求书的整个公开中,措辞由扬声器“再现”信号表示使 扬声器响应于信号产生声音,包括通过执行任何需要的放大和/或其它信 号处理。

在包括权利要求书的整个公开中,措辞值v1、v2、......、vn(例如, 在时间t出现的x个单独音频通道信号的集合的子集的n个单元,n小于 或等于X)的“线性组合”表示等于a1v1+a2v2+......+anvn的值,其中a1、 a2、......、an是系数。一般来说,对系数的值没有限制(例如,每个系数 可以是正数或负数或零)。本文使用的措辞都是广义上的,例如,用这些 措辞来覆盖一个系数等于1而其它的系数等于零的情况(例如,线性组合 a1v1+a2v2+......+anvn等于v1(或v2、......、或vn)的情况)。

在包括权利要求书的整个公开中,措辞多通道音频信号的“空间线索 参数”表示任何指示音频信号的至少一个空间线索的参数,其中每个这种 “空间线索”指示(或描述)多通道信号的空间图像。空间线索的示例是 音频信号的通道对之间的水平(或强度)差(或比例)、这些通道对之间 的相位差、以及这些通道对之间的相关性的度量。空间线索参数的示例有 是作为常规MPEG环绕(“MPS”)比特流的部分且在MPEG环绕编码中 采用的通道水平差(CLD)参数和通道预测系数(CPC)参数。

根据已知的MPEG环绕(“MPS”)标准,可以通过被下混为较少数 量的通道(例如,M个通道,其中M通常等于2)并被压缩来将多通道 的音频数据编码,且可以通过被解压并被处理(上混)来将这样的M-通 道下混音频信号解码,以生成N个解码音频通道(例如M=2而N=5)。

典型的常规的MPS解码器能够进行操作以执行上混以响应于时域、 2通道、下混音频输入信号(以及包括通道水平差和通道预测系数参数的 MPS空间线索参数)生成N个解码音频通道(N大于2)。典型的常规的 MPS解码器能够在双声道(binaural)模式下进行操作以响应于时域、2 通道、下混音频输入信号和空间线索参数来生成双声道信号,并且能够在 至少一个其它模式下进行操作以响应于时域、2通道、下混音频输入信号 和空间线索参数来执行上混以生成5.0(其中标记“x.y”通道表示“x” 全频率通道和“y”低音炮通道)、5.1、7.0或7.1解码音频通道。输入信 号经历时域至频域变换以进入QMF(正交镜像滤波器)域,以生成QMF 域频率分量的两个通道。这些频率分量在QMF域中经历解码,并且产生 的频率分量然后典型地被转换回时域以生成解码器的音频输出。

图1是常规MPS解码器的单元的简单化框图,其中该MPS解码器 被配置为响应于2通道下混音频信号(L’和R’)和MPS空间线索参数(包 括通道水平差和通道预测系数参数)生成N个解码音频通道(N大于2, 且N典型地等于5或7)。下混输入信号(L’和R’)指示“X”个单独的 音频通道,X大于2。下混输入信号典型地指示五个单独的通道(例如, 左前、右前、中置、左环绕以及右环绕通道)。

‘左’输入信号L’和‘右’输入信号R’中的每个是在时域至QMF 域转换级(图1未示出)通过转换2通道、时域MPS编码信号(图1中 未指示出)而生成的QMF域频率分量的序列。

在图1的解码器1中,响应于(与输入信号一起)被设置在图1的 系统中的MPS空间线索参数将下混输入信号L’和R’解码为N个单独通 道信号S1、S2、......、SN。输出QMF域频率分量S1、S2、......、SN 的N个序列典型地通过QMF域至时域转换级(图1中未示出)被转换回 时域,且可以在未经历后处理的情况下被设置为系统的输出。可选地,信 号S1、S2、......、SN在后处理器5中(在QMF域中)经历后处理,以 生成包括通道OUT1、OUT2、......、OUTN的N通道音频输出信号。输 出QMF域频率分量OUT1、OUT2、......、OUTN的N个序列典型地通 过QMF域至时域转换级(图1中未示出)被转换回时域,且被设置为系 统的输出。

在双声道模式下工作的图1的常规MPS解码器响应于2通道下混音 频信号(L’和R’)和MPS空间线索参数(包括通道水平差参数和通道 预测系数参数)生成2通道双声道音频输出S1和S2,且可选地,也可生 成2通道双声道音频输出OUT1和OUT2。当通过一对耳机再现时,2通 道音频输出S1和S2在收听者的耳膜处被感受为来自包括收听者前方或后 方的位置的各种位置中的任意位置(其由解码器1的系数确定)处的“X” 个扬声器(X>2且X通常等于5或7)的声音。在双声道模式中,后处理 器5能够将混响应用到解码器1的2通道输出(S1、S2)(这种情况下, 后处理器5实施人工混响器)。图1的系统可以(以下述的方式)被实施 使得后处理器5的2通道输出(OUT1和OUT2)是已经应用了混响的双 声道音频输出,且当该双声道音频输出通过耳机被再现时,在收听者的耳 膜处被感受为来自包括收听者的前方和后方的位置的各种位置中的任意 位置处的“X”个扬声器(X>2且X通常等于5)的声音。

在图1的解码器的双声道模式工作过程中生成的信号S1和S2(或 OUT1和OUT2)的再现能够让收听者感受到来自多于两个(例如五个) “环绕”源的声音。这些源中的至少一些源是虚拟的。通常,常规的是虚 拟环绕系统使用头部相关传递函数(HRTF)生成音频信号(有时被称为 虚拟环绕声音信号),当通过一对物理扬声器(例如,置于收听者前方的 扬声器,或耳机)再现时,在收听者的耳膜处将该音频信号感受为来自各 种位置(典型地包括收听者后方的位置)中的任意位置处的多于两个源的 声音。

如所注明的,可以使用通过后处理器5实施的人工混响器来实施在双 声道模式下工作的图1的MPS解码器以应用混响。该混响器可以被配置 为响应于解码器1的二通道输出(S1、S2)来生成混响,以及将混响应用 到信号S1和S2以生成混响二通道音频OUT1和OUT2。混响可以作为 后处理立体至立体混响而被应用至解码器1的2通道信号S1、S2,使得 相同混响脉冲响应被应用至由解码器1的双声道音频输出的两个下混音 频通道之一确定的所有离散通道(例如,应用至由下混通道S1确定的左 前和左环绕通道),且相同的混响脉冲响应被应用至由双声道音频的两个 下混音频通道中的另外一个确定的所有离散通道(例如,应用至由下混通 道S2确定的右前和右环绕通道)。

一种类型的常规混响器具有被称为基于反馈延迟网络(基于FDN) 的结构。操作中,这种混响器通过向信号反馈一个延迟版本的信号来将混 响应用至信号。相对于其它混响结构,该结构的优点在于高效地产生和向 多个输入信号应用多个不相关的混响信号的能力。在商用杜比移动耳机虚 拟机中采用了该特征,其中该虚拟机包括具有基于FDN的结构的混响器, 且能够进行操作以将混响应用至五通道音频信号(具有左前、右前、中置、 左环绕和右环绕通道)中的每个通道,并使用五个头部相关传递函数 (“HRTF”)滤波器对的集合中的不同的滤波器对来对每个混响通道进行 滤波。该虚拟机生成每个音频通道的唯一混响脉冲响应。

杜比移动耳机虚拟机也能够响应于双声道音频输入信号来操作,以生 成二通道“混响”音频输出(已应用了混响的两通道虚拟环绕声音输出)。 当通过一对耳机再现混响音频输出时,在收听者的耳膜处将该音频输出感 知为来自左前、右前、中置、左后(环绕)、和右后(环绕)位置的5个 扬声器的经HRTF滤波的混响声音。该虚拟机对下混二通道音频输入(未 使用任何和音频输入一起接收的空间线索参数)进行上混,以生成五个上 混音频通道,将混响应用至该上混通道,并下混五个混响通道信号以生成 虚拟机的二通道混响输出。每个上混通道的混响在不同的HRTF滤波器 对中滤波。

2008年3月20日公开的美国专利公开第2008/0071549A1号描述了 另一中常规系统,用于在解码下混信号过程中将混响形式应用至下混音频 输入信号以生成单独的通道信号。该参考文献描述了解码器,该解码器将 时域下混音频输入转换到QMF域,在QMF域中将混响形式应用至下混 信号M(t,f),调节混响的相位以针对每个上混通道生成混响参数,该 混响参数根据下混信号而确定(例如,以生成根据下混信号M(t,f)确 定的上混左通道的混响参数Lreverb(t,f)和上混右通道的混响参数Rreverb(t,f))。与空间线索参数(例如,指示下混信号的左分量和右分量之间 的相关性以及通道间相位差参数IPDL和IPDR的ICC参数)一起接收下 混信号。使用空间线索参数生成混响参数(例如,Lreverb(t,f)和Rreverb(t,f))。当ICC线索指示下混信号的左通道分量和右通道分量之间存在 更多关联性时,根据下混信号M(t,f)生成较低幅度的混响,当ICC 线索指示下混信号的左通道分量和右通道分量之间存在交少的关联性时, 根据下混信号生成较大幅度的混响,并且显而易见的是响应于相关IPD 线索指示的相位(在框206或208中)调节每个混响参数的相位。然而, 在去相关信号(其与M(t,f)正交)被用来重建左右互相关的情况下, 混响仅被用作参数立体声解码器中的去相关器(单声道至立体声合成), 且该参考文献没有暗示根据上混的离散通道中的每个或单独的上混通道 的值的线性组合中的每个来单独地确定(或生成)不同混响信号,用于应 用至根据下混音频M(t,f)确定的上混的离散通道中的每个或应用至根 据下混音频确定的这些线性组合的集合中的每个。

发明人已认识到希望的是根据上混的离散通道中的每个来单独地确 定(和生成)的不同混响信号以用于根据下混音频确定的上混的离散通道 中的每个,或针对(和根据)这些离散通道的值的线性组合的集合中的每 个来确定和生成不同的混响信号。发明人也已认识到以这种单独确定混响 信号以用于单独的上混通道(或这些通道的值的线性组合),可以将具有 不同混响脉冲响应的混响应用至上混通道(或线性组合)。

到本发明为止,与下混音频一起接收的空间线索参数还没有用来根据 下混音频(例如,当下混音频是MPS编码音频时在QMF域中)或根据 其值的线性组合来生成离散上混通道,也没有用来根据每个这种上混通道 (或线性组合)单独生成混响以应用至所述上混通道(或线性组合)。也 没有重组已经以该方式生成的混响上混通道来根据输入下混音频生成混 响下混音频。

发明内容

在一类实施例中,本发明是一种用于将混响应用至指示X个单独的 音频通道的M通道下混音频输入信号的方法,其中X是大于M的数。在 这些实施例中,该方法包括步骤:

(a)响应于指示(例如描述)下混输入信号的空间图像的空间线索参数, (例如在正交镜像滤波器或“QMF”域中)生成Y个离散混响通道信号, 其中时刻t的每个混响通道信号是该时刻t的X个单独的音频通道的值的 至少子集的线性组合;以及

(b)单独地将混响应用至(例如,在QMF域中)至少两个混响通道信 号中的每个,由此生成Y个混响通道信号。优选地,被应用到至少一个 混响通道信号的混响具有与被应用到至少一个另外的混响通道信号的混 响不同的混响脉冲响应。在一些实施例中,X=Y,但是在另外的实施例中, X不等于Y。在一些实施例中,Y大于M,且在步骤(a)中响应于空间 线索参数来上混输入信号,以生成Y个混响通道信号。在另外的实施例 中,Y等于M或Y小于M。

例如,在M=2、X=5且Y=4的一种情形中,输入信号是指示五个单 独的通道信号Lfront、Rfront、C、Lsur以及Rsur的值L(t)、R(t)的序列。这 五个单独的通道信号中的每个是以下值的序列 其中W是 形式的MPEG环绕上混矩阵,而四个混响通道信号是 (glfw11)L+(glfw12)R、(grfw21)L+(grfw22)R、(glsw11)L+(glsw12)R、以及 (grsw21+w31)L+(grsw22+w32)R,其可以被表示为

BLR=B0WLR=glfw11glfw12grfw21grfw22glsw11glsw12grsw21+w31grsw22+w32LR,其中

B0=10000010000001000101

在其中输入信号是M通道MPEG环绕(“MPS”)下混信号的一些实 施例中,在QMF域中执行步骤(a)和(b),且与输入信号一起接收空 间线索参数。例如,空间线索参数可以是或包含包括部分传统MPS比特 流类型的通道水平差(CLD)参数和/或通道预测系数(CPC)参数。当 输入信号是时域MPS下混信号时,本发明典型地包括将该时域信号转换 到QMF域以生成QMF域频率分量的步骤,并在QMF域中对这些频率 分量执行步骤(a)和(b)。

可选地,该方法也包括步骤:例如通过将混响通道信号编码为N通 道下混MPS信号来生成N通道下混版本的Y混响通道信号(包括已经应 用了混响的每个通道信号以及,如果存在的话,没有应用混响的每个通道 信号)。

在本发明方法的典型实施例中,输入下混信号是指示五个单独的音频 通道(左前、右前、中置、左环绕以及右环绕通道)的2通道下混MPEG 环绕(“MPS”)信号,且由不同混响脉冲响应确定的混响被应用到这五个 通道中的至少一些中的每个,导致环绕声音质量提高。

优选地,本发明方法也包括步骤:通过在头部相关传递函数(HRTF) 滤波器中对混响通道信号进行过滤来将相应的HRTF应用至混响通道信 号。应用HRTF来使收听者将根据本发明应用的混响感知为更加自然的 声音。

本发明的其它方面是被配置为(例如被编程为)执行本发明的方法的 任意实施例的混响器、包括这种混响器的虚拟机、包括这种混响器的解码 器(例如MPS解码器)以及存储用于实施本发明的方法的任意实施例的 代码的计算机可读介质(例如盘)。

附图说明

图1是常规MPEG环绕解码器系统的框图。

图2是能够根据本发明实施例而实施的多输入、多输出、基于FDN 的混响器(100)的框图。

图3是包括图2的混响器100、常规MPS处理器102、时域至QMF 域转换滤波器99以及QMF域至时域转换滤波器101的混响器系统的框 图,其中时域至QMF域转换滤波器99用于将多通道输入转换为QMF 域以用于混响器100和处理器102中的处理,QMF域至时域转换滤波器 101用于将混响器100和处理器102的组合输出转换到时域。

具体实施方式

本发明的许多实施例是技术上可能的。根据本公开,如何实施它们对 于本领域技术人员而言是显而易见的。将参照图2和图3详细描述本发明 系统、方法和介质的实施例。

在一类实施例中,本发明是用于将混响应用至指示X个单独的音频 通道的M通道下混音频输入信号的方法以及被配置为执行该方法的系 统,其中X是大于M的数。在这些实施例中,方法包括步骤:

(a)响应于指示(例如描述)下混输入信号的空间图像的空间线索 参数,(例如在正交镜像滤波器或“QMF”域中)生成Y个离散混响通道 信号,其中时刻t的每个混响通道信号是该时刻t的X个单独的音频通道 的值的至少子集的线性组合;以及

(b)单独地将混响应用至(例如,在QMF域中)至少两个混响通 道信号中的每个,由此生成Y个混响通道信号。优选地,被应用到至少 一个混响通道信号的混响具有与被应用到至少一个另外的混响通道信号 的混响不同的混响脉冲响应。在一些实施例中,X=Y,但是在另外的实施 例中,X不等于Y。在一些实施例中,Y大于M,且在步骤(a)中响应 于空间线索参数来上混输入信号,以生成Y个混响通道信号。在另外的 实施例中,Y等于M或Y小于M。

图2是能够以如下说明的方式来执行该方法的多输入、多输出、基于 FDN的混响器100的框图。图2的混响器100包括:

前混矩阵30(矩阵“B”),其为4×M矩阵,其被耦合并且被配置为 响应指示五个(X =5)单独的上混音频通道的包括通道IN1、IN2、......、 和INM的M通道下混音频输入信号来接收和生成四个离散混响通道信号 U1、U2、U3以及U4(分别对应于馈送分支1’、2’、3’、4’)。时刻t的 每个混响通道信号是该时刻t的X个单独的上混音频通道的值的子集的线 性组合。在M小于4的情况下,矩阵B上混输入信号以生成混响通道信 号。在一个典型的实施例中,M等于2。矩阵30也被耦合以接收指示(例 如描述)M通道下混输入信号的空间图像的空间线索参数,且被配置为 响应于该空间线索参数生成四个(Y=4)离散上混通道信号,即离散混响 通道信号U1、U2、U3以及U4;

加法单元40、41、42和43,其被耦合至设置了混响通道信号U1、 U2、U3和U4的矩阵30的输出。单元40被配置为将增益单元g1的输出 (即,应用来自增益单元g1的输出的反馈)加到混响通道信号U1。单元 41被配置为将增益单元g2的输出加到混响通道信号U2。单元42被配置 为将增益单元g3的输出加到混响通道信号U3。单元43被配置为将增益 单元g4的输出加到混响通道信号U4;

散射矩阵32(矩阵“A”),其被耦合以接收加法单元40、41、42和 43的输出。优选地,矩阵32为4×4酉矩阵,被配置为将每个加法单元 40、41、42和43的经过滤的输出设置到延迟线中相应的一个,其 中0≤k-1≤3,且优选地是满填充矩阵,以提供最大扩散。延迟线z-M1、 z-M2、z-M3和z-M4分别被标记为图2中的延迟线50、51、52和53;

增益单元,gk,其中0≤k-1≤3,其将延迟线的输出应用至增 益,从而提供控制应用至每个上混通道中的混响的衰减时间的阻尼因子。 每个增益单元gk通常结合有低通滤波器。在一些实施例中,增益单元针 对不同的QMF带应用不同的、预定的增益因子。混响通道信号R1、R2、 R3和R4分别被设置在增益单元g1、g2、g3和g4的输出;以及

后混矩阵34(矩阵“C”),其为N×4矩阵,其被耦合并被配置为响 应于设置在矩阵30的空间线索参数的至少子集(例如全部或一些),下混 和/或上混(以及可选地执行其它滤波)设置在增益单元gk的输出处的混 响通道信号R1、R2、R3和R4,从而生成包括通道S1、S2、......以及Sn 的N通道QMF域下混混响音频输出信号。在图2的实施例的变型中,矩 阵34是常数矩阵,其系数不响应于任何空间线索参数而随时间变化。

在图2的实施例的变型中,本发明的系统具有Y个混响通道(其中Y 小于或等于4),前混矩阵30被配置为响应于下混M通道输入信号和空 间线索参数生成Y个离散混响通道信号,由Y×Y矩阵替代散射矩阵32, 且本发明的系统具有Y个延迟线

例如,在Y=M=2的一种情况下,下混输入信号指示五个上混通道 (X=5):左前、右前、中前、左环绕以及右环绕通道。根据本发明,响 应于指示下混输入信号的空间图像的空间线索参数,前混矩阵(图2的矩 阵30的变型)(例如,在正交镜像滤波器或“QMF”域中)生成两个离 散混响通道信号:一个是前通道的混合,另一个是环绕通道的混合。根据 (且应用至)一个混响通道信号生成具有短衰减响应的混响,并且根据(且 应用至)另一个混响通道信号生成具有长衰减响应的混响(例如,以模拟 具有“活跃端/沉寂端(live end/dead end)”音响效果的房间)。

再次参照图2,后处理器36选择性地耦合至矩阵34的输出且能够进 行操作以对矩阵34的下混混响输出S1、S2、......Sn执行后处理,以生 成包括通道OUT1、OUT2、......和OUTN的N通道后处理音频输出信 号。典型地,N=2,从而图2的系统输出双声道下混混响音频信号S1、 S2和/或双声道后处理下混混响音频输出信号OUT、OUT2。

例如,图2的系统的一些实施方式的矩阵34的输出是双声道虚拟环 绕声音信号,当通过耳机对其进行再现时,其被收听者感知为从左(“L”)、 中(“C”)和右“R”前源(例如,置于收听者前方的左、中和右物理扬 声器)和左环绕(“LS”)以及右环绕(“RS”)后源(例如,置于收听者 后方的左和右物理扬声器)发出的声音。

在图2的系统的一些变型中,省略了后混矩阵34且本发明的混响器 响应于M通道下混音频输入而输出Y通道混响音频(例如,上混混响音 频)。在其它变型中,矩阵34是单位矩阵。在其它变型中,系统有Y个 上混通道(其中Y是大于4的数)且矩阵34是N×Y矩阵(例如Y=7)。

尽管图2的系统具有四个混响通道和四个延迟线然而系统的 变型(以及本发明的混响器的其它实施例)实现多于或少于四个混响通道。 典型地,本发明的混响器每个混响通道包括一个延迟线。

在其中输入信号是M通道MPEG环绕(“MPS”)下混信号的图2 的系统的实施方式中,被设置在矩阵30的输入的输入信号包括QMF域 信号IN1(t,f)、IN2(t,f)、......、以及INM(t,f),并且图2的系统 在QMF域中(例如在矩阵30中)执行处理以及对其应用混响。在这些 实施方式中,被设置到矩阵30的空间线索参数典型地是包括部分常规 MPS比特流的类型的通道水平差(CLD)参数和/或通道预测系数(CPC) 参数和/或通道间互相关(ICC)参数。

为了响应于时域M通道MPS下混信号将这样的QMF域输入提供至 矩阵30,本发明的方法将包括将该时域信号转换到QMF域以生成QMF 域频率分量的预备步骤,且将在QMF域中对这些频率分量执行上述步骤 (a)和(b)。

例如,因为图3的系统的输入是包括M通道I1(t)、I2(t)、......以及 IM(t)的时域MPS下混音频信号,所以图3的系统包括用于将时域信号转 换到QMF域的滤波器99。具体地,图3的系统包括混响器100(对应于 且可能等同于图2的混响器100)、常规MPS处理器102、时域至QMF 域转换滤波器99,时域至QMF域转换滤波器99被耦合且被配置为将每 个时域输入通道I1(t)、I2(t)、......以及IM(t)转换到QMF域(即,转换 为QMF域频率分量的序列)以用于混响器100中的处理和处理器102中 的常规处理。图3的系统也包括QMF域至时域转换滤波器101,其被耦 合且被配置为将混响器100和处理器102的N通道组合输出转换到时域。

具体地,滤波器99将时域信号I1(t)、I2(t)、......以及IM(t)分别转换 为QMF域信号IN1(t,f)、IN2(t,f)、......以及INM(t,f),其被设置到 混响器100和处理器102。将来自处理器102的N通道输出的每个(在加 法器中)与混响器100的相应的混响通道输出(图2中表示的S1、S2、...... 或Sn,或在图3的混响器100也包括图2中所示的后处理器36的情况下 图2中示出的OUT1、OUT2、......或OUTN中的一个)进行组合。图3 的滤波器101将混响器100和处理器102的组合(混响)输出(QMF域 频率分量S1’(t,f)、S2’(t,f)、......、SN’(t,f)的N个序列)转换为时域 信号S1’(t)、S2’(t)、......、SN’(t)。

在本发明的典型的实施例中,输入下混信号是指示五个单独的音频通 道(左前、右前、中置、左环绕以及右环绕通道)的2通道下混MPS信 号,且由不同的混响脉冲响应确定的混响被应用至这五个通道中的每个, 导致环绕声音质量提高。

如果前混矩阵30(Y×M矩阵B,Y=4而M=2时其为4×2矩阵) 的系数是常数系数(不是响应于空间线索参数而确定的随时间变化的系 数)且后混矩阵34(N×Y矩阵C,当Y=4而N=2时其为2×4矩阵) 的系数是常数系数,图2的系统不会(例如,响应于QMF域MPS编码 M通道下混信号IN1(t,f)、IN2(t,f)、......、INM(t,f))产生和 对混响器应用单独的混响,该单独的混响具有由M通道下混MPS编码输 入针对下混中的不同通道确定的单独的脉冲响应。考虑一个示例,其中M =2、Y=4、而N=2,并且图2的矩阵B和C(图2中也被标记为矩阵 30和34)分别被具有如下常数系数的4×2和2×4矩阵代替:

B=0.707000.7070.707000.707,C=0.707000.7070.707000.707T(等式1)

在这个例子中,常数矩阵B和C的系数不会响应于指示下混输入音 频的空间线索参数而随时间变化,且这样修改的图2的系统将在常规的立 体声至立体声混响模式下工作。在这种常规混响模式中,具有相同混响脉 冲响应的混响将会被应用至下混中的每个单独通道(即,下混中的左前通 道内容会接收具有与下混中的右前通道内容相同的脉冲响应的混响)。

然而,通过根据本发明响应于可作为MPS比特流的部分而获得的通 道水平差(CLD)参数、通道预测系数(CPC)和/或通道间互相关(ICC) 参数(和/或响应其它空间线索参数)在QMF域中应用混响处理,图2的 系统能够产生具有用于每个混响通道的单独的混响脉冲响应的混响并将 其应用到由系统的下混输入确定的每个混响通道。在典型的应用中,根据 本发明,与至少一个其它混响通道相比,将较少的混响应用到中置通道(为 了更清晰的语音/对话),从而应用到这些混响通道中的每个通道的混响脉 冲响应不同。在这种应用(和其它应用)中,应用至不同混响通道的混响 的脉冲响应不是基于路由至矩阵30的不同通道,而是基于由前混矩阵30 或后混矩阵34(和/或至少一个其它系统单元)应用至不同混响通道的简 单不同的比例因子(scale factor)。

例如,在被配置为将混响应用到五个上混通道的QMF域MPS编码 立体声下混的图2的系统的实施方式中,矩阵30是具有基于系数wij的 当前值的随时间变化的系数的4×2矩阵,i的范围在1至3,而j的范围 在1至2。

在该示例实施方式中,M=2,X=5以及Y=4,输入信号是指示五个单 独的通道信号Lfront、Rfront、C、Lsur以及Rsur的值的序列的QMF域值对 IN1(t,f)=L(t)和IN2(t,f)=R(t)的序列。五个单独的通道信号 中的每个是值的序列,其中W是 形式的MPEG环绕上混矩阵。

在该示例中,将响应于常规CPC参数CPC_1和CPC_2和常规ICC 参数ICC_TTT(在下混输入信号的编码过程中的上混器假设的的二至三 或“TTT”的通道间互相关参数)的当前值来更新系数wij:

w11=(CPC_1+2)/(3*ICC_TTT);

w12=(CPC_2-1)/(3*ICC_TTT);

w21=(CPC_1-1)/(3*ICC_TTT);

w22=(CPC_2+2)/(3*ICC_TTT);

w31=(1-CPC_1)/(3*ICC_TTT);以及

w32=(1-CPC_2)/(3*ICC_TTT)            (等式1a)

同样使用左前/环绕通道(CLDlf_ls)和右前/环绕通道(CLDrf_rs)的 常规CLD参数,矩阵30的随时间变化的系数将也基于如下的四个随时间 变化的通道增益值,其中CLDlf_ls是左前/环绕CLD参数的当前值,而 CLDrf_rs是右前/环绕CLD参数的当前值:

glf=10CLDlf_ls/201+10CLDlf_ls/20

gls=11+10CLDlf_ls/20

grf=10CLDrf_rs/201+10CLDrf_rs/20

grs=11+10CLDrf_rs/20(等式2)

矩阵30的随时间变化的系数将是:

B=glfw11glfw12grfw21grfw22glsw11glsw12grsw21+w31grsw22+w32

这样,在示例实施方式中,从矩阵30输出的四个混响通道信号是 U1=(glfw11)L+(glfw12)R、U2=(grfw21)L+(grfw22)R,、U3=(glsw11)L+(glsw12)R、以 及U4=(grsw21+w31)L+(grsw22+w32)R。这样,矩阵30(具有等式3中示出的 系数)执行的矩阵乘法可以表示为:

BLR=B0WLR=glfw11glfw12grfw21grfw22glsw11glsw12grsw21+w31grsw22+w32LR,其中

B0=10000010000001000101

该矩阵乘法相当于(通过以上定义的MPEG环绕上混矩阵W)上混至五 个单独的通道信号,继而通过矩阵B0将这五个信号下混至四个混响通道 信号。

在具有等式3所示的系数的矩阵30的实施方式的变型中,以以下系 数实施矩阵30:

B=B0WKLFglfw11+KLSglsw11KLFglfw12+KLSglsw12KRFgrfw21+KRSgrsw21KRFgrfw22+KRSgrsw22KCw31KCw32KCw31KCw32(等式4)

其中KLF、KRF、KC、KLS以及KRS是不同通道的固定的混响增益值,而 glf、gls、grf、glf以及w11至w32分别如等式2和等式1a所示。典型地,这 四个固定混响增益值基本上彼此相等,除了KC通常具有比其它稍低的值 (比其它的值低几个分贝)以便将较小的混响应用至中置通道(例如,为 了更干的发声(dryer sounding)的语音/对话)。

实施有等式4的系数的矩阵30相当于上面定义的MPEG环绕上混矩 阵W和如下的下混矩阵B0的乘积:

B=B0W=KLFglfw11+KLSglsw11KLFglfw12+KLSglsw12KRFgrfw21+KRSgrsw21KRFgrfw22+KRSgrsw22KCw31KCw32KCw31KCw32,其中

B0=KLF00KLS00KRF00KRS00KC0000KC00.

在矩阵30以等式3(或等式4)的系数实施的情况下,矩阵34典型 地将是常数矩阵。可替选地,矩阵34将具有随时间变化的系数,例如, 在一个实施方式中,其系数将是C=BT,其中BT是矩阵30的转置。具有 等式3所述的系数的矩阵30以及矩阵34(如果被实施为这样的矩阵的转 置)会具有与等式1的常数混合矩阵B和C具有相同的一般形式,但是 具有由等式2的可变增益值确定的可变系数和上述等式1a的可变系数值 wij来代替常数单元。

实施带有等式3的可变系数的矩阵30会导致混响通道U1、U2、U3 和U4分别为左前上混通道(图2的系统的馈送分支1’)、右前上混通道 (图2的系统的馈送分支2’)、左环绕上混通道(图2的系统的馈送分支 3’)以及组合的右环绕和中置上混通道(右环绕通道加中置通道)(图2 的系统的馈送分支4’)。因此,分别应用至图2的系统的四个分支的混响 会具有单独确定的脉冲响应。

可选地,以另一种方式响应于可用的空间线索参数来确定矩阵30的 系数。例如,在一些实施例中,响应于可用的MPS空间线索参数来确定 矩阵30的系数以导致矩阵30实施在除预测模式之外的模式(例如,具有 或不具有中心减法的能量模式)中运行的TTT上混器。这可以通过使用 MPEG标准(ISO/IEC23003-1:2007)中描述的相关情况的已知的上混公 式,以在给出本说明书的情况下本领域技术人员明白的方式完成。

在一个实施方式中,其中图2的系统被配置为将混响应用至四个上混 通道的QMF域MPS编码单通道(单声道)下混,矩阵30是具有随时间 变化的系数的4×1矩阵:

B=glfgrfglsgrs

其中系数是增益因子,并且这些增益因子从可作为常规MPS比特流的部 分而获得的CLD参数CLDlf_ls、CLDrf_rs、CLDc_lr以及CLDl_r导出。

在图2的系统的变型以及本发明的混响器的其它实施例中,离散混响 通道(例如,上混通道)是从下混输入信号提取的,并以许多不同方式中 的任意一种方式路由至单独的混响延迟分支。在本发明的混响器的各种实 施例中,采用其它空间线索参数来对下混的输入信号进行上混(例如,包 括通过控制通道权重)。例如,在一些实施例中,用描述前后扩散的ICC 参数(可作为常规MPS比特流的部分而获得)来确定前混矩阵的系数从 而控制混响水平。

优选地,本发明方法还包括步骤:通过在头部相关传递函数(HRTF) 滤波器中过滤混响通道信号,将相应的HRTF应用至混响通道信号。例 如,图2的系统的矩阵34优选地被实施为将这些HRTF应用至混响通道 R1、R2、R3和R4并且还在混响通道R1、R2、R3和R4上执行上述下 混操作的HRTF滤波器。矩阵34的这种实施方式通常会执行和5×4矩 阵接着2×5矩阵相同的滤波,其中5×4矩阵响应于从增益单元g1、g2、 g3和g4输出的四个混响通道信号R1-R4来生成五个虚拟混响通道信号 (左前、右前、中置、左环绕以及右环绕通道),而2×5矩阵将适当的 HRTF应用至每个这种虚拟混响通道信号,并下混所产生的五个通道信号 以生成2通道下混混响输出信号。然而典型的是,矩阵34会被实施为单 个2×4矩阵,该单个2×4矩阵执行单独的5×4和2×5矩阵的上述功能。 应用HRTF来使收听者将根据本发明应用的混响感知为更加自然的音响。 HRTF滤波器通常会针对每个单独的QMF段执行与具有复数值项的矩阵 的矩阵乘法。

在一些实施例中,用相应的HRTF如下地过滤由QMF域MPS编码 下混的输入信号生成的混响通道信号。在这些实施例中,参数QMF域中 的HRTF主要由左增益参数值和右增益参数值以及表征下混输入信号的 通道间相位差(IPD)参数值构成。可选地,忽略IPD以降低复杂性。假 设忽略IPD,HRTF是常数增益值(分别用于左通道和右通道中的每个的 四个增益值):gHRTF_lf_L、gHRTF_rf_L、gHRTF_ls_L、gHRTF_rs_L、gHRTF_lf_R、 gHRTF_rf_R、gHRTF_ls_R、gHRTF_rs_R。这样,通过实施具有如下系数: 的后混矩阵34,可以将HRTF应用至图2的混 响通道信号R1、R2、R3和R4。

在本发明的混响器(其可以被实施为,例如,图2的系统的变型)的 优选的实施方式中,在至少一个混响通道中应用分数延迟,和/或生成混 响并不同地将混响应用到至少一个混响通道中的音频数据的频率分量的 不同频段。

本发明的混响器的这些优选实施方式是被配置为(在至少一个混响通 道中)应用分数延迟以及整数采样延迟的图2的系统的变型。例如,在 一个这种实施方式中,分数延迟单元在每个混响通道中与延迟线串联连 接,其中该延迟线应用等于整数采样周期的整数延迟(例如,每个分数延 迟单元被串联地置于图2的延迟线50、51、52和53之一之后或以其它方 式设置)。分数延迟可以通过对应于采样周期f=T/T的一部分的每个QMF 段中的相移(单位复数乘法)取近似,其中f是延迟分数,T是QMF段 的期望延迟,而T是QMF段的采样周期。在QMF域中应用混响的情况 下如何应用分数延迟是已知的(例如参见J.Engdegard等人,“Synthetic  Ambience in Parametric Stereo Coding”,发表在116th Convention of  Audio engineering Society,德国柏林,2004年5月8-11日,12页,以及 美国专利7,487,097,2009年2月3日发布,J.Engdegard等人)。

本发明的混响器的一些上述优选实施方式是配置为在至少一个混响 通道中不同地将混响应用至音频数据的不同频段的图2的系统的变型,以 降低混响器实施的复杂性。例如,在一些实施方式中,其中音频输入数据 IN1-INM是QMF域MPS数据,而在QMF域中执行混响应用,将混响 不同地应用至每个混响通道中的音频数据的四个频段:

0kHz-3kHz(或0kHz-2.4kHz):如在上述图2的实施例以等式4 的系数实施矩阵30一样将混响应用至该波段。

3kHz-8kHz(或2.4kHz-8kHz):只能以实数值算法将混响应用至 该波段。例如,这可以使用2007年3月22日公开的国际申请公开 WO2007/031171A1号中描述的实数值算法技术来完成。该参考文献描述 了64波段QMF滤波器组,其中,8个最低频段的复数值是所处理的音频 数据,而该音频数据的上56个频段只有实数值被处理。这8个最低频段 中的一个可以被用作复合QMF缓冲波段,以便只针对8个最低QMF频 段中的7个执行复数值算法计算(以便如在上述图2的实施例使用等式4 的系数实施的矩阵30一样将混响应用至该相对低的频率范围),并且针对 其它56个QMF频段执行实数值算法计算,伴随复数值和实数值之间的 交叉出现在大约等于2.4kHz的频率(7×44.1kHz)/(64×2)。在该示例实 施例中,如上述图2的实施例,但是使用前混矩阵30的较简单的实施方 式来仅执行实数值计算,将混响应用至相对高的频率范围。如在上述图2 的实施例中,例如使用以等式4的系数实施的矩阵30,将混响应用至相 对低的频率范围(2.4kHz以下);

8kHz-15kHz:通过简单的延迟技术将混响应用至该波段。例如,以 与上述图2的实施例的方式相似的方式应用混响,但是只带有两个混响通 道,其中每个混响通道带有延迟线和低通滤波器,省略了矩阵单元32和 34,以前混矩阵30的简单的2×2实施(例如,将比应用至每个其它通道 的混响较少的混响应用至中置通道),且没有从节点沿着混响通道至前混 矩阵的输出的反馈。两个延迟分支可以简单地分别馈送到左输出和右输 出,或可以被交换以便来自左前(Lf)和左环绕(Ls)通道的回声最终在 右输出通道中,而来自右前(Rf)和右环绕(Rs)通道的回声最终在左 输出通道中。2×2前混矩阵可以具有如下系数:

其中如 上述等式4地定义符号;以及

15-22.05kHz:在该波段中不应用混响。

在本文描述的实施例的变型中(例如,图2的实施例),本发明的系 统将混响应用至指示X个单独的音频通道的M通道下混音频输入信号, X是大于M的数,包括通过响应于下混信号而不响应于空间线索参数来 生成Y个离散混响通道信号。在这些变型中,系统响应于指示下混输入 信号的空间图像的空间线索参数分别将混响应用到至少两个混响通道信 号中的每个,从而生成Y个混响通道信号。例如,在一些这种变型中, 前混矩阵的系数(例如,图2中矩阵30的变型)不响应空间线索参数而 确定,但是散射矩阵(例如,图2的矩阵32的变型)、增益级(例如,包 括图2的单元g1-gk的增益级的变型)以及后混矩阵(例如,图2的矩阵 34的变型)中的至少一个以通过指示下混输入信号的空间图像的空间线 索参数所确定的方式对混响通道信号运行,以将混响应用到至少两个混响 通道信号中的每个。

在一些实施例中,本发明的混响器是或包括通用处理器,其耦合以接 收或生成指示M通道下混音频输入信号的输入数据,且编程有软件(或 固件),和/或以其它方式配置(例如,响应于控制数据)来对输入数据执 行各种操作中的任意操作,包括本发明的方法的实施例。这种通用处理器 通常会耦合至输入设备(例如,鼠标和/或键盘)、存储器和显示设备。例 如,图3的系统可以在通用处理器中实施,具有输入I1(t)、I2(t)、......、 IM(t),其为指示下混音频数据的M通道的输入数据,而输出S1(t)、 S2(t)、.....、SN(t)是指示下混混响音频的N个通道的输出数据。会对该输 出数据运行常规的数模转换器(DAC)以生成模拟的输出音频信号,用 于通过扬声器(例如,一对耳机)再现。

虽然这里描述了本发明的具体实施例和本发明的应用,但是对本领域 普通技术人员显而易见的是,在不偏离这里所描述和所要求保护的本发明 的范围的情况下对这里所描述的实施例和应用进行的许多变型是可能的。 应当理解,虽然示出和描述了本发明的一些形式,但是本发明不限于这些 描述和所示的具体实施例或描述的具体方法。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号