法律状态公告日
法律状态信息
法律状态
2013-12-18
授权
授权
2012-02-22
实质审查的生效 IPC(主分类):H04R5/04 申请日:20090420
实质审查的生效
2012-01-04
公开
公开
技术领域
本发明涉及通信技术领域,尤其涉及一种对多声道信号的声道延迟参数 进行修正的方法。
背景技术
多声道信号有着广泛的应用场景,如电话会议,游戏等,多声道信号的 编解码也越来越受到重视。基于波形编码的传统的编码器,如MPEG (Moving Pictures Experts Group,动态图像专家组)-LII,mp3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3) 和AAC(Advanced Audio Coding,高级音频编码),在对多声道信号进行 编码时,都是对每一个声道进行独立编码。这种编码方法虽然能较好的恢复 出多声道信号,但是需要的带宽、编码码率是单声道信号的数倍。
立体声或多声道编码技术是参数立体声编码,其利用很少的带宽就可以 重建出听觉感受完全和原始信号相同的多声道信号。参数立体声编码的基本 思路是:在编码端,将多声道信号下混成一个单声道信号,并对该单声道信 号进行独立编码,同时提取各声道间的声道参数,再对这些声道参数进行编 码。在解码端,首先解码出下混后的单声道信号,然后解码出各个声道间的 声道参数,最后利用这些声道参数与下混后的单声道信号一起合成出多声道 信号。
在参数立体声编码中,通常用来描述各声道间相互关系的声道参数有声 道间时间差参数(即声道延迟参数)、声道间幅度差参数及声道间相关性参 数等。上述声道延迟参数代表了声道间的延时关系,对说话人的位置定位有 着重要的作用。
以立体声信号为例,现有技术中的一种传输多声道信号的方案为:利用 立体声的左右声道信号的相关性来提取左右声道之间的声道延迟参数,利用 该声道延迟参数,在编码端对需要传输的立体声信号的左/右声道信号进行延 时调整,消除两个声道之间的延时差别。然后,对延时调整后的左/右声道信 号在时域相加得到下混后的M信号(和信号),对延时调整后的左/右声道信 号在时域相减得到下混后的S信号(边信号)。
然后,根据上述M信号和S信号,提取其它声道参数,如左右声道之间的 能量比率或者声道间幅度差参数等,在编码端,对上述声道参数进行编码传 输,并对M信号按照单声道方式进行编码传输。在解码端首先重构出M信 号,然后根据接收到的上述声道延迟参数,对M信号的各声道进行和编码端 相逆的延时操作,重构出上述传输的立体声信号。从而实现在传输单声道信 号的基础上,只需要少量的码率资源传输声道参数,就可以在解码端重构出 立体声信号。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有 技术中下混处理后得到的处理信号(包括:M信号、S信号)可能出现梳状滤 波效应,即M信号和S信号中至少一个信号的某些特定频带内的信号频域幅值 会被很大地衰减,某些特定频带内的信号频域幅值会被加强。上述梳状滤波 效应将使得处理信号的质量下降,进而影响到重构的多声道信号的质量。
发明内容
本发明的实施例提供了一种对多声道信号的声道延迟参数进行修正的方 法,以减弱由于梳状滤波效应导致的处理信号的质量不好的现象。
本发明实施例提出了一种对多声道信号的声道延迟参数进行修正的方 法,包括:
对多声道信号进行下混处理获得处理信号;
计算所述处理信号的能量分布;
根据所述处理信号的能量分布,判断所述处理信号是否出现了梳状滤波 效应,如果是,则对所述多声道信号的声道延迟参数进行修正。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例根据多 声道信号下混处理后获得的处理信号的能量分布,判断是否出现了梳状滤波 效应,当确定出现了梳状滤波效应后,则对所述多声道信号的声道延迟参数 进行修正,从而可以减弱梳状滤波效应,进而提高重构的多声道信号的声像 质量和清晰度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的 前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种对多声道信号的声道延迟参数进行修正 的方法的处理流程图;
图2为本发明实施例一提供的另一种对多声道信号的声道延迟参数进行修 正的方法的处理流程图;
图3为本发明实施例一提供的一种对多声道信号的声道延迟参数进行修正 的装置的具体实现结构图。
具体实施方式
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例 做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提供了一种对多声道信号的声道延迟参数进行修正的方 法,如图1所示,所述方法包括:
步骤101:对多声道信号进行下混处理获得处理信号;
步骤102:计算所述处理信号的能量分布;
步骤103:根据所述处理信号的能量分布,判断所述处理信号是否出现 了梳状滤波效应,如果是,则对所述多声道信号的声道延迟参数进行修正。
在本发明实施例具体实施时,对多声道信号进行下混处理获得处理信 号,所述处理信号包括M信号、S信号。本领域技术人员可以理解的是,处理 信号出现梳状滤波效应包括以下任意一种:M信号出现梳状滤波效应;S信号 出现梳状滤波效应;M信号和S信号都出现梳状滤波效应。
本发明实施例根据多声道信号下混处理后获得的处理信号的能量分布, 判断是否出现了梳状滤波效应,当确定出现了梳状滤波效应后,则对所述多 声道信号的声道延迟参数进行修正,从而可以减弱梳状滤波效应,进而提高 重构的多声道信号的声像质量和清晰度。需要说明的是,具体实施本发明 时,在一般的情况下,采用本发明的方案可以消除梳状滤波效应。
下面以具体的应用场景实施例进行说明,为了方便描述,下面统一用立 体声(左右两个声道)来描述本发明实施例,但需要明确的是本发明实施例 并不局限于立体声,也同样适应于其他多声道。
当输入信号不是只有左右两个声道的立体声信号时,而是包含多于两个 声道的多声道信号时,可以将该多声道信号转换为立体声信号,具体转换公 式如下:
上述lf、rf、c、ls、rs为5.1声道信号,lt、rt为经过转换后的立体声信 号。
实施例一
该实施例提供的一种对多声道信号的声道延迟参数进行修正的方法的处 理流程如图2所示,包括如下处理步骤:
在该实施例中,输入信号是立体声的左声道时域信号Lk{l1,l2,…lN}和右声 道时域信号Rk{r1,r2,…rN},其中k表示第k帧,N表示一帧信号有N个采样点。
步骤201、根据立体声的左右声道信号之间的相关性,计算出当前帧对 应的左右声道之间的声道延迟参数channel_delay。
步骤202、根据上述声道延迟参数channel_delay对上述左右声道信号 L、R的当前帧信号进行下混,得到处理信号(M、S信号),进而分别计算 出第一S/M比率ratio_1、第二S/M比率ratio_2、第三S/M比率ratio_3、第四 S/M比率ratio_4和长时平滑互相关系数long_corr。
根据上述声道延迟参数channel_delay,通过下述公式1对上述左右声道 信号L、R的每帧信号进行下混,得到下混后的M、S信号,具体计算方法如 下:
M(k)=(L(k+delay)+R(k))/2
公式1
S(k)=(L(k+delay)-R(k))/2
上述公式1中的dela=chann el_delay,k表示第k帧。
由于上述当前帧的M、S信号中包括各个采样点,因此,上述M(k)和S(k) 可以表示为:Mk{m1,m2,…mN},Sk{s1,s2,…sN}。
在获取了上述M、S信号后,本发明实施例需要获取上述M、S信号之间 的能量分布特性,根据该能量分布特性来判断下混处理得到的处理信号是否 出现了梳状滤波效应。需要说明的是,发明人在实施本发明过程中发现,梳 状滤波效应可能出现在M信号或S信号,也可能在M信号和S信号上同时出 现。
在实际应用中,上述M、S信号之间的能量分布特性可以通过M、S信号 之间的能量参数比值来表示。于是,根据上述M(k)和S(k),计算得到第一S/M 比率ratio_1(第一能量参数比值),具体计算方法如下:
上述表示所述S信号中的每个采样点的能量参数的叠加值,表 示所述M信号中的每个采样点的能量参数的叠加值,计算出的ratio_1表示了S 信号和M信号之间的能量参数比值。
对上述ratio_1进行长时平滑,得到长时平滑后的第一S/M比率 long_ratio_1,具体计算方法如下:
long_ratio_1=long_ratio_1′×scale1+ratio_1×(1-scale1)
上述公式右边的long_ratio_1′表示上一帧对应的long_ratio_1,上述scale1 的数值在0到1之间,即0≤scale1≤1,若scale1=0则表示不对这些参数进行平 滑,本实施例中scale1取值为0.5。
然后,令delay=0,根据上述公式1计算得到一组处理信号 M′k(m′1,m′2,…m′N}即第二和信号,S′k{s′1,s′2,…s′N}即第二边信号。
根据上述Mk′和Sk′,计算得到第二S/M比率ratio_2(第二能量参数比 值),具体计算方法如下:
对上述ratio_2进行长时平滑,得到长时平滑后的第二S/M比率 long_ratio_2,具体计算方法如下:
long_ratio_2=long_ratio_2′×scale1+ratio_2×(1-scale1)
上述公式右边的long_ratio_2′表示上一帧对应的long_ratio_2。
之后,根据上述long_ratio_1和long_ratio_2,计算出第三S/M比率 ratio_3(第三能量参数比值),具体计算方法如下:
ratio_3=long_ratio_1/long_ratio_2。
在实际应用中,还可以直接根据ratio_1和ratio_2计算出ratio_3,具体计 算方法如下:
ratio_3=ratio_1/ratio_2。
计算ratio_3的基底参数ratio_floor,具体计算方法如下:
上述thr1和thr2是比较门限,其中thr1的取值范围为0到3之间,其中thr2 的取值范围为0到10之间,若thr1=1,thr2=1则表示不对ratio_3去除基底(因 为这时ratio_floor的值永远为1),本实施例中thr1=0,thr2=1。
对上述ratio_3进行去除基底的处理,得到信号能量分布特性更突出的能 量比率参数ratio_4(第四能量参数比值),具体计算方法如下:
ratio_4=ratio_3/ratio_floor
对ratio_4进行长时平滑,得到长时平滑后的第四S/M比率long_ratio_4, 具体计算方法如下:
long_ratio_4=long_ratio_4′×scale1+ratio_4×(1-scale1)
上述公式右边的long_ratio_4′表示上一帧对应的long_ratio_4。
步骤203、根据上述获取的各个S/M比率值和预先设定的门限值,判断是 否出现了梳状滤波效应,如果是,则对声道延迟参数channel_delay进行修 正。
计算出在delay=0时的左右声道之间的长时平滑互相关系数long_corr, 具体计算方法如下:
long_corr=long_corr′×scale2+cff(0)×(1-scale2)
上述公式右边的long_corr′为上一帧对应的long_corr,ccf为左右声道之 间的残差互相关系数,具体计算方法如下:
上述公式中的MAX_OFFSET为常量,为预先设定的最大可能的声道延 迟参数,一般的,MAX_OFFSET=48;T表示一帧残差信号有T个采样点。式 中lresi为左声道残差时域信号Lresk{lres1,lres2,…lresT},rresi为右声道残差时域信号 Rresk{rres1,rres2,…rresT}
对上述ccf还可以进行归一化处理,得到归一化互相关系数norm_ccf,具 体计算方法如下:
scale2的数值在0到1之间,本实施例中其取值为0.8。
根据上述获取的ratio_1、long_ratio_1、ratio_3、long_ratio_4和 long_corr,以及预先设定的各个判决门限值thr3(第一门限值)、thr4(第 二门限值)、thr5(第三门限值)、thr6(第四门限值)和thr7(第五门限 值),判断是否出现了梳状滤波效应,具体的判断条件包括如下的4种:
条件1、ratio_1>thr3或long_ratio_1>thr4,
条件2、ratio_3>thr5或long_ratio_4>thr6
条件3、(ratio_1>thr3或long_ratio_1>thr4)&&(long_corr>thr7)
条件4、(ratio_3>thr5或long_ratio_4>thr6)&&(long_corr>thr7)
上述4个条件中thr3、thr4、thr5、thr6和thr7分别是判决门限,取值范围 各不相同,其中thr3和thr4的取值范围在1到100之间,比如,取值5;thr5和 thr6的取值范围在1到100之间,比如,取值10;thr7的取值范围在0到1之 间,比如,取值0.35。
如果满足以上4个条件中的任意一个,均可认为检测到了梳状滤波效应。 在本实施例中,当出现了梳状滤波效应时,便认为下混M信号会比正常情况 下偏小,而S信号相对会偏大,或者左右声道在没有声道延时的情况下相关 性比较大。于是,需要对声道延迟参数channel_delay进行修正,令延时修正 指示标志delay_change_flag=1,否则delay_change_flag=0。
若延时修正指示标志为1,即delay_change_flag=1,则
可以通过以下4种修正方法来间接修正声道延迟参数。该修正方法主要是 通过对归一化互相关系数norm_ccf在delay=0处的函数值(即norm_ccf(0))进 行增大,使其大于或尽可能大于所有delay≠0处的函数值。由于搜索 norm_ccf中的最大值,该值对应的延时i即为声道延迟channel_delay,即 因此,增大norm_ccf(0)时,可使channel delay修 正为0。
修正方法1、norm_ccf(0)=norm_ccf(0)+M,其中M为一常量,M的取值 范围在0到10之间,比如,取值为3。
修正方法2、norm_ccf(0)=norm_ccf(0)×Q,其中Q为一常量,Q的取值范 围在1到10000之间,比如,取值为1000。
修正方法3、norm_ccf(0)=norm_ccf(0)×Q1(long_ratio_4),其中放大因子 Q1(long_ratio_4)是long_ratio_4的一个正比例函数,long_ratio_4越大函数值 也越大。
上述函数Q1(long_ratio_4)的表达式为:
Q1(long_ratio_4)=q1×long_ratio_4+c1
变量q1的取值范围为1到1000之间,比如,取值为100。c1的取值范围在 0到10之间,比如,取值为0。
修正方法4、norm_ccf(0)=norm_ccf(0)×Q2(long_ratio_1),其中放大因子 Q2(long_ratio_1)是long_ratio_1的一个正比例函数,long_ratio_1越大函数值 也越大。
函数Q2(long_ratio_1)的表达式为:
Q2(long_ratio_1)=q2×long_ratio_1+c2
其中变量q2的取值范围为1到1000之间,比如,取值为100。c2的取值 范围在0到10之间,比如,取值为0。
上述修正方法1、2、3和4中的等式两端norm_ccf(0)代表相同意思,是对 该数值的更新。
需要说明的是,优选地,可以采用对归一化互相关系数norm_ccf进行上 述处理,达到间接修正声道延迟参数的目的,同样,也可以通过对互相关系 数ccf进行同样处理,达到间接修正声道延迟参数的目的,具体处理方式与对 归一化互相关系数norm_ccf的处理方式相同,在此不在赘述。
在实际应用中,还可以在上述延时修正指示标志为1,即 时,直接对声道延迟参数进行修正,直接将声延迟参数 置零,即令channel delay=0。对delay参数进行直接修改会影响到和delay参 数相关的一些参数,从而对编码端其他部分性能产生影响。对delay参数进行 间接修改不会产生上述影响,效果比直接修改好。
该实施例可以判断出当前帧的下混后的处理信号是否出现了梳状滤波效 应时,并在出现了梳状滤波效应时,可以及时对声道延迟参数channel_delay 进行相应的修正,从而消除梳状滤波效应,保证重构的立体声信号等多声道 信号的声像质量及清晰度。
实施例二
该实施例与实施例一的不同在于计算下混M信号和S信号时所采用的输入 信号为原始左右声道信号经过简单抽取之后的信号。
在该实施例中,对原始输入的立体声的左右声道时域信号Lk{l1,l2,…lN}和 Rk{r1,r2,…rN}进行简单的抽取处理,即进行下采样处理,得到下采样信号 L′k{l′1,l′2,…l′M},R′k{r′1,r′2,…r′M},其中M为抽取之后一帧信号采样点数,k表 示第k帧。上述下采样处理的方法如下:
l′j=lN/M×j
r′j=rN/M×j
然后,利用下采样信号L′k{l′1,L′2,…l′M},R′k{r′1,r′2,…r′M},按照上述实施 例一提供的处理流程,判断是否出现了梳状滤波效应时,并对声道延迟参数 channel_delay进行相应的修正。
该实施例通过对原始输入的立体声的左右声道时域信号进行下采样,使 样本信号的数量减少,计算量减少,从而可以提高上述第一S/M比率 ratio_1、第二S/M比率ratio_2、第三S/M比率ratio_3、第四S/M比率ratio_4和 长时平滑互相关系数long_corr的计算速度。
实施例三
在本实施例中,若检测到需要对声道延迟参数进行修正,即在该帧检测 到delay_change_flag=1,则设置拖尾范围,令该帧之后的拖尾范围的帧都进 行声道延迟参数修正,而不管这些帧是否真正满足出现梳状滤波效应的条 件,即强制这些帧的延时修正指示标志为1。然后,按照上述实施例一中的 四种间接修正方法或直接修正方法,对这些帧声道延迟参数进行修正。
上述拖尾范围的帧可以根据实际情况来设定,比如,设置该帧之后的 100帧都进行声道延迟参数修正。
由于当前帧出现了梳状滤波效应后,后续帧继续出现梳状滤波效应的可 能性也很大。该实施例相当于设置了一个声道延迟参数的修正拖尾,设置修 正拖尾的好处是尽量地保证这种延时修正的有效性及持续性,可以避免后续 帧继续出现梳状滤波效应。
本发明实施例还提供了一种对多声道信号的声道延迟参数进行修正的装 置,其具体实现结构如图3所示,所述装置包括:
下混处理模块301,用于对多声道信号进行下混处理获得处理信号;
能量分布获取模块302,用于计算所述处理信号的能量分布;
判断模块303,用于根据所述处理信号的能量分布,判断所述处理信号 是否出现了梳状滤波效应;
声道延迟参数修正模块304,用于当所述判断模块判定所述处理信号出 现了梳状滤波效应时,对所述多声道信号的声道延迟参数进行修正。
进一步的,所述下混处理模块301具体用于对所述多声道信号的当前帧 信号进行下混处理获得和信号和边信号;
或者,
所述下混处理模块301具体用于对所述多声道信号的当前帧信号进行下 采样,对下采样后的下采样信号进行下混处理获得和信号和边信号。
更进一步的,所述下混处理模块301具体用于获取所述多声道信号的当 前帧的声道延迟参数,根据该当前帧的声道延迟参数对所述多声道信号进行 下混,得到下混后的和信号和边信号;
所述能量分布获取模块302具体用于将所述边信号中的每个采样点的能 量参数的叠加值除以所述和信号中的每个采样点的能量参数的叠加值,得到 第一能量参数比值。
所述判断模块303具体用于当所述第一能量参数比值大于预定的第一门 限值时,则判定所述处理信号出现了梳状滤波效应;或者,
所述判断模块303具体用于当长时平滑处理后的第一能量参数比值大于 预定的第二门限值时,则判定所述处理信号出现了梳状滤波效应。
更进一步的,所述所述所述能量分布获取模块302还用于计算所述多声 道信号的零延时对应的互相关系数,并进行长时平滑处理,得到长时平滑处 理后的互相关系数;
所述判断模块303具体用于当所述长时平滑处理后的互相关系数大于预 定的第五门限值,并且,所述第一能量参数比值大于预定的第一门限值,则 判定所述处理信号出现了梳状滤波效应;或,所述判断模块具体用于当所述 长时平滑处理后的互相关系数大于预定的第五门限值,并且,长时平滑处理 后的所述第一能量参数比值大于预定的第二门限值,则判定所述处理信号出 现了梳状滤波效应。
更进一步的,所述下混处理模块301还用于根据为零值的声道延迟参数 对所述多声道信号进行下混,得到下混后的第二和信号和第二边信号;
能量分布获取模块302还用于将所述第二边信号中的每个采样点的能量 参数的叠加值除以所述第二和信号中的每个采样点的能量参数的叠加值,得 到第二能量参数比值,将所述第一能量参数比值除以所述第二能量参数比 值,得到第三能量参数比值;或者,对所述第一能量参数比值、第二能量参 数比值分别进行长时平滑处理,将长时平滑处理后的第一能量参数比值除以 长时平滑处理后的第二能量参数比值,得到第三能量参数比值。
所述判断模块303具体用于当所述第三能量参数比值大于预定的第三门 限值时,则判定所述处理信号出现了梳状滤波效应。
更进一步的,所述能量分布获取模块302还用于对所述第三能量参数比 值进行去除基底处理后,得到第四能量参数比值,对所述第四能量参数比值 进行长时平滑处理,得到长时平滑处理后的第四能量参数比值。
所述判断模块303具体用于当长时平滑处理后的第四能量参数比值大于 预定的第四门限值时,则判定所述处理信号出现了梳状滤波效应。
更进一步的,所述能量分布获取模块302还用于计算所述多声道信号的 零延时对应的互相关系数,并进行长时平滑处理,得到长时平滑处理后的互 相关系数;
所述判断模块303具体用于当所述长时平滑处理后的互相关系数大于预 定的第五门限值,并且,所述第三能量参数比值大于预定的第三门限值,则 判定所述处理信号出现了梳状滤波效应;
所述判断模块303具体用于当所述长时平滑处理后的互相关系数大于预 定的第五门限值,并且,所述长时平滑处理后的第四能量参数比值大于预定 的第四门限值时,则判定所述处理信号出现了梳状滤波效应。
具体的,所述声道延迟参数修正模块304具体用于将所述多声道信号的 当前帧的声道延迟参数置为零值;或,所述声道延迟参数修正模块304具体 用于计算出所述多声道信号的零延时对应的互相关系数,增大所述零延时对 应的互相关系数;或,所述声道延迟参数修正模块304具体用于计算出所述 多声道信号的零延时对应的归一化互相关系数,增大所述零延时对应的归一 化互相关系数。
进一步的,所述声道延迟参数修正模块304还用于在将所述多声道信号 的当前帧信号的声道延迟参数进行修正后,修正所述当前帧之后拖尾范围内 的帧的声道延迟参数。
综上所述,本发明实施例根据下混处理得到的处理信号的能量分布,判 断是否出现了梳状滤波效应,上述能量分布可以通过S信号和M信号的之间的 能量参数比值来表示。如果出现了梳状滤波效应,则通过直接及间接等多种 途径对多声道信号的声道延迟参数进行修正,从而消除梳状滤波效应,保证 重构的立体声信号等多声道信号的声像质量及清晰度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流 程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于 一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体 (Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可 轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明 的保护范围应该以权利要求的保护范围为准。
机译: 用于多声道音频的编码器和解码器,用于对N声道的音频信号进行编码的方法,针对N声道的音频信号进行编码的多声道音频信号,存储介质,用于传输多声道音频信号的发射机,接收机编码。 Ceber多声道音频信号的传输系统。计算机程序的多声道音频信号编码产品的发送和接收方法,多声道音频记录器和多声道音频播放器
机译: “用于对多声道音频信号进行编码的方法和编码器,已编码的多声道音频信号,以及用于对已编码的多声道音频信号进行解码的方法和解码器”
机译: 用于生成多声道音频信号的解码器,用于生成多声道音频信号的编码表示的编码器,用于生成多声道音频信号的方法,用于生成多声道音频信号的编码表示的方法,计算机程序产品,用于多声道音频的音频比特流信号和存储介质