首页> 中国专利> 一种基于正交解相关技术的参数立体声编码、解码方法

一种基于正交解相关技术的参数立体声编码、解码方法

摘要

本发明公开了一种基于正交解相关技术的参数立体声编码、解码方法。本编码方法:1)将输入的左声道、右声道时域信号分别变换到复频域,得到两复频域信号L和R;2)对L和R输出为一个下混信号M;3)利用L和R估算出边信息,并对所述边信息进行融合量化;所述边信息包括声道内互相关系数ICC、声道间强度差IID和旋转方位信息RD;4)对M时域反变换并编码输出;将边信息压缩编码输出。解码方法:将输入的时域下混信号变换到复频域输出信号M;对输入的边信息进行解码;根据RD求解一与M幅值相等且正交的输出信号D;根据ICC、IID计算旋转矩阵H;利用H、M及D得到复频域信号L和R变化到时域输出。本发明大大提高了解码速度。

著录项

  • 公开/公告号CN103700372A

    专利类型发明专利

  • 公开/公告日2014-04-02

    原文格式PDF

  • 申请/专利权人 北京大学;

    申请/专利号CN201310745761.5

  • 发明设计人 曲天书;吴玺宏;黄益超;黄庆博;

    申请日2013-12-30

  • 分类号G10L19/008(20130101);

  • 代理机构北京君尚知识产权代理事务所(普通合伙);

  • 代理人邵可声

  • 地址 100871 北京市海淀区颐和园路5号北京大学

  • 入库时间 2024-02-19 22:57:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-10-05

    授权

    授权

  • 2014-04-30

    实质审查的生效 IPC(主分类):G10L19/008 申请日:20131230

    实质审查的生效

  • 2014-04-02

    公开

    公开

说明书

技术领域

本发明属于音频压缩领域,涉及一种参数立体声编码、解码方法,尤其涉及一种基于正 交解相关技术的参数立体声编码、解码方法。

背景技术

多媒体技术兴起于80年代末期,是近年来计算机领域中热门的技术之一。数字音频编解 码技术采用计算机的数字记录和传输传送方式,对各种媒体进行处理,具有广泛的用途。但 受限于网络带宽和存储空间,如何在保证高质量听感下将原始数据压缩为尽量少的比特数成 为研究热点。

音频文件之所以可以压缩,是因为存在冗余,传统压缩算法主要考虑消除声道内冗余, 在不考虑声道间冗余时,由于多声道音频文件的码率与声道数是线性关系,声道数的增加会 导致码率成倍增加。从1993年MP3开始,人们逐渐发现声道间也是存在冗余并且开始尝试 消除声道间冗余,逐步解决了在保持较高主观听感的条件下实现超低码率的问题。现有的消 除声道间冗余的方法主要有如下3种:

1>联合立体声是MPEG-1、MEPG-2/4AAC等音频编解码国际标准中的重要组成部分, 包括和差变换编码与强度立体声两种立体声编解码技术。

(1)和差变换编码

也被称为MS编码,是Middle-Side编码的简称。编码端将原始左右声道信号转换为和 差信号,解码端做相应逆变换。该方法利用声道间相关性,将信号能量集中在和声道上,以 此去除声道间冗余。但该方法压缩效率严重依赖信号本身特性,只有在原始左右声道相关性 很强的情况下才能得到较高的压缩率。

(2)强度立体声

强度立体声基本思想是通过将原始信号空间的坐标轴进行旋转,得到主轴的强度信号和 与之正交的残差信号。在编码端,丢弃与主轴正交的残差信号而只对强度信号和坐标轴旋转 角度α进行量化编码。在解码端,根据角度α和强度信号,对坐标轴作逆旋转,重构出左右 声道的立体声信号。这样重构得到的左右声道信号只是幅度不同,而相位信息一致。但是通 过乘以相应的幅度比例因子,可以较好地保存原信号能量—时间包络。这样的处理方式符合 人耳听觉系统对各声道信号高频成分的相位差异及其精细结构不敏感,而随时间变化的能量 包络相对重要的感知特点,因此不会明显降低重构立体声信号的主观质量。

2>双耳线索编码

2002年C.Faller提出了名为双耳线索编码(Binaural Cue Coding,BCC)的编解码技术,其 出发点和传统立体声编码技术不同,是一种基于空间听觉理论的参数编码技术。立体声或者 多声道输入信号下混成单声道信号,同时根据空间听觉特性,对各个声道在变换域进行分析, 提取三种空间参数:声道间强度差(Inter-channel Intensity Difference,IID)、声道间时间差 (Inter-channel Time Difference,ITD)及声道间相关性(Inter-Channel Coherence,ICC)。在这里 IID及ITD与传统的空间听觉线索缩写相同但含义不同,相应缩写都是指声道间参数而非听 觉线索。下混信号可以使用传统的音频编码器来进行编码,参数经过量化编码后作为辅助部 分嵌入到比特流中。在解码端,解码后的下混信号利用相应的空间参数来重构立体声或多声 道音频信号。

双耳线索编码最大的特点就是能够提供极高的压缩率和任意声道形式的压缩编码,可看 作是一种对强度立体声的发展,但是其克服了强度立体声编码的缺陷,具有以下几个明显优 点:强度立体声编码实际只利用IID进行重构,因此仅对高频范围有效,若将强度立体声拓 展到低频则会引入严重的噪声,而双耳线索编码利用IID及ITD进行重构,在全频谱范围内 进行处理也不会产生严重噪声;另外强度立体声编码不能重构具有宽度立体声声像的音频信 号,而双耳线索编码则可以利用ICC对其进行很好的重构。

3>参数立体声

飞利浦公司的J.Breebaart等人于2004年提出了名为参数立体声(Parametric Stereo,PS) 的编解码技术。基本思路是在编码端输出一个单声道信号和若干空间参数,在解码端利用单 声道信号和空间参数重构双声道立体声信号,是目前消除声道间冗余最优秀的方法之一。已 经被MPEG-4及3GPP(3rd Generation Partnership Project)采纳为相应音频编码国际标准中的组 成部分。

在参数立体声的编码端,将输入的左右声道信号分别经过混合正交镜像分析滤波器组, 各滤波器的输出经过降采样,获得分带后的复频域信号。利用左右声道各子带的复频域信号 估算出相应的空间参数并量化输出,同时将其加和生成单声道下混信号,通过混合正交镜像 合成滤波器组再变换回时域信号。参数立体声编码的基本原理如图1所示。

参数立体声解码也是通过混合正交镜像分析滤波器组将时域信号转换到复频域来进行 处理的,因此不再赘述混合正交镜像滤波器组的相关内容。参数立体声解码是由下混信号结 合相应的空间参数来合成环境声(Synthetic Ambience),最终重构双声道立体声信号的过程。 参数立体声解码原理如图2所示。

在参数立体声解码端,解相关模块的作用是利用输入的单声道下混信号M生成相应的 解相关输出信号D。为了能精确恢复原信号,D应该和M正交,具体实现中,参数立体声的 采用频带不同而改变的小数化延迟(Fractional Delay)、全通滤波器(All-pass Filter)模块。由于全 通滤波器不能对相位进行精确控制,因此会影响D和M的正交性,导致重构的信号存在较大 的误差。

发明内容

针对现有技术中存在的技术问题,本发明的目的在于提供一种精确解相关方法,基于此 方法建立的参数立体声编解码方法,在解码端更精确的恢复编码端输入的双声道信号。

本发明的技术方案为:

一种基于正交解相关技术的参数立体声编码方法,其步骤为:

1)将输入的左声道、右声道时域信号分别变换到复频域,得到两复频域信号L和R;

2)对两复频域信号L和R进行下混加和输出为一个下混信号M;

3)利用复频域信号L和R估算出边信息,并对所述边信息进行融合量化;所述边信息包

括声道内互相关系数ICC、声道间强度差IID和旋转方位信息RD;

4)对下混信号M进行时域反变换,得到时域信号并编码输出;将所述边信息压缩编码输

出。

进一步的,利用公式计算所述声道内互相关系数ICC。

进一步的,利用公式计算所述声道间强度差IID。

进一步的,利用公式RD=1arg(ML)[0,π)0arg(ML)[π,2π)计算所述旋转方位信息RD。

进一步的,以左右声道复频域信号的能量和作为权重对所述边信息RD,ICC、IID进行 压缩编码。

进一步的,根据听觉等效矩形带宽对所述边信息在频域上进行融合;所述声道内互相关 系数ICC量化为3bit、声道间强度差IID量化为5bit、旋转方位信息RD量化为1bit。

一种基于正交解相关技术的参数立体声解码方法,其步骤为:

1)将输入的时域下混信号变换到复频域,输出一复频域下混信号M;对输入的边信息进

行解码,得到声道内互相关系数ICC、声道间强度差IID和旋转方位信息RD;

2)针对每一复频域下混信号M,根据旋转方位信息RD求解一与其幅值相等且正交的输 出信号D;

3)根据声道内互相关系数ICC、声道间强度差IID、信号M与信号D计算恢复左声道、 右声道的旋转矩阵H;

4)利用旋转矩阵H、下混信号M及信号D得到复频域信号L和R;

5)将复频域信号L和R分别变化到时域,得到恢复后的左声道信号和右声道信号。

进一步的,求解所述信号D的方法为:

81)设复频域下混信号M在复平面所对应的向量为a与b分别为下混信号对 应向量的实部和虚部;设预求解信号D对应的正交向量为其中,c与 d分别向量的实部和虚部;

82)根据公式x2+y2=a2+b2和ax+by=0,得到

83)根据公式D=b-aiRD=1-b+aiRD=0求解所述信号D。

进一步的,求解所述旋转矩阵H的方法为:

91)由向量所在轴和向量所在轴确定一坐标系;将左声道样点值到该坐标系原点的 向量记为右声道样点值到该坐标系原点的向量记为

92)根据声道内互相关系数ICC确定两个向量和的夹角2α;

93)根据声道间强度差IID确定向量的模长比c;

94)由夹角α与模长比c确定与的模长比c1和与的模长比c2

95)根据模长比c1和c2确定夹角的角平分线与向量的夹角β;得到所述旋转矩阵

H=c2cos(β+α)c2sin(β+α)c1cos(β-α)c2cos(β-α).

进一步的,利用公式LR=HMD得到复频域信号L和R。

与现有技术相比,本发明的积极效果为:

如图5、6所示,在相同的码率条件下,本发明在信噪比和PEAQ两个客观评价指标上优 于HE-AAC+,并且本发明在编码速度稍有降低的情况下大大提高了解码速度。

附图说明

图1为参数立体声编码框图;

图2为参数立体声解码框图;

图3为参数立体声编码器;

图4为参数立体声解码器;

图5为32kbps和64kbps码率下两种方法信噪比结果;

图5(a)为32kbps码率下两种方法信噪比结果,图5(b)为64kbps码率下两种方 法信噪比结果;

图6为32kbps和64kbps码率下两种方法PEAQ得分结果;

图6(a)为32kbps码率下两种方法PEAQ得分结果,图6(b)为64kbps码率下两 种方法PEAQ得分结果。

具体实施方式

下面结合附图对本发明进行详细描述,本发明的参数立体声编码方法如图3所示。

1、分帧与复频域变换

该模块输入分别为双声道的左声道信号和右声道信号,时域信号经过时频变换模块后 (如:MDFT,QMF)变换到复频域,输出复信号L和R。

2、加和下混模块

该模块输入为双声道中左声道信号和右声道信号分别经过时频转换模块后对应的两个 复频域信号L和R,再经过下混加和模块输出为一个下混信号M,

M=glL+grR(1)

其中gl=gr=0.5

3、参数提取模块

该模块输入为左右声道信号分别经过时频转换模块后的2个复频域信号,输出为包括 ICC、IID、旋转方位信息RD在内量化压缩后的边信息。

3.1声道内互相关ICC(Inter-channel Cross-Correlation)

ICC计算左右声道的互相关系数,计算公式为,

ICC=Re(LR*)(LL*)(RR*)---(2)

式中,L为左声道信号,R为右声道信号,*为共轭运算,Re()是取实部运算。

3.2声道间强度差IID(Inter-channel Intensity Difference)

ICC计算左右声道的强度差,计算公式为,

IID=10log10(LL*RR*)---(3)

式中,L为左声道信号,R为右声道信号,*为共轭运算。

3.3旋转方位信息输出

为了在解码端能够精确解出下混信号的正交信号,需要知道下混信号和左声道的夹角, 根据此夹角大小定义旋转方位信息,当夹角小于π时,旋转方位值为1;当夹角大于π时, 旋转方位信息值为0。

RD=1arg(ML)[0,π)0arg(ML)[π,2π)---(4)

式中

arg(x)=arctan(im(x)re(x))---(5)

式中,x=M/L,im()为取实部运算,re()为取虚部运算。旋转方位信息每个点会输出一个 1bit信息,融合量化时以左右声道复信号的能量和作为权重,将RD,ICC、IID逐帧进行压 缩编码。

4、融合量化

融合:根据听觉等效矩形带宽(ERB),对空间参数在频域上进行融合

BW=24.7×(0.00437×fc+1)

量化:IID量化为5bit,ICC量化为3bit,RD为1bit。

本发明的参数立体声解码方法如图4所示。

参数立体声解码也是通过混合时频变换模块将时域信号转换到复频域来进行处理。参数 立体声解码是由下混信号通过解相关算法到其正交信号,再结合相应的空间参数来重构双声 道立体声信号的过程。以下主要阐述解码器中解相关处理、向上混合两个模块的基本原理和 实现方法。

1、解相关模块

下混信号经时频变换后,成为复频域信号,把信号对应复平面的点看做一个向量。求解 一个与此向量幅值相等且正交的输出向量,设输入信号经时频转换后某点在复平面所对应的 向量为

M=a+bi---(6)

式中a与b分别为下混信号对应向量的实部和虚部。

预求解的正交向量为

D=x+yi---(7)

式中c与d分别正交向量的实部和虚部。

要求输出向量与输入正交且模长相等,故有

x2+y2=a2+b2(8)

ax+by=0

解此二元二次方程组,有

d1=-b+aib2=b-ai---(9)

d1、d2为解相关信号D的两个解,选择正确的解,对精确解码至关重要。根据编码器传 过来的旋转方位信息,可以确定正确解D。

D=b-aiRD=1-b+aiRD=0---(10)

2、参数混合模块

在复频域上复数样点到原点的O的向量为与M垂直且模相等的向量为由和 所在的轴可以确定该复平面的坐标系。而希望恢复的左声道样点值到原点的向量记为同样地右声道样点值到原点的向量记为那么问题就转化为由已知向量如何得到未知的 与向量。

由ICC确定两个向量和的夹角2α

2α=arccos(iee)     (11)

由lid确定和复信号的模长比c

c=10iid20---(12)

由夹角α与模长比c确定与的模长比c1和与的模长比c2

c1=11+c2+2·c·cos(2α)c2=c1+c2+2·c·cos(2α)---(13)

由夹角一半α、与的模长比c1和与的模长比c2确定与夹角的角平 分线与的夹角β,及旋转矩阵H。

β=arctan(c1-c2c1+c2tan(α))---(14)

H=c2cos(β+α)c2sin(β+α)c1cos(β-α)c1cos(β-α)---(15)

利用旋转矩阵H。下混信号及其解相关信号可恢复双声道信号对应的向量。

LR=HMD---(16)

由和可得到复频域信号L和R,再分别经过时频反变换模块得到恢复后的左声道信号xl和右声道信号xr

方法评测

我们把本专利提出的方法与HE-AAC+作了比较,编码器码率选择为32kbps与64kbps, 测试文件选取12个测试序列:

表1为12个测试序列

序号 名称 内容描述 时长(单位:秒) 1 1.wav 女声清唱 10.734 2 2.wav 男声语音 8.599 3 3.wav 女声语音 7.604 4 4.wav 室内乐 10.968 5 5.wav 交响乐 12.732 6 6.wav 流行乐 11.552

7 7.wav 古钢琴 7.995 8 8.wav 打击乐 7.725 9 9.wav 口风琴 27.887 10 10.wav 风笛 11.148 11 11.Wav 铃声 10.095 12 12.wav 弹拨乐 13.985

评价准则选取信噪比(SNR)、PEAQ的客观差异得分。

信噪比:

信噪比定义为信号功率和噪声功率之比,单位为dB,信号为原始音频信号,而噪声则是 经过参数立体声编解码后的恢复的音频信号与原始音频信号之间的误差信号。信噪比越高则 说明重构后的音频信号与原始音频信号越接近,音质越好;反之则差异越大,音质越差。 SNR=10log10(SignalPowerNoisePower)

信噪比结果如图5所示。

PEAQ得分:

PEAQ算法通过模仿人耳的听觉系统,对参考信号和测试信号作对比分析并计算得到客 观差异得分ODG(Objective Difference Grade,ODG),代表使人感到厌恶的干扰值,取值范围 为[-4,0]。PEAQ评测标准也采用了五级音质判定尺度,和一些主观评价方法的音质判定尺 度非常类似。

表2为PEAQ的ODG得分意义

音质 音质损伤描述 ODG分值 无法感知 0 可感知但无干扰 -1 轻微恼人 -2 恼人 -3 不可接受 非常恼人 -4

PEAQ得分结果如图6所示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号