首页> 中国专利> 一种基于正交解相关技术的参数立体声编码、解码方法

一种基于正交解相关技术的参数立体声编码、解码方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于正交解相关技术的参数立体声编码、解码方法。本编码方法：1）将输入的左声道、右声道时域信号分别变换到复频域，得到两复频域信号L和R；2）对L和R输出为一个下混信号M；3）利用L和R估算出边信息，并对所述边信息进行融合量化；所述边信息包括声道内互相关系数ICC、声道间强度差IID和旋转方位信息RD；4）对M时域反变换并编码输出；将边信息压缩编码输出。解码方法：将输入的时域下混信号变换到复频域输出信号M；对输入的边信息进行解码；根据RD求解一与M幅值相等且正交的输出信号D；根据ICC、IID计算旋转矩阵H；利用H、M及D得到复频域信号L和R变化到时域输出。本发明大大提高了解码速度。

著录项

公开/公告号CN103700372A

专利类型发明专利
公开/公告日2014-04-02

原文格式PDF
申请/专利权人北京大学;
展开▼

申请/专利号CN201310745761.5
发明设计人曲天书;吴玺宏;黄益超;黄庆博;
展开▼

申请日2013-12-30
分类号G10L19/008(20130101);
代理机构北京君尚知识产权代理事务所(普通合伙);
代理人邵可声
地址 100871 北京市海淀区颐和园路5号北京大学
入库时间 2024-02-19 22:57:46

法律信息

法律状态公告日

法律状态信息

法律状态
2016-10-05

授权

授权
2014-04-30

实质审查的生效 IPC(主分类):G10L19/008 申请日:20131230

实质审查的生效
2014-04-02

公开

公开

说明书

技术领域

本发明属于音频压缩领域，涉及一种参数立体声编码、解码方法，尤其涉及一种基于正交解相关技术的参数立体声编码、解码方法。

背景技术

多媒体技术兴起于80年代末期，是近年来计算机领域中热门的技术之一。数字音频编解码技术采用计算机的数字记录和传输传送方式，对各种媒体进行处理，具有广泛的用途。但受限于网络带宽和存储空间，如何在保证高质量听感下将原始数据压缩为尽量少的比特数成为研究热点。

音频文件之所以可以压缩，是因为存在冗余，传统压缩算法主要考虑消除声道内冗余，在不考虑声道间冗余时，由于多声道音频文件的码率与声道数是线性关系，声道数的增加会导致码率成倍增加。从1993年MP3开始，人们逐渐发现声道间也是存在冗余并且开始尝试消除声道间冗余，逐步解决了在保持较高主观听感的条件下实现超低码率的问题。现有的消除声道间冗余的方法主要有如下3种：

1>联合立体声是MPEG-1、MEPG-2/4AAC等音频编解码国际标准中的重要组成部分，包括和差变换编码与强度立体声两种立体声编解码技术。

（1）和差变换编码

也被称为MS编码，是Middle-Side编码的简称。编码端将原始左右声道信号转换为和差信号，解码端做相应逆变换。该方法利用声道间相关性，将信号能量集中在和声道上，以此去除声道间冗余。但该方法压缩效率严重依赖信号本身特性，只有在原始左右声道相关性很强的情况下才能得到较高的压缩率。

（2）强度立体声

强度立体声基本思想是通过将原始信号空间的坐标轴进行旋转，得到主轴的强度信号和与之正交的残差信号。在编码端，丢弃与主轴正交的残差信号而只对强度信号和坐标轴旋转角度α进行量化编码。在解码端，根据角度α和强度信号，对坐标轴作逆旋转，重构出左右声道的立体声信号。这样重构得到的左右声道信号只是幅度不同，而相位信息一致。但是通过乘以相应的幅度比例因子，可以较好地保存原信号能量—时间包络。这样的处理方式符合人耳听觉系统对各声道信号高频成分的相位差异及其精细结构不敏感，而随时间变化的能量包络相对重要的感知特点，因此不会明显降低重构立体声信号的主观质量。

2>双耳线索编码

2002年C.Faller提出了名为双耳线索编码(Binaural Cue Coding，BCC)的编解码技术，其出发点和传统立体声编码技术不同，是一种基于空间听觉理论的参数编码技术。立体声或者多声道输入信号下混成单声道信号，同时根据空间听觉特性，对各个声道在变换域进行分析，提取三种空间参数：声道间强度差(Inter-channel Intensity Difference，IID)、声道间时间差 (Inter-channel Time Difference，ITD)及声道间相关性(Inter-Channel Coherence，ICC)。在这里 IID及ITD与传统的空间听觉线索缩写相同但含义不同，相应缩写都是指声道间参数而非听觉线索。下混信号可以使用传统的音频编码器来进行编码，参数经过量化编码后作为辅助部分嵌入到比特流中。在解码端，解码后的下混信号利用相应的空间参数来重构立体声或多声道音频信号。

双耳线索编码最大的特点就是能够提供极高的压缩率和任意声道形式的压缩编码，可看作是一种对强度立体声的发展，但是其克服了强度立体声编码的缺陷，具有以下几个明显优点：强度立体声编码实际只利用IID进行重构，因此仅对高频范围有效，若将强度立体声拓展到低频则会引入严重的噪声，而双耳线索编码利用IID及ITD进行重构，在全频谱范围内进行处理也不会产生严重噪声；另外强度立体声编码不能重构具有宽度立体声声像的音频信号，而双耳线索编码则可以利用ICC对其进行很好的重构。

3>参数立体声

飞利浦公司的J.Breebaart等人于2004年提出了名为参数立体声(Parametric Stereo，PS) 的编解码技术。基本思路是在编码端输出一个单声道信号和若干空间参数，在解码端利用单声道信号和空间参数重构双声道立体声信号，是目前消除声道间冗余最优秀的方法之一。已经被MPEG-4及3GPP(3rd Generation Partnership Project)采纳为相应音频编码国际标准中的组成部分。

在参数立体声的编码端，将输入的左右声道信号分别经过混合正交镜像分析滤波器组，各滤波器的输出经过降采样，获得分带后的复频域信号。利用左右声道各子带的复频域信号估算出相应的空间参数并量化输出，同时将其加和生成单声道下混信号，通过混合正交镜像合成滤波器组再变换回时域信号。参数立体声编码的基本原理如图1所示。

参数立体声解码也是通过混合正交镜像分析滤波器组将时域信号转换到复频域来进行处理的，因此不再赘述混合正交镜像滤波器组的相关内容。参数立体声解码是由下混信号结合相应的空间参数来合成环境声(Synthetic Ambience)，最终重构双声道立体声信号的过程。参数立体声解码原理如图2所示。

在参数立体声解码端，解相关模块的作用是利用输入的单声道下混信号M生成相应的解相关输出信号D。为了能精确恢复原信号，D应该和M正交，具体实现中，参数立体声的采用频带不同而改变的小数化延迟(Fractional Delay)、全通滤波器(All-pass Filter)模块。由于全通滤波器不能对相位进行精确控制，因此会影响D和M的正交性，导致重构的信号存在较大的误差。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种精确解相关方法，基于此方法建立的参数立体声编解码方法，在解码端更精确的恢复编码端输入的双声道信号。

本发明的技术方案为：

一种基于正交解相关技术的参数立体声编码方法，其步骤为：

1）将输入的左声道、右声道时域信号分别变换到复频域，得到两复频域信号L和R；

2）对两复频域信号L和R进行下混加和输出为一个下混信号M；

3）利用复频域信号L和R估算出边信息，并对所述边信息进行融合量化；所述边信息包

括声道内互相关系数ICC、声道间强度差IID和旋转方位信息RD；

4）对下混信号M进行时域反变换，得到时域信号并编码输出；将所述边信息压缩编码输

出。

进一步的，利用公式计算所述声道内互相关系数ICC。

进一步的，利用公式计算所述声道间强度差IID。

进一步的，利用公式 $RD = (\begin{matrix} 1 & \arg (\frac{M}{L}) \in [0, π) \\ 0 & \arg (\frac{M}{L}) \in [π, 2 π) \end{matrix})$ 计算所述旋转方位信息RD。

进一步的，以左右声道复频域信号的能量和作为权重对所述边信息RD，ICC、IID进行压缩编码。

进一步的，根据听觉等效矩形带宽对所述边信息在频域上进行融合；所述声道内互相关系数ICC量化为3bit、声道间强度差IID量化为5bit、旋转方位信息RD量化为1bit。

一种基于正交解相关技术的参数立体声解码方法，其步骤为：

1）将输入的时域下混信号变换到复频域，输出一复频域下混信号M；对输入的边信息进

行解码，得到声道内互相关系数ICC、声道间强度差IID和旋转方位信息RD；

2）针对每一复频域下混信号M，根据旋转方位信息RD求解一与其幅值相等且正交的输出信号D；

3）根据声道内互相关系数ICC、声道间强度差IID、信号M与信号D计算恢复左声道、右声道的旋转矩阵H；

4）利用旋转矩阵H、下混信号M及信号D得到复频域信号L和R；

5）将复频域信号L和R分别变化到时域，得到恢复后的左声道信号和右声道信号。

进一步的，求解所述信号D的方法为：

81）设复频域下混信号M在复平面所对应的向量为a与b分别为下混信号对应向量的实部和虚部；设预求解信号D对应的正交向量为其中，c与 d分别向量的实部和虚部；

82）根据公式x2+y2=a2+b2和ax+by=0，得到

83）根据公式 $\vec{D} = (\begin{matrix} b - ai & RD = 1 \\ - b + ai & RD = 0 \end{matrix})$ 求解所述信号D。

进一步的，求解所述旋转矩阵H的方法为：

91）由向量所在轴和向量所在轴确定一坐标系；将左声道样点值到该坐标系原点的向量记为右声道样点值到该坐标系原点的向量记为

92）根据声道内互相关系数ICC确定两个向量和的夹角2α；

93）根据声道间强度差IID确定向量的模长比c；

94）由夹角α与模长比c确定与的模长比_c1和与的模长比c₂；

95）根据模长比c1和c2确定夹角的角平分线与向量的夹角β；得到所述旋转矩阵

$H = (\begin{matrix} c_{2} \cos (β + α) & c_{2} \sin (β + α) \\ c_{1} \cos (β - α) & c_{2} \cos (β - α) \end{matrix}) .$

进一步的，利用公式 $(\begin{matrix} \vec{L} \\ \vec{R} \end{matrix}) = H (\begin{matrix} \vec{M} \\ \vec{D} \end{matrix})$ 得到复频域信号L和R。

与现有技术相比，本发明的积极效果为：

如图5、6所示，在相同的码率条件下，本发明在信噪比和PEAQ两个客观评价指标上优于HE-AAC+，并且本发明在编码速度稍有降低的情况下大大提高了解码速度。

附图说明

图1为参数立体声编码框图；

图2为参数立体声解码框图；

图3为参数立体声编码器；

图4为参数立体声解码器；

图5为32kbps和64kbps码率下两种方法信噪比结果；

图5（a）为32kbps码率下两种方法信噪比结果，图5（b）为64kbps码率下两种方法信噪比结果；

图6为32kbps和64kbps码率下两种方法PEAQ得分结果；

图6（a）为32kbps码率下两种方法PEAQ得分结果，图6（b）为64kbps码率下两种方法PEAQ得分结果。

具体实施方式

下面结合附图对本发明进行详细描述，本发明的参数立体声编码方法如图3所示。

1、分帧与复频域变换

该模块输入分别为双声道的左声道信号和右声道信号，时域信号经过时频变换模块后（如：MDFT，QMF）变换到复频域，输出复信号L和R。

2、加和下混模块

该模块输入为双声道中左声道信号和右声道信号分别经过时频转换模块后对应的两个复频域信号L和R，再经过下混加和模块输出为一个下混信号M，

M=g_lL+g_rR（1）

其中g_l=g_r=0.5

3、参数提取模块

该模块输入为左右声道信号分别经过时频转换模块后的2个复频域信号，输出为包括 ICC、IID、旋转方位信息RD在内量化压缩后的边信息。

3.1声道内互相关ICC(Inter-channel Cross-Correlation)

ICC计算左右声道的互相关系数，计算公式为，

$ICC = \frac{Re ({LR}^{*})}{\sqrt{({LL}^{*}) ({RR}^{*})}} - - - (2)$

式中，L为左声道信号，R为右声道信号，*为共轭运算，Re()是取实部运算。

3.2声道间强度差IID(Inter-channel Intensity Difference)

ICC计算左右声道的强度差，计算公式为，

$IID = {10 \log}_{10} (\frac{{LL}^{*}}{{RR}^{*}}) - - - (3)$

式中，L为左声道信号，R为右声道信号，*为共轭运算。

3.3旋转方位信息输出

为了在解码端能够精确解出下混信号的正交信号，需要知道下混信号和左声道的夹角，根据此夹角大小定义旋转方位信息，当夹角小于π时，旋转方位值为1；当夹角大于π时，旋转方位信息值为0。

$RD = (\begin{matrix} 1 & \arg (\frac{M}{L}) \in [0, π) \\ 0 & \arg (\frac{M}{L}) \in [π, 2 π) \end{matrix}) - - - (4)$

式中

$\arg (x) = \arctan (\frac{im (x)}{re (x)}) - - - (5)$

式中，x=M/L，im()为取实部运算，re()为取虚部运算。旋转方位信息每个点会输出一个 1bit信息，融合量化时以左右声道复信号的能量和作为权重，将RD，ICC、IID逐帧进行压缩编码。

4、融合量化

融合：根据听觉等效矩形带宽（ERB），对空间参数在频域上进行融合

BW=24.7×(0.00437×f_c+1)

量化：IID量化为5bit，ICC量化为3bit，RD为1bit。

本发明的参数立体声解码方法如图4所示。

参数立体声解码也是通过混合时频变换模块将时域信号转换到复频域来进行处理。参数立体声解码是由下混信号通过解相关算法到其正交信号，再结合相应的空间参数来重构双声道立体声信号的过程。以下主要阐述解码器中解相关处理、向上混合两个模块的基本原理和实现方法。

1、解相关模块

下混信号经时频变换后，成为复频域信号，把信号对应复平面的点看做一个向量。求解一个与此向量幅值相等且正交的输出向量，设输入信号经时频转换后某点在复平面所对应的向量为

$\vec{M} = a + bi - - - (6)$

式中a与b分别为下混信号对应向量的实部和虚部。

预求解的正交向量为

$\vec{D} = x + yi - - - (7)$

式中c与d分别正交向量的实部和虚部。

要求输出向量与输入正交且模长相等，故有

x²+y²=a²+b²（8）

ax+by=0

解此二元二次方程组，有

$(\begin{matrix} {\vec{d}}_{1} = - b + ai \\ {\vec{b}}_{2} = b - ai \end{matrix}) - - - (9)$

d₁、d₂为解相关信号D的两个解，选择正确的解，对精确解码至关重要。根据编码器传过来的旋转方位信息，可以确定正确解D。

$\vec{D} = (\begin{matrix} b - ai & RD = 1 \\ - b + ai & RD = 0 \end{matrix}) - - - (10)$

2、参数混合模块

在复频域上复数样点到原点的O的向量为与M垂直且模相等的向量为由和所在的轴可以确定该复平面的坐标系。而希望恢复的左声道样点值到原点的向量记为同样地右声道样点值到原点的向量记为那么问题就转化为由已知向量如何得到未知的与向量。

由ICC确定两个向量和的夹角2α

2α=arccos(iee) (11)

由lid确定和复信号的模长比c

$c = 10^{\frac{iid}{20}} - - - (12)$

由夹角α与模长比c确定与的模长比c₁和与的模长比c₂

$(\begin{matrix} c_{1} = \frac{1}{\sqrt{1 + c^{2} + 2 \cdot c \cdot \cos (2 α)}} \\ c_{2} = \frac{c}{\sqrt{1 + c^{2} + 2 \cdot c \cdot \cos (2 α)}} \end{matrix}) - - - (13)$

由夹角一半α、与的模长比c₁和与的模长比c₂确定与夹角的角平分线与的夹角β，及旋转矩阵H。

$β = \arctan (\frac{c_{1} - c_{2}}{c_{1} + c_{2}} \tan (α)) - - - (14)$

$H = (\begin{matrix} c_{2} \cos (β + α) & c_{2} \sin (β + α) \\ c_{1} \cos (β - α) & c_{1} \cos (β - α) \end{matrix}) - - - (15)$

利用旋转矩阵H。下混信号及其解相关信号可恢复双声道信号对应的向量。

$(\begin{matrix} \vec{L} \\ \vec{R} \end{matrix}) = H (\begin{matrix} \vec{M} \\ \vec{D} \end{matrix}) - - - (16)$

由和可得到复频域信号L和R，再分别经过时频反变换模块得到恢复后的左声道信号x_l和右声道信号x_r。

方法评测

我们把本专利提出的方法与HE-AAC+作了比较，编码器码率选择为32kbps与64kbps，测试文件选取12个测试序列：

表1为12个测试序列

序号名称内容描述时长(单位：秒) 1 1.wav 女声清唱 10.734 2 2.wav 男声语音 8.599 3 3.wav 女声语音 7.604 4 4.wav 室内乐 10.968 5 5.wav 交响乐 12.732 6 6.wav 流行乐 11.552

7 7.wav 古钢琴 7.995 8 8.wav 打击乐 7.725 9 9.wav 口风琴 27.887 10 10.wav 风笛 11.148 11 11.Wav 铃声 10.095 12 12.wav 弹拨乐 13.985

评价准则选取信噪比(SNR)、PEAQ的客观差异得分。

信噪比：

信噪比定义为信号功率和噪声功率之比，单位为dB，信号为原始音频信号，而噪声则是经过参数立体声编解码后的恢复的音频信号与原始音频信号之间的误差信号。信噪比越高则说明重构后的音频信号与原始音频信号越接近，音质越好；反之则差异越大，音质越差。 $SNR = {10 \log}_{10} (\frac{SignalPower}{NoisePower})$

信噪比结果如图5所示。

PEAQ得分：

PEAQ算法通过模仿人耳的听觉系统，对参考信号和测试信号作对比分析并计算得到客观差异得分ODG(Objective Difference Grade，ODG)，代表使人感到厌恶的干扰值，取值范围为[-4，0]。PEAQ评测标准也采用了五级音质判定尺度，和一些主观评价方法的音质判定尺度非常类似。

表2为PEAQ的ODG得分意义

音质音质损伤描述 ODG分值优无法感知 0 良可感知但无干扰 -1 中轻微恼人 -2 差恼人 -3 不可接受非常恼人 -4

PEAQ得分结果如图6所示。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于正交解相关技术的参数立体声编码、解码方法 [P] . 中国专利： CN103700372B . 2016.10.05
2. 一种基于正交解相关技术的参数立体声编码、解码方法 [P] . 中国专利： CN103700372A . 2014-04-02
3. RECONSTRUCTING AUDIO SIGNALS WITH MULTIPLE DECORRELATION TECHNIQUES AND DIFFERENTIALLY CODED PARAMETERS [P] . CA3026267C . 2019-04-16

机译：使用多种解相关技术和不同编码参数重建音频信号
4. RECONSTRUCTING AUDIO SIGNALS WITH MULTIPLE DECORRELATION TECHNIQUES AND DIFFERENTIALLY CODED PARAMETERS [P] . CA2992051C . 2019-01-22

机译：使用多种解相关技术和不同编码参数重建音频信号
5. RECONSTRUCTING AUDIO SIGNALS WITH MULTIPLE DECORRELATION TECHNIQUES AND DIFFERENTIALLY CODED PARAMETERS [P] . CA2992125C . 2018-09-25

机译：使用多种解相关技术和不同编码参数重建音频信号