法律状态公告日
法律状态信息
法律状态
2016-03-23
未缴年费专利权终止 IPC(主分类):G10L19/02 授权公告日:20121010 终止日期:20150203 申请日:20100203
专利权的终止
2012-10-10
授权
授权
2010-09-29
实质审查的生效 IPC(主分类):G10L19/02 申请日:20100203
实质审查的生效
2010-08-11
公开
公开
技术领域
本发明涉及音频编码技术领域,尤其涉及一种基于感知自适应比特分配的音频精细分级编码方法及系统。
背景技术
可分级音频编码技术将码流划分为一个核心层及多个增强层,其中核心层保证信号的最低重建质量,增强层则通过提高信噪比或者扩展频带的方式渐次改善重建质量,接收到的增强层数越多,解码音质越高。
可分级编码方法可以通过直接丢弃增强层码流以适应网络带宽波动,分级粒度越精细就越能有效适应网络带宽波动;另一方面,可分级音频编码性能好坏评价的客观准则是各个分级层的感知信噪比,主观评价标准也是各个分级层解码信号感知质量。因此决定各个分级层的感知质量稳步提升的感知自适应比特分配方案对可分级编码性能好坏起着至关重要的作用。
现有的精细可分级音频编码方法比较具有代表性的方法是1994年MPEG-1标准采用的最优比特分配方法,以及2006年ITU-T提出的新一代语音编解码标准G.729EV中的频域子带可分级方法。
最优比特分配方法将频域信号均匀划分为多个子带,根据子带感知重要度排序,采用逐比特量化方法编码感知度最重要的子带,并进行子带感知重要度调整,反馈继续进行子带感知重要度排序和逐比特量化,直到比特分配结束或全部子带编码完成,其中逐比特量化方法采用的是标量量化,将子带最重要信息进行量化编码。最优比特分配方法保证了编码质量的提高,但是由于标量量化本身量化压缩缺陷,该方法在一定程度上限制了量化效率的提高,无法适用于中低码率。
G.729EV标准增强层将信号划分为32个子带,采用感知重要性的测度准则,对各个子带按感知重要度排序,根据排序的结果以及可供分配的比特数确定最佳比特分配方案,对各个子带MDCT系数进行分裂球面矢量量化,G.729EV标准增强层编码采用的比特分配方法并不是最优的,编码每个子带的比特数耗费大,在比特数少的情况下,该比特分配方法只能指导编码器量化编码少数子带,而大部分子带信息将完全丢失,这种方法虽然有显著的量化效率,但是却存在比特分配不均及比特浪费的现象,导致某些子带比特严重浪费,某些子带比特严重缺乏,从而最终影响音质的提高。
从以上的技术来看,当前的精细可分级音频编码处于两个极端的状态,量化效率和分级粒度不能有一个较好的统一过程,量化效率高的方法分级粒度就低,量化效率低的分级粒度就高。
发明内容
本发明的目的是提供一种基于感知自适应比特分配的音频精细分级编码方法及系统,以将感知自适应比特块分配方案和高效分级矢量量化技术结合,实现高效的精细可分级音频编码,较好地实现量化精度和量化效率的统一。
为达到上述目的,本发明采用如下的技术方案:
一种基于感知自适应比特分配的音频精细分级编码方法,包括以下步骤:
步骤①:对输入信号进行预处理,其中预处理包括对输入信号进行感知加权处理和时频变化处理,经上述预处理后得到信号的频域表示形式;
步骤②:对上述经过预处理后得到的频域信号进行子带划分,按照均匀划分的方法将整个频域划分为N个子带,其中N≥1;
步骤③:计算每个子带的感知重要度,并根据感知重要度按照从大到小的顺序统一对子带排序,提取感知重要度最大的子带;
步骤④:根据感知重要度最大的子带,进行可分级纵向矢量量化;
步骤⑤:对矢量量化后的最大重要感知重要度子带进行自适应调整;
步骤⑥:判断整个量化过程中可分级量化次数是否到达最大次数,如果没有达到最大次数,则返回步骤③,如果达到最大次数,则结束分级编码。
所述步骤③中,如果以子带能量作为每个子带的感知重要度衡量标准,则计算每个子带所包含的谱能量;如果以幅度作为感知重要度衡量标准,则计算每个子带所包含的谱幅。
定义VQ_rank(k)为第k个子带的量化等级,并对其初始化赋值为:
VQ_rank(0)=VQ_rank(1)...=VQ_rank(N-1)=0
其中k=0,1,....N-1,N为划分的子带总数,N≥1;
对获得的感知重要度最大的子带k进行第VQ_rank(k)级的矢量量化,给频谱矢量Yk分配R比特,得到量化后的矢量其中R取值大小由分级编码器的分级粒度S决定。
定义Qmax为信号量化过程中最大可分级次数,其初始化Q=1,计算的感知重要度并对Yk,VQ_rank(k)及ip(k)进行如下自适应修改:
VQ_rank(k)=VQ_rank(k)+1
Q=Q+1
其中,0≤k≤N-1。
一种基于感知自适应比特分配的音频精细分级编码系统,包括:
预处理模块,用于对输入信号进行预处理,其中预处理包括对输入信号进行感知加权处理和时频变化处理,经上述预处理后得到信号的频域表示形式;
子带划分模块,用于对上述经过预处理模块处理后得到的频域信号进行子带划分,按照均匀划分的方法将整个频域划分为N个子带,其中N≥1;
子带感知重要度计算排序及提取模块,用于计算每个子带的感知重要度,并根据感知重要度按照从大到小的顺序统一对子带排序,提取感知重要度最大的子带;
分级量化编码模块,用于根据感知重要度最大的子带,进行可分级纵向矢量量化;
自适应调整模块,用于对分级量化编码模块矢量量化后的最大重要感知重要度子带进行自适应调整;
分级编码结束判断模块,用于判断整个量化过程中可分级量化次数是否到达最大次数,并决定是否结束分级编码。
感知加权子模块,用于对输入信号进行感知加权处理;
时频变换子模块,用于对感知加权处理后的信号进行时频变换处理。
子带感知重要度计算排序子模块,用于计算每个子带的感知重要度,并根据感知重要度按照从大到小的顺序统一对子带排序;
感知重要度提取模块,用于对子带感知重要度计算排序子模块排序后的子带提取感知重要度最大的子带。
本发明具有以下优点和积极效果:
1)将感知自适应比特块分配方案和高效分级矢量量化技术结合,实现了高效的精细可分级音频编码,较好地实现了量化精度和量化效率的统一;
2)本发明从人耳感知特性出发,以感知重要度为衡量标准对子带进行可分级矢量量化,提高了分级精度,提高编码效率的同时也满足了高音质的需求。
附图说明
图1是本发明提供的基于感知自适应比特分配的音频精细分级编码方法的流程图。
图2是本发明提供的基于感知自适应比特分配的音频精细分级编码方法的子带划分第一示意图。
图3是本发明提供的基于感知自适应比特分配的音频精细分级编码方法的子带划分第二示意图。
图4是本发明提供的基于感知自适应比特分配的音频精细分级编码系统的应用示意图。
具体实施方式
本发明主要是以子带的感知重要度为衡量标准,提出的基于感知自适应比特分配的音频精细分级编码方法及系统。
本发明相对将比特一次性分配给感知重要度最高的子带来说,增加了分级精度,而相对逐比特分配的方法来说,提高了编码效率,从人耳感知特性出发,以感知重要度为衡量标准,对子带进行可分级矢量量化,提高了分级精度,下面分别结合附图详细描述本发明。
本发明提供的基于感知自适应比特分配的音频精细分级编码方法,具体包括以下步骤,如图1所示,包括:
步骤1:对输入信号进行预处理,其中预处理包括对输入信号进行感知加权处理和时频变化处理,经上述预处理后得到信号的频域表示形式;
步骤2:对上述经过预处理后得到的频域信号进行子带划分,按照均匀划分的方法将整个频域划分为N个子带,其中N≥1;
步骤3:计算每个子带的感知重要度,并根据感知重要度按照从大到小的顺序统一对子带排序,提取感知重要度最大的子带;
具体信号的感知重要度衡量标准不同,若以子带能量作为每个子带的感知重要度衡量标准,则计算每个子带所包含的谱能量;若以幅度作为感知重要度衡量标准,则计算每个子带所包含的谱幅;
定义每个子带的感知重要度为ip(k),k=0,1...N-1;根据计算所得的感知重要度大小,对各子带统一进行感知重要度的排序,提取感知重要度最大的子带ip(k)=E(k)=Max(ip(j)),其中k=0,1,....N-1,j=0,1,2,...N-1,N为划分的子带总数;
步骤4:根据感知重要度最大的子带,进行可分级纵向矢量量化;该步骤进一步可以包括以下子步骤:
①定义VQ_rank(k)为第k个子带的量化等级,并对其初始化赋值为:
VQ_rank(0)=VQ_rank(1)...=VQ_rank(N-1)=0
其中k=0,1,....N-1,N为划分的子带总数,N≥1;
②对获得的感知重要度最大的子带k进行第VQ_rank(k)级的矢量量化,给频谱矢量Yk分配R比特,得到量化后的矢量其中R取值大小由分级编码器的分级粒度S决定;
步骤5:对矢量量化后的最大重要感知重要度子带进行自适应调整;该步骤具体操作如下:
定义Qmax为信号量化过程中最大可分级次数,其初始化Q=1,计算的感知重要度并对Yk,VQ_rank(k)及ip(k)进行如下自适应修改:
VQ_rank(k)=VQ_rank(k)+1
Q=Q+1
其中,0≤k≤N-1;
步骤6:判断整个量化过程中可分级量化次数是否到达最大次数,如果没有达到最大次数,则返回步骤3,如果达到最大次数,则结束分级编码。
本发明提供的基于感知自适应比特分配的音频精细分级编码系统,包括以下模块:
①预处理模块,用于对输入信号进行预处理,其中预处理包括对输入信号进行感知加权处理和时频变化处理,经上述预处理后得到信号的频域表示形式;
预处理模块进一步包括感知加权子模块、时频变换子模块,
感知加权子模块,用于对输入信号进行感知加权处理;
时频变换子模块,用于对感知加权处理后的信号进行时频变换处理;
②子带划分模块,用于对上述经过预处理模块处理后得到的频域信号进行子带划分,按照均匀划分的方法将整个频域划分为N个子带,其中N≥1;
③子带感知重要度计算排序及提取模块,用于计算每个子带的感知重要度,并根据感知重要度按照从大到小的顺序统一对子带排序,提取感知重要度最大的子带;
该模块进一步包括子带感知重要度计算排序子模块、感知重要度提取模块:
子带感知重要度计算排序子模块,用于用于计算每个子带的感知重要度,并根据感知重要度按照从大到小的顺序统一对子带排序;
感知重要度提取模块,用于对子带感知重要度计算排序子模块排序后的子带提取感知重要度最大的子带;
④分级量化编码模块,用于根据感知重要度最大的子带,进行可分级纵向矢量量化;
⑤自适应调整模块,用于对分级量化编码模块矢量量化后的最大重要感知重要度子带进行自适应调整;
⑥分级编码结束判断模块,用于判断整个量化过程中可分级量化次数是否到达最大次数,并决定是否结束分级编码。
下面进一步以具体实施例结合附图对本发明作进一步说明:
步骤1:对输入信号进行预处理,而预处理具体包括感知加权和时频变换两个过程;
①将输入信号送入感知加权滤波器MLB(z),同时γ1′,γ2′以及γ3′(0<γ1′,γ2,′γ3′<1)三个系数也相应调整以缓和量化噪声谱:
其中γ1′,γ2′,γ3′为调整参量,ai为线性预测分析系数,i为线性预测的阶数,
②时频变换是将时域信号转换到频域,获得音频信号的频谱表达,本实施例采用MDCT变换。
步骤2:对时频变换后的频域信号进行频谱子带划分,此处假设将整个频谱均匀划分为64个子带;
图2为均匀划分为8个子带的示意图,横轴表示子带频域划分范围,纵轴表示频域能量幅值,其中低频核心层编码是本发明的基础,不在本发明考虑范围内;根据残差计算出来的子带在图中用数字“1”到“8”分别标示,其中子带1、子带2、子带3、和子带4是低频音频子带;子带5、子带6、子带7、和子带8是高频音频子带;64个子带的划分与8个子带划分同理;
步骤3:此处假设每个子带的能量作为子带感知重要度的测量标准,计算64个子带的每个子带所包含的能量,并根据能量大小从大到小进行排序,提取感知重要度最大的子带,具体实施方式为:
①定义ip(k)为第k个子带的感知重要度,E(k)为第k个子带所包含的谱能量,用如下公式计算每个子带的能量:
其中k=0,1...63,Yk为第k个子带包含的MDCT谱系数;
②根据上式计算所得的每个子带的能量大小为感知重要度的测量标准,对各子带统一进行感知重要度的排序,提取感知重要度最大的子带,送入步骤4进行矢量量化,具体表示为:
ip(k)=Max(ip(j))
其中,0≤k≤63,j=0,...,63;
步骤4:根据步骤3获得的感知重要度最大的子带,根据对该子带进行纵向矢量量化,这里假定第k个子带为感知重要度最大的子带,具体的实施方式为:
①定义VQ_rank(k)为第k个子带的量化等级,并对其初始化赋值为:
VQ_rank(0)=VQ_rank(1)...=VQ_rank(63)=0
其中k=0,1,....63,N为划分的子带总数;
②对获得的感知重要度最大的子带k进行第VQ_rank(k)=0级的矢量量化,给该子带的量化矢量Yk分配R个比特,其中R根据需要的分级粒度进行调整,在量化效率和分级粒度之间权衡,以处理帧长20ms,分级粒度1kbps为例,则R为20个比特,得到量化后的矢量
步骤5:对步骤4矢量量化后的子带k进行自适应修整,具体实施如下:
假设Qmax=10为信号量化过程中最大可分级次数,其初始化Q=1;
计算的感知重要度并对Yk,VQ_rank(k)及ip(k)进行如下自适应修改,即:
VQ_rank(k)=VQ_rank(k)+1
Q=Q+1
其中0≤k≤63;
步骤6:判断进行步骤5后的可分级量化次数Q是否大于Qmax,如果大于则结束分级编码,如果没有大于Qmax则继续进行步骤3。
图3为8个子带比特分配量化示意图,横轴表示子带频域划分范围,纵轴表示频域能量幅值,其中低频核心层编码是本发明的基础,不在本发明考虑范围内;增强层均匀划分为8个子带,根据各子带能量幅值比较,发现第6个子带能量最大,编码该子带的的矢量块1,调整第6个子带能量;重新排序子带能量幅值,发现第1个子带能量最大,编码该子带的的矢量块2;以此类推,分别编码第1到18个矢量块。
图4中输入的双声道信号经过下混、预处理、低通和高通滤波等模块处理得到低带残差信号和高带信号。低带残差信号和高带信号作为可分级编码模块的输入,经过本发明提供的方法分级量化得到输出码流输出。
图4是本发明内容在整个音频编码框架中的应用,其中可分级编码矢量化30为本发明实现精细粒度分级编码的位置,将本发明内容应用于编码框架的可分级矢量量化中,指导音频编码,提高量化效率及量化精度。
机译: 一种减少自适应比特分配的感知音频编码器总比特成本的方法
机译: 具有自适应比特分配的可感知多声道音频编码
机译: 具有自适应比特分配的可感知多声道音频编码