首页> 中国专利> 用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备

用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备

摘要

本发明涉及一种用于在可变比特率声音信号编码中量化线性预测参数的方法和设备,其中接收输入线性预测参数向量;将对应于该输入线性预测参数向量的声音信号帧进行分类;计算预测向量;从该输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量;以及对预测误差向量进行量化。预测向量的计算包括选择与声音信号帧的分类相关的多个预测方案中的一个,并且通过所选择的预测方案来处理预测误差向量。本发明还涉及一种用于在可变比特率声音信号解码中解量化线性预测参数的方法和设备,其中接收至少一个量化下标和关于对应于量化下标的声音信号帧的分类的信息;通过将所述下标应用于至少一个量化表来恢复预测误差向量;重建预测向量;以及响应于所恢复的预测误差向量和所重建的预测向量来生成线性预测参数向量。预测向量的重建包括依赖于帧分类信息通过多个预测方案中的一个来处理所恢复的预测误差向量。

著录项

  • 公开/公告号CN1739142A

    专利类型发明专利

  • 公开/公告日2006-02-22

    原文格式PDF

  • 申请/专利权人 诺基亚有限公司;

    申请/专利号CN200380107465.7

  • 发明设计人 M·耶利内克;

    申请日2003-12-18

  • 分类号G10L19/14(20060101);G10L19/02(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人程天正;王忠忠

  • 地址 芬兰埃斯波

  • 入库时间 2023-12-17 16:59:29

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-02-03

    专利权的转移 IPC(主分类):G10L19/14 登记生效日:20160112 变更前: 变更后: 申请日:20031218

    专利申请权、专利权的转移

  • 2009-12-30

    授权

    授权

  • 2006-04-19

    实质审查的生效

    实质审查的生效

  • 2006-02-22

    公开

    公开

说明书

技术领域

本发明涉及一种考虑到传送和合成声音信号而对该声音信号、特别是但不仅仅是语音信号进行数字编码的改进技术。更特别地,本发明涉及一种用于在基于可变比特率线形预测的编码中向量量化线性预测参数的方法和设备。

背景技术

语音编码和线性预测(LP)参数的量化:

数字语音通信系统、比如无线系统在保持高的语音质量的同时使用语音编码器来增加容量。语音编码器将语音信号转换成数字比特流,该数字比特流通过通信信道传送或者存储在存储介质中。语音信号被数字化,即以通常每个样值16比特来取样和量化。语言编码器具有在保持好的主观语音质量的同时用较小数量的比特来表示这些数字取样的作用。语音解码器或者合成器对所传送或所存储的比特流执行操作并将其转换回声音信号。

基于线性预测分析的数字语音编码方法在低比特率语音编码方面已经非常成功了。特别地,编码激励线性预测(CELP)编码是在主观质量和比特率之间达到好的折衷的最好公知技术中的一种。这种编码技术是无线和有线应用中的多种语音编码标准的基础。在CELP编码中,所取样的语音信号以连续的通常被称为帧的具有N个样值的块的方式被处理,其中N典型地是对应于10-30ms的预定数。对线性预测(LP)滤波器A(z)进行计算、编码并且传送每一帧。LP滤波器A(z)的计算典型地需要先行,其由来自接下来的帧的5-15ms的语音段组成。N个样值的帧被分成更小的被称为子帧的块。通常子帧的数量是三或四,从而形成4-10ms的子帧。在每个子帧中,通常从两个分量、即过去的激励和创新的、固定码簿激励获得激励信号。由过去的激励形成的分量通常被称为适应性码簿或音调激励。表示激励信号特征的参数被编码并且传送到解码器,在该解码器中重建的激励信号被用作LP合成滤波器的输入。

LP合成滤波器由下列给出:

>>H>>(>z>)>>=>>1>>A>>(>z>)>>>>=>>1>>1>+>>Σ>>i>=>1>>M>>>α>i>>>z>>->i>>>>>>>

其中αi是线性预测系数,M是LP分析的阶次。LP合成滤波器对语音信号的频谱包络进行建模。在解码器中,语音信号通过经LP合成滤波器对解码后的激励进行滤波来重建。

该组线性预测系数αi这样来计算,使得预测误差

>>e>>(>n>)>>=>s>>(>n>)>>-ver>>s>~>>>(>n>)>>->->->>(>1>)>>>>

被最小化,其中s(n)是在时间n的输入信号,是基于最后M个样值的如下给出的预测信号:

>ver>>s>~>>>(>n>)>>=>->>Σ>>i>=>1>>M>>>α>i>>s>>(>n>->i>)>>>>

因此预测误差如下给出:

>>e>>(>n>)>>=>s>>(>n>)>>+>>Σ>>i>=>1>>M>>>α>i>>s>>(>n>->i>)>>>>

这在z变换域中对应于:

E(z)=S(z)A(z)

其中A(z)是如下给出的阶次为M的LP滤波器:

>>A>>(>z>)>>=>1>+>>Σ>>i>=>1>>M>>>α>i>>>z>>->i>>>>>

典型地,线性预测系数αi是通过最小化在L个样值的块上的均方预测误差来计算的,L是通常等于或大于N的整数(L通常对应于20-30ms)。另外,线性预测系数的计算对于本领域的普通技术人员来说是公知的。在【ITU-TRecommendation G.722..2“使用适应性多速率宽带(AMR-WB)的大约16kbit/s的语音宽带编码(Wideband coding of speech at around 16kbit/s using adaptivemulti-rate wideband(AMR-WB))”,日内瓦,2002年】中给出了这种计算的一个例子。

线性预测系数αi不能被直接量化以便传送到解码器。原因是线性预测系数的小的量化误差可能产生LP滤波器的传递函数的大的频谱误差,并且甚至可能导致滤波器不稳定。因此,在量化之前对线性预测系数αi进行变换。该变换产生被称为线性预测系数αi的表示这一结果。在接收到量化的变换后的线性预测系数αi后,解码器于是可应用逆变换来获得量化的线性预测系数。一种广为使用的线性预测系数αi的表示是线谱频率(LSF),也叫做线谱对(LSP)。线谱频率的计算的细节可在【ITU-T Recommendation G.729“使用共轭结构的代数编码激励线性预测的8kbit/s的语音编码(Coding of speech at 8kbit/s usingconjugate-structure algebraic-code-excited linear prediction(CS-ACELP)”,日内瓦,1996年3月】中找到。

类似的表示是阻纳频谱频率(ISF),其已被用于AMR-WB编码标准中【ITU-T Recommendation G.722.2“使用适应性多速率宽带(AMR-WB)的大约16kbit/s的语音宽带编码(Wideband coding of speech at around 16kbit/s usingAdaptive Multi-Rate Wideband(AMR-WB))”,日内瓦,2002年】。其它的表示也是可能的并且已被使用。在不失一般性的情况下,ISF表示的特殊情况将在以下描述中被考虑。

这样获得的LP参数(LSFs,ISFs,等)利用标量量化(SQ)或向量量化(VQ)之一来进行量化。在标量量化中,LP参数被单独量化并且通常每个参数需要3或4比特。在向量量化中,LP参数被分成向量并且作为整体进行量化。包括该组量化向量的码簿或表被存储。量化器根据某个距离量度在该码簿中搜索最接近于输入向量的码簿条目。所选的量化向量的下标被传送到解码器。向量量化具有比标量量化更好的性能,但是代价是增加了复杂度和对存储器的要求。

结构向量量化通常用来减小VQ的复杂度和存储要求。在分裂VQ中,LP参数向量被拆分成被单独量化的至少两个子向量。在多阶段VQ中,量化向量是来自多个码簿的条目的和。分裂VQ和多阶段VQ在保持好的量化性能的同时减小了存储器和复杂度。此外,一种有趣的方法是结合多阶段和分裂VQ来进一步减小复杂度和对存储器的要求。在参考文献【ITU-T RecommendationG.729“使用共轭结构的代数编码激励线性预测的8kbit/s的语音编码(Coding ofspeech at 8kbit/s using conjugate-structure algebraic-code-excited linearprediction(CS-ACELP)”,日内瓦,1996年3月】中,LP参数向量在两个阶段中被量化,其中第二阶段向量被拆分为两个子向量。

LP参数显示出了连续帧之间的强相关性,并且这通常通过预测量化的使用被利用来改进性能。在预测向量量化中,预测LP参数向量是基于来自过去帧的信息来计算的。然后,预测向量被从输入向量中除去并且预测误差被向量量化。通常使用两种预测:自回归(AR)预测和移动平均(MA)预测。在AR预测中,预测向量被当作来自过去帧的量化向量的组合来计算。在MA预测中,预测向量被当作来自过去帧的预测误差向量的组合来计算。AR预测产生较好的性能。但是,AR预测对于在无线和基于包的通信系统中遇到的帧丢失情况来说并不稳健。在丢失帧的情况下,由于预测是基于先前被破坏的帧,因此误差将扩散到连续的帧。

可变比特率(VBR)编码

在多个通信系统、例如使用码分多址(CDMA)技术的无线系统中,源受控可变比特率(VBR)语音编码的使用显著提高了系统的容量。在源受控VBR编码中,编码器可以以多种比特率工作,并且速率选择模块被用于基于语音帧的特性、例如有声的、无声的、瞬变的、背景噪音等来确定用于编码每一语音帧的比特率。目标是以给定的平均比特率(也被称为平均数据率(ADR))来达到最好的语音质量。编码器也能通过调节速率选择模块来按照不同的工作模式工作以达到不同的模式的不同的ADR,其中编码器的性能随着ADR的增加而提高。这给编码器提供了一种在语音质量和系统容量之间折衷的机制。在CDMA系统、例如CDMA-1和CDMA2000中,典型地使用4种比特率,这4种比特率被称为全速率(FR)、半速率(HR)、四分之一速率(QR)以及八分之一速率(ER)。在这一CDMA系统中,两组速率被支持并且被称为速率组I和速率组II。在速率组II中,具有速率选择机制的可变速率编码器以对应于总比特率14.4、7.2、3.6以及1.8kbit/s(一些比特被添加用于错误检测)的源编码比特率13.3(FR)、6.2(HR)、2.7(QR)以及1.0(ER)kbit/s进行操作。

宽带编解码器也叫做适应性多速率宽带(AMR-WB)语音编解码器最近被ITU-T(国际电信联盟—电信标准部门)选择用于多个宽带语音电话和服务,并且被3GPP(第三代合作计划)选择用于GSM和W-CDMA(宽带码分多址)第三代无线系统。AMR-WB编解码器包括九个在从6.6到23.85kbit/s范围内的比特率。为CDMA2000系统设计基于AMR-WB的源受控VBR编解码器具有实现CDMA2000和其它使用AMR-WB编解码器的系统之间的互操作性的优点。12.65kbit/s的AMR-WB比特率是能够适应CDMA2000速率组II的13.3kbit/s的全速率的最接近的速率。12.65kbit/s的速率可被用作CDMA2000宽带VBR编解码器和AMR-WB编解码器之间的共用速率,用来实现互操作性而不需要降低语音质量的代码转换。6.2kbit/s的半速率必须被增加以实现在速率组II框架中的有效的操作。所得到的编解码器能够以少数CDMA2000特定的模式工作,并且包括能够与使用AMR-WB编解码器的系统实现互操作性的模式。

在输入语音信号稳定的帧中典型地选择半速率编码。与全速率相比较,比特节约是通过不太频繁地更新编码参数或通过使用较少比特来编码这些编码参数中的一些来实现的。更特别地,在稳定有声段中,音调信息只在每帧被编码一次,并且较少的比特被用来表示固定码簿参数和线性预测系数。

由于利用MA预测的预测VQ典型地被应用于编码线性预测系数,因此量化噪声的不必要的增加可在这些线性预测系数中观察到。与AR预测相反,MA预测被用于增加对帧丢失的稳健性;但是在稳定的帧中线性预测系数如此慢地演变以至于在这种特定情况下使用AR预测会比在丢失帧的情况下对误差扩散具有更小的影响。这可以通过观察在丢失帧的情况下大多数解码器应用实质上外推最后帧的线性预测系数的隐蔽步骤而看出。如果丢失帧是稳定有声的,这种外推则产生非常接近于实际所传送的、而不是所接收的LP参数的值。因此重建的LP参数向量接近于帧没有丢失时应当被解码的值。因此在这个特定的情况下,在线性预测系数的量化步骤中使用AR预测不会具有对量化误差扩散的非常不利的作用。

发明内容

根据本发明,提供一种用于在可变比特率声音信号编码中量化线性预测参数的方法,包括接收输入线性预测参数向量,将对应于该输入线性预测参数向量的声音信号帧进行分类,计算预测向量,从该输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量,缩放预测误差向量,并且量化所缩放的预测误差向量。计算预测向量包括选择与声音信号帧的分类相关的多个预测方案中的一个,并且根据所选择的预测方案来计算预测向量。缩放预测误差向量包括选择与所选择的预测方案相关的多个缩放方案中的至少一个,并且根据所选择的缩放方案来缩放预测误差向量。

同样根据本发明,提供一种用于在可变比特率声音信号编码中量化线性预测参数的设备,包括用于接收输入线性预测参数向量的装置,用于将对应于该输入线性预测参数向量的声音信号帧进行分类的装置,用于计算预测向量的装置,用于从该输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量的装置,用于缩放预测误差向量的装置,以及用于量化所缩放的预测误差向量的装置。用于计算预测向量的装置包括用于选择与声音信号帧的分类相关的多个预测方案中的一个的装置,以及用于根据所选择的预测方案来计算预测向量的装置。同样,用于缩放预测误差向量的装置包括用于选择与所选择的预测方案相关的多个缩放方案中的至少一个的装置,以及用于根据所选择的缩放方案来缩放预测误差向量的装置。

本发明还涉及一种用于在可变比特率声音信号编码中量化线性预测参数的设备,包括用于接收输入线性预测参数向量的输入端,对应于输入线性预测参数向量的声音信号帧的分类器,预测向量的计算器,从输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量的减法器,被提供预测误差向量的缩放单元,该单元对预测误差向量进行缩放,以及所缩放的预测误差向量的量化器。预测向量的计算器包括选择与声音信号帧的分类相关的多个预测方案中的一个以便根据其所选择的预测方案来计算预测向量的选择器。缩放单元包括用于选择与所选择的预测方案相关的多个缩放方案中至少的一个以便根据所选择的缩放方案来缩放预测误差向量的选择器。

本发明进一步涉及一种用于在可变比特率声音信号解码中解量化线性预测参数的方法,包括接收至少一个量化下标,接收关于对应于所述至少一个量化下标的声音信号帧的分类的信息,通过将至少一个下标应用于至少一个量化表来恢复预测误差向量,重建预测向量,并且响应于恢复的预测误差向量和重建的预测向量来生成线性预测参数向量。预测向量的重建包括根据帧的分类信息通过多个预测方案之一来处理恢复的预测误差向量。

本发明还进一步涉及一种用于在可变比特率声音信号解码中解量化线性预测参数的设备,包括用于接收至少一个量化下标的装置,用于接收关于对应于所述至少一个量化下标的声音信号帧的分类的信息的装置,用于通过将至少一个下标应用于至少一个量化表来恢复预测误差向量的装置,用于重建预测向量的装置,以及用于响应于恢复的预测误差向量和重建的预测向量来生成线性预测参数向量的装置。预测向量重建装置包括用于根据帧的分类信息通过多个预测方案之一来处理恢复的预测误差向量的装置。

根据本发明的最后一个方面,提供一种用于在可变比特率声音信号解码中解量化线性预测参数的设备,包括用于接收至少一个量化下标的装置,用于接收关于对应于所述至少一个量化下标的声音信号帧的分类的信息的装置,被提供所述至少一个量化下标来恢复预测误差向量的至少一个量化表,预测向量重建单元,以及响应于恢复的预测误差向量和重建的预测向量的线性预测参数向量的生成器。预测向量重建单元至少一个预测器,其被提供恢复的预测误差向量,以便根据帧的分类信息通过多个预测方案之一来处理恢复的预测误差向量。

本发明的上述以及其它目的、优点和特征将通过阅读以下对其说明性的实施方式的非限制性的描述而变得更加清楚,该描述将仅参考附图通过实例来给出。

附图说明

在附图中:

图1是说明多阶段向量量化器的非限制性实例的示意框图;

图2是说明分裂向量向量量化器的非限制性实例的示意框图;

图3是说明使用自回归(AR)预测的预测向量量化器的非限制性实例的示意框图;

图4是说明使用移动平均(MA)预测的预测向量量化器的非限制性实例的示意框图;

图5是根据本发明的非限制性的说明性实施方式的、编码器中的切换预测向量量化器的一个实例的示意框图;

图6是根据本发明的非限制性的说明性实施方式的、解码器中的切换预测向量量化器的一个实例的示意框图;

图7是ISF在频率上的分布的非限制性示意实例,其中每个分布是在ISF向量中的给定位置处找到ISF的概率的函数;和

图8是说明通过连续语音帧的ISF参数的演变的典型实例的图表。

具体实施方式

尽管本发明的说明性实施方式将在以下与语音信号的应用相关的说明中进行描述,应当明了的是本发明也可应用于其它类型的声音信号。

大多数最近的语音编码技术都是基于线性预测分析、比如CELP编码。LP参数在10-30ms的帧中被计算和量化。在本说明性实施方式中,使用20ms的帧并且假设LP分析阶次为16。在语音编码系统中计算LP参数的一个实例可在下列参考文献中找到【ITU-T Recommendation G.722.2“使用适应性多速率宽带(AMR-WB)的大约16kbit/s的语音宽带编码(Wideband coding of speech ataround 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB))”,日内瓦,2002年】。在这个说明性实施方式中,经预处理的语音信号被加窗处理并且被加窗处理的语音的自相关被计算。然后Levinson-Durbin递归被用来从自相关R(k),k=0,...,M中计算线性预测系数αi,i=1,...,M,其中M是预测阶次。

线性预测系数αi不能被直接量化以便传送到解码器。原因是线性预测系数的小的量化误差可能在LP滤波器的传递函数中产生大的频谱误差,并且甚至可能导致滤波器不稳定。因此,在量化之前对线性预测系数αi进行变换。该变换产生被称为线性预测系数αi的表示的结果。在接收到量化的、变换后的线性预测系数后,解码器可应用逆变换来获得量化的线性预测系数。一种广为使用的线性预测系数αi的表示是线谱频率(LSF)(也叫做线谱对(LSP))。线谱频率的计算的细节可在参考文献【ITU-T Recommendation G.729“使用共轭结构的代数编码激励线性预测的8kbit/s的语音编码(Coding of speech at 8kbit/s usingconjugate-structure algebraic-code-excited linear prediction(CS-ACELP)”,日内瓦,1996年3月】中找到。LSF包括多项式的极点:

P(z)=(A(z)+z-(M+1)A(z-1))/(1+z-1)

以及

Q(z)=(A(z)-z-(M+1)A(z-1))/(1-z-1)

对于M的偶数值,每个多项式在单位圆(e±jwi)上具有M/2个共轭根。因此多项式可被写成:

>>P>>(>z>)>>=>>Π>>i>=>1,3>,>.>.>.>,>M>->1> >>(>1>->2>>q>i>>>z>>->1>>>+>>z>>->2>>>)>>>>

以及

>>Q>>(>z>)>>=>>Π>>i>=>2,4>,>.>.>.>M> >>(>1>->2>>q>i>>>z>>->1>>>+>>z>>->2>>>)>>,>>>

其中qi=cos(ωi)中的ωi是满足下列顺序特性0<ω1<ω2<...<ωM<π的线谱频率(LSF)。在这个特定实施方式中,LSF构成了LP(线性预测)参数。

类似的表示是阻纳频谱对(ISP)或阻纳频谱频率(ISF),其被用于AMR-WB编码标准中。计算ISF的详情可在下列参考文献中找到【ITU-T RecommendationG.722.2“使用适应性多速率宽带(AMR-WB)的大约16kbit/s的语音宽带编码(Wideband coding of speech at around 16kbit/s using Adaptive Multi-RateWideband(AMR-WB))”,日内瓦,2002年】。其它的表示也是可能的,并已经被使用。在不失一般性的情况下,以下的描述将考虑ISF表示作为非限制性的说明性实施方式的情况。

对于第M阶的LP滤波器,其中M是偶数,ISP被定义为下列多项式的根:

F1(z)=A(z)+z-MA(z-1)

以及

F2(z)=(A(z)-z-MA(z-1))/(1-z-2)

多项式F1(z)和F2(z)分别在单位圆(e±jwi)上具有M/2和M/2-1个共轭根。因此多项式可被写成:

>>>F>1>>>(>z>)>>=>>(>1>+>>α>M>>)>>>Π>>i>=>1,3>,>.>.>.>,>M>->1> >>(>1>->2>>q>i>>>z>>->1>>>+>>z>>->2>>>)>>>>

以及

>>>F>2>>>(>z>)>>=>>(>1>->>α>M>>)>>>Π>>i>=>2>,>4>,>.>.>.>,>M>->2> >>(>1>->2>>q>i>>>z>>->1>>>+>>z>>->2>>>)>>>>

其中qi=cos(ωi)中的ωi是阻纳频谱频率(ISF),以及αM是最后的线性预测系数。ISF满足下列顺序特性0<ω1<ω2<...<ωM-1<π。在这个特定实施方式中,LSF构成了LP(线性预测)参数。因此ISF包括除最后的线性预测系数之外的M-1个频率。在这个说明性实施方式中ISF利用以下关系被映射到0到fs/2的范围中的频率,其中fs是取样频率:

>>>f>i>>=>>>f>s>>>2>π>>>arccos>>(>>q>i>>)>>,>i>=>1>,>.>.>.>,>M>->1>,>>>

以及

>>>f>M>>=>>>f>s>>>4>π>>>arccos>>(>>α>M>>)>>>>

LSF和ISF(LP参数)由于使其适合于量化目的的多种特性而已被广泛使用。这些特性包括明确定义的动态范围,它们的导致强的帧间和帧内关系的平滑演变并且保证量化LP滤波器的稳定性的顺序特性的存在。

在这篇文献中,术语“LP参数”用来表示LP系数的任何表示,例如LSF,ISF,去除平均LSF,或者去除平均ISF。

现在将描述ISF(LP(线性预测)参数)的主要特性以便理解所使用的量化方法。图7示出了ISF系数的概率分布函数(PDF)的典型实例。每条曲线表示各个ISF系数的PDF。每个分布的平均值表示在水平轴(μk)上。例如ISF1的曲线表示由第一ISF系数在一帧中可获得的所有值以及它们的发生概率。ISF2的曲线表示由第二ISF系数在一帧中可获得的所有值以及它们的发生概率,等等。PDF函数典型地通过将直方图应用到如通过多个连续帧所观察到的给定系数所获得的值来获得。我们看到每个ISF系数在所有可能的ISF值上占据了有限的间隔。这有效地减小了量化器必须覆盖的空间并且增加了比特率效率。同样重要的是注意,当ISF系数的PDF可能重叠时,给定帧中的ISF系数总是顺序排列的。(ISFk+1-ISFk>0,其中k是ISF系数在ISF系数的向量中的位置)。

随着在语音编码器中帧长度典型地是10到30ms,ISF系数显示了帧间关系。图8说明了在语音信号中ISF系数怎样在帧之间演变。图8是通过对同时包括有声帧和无声帧的语音段中的30个20ms的连续帧执行LP分析获得的。LP系数(每帧16个)被变换成ISF系数。图8示出了从不彼此交叉的线,这意味着ISF总是顺序排列的。图8也示出了与帧速率相比典型地慢慢演变的ISF系数。这实际上意味着预测量化可被应用来减小量化误差。

图3说明使用自回归(AR)预测的预测向量量化器300的一个实例。如图3所示,预测误差向量en首先通过从待量化的输入LP参数向量xn中减去(处理器301)预测向量pn来获得。这里,标记n表示时间上的帧下标。预测向量pn通过预测器P(处理器302)使用过去的量化LP参数向量等来计算。然后预测误差向量en被量化(处理器303)从而产生例如通过信道传送的下标i以及产生量化预测误差向量ên总量化LP参数向量通过将量化预测误差向量ên和预测向量pn相加(处理器304)来获得。预测器P(处理器302)的一般形式如下:

>>>p>n>>=>>A>1>>ver>>x>^>>>n>->1>>>+>>A>2>>ver>>x>^>>>n>->2>>>+>.>.>.>+>>A>K>>ver>>x>^>>>n>->K>>>>>

其中Ak是M×M维的预测矩阵,并且K是预测器阶次。预测器P(处理器302)的一种简单的形式是使用一阶预测:

>>>p>n>>=>A>ver>>x>^>>>n>->1>>>->->->>(>2>)>>>>

其中A是M×M维的预测矩阵,其中M是LP参数向量xn的维数。预测矩阵A的一种简单形式是具有对角线元素α1,α2,...αM的对角矩阵,其中αi是各个LP参数的预测因子。如果针对所有的LP参数使用相同的因子α,那么等式(2)将简化为:

>>>p>n>>=>α>ver>>x>^>>>n>->1>>>->->->>(>3>)>>>>

使用等式(3)的简单预测形式,则在图3中量化LP参数向量通过下列自回归(AR)关系给出:

>>ver>>x>^>>n>>=>ver>>e>^>>n>>+>α>ver>>x>^>>>n>->1>>>->->->>(>4>)>>>>

等式(4)的递归形式意味着,当使用如图3所示的那种形式的AR预测量化器300时,信道误差将在多个帧上扩散。这在当把等式(4)写成下列数学等价形式时可以更加清楚:

>>ver>>x>^>>n>>=>ver>>e>^>>n>>+>>Σ>>k>=>1>>∞>>>α>k>>ver>>e>^>>>n>->k>>>->->->>(>5>)>>>>

这个形式清楚地表示原则上每个过去的解码预测误差向量ên-k都会对量化LP参数向量的值产生影响。因此,在有将会相对于编码器所发送的值而修改解码器所接收的ên的值的信道误差的情况下,通过等式(4)所获得的解码向量在解码器将与在编码器不同。因为预测器P的递归性质,甚至在随后的帧中没有信道误差,这种编码器—解码器失配将在以后扩散并且影响接下来的向量等。因此,预测向量量化对于信道误差是不稳健的,特别是当预测因子很高时(在等式(4)和(5)中α接近1)。

为了缓解这个扩散问题,移动平均(MA)预测可用来代替AR预测。在MA预测中,等式(5)的无限序列被截成有限数量的项。这个思路是通过使用等式(5)中的小数量的项来近似于等式(4)中的自回归形式的预测器P。注意,在求和中的权重可以被修改来更好地近似于等式(4)中的预测器P。

MA预测向量量化器400的一个非限制性实例如图4所示,其中处理器401,402,403和404分别对应于处理器301,302,303和304。预测器P(处理器402)的一般形式是:

pn=B1ên-1+B2ên-2+...+BKên-K

其中Bk是M×M维的预测矩阵,并且K是预测器阶次。应当注意的是,在MA预测中,传送误差仅仅扩散到随后的K帧。

预测器P(处理器402)的一个简单形式是使用一阶预测:

pn=Bên-1                                   (6)

其中B是M×M维的预测矩阵,其中M是LP参数向量的维数。预测矩阵的一种简单形式是具有对角线元素β1,β2,...βM的对角矩阵,其中βi是各个LP参数的预测因子。如果针对所有的LP参数使用相同的因子β,那么等式(6)将简化为:

>>>p>n>>=>β>ver>>x>^>>>n>->1>>>->->->>(>7>)>>>>

使用等式(7)的简单预测形式,则在图4中量化LP参数向量通过下列移动平均(MA)关系给出:

>>ver>>x>^>>n>>=>ver>>e>^>>n>>+>β>ver>>e>^>>>n>->1>>>->->->>(>8>)>>>>

在使用如图4所示的MA预测的预测向量量化器400的示意实例中,预测器存储器(在处理器402中)通过过去的解码预测误差向量ên-1,ên-2等形成。因此,信道误差可能在其上扩散的帧的最大数量是预测器P(处理器402)的阶次。在等式(8)的示意性预测器实例中,使用一阶预测以便MA预测误差可以仅仅在一帧上扩散。

虽然对于传送误差比AR预测更加稳健,但MA预测不能对给定的预测阶次获得相同的预测增益。因此预测误差具有更大的动态范围,并且可能比AR预测量化需要更多的比特来达到相同的编码增益。因此折衷是对信道误差的稳健性对在给定比特率时的编码增益。

在源受控可变比特率(VBR)编码中,编码器可以多个比特率进行操作,并且速率选择模块被用于基于语音帧的性质、例如有声的、无声的、瞬变的、背景噪音等来确定用于编码每一语音帧的比特率。语音帧的性质、例如有声的、无声的、瞬变的、背景噪音等可以以与针对CDMA VBR相同的方式来确定。目标是以一个给定的平均比特率(也被称为平均数据率(ADR))来达到最好的语音质量。作为一个示意性实例,在CDMA系统、例如CDMA-1和CDMA2000中,典型地使用4种比特率并且这4种比特率被称为全速率(FR),半速率(HR),四分之一速率(QR),以及八分之一速率(ER)。在该CDMA系统中,支持两组速率并且这两组速率被称为速率组I和速率组II。在速率组II中,具有速率选择机制的可变速率编码器以源编码比特率13.3(FR)、6.2(HR)、2.7(QR)以及1.0(ER)kbit/s进行操作。

在VBR编码中,分类和速率选择机制被用来根据语音帧的性质(有声的,无声的,瞬变的,噪音等)来将其分类并且根据分类和所要求的平均数据率(ADR)来选择对帧进行编码所需的比特率。半速率编码典型地被选择用于输入语音信号稳定的帧。与全速率相比较而言的比特节约是通过不太频繁地更新编码器参数或通过使用较少比特来编码一些参数来达到的。进一步地,这些帧显示了可被利用来减小比特率的强相关性。更特别地,在稳定有声段中,音调信息只在每帧中编码一次,并且较少的比特被用于固定码簿和LP系数。在无声帧中,不需要音调预测并且激励可用HR中小的码簿或者QR中的随机噪声来建模。

由于利用MA预测的预测VQ典型地被应用来编码LP参数,这导致量化噪声的不必要的增加。与AR预测相反,MA预测被用于增加对帧丢失的稳健性;但是在稳定的帧中LP系数慢慢演变,因此在这种情况下使用AR预测将比在丢失帧的情况下对误差扩散具有更小的影响。这可以通过观察在丢失帧的情况下大多数解码器应用实质上是外推最后帧的LP参数的隐蔽步骤来进行检测。如果丢失的帧是稳定有声的,这个外推步骤值将非常类似于实际所传送的而不是接收的LP参数。因此,重建的LP参数向量接近于在该帧没有丢失时应当被解码的向量。在这个特定的情况下,在LP系数的量化步骤中使用AR预测不会对量化误差扩散产生非常不利的影响。

因此,根据本发明的非限制性的说明性实施方式,公开了一种LP参数的预测VQ方法,其中根据正被处理的语音帧的性质在MA和AR预测之间切换预测器。更特别地,在瞬变和不稳定的帧中使用MA预测,而在稳定的帧中使用AR预测。此外,由于AR预测导致与MA预测相比较具有更小的动态范围的预测误差向量en,所以为这两种类型的预测使用相同的量化表是无效的。为了克服这个问题,在AR预测之后的预测误差向量被适当地缩放以便使其能通过使用与在MA预测情况中相同的量化表来量化。当使用多阶段VQ来量化预测误差向量时,在对AR预测误差向量进行适当缩放后,第一阶段可被用于两种类型的预测。由于在第二阶段中使用无需大存储器的分裂VQ就足够了,所以该第二阶段的量化表可分别针对两种类型的预测来训练和设计。当然,代替为MA预测设计第一阶段的量化表并且缩放AR预测误差向量,相反的方式也是有效的,即第一阶段可被设计用于AR预测并且MA预测误差向量在量化之前进行缩放。

因此,根据本发明的非限制性的说明性实施方式,还公开了一种预测向量量化方法,用于在可变比特率语音编解码器中对LP参数进行量化,其中根据关于正被处理的语音帧的性质的分类信息在MA和AR预测之间切换预测器P,并且其中预测误差向量被适当地缩放以便在预测误差的多阶段VQ中可针对两种类型的预测使用相同的第一阶段量化表。

实例1

图1表示二阶段向量量化器100的非限制性实例。输入向量x首先利用量化器Q1(处理器101)进行量化来生成量化向量和量化下标i1。计算(处理器102)输入向量x和第一阶段量化向量之间的差来生成误差向量x2,该误差向量x2进一步利用第二阶段VQ(处理器103)进行量化从而生成具有量化下标i2的量化第二阶段误差向量下标i1和i2通过信道传送(处理器104)并且量化向量在解码器中被重建为 >ver>>x>^>>=>ver>>x>^>>1>>+>ver>>x>^>>2>>.>>>

图2表示分裂向量量化器200的说明性实例。M维的输入向量x被拆分为维数为N1,N2,...NK的K个子向量,并且分别利用向量量化器Q1,Q2,...QK(处理器201.1,201.2,...201.K)进行量化。得到具有量化下标i1,i2和iK的量化子向量量化下标通过信道传送(处理器202)并且通过将量化子向量进行简单连接来重建量化向量

一种有效的向量量化的方法是将多阶段和分裂VQ结合起来,这导致在质量和复杂度之间的好的折衷。在第一示意实例中,可以使用二阶段VQ,其中将第二阶段误差向量ê2拆分成多个子向量并且分别用第二阶段量化器Q21,Q22,...Q2K进行量化。在第二示意实例中,输入向量可被拆分成两个子向量,然后每个子向量用二阶段VQ来进行量化,其如在第一示意实例中一样在第二阶段中使用进一步的分裂。

图5是说明根据本发明的切换预测向量量化器500的非限制性实例的示意框图。首先,从输入LP参数向量z中除去平均LP参数向量μ来生成去除平均的LP参数向量x(处理器501)。如前所述,LP参数向量可以是LSF参数向量,ISF参数向量,或者任意其它相关的LP参数的表示。从输入LP参数向量z中除去平均LP参数向量μ是可选的,但是导致提高的预测性能。如果停用处理器501,那么去除平均的LP参数向量x将与输入LP参数向量z相同。在此应当注意的是,在图3和4中所使用的帧下标n在这里为了简化的目的被丢弃了。然后计算预测向量p并且其被从去除平均的LP参数向量x中除去来生成预测误差向量e(处理器502)。然后,基于帧分类信息,如果对应于输入LP参数向量z的帧是稳定有声的,那么使用AR预测并且误差向量e通过某个因子来进行缩放(处理器503)以获得缩放的预测误差向量e’。如果帧不是稳定有声的,就使用MA预测并且缩放因子(处理器503)等于1。再次,帧的分类、例如有声的、无声的、瞬变的、背景噪声等等可例如用与针对CDMA VBR相同的方式来确定。缩放因子典型地大于1并且导致尺度放大预测误差向量的动态范围以便使其可以利用为MA预测设计的量化器来量化。缩放因子的值依赖于MA和AR预测所使用的系数。非限制性的典型的值为:MA预测系数β=0.33,AR预测系数α=0.65,以及缩放因子=1.25。如果量化器是为AR预测设计的,那么将执行相反的操作:MA预测的预测误差向量将被缩放并且缩放因子将小于1。

然后缩放的预测误差向量e’被向量量化(处理器508)来生成量化的缩放的预测误差向量ê′。在图5的实例中,处理器508包括二阶段向量量化器,其中分裂VQ被用于两个阶段,并且其中第一阶段的向量量化表对于MA和AR预测来说是相同的。二阶段向量量化器508包括处理器504,505,506,507,和509。在第一阶段量化器Q1中,缩放的预测误差向量e’被量化来生成第一阶段量化预测误差向量ê1(处理器504)。从缩放的预测误差向量e’中除去该向量ê1(处理器505)来生成第二阶段预测误差向量e2。然后该第二阶段预测误差向量e2被第二阶段向量量化器QMA或第二阶段向量量化器QAR量化(处理器506)来生成第二阶段量化预测误差向量ê2。第二阶段向量量化器QMA和QAR之间的选择依赖于帧分类信息(例如如上所提到的,如果帧是稳定有声的则选择AR以及如果帧不是稳定有声的则选择MA)。通过对来自两个阶段的量化预测误差向量ê1和ê2求和:ê′=ê12来重建量化缩放预测误差向量ê′(处理器509)。最后,与处理器503的缩放相反的缩放被应用到量化缩放预测误差向量ê′上(处理器510)来生成量化预测误差向量ê。在本示意性实例中,向量的维数是16,并且在两个阶段中都使用分裂VQ。来自量化器Q1和量化器QMA或者QAR的量化下标i1和i2被多路复用并通过通信信道传送(处理器507)。

预测向量p在MA预测器(处理器511)或AR预测器(处理器512)中依赖于帧分类信息(例如如上所提到的,如果帧是稳定有声的则用AR以及如果帧不是稳定有声的则用MA)来计算。如果帧是稳定有声的,那么预测向量等于AR预测器512的输出。否则预测向量等于MA预测器511的输出。如上所解释的,MA预测器511对来自先前帧的量化预测误差向量进行操作而AR预测器512对来自先前帧的量化输入LP参数向量进行操作。量化输入LP参数向量(去除平均的)是通过将量化预测误差向量ê与预测向量p相加来构造的(处理器514): >ver>>x>^>>=ver>>e>^>>+>p>.>>>

图6是示出根据本发明在解码器中的切换预测向量量化器600的非限制性实例的示意框图。在解码器侧,所接收的那组量化下标i1和i2被量化表(处理器601和602)用来生成第一阶段和第二阶段的量化预测误差向量ê1和ê2。注意:第二阶段的量化(处理器602)包括如上面根据图5的编码器侧所述的两组用于MA和AR预测的表。然后在处理器603中通过对两个阶段的量化预测误差向量求和来重建缩放预测误差向量:ê′=ê12。在处理器609中应用反缩放来生成量化预测误差向量ê。注意:反缩放是所接收的帧分类信息的函数并且对应于由图5的处理器503所执行的缩放的反换式。然后,量化后的去除平均的输入LP参数向量在处理器604中通过将预测向量p与量化预测误差向量ê相加来重建: >ver>>x>^>>=ver>>e>^>>+>p>.>>>在平均LP参数向量μ已经在编码器器被去除的情况下,它在处理器608中被加上来生成量化输入LP参数向量应当注意的是,如在图5的编码器侧的情况下那样,预测向量p依赖于帧分类信息是MA预测器605的输出或者是AR预测器606的输出;这个选择是根据处理器607响应于帧分类信息的逻辑而作出的。更特别地,如果帧是稳定有声的,那么预测向量p等于AR预测器606的输出。否则预测向量p等于MA预测器605的输出。

当然,虽然仅有MA预测器或者AR预测器的输出用于某一帧的事实,但是假设MA或者AR预测可以在下一帧中使用,两个预测器的存储器将在每一帧进行更新。这对于编码器和解码器侧都是有效的。

为了优化编码增益,为MA预测设计的第一阶段的一些向量可以被一些为AR预测设计的新向量代替。在非限制性的说明性实施方式中,第一阶段码簿的大小是256,并且具有与在AMR-WB标准中在12.65kbit/s时相同的内容,并且当使用AR预测时28个向量在第一阶段码簿中被代替。因此,如下形成扩展的第一阶段码簿:首先,在应用AR预测时较少使用但是可用于MA预测的28个第一阶段向量被置于表的开头,然后余下的256-28=228个可用于AR和MA预测的第一阶段向量被追加在表中,并且最后可用于AR预测的28个新向量被置于表的结尾。表的长度是256+28=284个向量。当使用MA预测时,表的开头256个向量被用于第一阶段;当使用AR预测时表的最后256个向量被使用。为了保证与AMR-WB标准的互操作性,包括第一阶段向量在该新的码簿中的位置和它在AMR-WB第一阶段码簿中的原始位置之间的映射的表被使用。

总的来说,本发明的上述根据图5和6所描述的非限制性的说明性实施方式呈现了以下特征:

—依赖于可变速率编码器的编码模式来使用切换AR/MA预测,该编码模式本身依赖于当前语音帧的性质。

—基本上不管使用AR预测或MA预测,使用相同的第一阶段量化器,这导致节省了存储器。在非限制性的说明性实施方式中,16阶LP预测被使用并且LP参数在ISF域中被表示。第一阶段码簿与在AMR-WB编码器的12.65kbit/s模式中所使用的相同,其中是使用MA预测来设计码簿的(16维LP参数向量被拆分成2份来获得两个具有7维和9维的子向量,并且在第一阶段量化中,使用两个256个条目的码簿)。

—代替MA预测,在稳定模式中、特别是在半速率有声模式中使用AR预测;否则使用MA预测。

—在AR预测的情况下,第一阶段的量化器与MA预测情况相同。但是,可为AR预测适当地设计和训练第二阶段。

—为了考虑到预测器模式的这种切换,假设MA或者AR预测器都能被用于下一帧,MA和AR预测器的存储器在每一帧都进行更新。

—进一步地,为了优化编码增益,为MA预测设计的第一阶段的一些向量可以被一些为AR预测设计的新向量代替。根据该非限制性的说明性实施方式,当使用AR预测时28个向量在第一阶段码簿中被代替。

—因此,扩展的第一阶段码簿可如下形成:首先,在应用AR预测时较少使用的28个第一阶段向量被置于表的开头,然后余下的256-28=228个第一阶段向量被追加在表中,并且最后,28个新向量被置于表的结尾。因此表的长度是256+28=284个向量。当使用MA预测时,表的开头256个向量被用于第一阶段;当使用AR预测时表的最后256个向量被使用。

—为了保证与AMR-WB标准的互操作性,包括第一阶段向量在该新的码簿中的位置和它在AMR-WB第一阶段码簿中的原始位置之间的映射的表被使用。

—由于当使用在稳定信号上时AR预测比MA预测获得更低的预测误差能量,所以缩放因子被应用到预测误差上。在非限制性的说明性实施方式中,当使用MA预测时缩放因子是1,当使用AR预测时缩放因子是1/0.8。这使AR预测误差增加到MA预测误差的动态等价值。因此,在第一阶段中可以为MA和AR预测使用相同的量化器。

尽管本发明已在上述关于其非限制性的说明性实施方式的说明中进行了描述,但是这些实施方式可以在不脱离本发明的性质和范围的情况下在后附的权利要求的范围内进行任意修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号