首页> 中国专利> 一种基于Haar小波提升的特征波形分解与重构方法

一种基于Haar小波提升的特征波形分解与重构方法

摘要

本发明涉及一种基于Haar小波提升的特征波形分解与重构方法,属于语音编码领域,主要用于波形内插(WI)语音编码算法。当前分析帧提取的特征波形在进行分解之前,首先将其离散时间傅里叶级数(DTFS)的幅度谱转化为离散余弦变换(DCT)系数,然后用Haar小波变换的提升方案实现特征波的多级分解与重构,对各级分解参数进行不同方式的量化编码,并利用相位谱间距的均值和基音周期增益判断当前帧的浊音度标志,以决定解码端选择固定相位谱或随机相位谱。Haar小波提升方法能够降低特征波形分解与重构过程的运算复杂度和内存空间,且不引入算法延迟,可使波形内插编码算法在较低速率上获得较为满意的合成音质。

著录项

  • 公开/公告号CN1920950A

    专利类型发明专利

  • 公开/公告日2007-02-28

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN200610152641.4

  • 发明设计人 王晶;赵胜辉;匡镜明;

    申请日2006-09-25

  • 分类号G10L19/00;

  • 代理机构北京理工大学专利中心;

  • 代理人张利萍

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2023-12-17 18:21:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-11-11

    未缴年费专利权终止 IPC(主分类):G10L19/00 授权公告日:20100707 终止日期:20140925 申请日:20060925

    专利权的终止

  • 2010-07-07

    授权

    授权

  • 2007-04-25

    实质审查的生效

    实质审查的生效

  • 2007-02-28

    公开

    公开

说明书

技术领域

本发明涉及语音编码领域,尤其是低速率的特征波形内插语音编码算法,主要是一种基于Haar小波提升的特征波形分解与重构方法。

背景技术

低速率的语音编码领域,编码速率在4kbit/s以下的众多语音编码算法中,波形内插语音编码算法极具潜力,受到普遍关注。它是瑞典皇家理工学院的W.B.Kleijin博士在90年代提出的,先后于1991和1994年提出了原型波形内插(PWI,Prototype Waveform Interpolation)和特征波形内插(CWI,CharacteristicWaveform Interpolation)编码算法,其中CWI算法对清浊音进行统一模型编码,是后来低码率的波形内插语音编码方面的研究重点。我国授权公开号为CN1371512A的专利“增强型波形内插编码器”公开了一种基于CWI算法利用合成分析方法进行编码参数量化的4kbps低速率波形内插编码器。

一般的特征波形内插编码的基本原理是根据内插的基音周期从线性预测残差信号中按一定时间间隔提取出特征波形序列,形成渐变的特征波表面,通过特征波形分解将特征波表面分为快渐变波(REW,Rapidly Evolving Waveform)和慢渐变波(SEW,Slowly Evolving Waveform),分别代表类噪声成分和准周期成分,利用人耳对它们不同的听觉感知特性分别进行降采样量化编码,解码端重构特征波形,并通过内插的方式获得中间未提取的特征波,由内插后基音轨迹得到相位轨迹,用于从二维特征表面得到一维的合成语音信号。W.B.Kleijin提出的CWI算法具体过程可以参考W.B.Kleijin和K.K.Paliwal的语音编码与合成(Elsevier Science B.V.第五章,pp1750207,(1995))。

特征波形的分解和重构及分解参数的量化是特征波形编码算法的重要环节,本发明便是针对这一环节提出了一种基于Haar小波提升的特征波形分解与重构方法,在能够获得较为满意的音质基础上,使得特征波形编码算法的波形分解过程运算复杂度降低,内存空间消耗减少,且不引入算法延迟,有利于实际应用。

传统的波形分解方法是对功率归一化后的离散时间傅里叶级数表示的特征波序列,首先使用线性相位FIR低通滤波器从特征波表面分离出慢渐变波,剩余部分则为快渐变波,然后将分解后的DTFS系数转化为极坐标表示,对慢渐变波幅度谱以较低采样率和较高量化精度编码传输,对快渐变波幅度谱以较高采样率和较低量化精度编码传输,量化技术上多采用变维矢量量化,运算复杂度较高,而线性相位滤波过程将引入一帧的编码延迟。1998年,Eddie L.T.Choy的论文“4kb/s波形内插语音编码器”中基于这种传统的特征波形分解方法实现了一种低速率的CWI编码器。

为了能够对特征波平面进行多分辨率分析,实现灵活、高效的编解码处理,澳大利亚伍伦贡大学Whiper实验室的Chong等研究者利用基音同步小波变换将特征波表面分解为一系列不同分辨率的波形表面,对各个波形表面根据不同感觉特性进行变维矢量量化编码,适合于高质量的语音存储及可分级编码。但是很大的缺点是编解码的总延迟比较大,基于B样条的双正交小波滤波过程运算复杂度较高,用于实时通信较为困难。

Whisper实验室的Lukasiak等人将奇异值分解理论用于特征波形分解,用不同个数的奇异值可以多尺度、灵活的重构特征波表面,对当前帧的特征波表面进行分解不需要额外的算法延迟。但奇异值分解涉及到矩阵变换和计算奇异值、奇异矢量而具有非常高的计算复杂度,且分解后产生了大量的待量化参数,需要比较多的比特数进行量化,当比特率很低时,会丢失特征波表面的很多细节信息。

此外,国内研究人员徐金标等人提出在每一帧内对特征波的离散傅里叶系数求均值,这个均值向量代表了语音信号的慢变化成分,对应慢渐变波,然后用原始特征波谱减去均值得到快渐变波谱。这种求均值分解特征波的方法简单、直接,但是并不能够获得高效的编码结果。

发明内容

本发明要解决波形内插语音编码算法中的特征波形分解与重构过程存在的问题,提供了一种基于Haar小波提升的特征波形分解与重构方法,涉及到特征波形内插语音编码算法的编码端特征波形分解过程和解码端特征波形重构过程,以及分解参数的量化。

本发明解决其技术问题所用的技术方案:这种基于Haar小波提升的特征波形分解与重构方法,是在特征波形内插算法中的编码端,首先将当前分析帧内提取的待分解的特征波形表示成频域的幅度谱和相位谱形式,一般情况是对归一化后的离散时间傅里叶级数表示的特征波通过直角坐标到极坐标的变换获得;然后用离散余弦变换矩阵将不同维数的幅度谱矢量转换为相同维数的离散余弦变换系数矢量,之后对离散余弦变换系数矢量表示的特征波序列采用基于Haar小波变换的提升方案进行多级波形分解,对分解得到的各级的细节部分和最后一级分解的概貌部分,进行不同方式的量化编码传输;在解码端,将解量化的各级离散余弦变换系数矢量采用基于Haar小波变换的提升方案进行多级波形重构,重构得到的特征波序列再通过离散余弦变换的逆矩阵得到相应的幅度谱矢量,最后与适当的相位谱结合恢复出对应原始待分解的特征波形。

本发明用到的技术方案中涉及到用Haar小波变换的提升方案进行特征波的多级分解与重构,该过程采用原位运算,每级分解针对上一级分解得到的概貌信号依次进行分裂、预测和更新三个步骤,每级重构过程包括反更新、反预测和合并三个步骤,重构过程的每个步骤都是分解过程每个步骤的逆变换。

本发明用到的技术方案中涉及到分解参数的量化和解量化,建议采用的方法是:根据人耳对不同分辨率下信号的感知特性不同,对概貌部分要求较高的频率分辨率,其特征波序列采用反离散余弦变换后的感知加权矢量量化方法,首先通过离散余弦逆变换矩阵将待量化的矢量和码本中的码字反变换到相应的幅度谱矢量,然后根据感知加权均方误差最小的原则搜索最佳码字;对分解得到的各级细节部分的频率分辨率要求不高,采用较少比特的一般矢量量化方法或矩阵矢量量化即可。

本发明用到的技术方案中涉及到相位谱的恢复问题,建议采用的方法是:相位谱在编码端不传输,而在解码端通过浊音度标志选择适当的相位模型。其中,浊音度标志表示了当前分析帧的周期性强弱,在编码端由基音周期增益和相位谱矢量间距的均值共同决定,若浊音度较大,则解码端采用固定相位谱(取自于基频较低的老年男子语音的浊音区),若浊音度较小,则采用随机相位。

本发明的另一个方面,提供了一种在编码速率要求较低的场合下,特征波形的表示上分配更少的编码比特的方法:根据小波变换的压缩特性,Haar小波分解的最后一级的概貌部分和细节部分能够恢复出原始特征波序列的大部分能量,解码端可以忽略其它几级分解的细节部分,只需要进行一级提升重构过程,而未恢复的特征波通过线性内插的方式获得。如此可以获得较低的编码速率,且能够保持可接受的编码质量。

本发明有益的效果是:采用Haar小波变换简单,易于实现,虽然其频域特性不及支撑长度较大的其它双正交小波,但对于波形内插编码算法来说也可以获得较好的音质,且其具有最简单的小波提升方案,只需对当前分析帧操作,不引入算法延迟,同时提升方案能够在时域实现小波变换的原位运算,可以节省内存空间。这种基于Haar小波提升的特征波形分解和重构过程有利于波形内插编码算法的实时应用,且能够在较低码率下得到较好的合成语音音质。

附图说明

图1为本发明一种基于Haar小波提升的特征波形分解与重构方法的系统组成框图;

图2为Haar小波提升方案下的特征波三级分解及重构实现框图;

图3所示为Haar小波提升方案下的一级分解具体实现过程;

图4所示为Haar小波提升方案下的一级重构具体实现过程;

图5为Haar小波提升方案下的分解过程原位运算示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步介绍。本发明主要针对特征波形内插语音编码算法中的特征波形分解和重构过程实施的方法,适用于任何需要对特征波表面进行分解和重构的特征波形内插语音编码算法。

例如特征波形内插语音编码算法对输入的窄带8kHz采样的语音进行编解码处理,特征波的提取速率设置为400Hz,即对20ms的一帧语音提取8个特征波形。当前分析帧经过预处理,线性预测分析和基音周期估计后,根据内插后的基音周期从预测残差中每隔2.5ms提取一个特征波形,特征波用离散时间傅里叶级数(DTFS)表示,经过对齐操作和功率归一化后DTFS系数输入到如图1所示的基于Haar小波提升的特征波形分解和重构系统中。

图1所示本发明的方法包括对编码端(1)和解码端(2)的处理以及分解参数的量化(3)。编码端包括特征波的DTFS表示(10)、直角坐标到极坐标系转换(11)、离散余弦变换(12)、特征波的多级分解过程(13)及浊音度标志的判断(14);解码端包括特征波的多级重构过程(23)、离散余弦反变换(22)、极坐标到直角坐标系转换(21),特征波DTFS表示的恢复(20)及相位谱的选择(24)。各个步骤的实施细节:

如图1所示,编码端特征波形的离散时间傅里叶级数(DTFS)系数(10)从直角坐标系转换到极坐标系下的幅度谱和相位谱(11),而在解码端则通过极坐标到直角坐标的转换(21)恢复特征波的离散时间傅里叶级数系数(20):

a)从当前分析帧的语音信号提取出的特征波形用离散时间傅里叶级数表示,并进行对齐和功率归一化,设归一化后的离散时间傅里叶级数系数(10)为Aij和Bij,其中i代表第i个特征波提取点,i=1,2,...,I,I为一帧内提取的特征波的个数,j代表离散时间傅里叶级数系数矢量的第j维,j=1,2,...,P(i)/2,P(i)是每个特征波提取点的基音周期(即时域特征波形的长度),符号表示向下取整,则DTFS系数从直角坐标转换到极坐标系(11)下的幅度谱为:

极坐标系下的相位谱为:

b)解码端通过极坐标到直角坐标(21)的转换恢复特征波的离散时间傅里叶级数的表示(20),极坐标到直角坐标的转换为:

            Aji=Cji×cos(θji)

            Bji=Cji×sin(θji)

如图1所示的浊音度标志由基音周期增益和相位谱间距的均值进行判断(14),这一判断过程的具体步骤为:

a)当前帧提取的每个特征波形的相位谱维数不同,由每个特征波的基音周期P(i)决定,首先把一帧内每个特征波的相位谱调整到相同维数,设最大基音周期为Pmax,则每个特征波相位谱θi通过补零的方式将长度调整到Pmax/2。

b)定义两个相位θ1和θ2之间的距离为:

        D21=[cos(θ2)-cos(θ1)]2+[sin(θ2)-sin(θ1)]2

则补零调整维数后两个相邻特征波相位谱序列和之间的距离为:

c)相位谱间距D的均值为:

>>>E>D>>=>>>>Σ>>i>=>2>>I>>>D>>i>,>i>->1>>>>>I>->1>>> >

其中I为一帧内提取的特征波形的个数。

d)基音周期增益按照如下表达式求解:

>>g>=>min>{>>>>Σ>>i>=>0>>>L>->T>->1>>>s>>(>n>)>>s>>(>n>+>T>)>>>>>Σ>>m>=>0>>>L>->T>->1>>>>s>2>>>(>m>)>>>Σ>>k>=>0>>>L>->T>->1>>>>s>2>>>(>k>+>T>)>>>>,>1.0>}> >

其中,s为特征波形内插语音编码算法的一帧语音信号,L为分析帧长,T是当前帧估计得到的最佳基音周期。

e)由基音周期增益和相位谱间距的均值判断当前帧的浊音度标志v,方法是与预先设定的门限值比较,其判断的逻辑准则如下:

If(g<0.7和ED>20)或g<0.4或ED>30

  v=0;

Else

  v=1;

其中v=0表示当前帧信号的周期性较弱,亦即浊音度较弱,v=1表示当前帧信号的周期性较强,亦即浊音度较强。

如图1所示,解码端每个特征波的相位谱由浊音度标志v决定,选择固定相位或随机相位(24):当v=0时,相位谱由随机相位替代;当v=1时,相位谱取自于一个基频较低的老年男子语音浊音区的固定相位谱。

如图1所示编码端的离散余弦变换用于将不同维数的特征波幅度谱矢量变换到相同维数(12),解码端通过离散余弦逆变换矩阵反变换到原始特征波幅度谱对应的维数(22),操作细节如下:

a)设X为M×N的离散余弦变换矩阵,N为第i个特征波幅度谱矢量Ci的维数,且有N=P(i)/2,M为调整后的维数,并设置M=Pmin/2,Pmin为最小基音周期,则离散余弦变换矩阵中的元素为:

>>>X>>m>,>n>>>=>>>(>>2>N>>)>>2>>>Z>m>>cos>>(>>>>(>2>>(>n>->1>)>>+>1>)>>π>>(>m>->1>)>>>>2>N>>>)>>,>m>=>1,2>,>.>.>.>,>M>;>n>=>1,2>,>.>.>.>,>N> >

其中,当m≠1时Zm=1;当m=1时Zm=。

b)通过离散余弦变换矩阵,将每个N维的特征波幅度谱Ci变换到相同的维数M,变换过程(12)如下:

设C为N×1列矩阵,代表一个N维的特征波幅度谱Ci,设变换后的矩阵为C′,则变换的表达式为:C′=X×C,C′为M×1的列矩阵,代表当前特征波幅度谱Ci对应的M维的离散余弦变换系数矢量C′i

c)反变换过程(22):通过离散余弦逆变换矩阵,将M维的特征波离散余弦变换系数矢量反变换到N维的特征波幅度谱矢量。首先获得当前帧第i个提取点的基音周期P(i),从而有N=P(i)/2,然后计算离散余弦逆变换矩阵Y=X-1,Y为N×M的矩阵,则反变换公式为C=Y×C′。

图1中编码端的Haar小波提升分解模块(13)和解码端的Haar小波提升重构模块(23),对于每帧提取8个特征波的情况最多可以进行三级分解与重构,实现框图如图2所示三级Haar小波分过程(130、131、132)和三级Haar小波重构过程(232、231、230)。如图3所示为一级Haar小波提升的分解过程(130),对给定的信号sj(对应特征波形幅度谱的离散余弦变换系数序列C′i),将其分解为概貌信号sj+1和细节信号dj+1,其提升方案实现包括三个步骤,即分裂(split)、预测(predict)和更新(update):

a)分裂(1310):该步骤将原信号sj分为两个部分,考虑到信号间的相关性,将信号按其序号的奇、偶分为两个子集evenj+1(偶数序列s2l)和oddj+1(奇数序列s2l+1),该分解方法表示为:(evenj+1,oddj+1):=Split(sj)。

b)预测(1311):如果原信号sj具有局部相关性,则子集evenj+1和oddj+1也具有相关性,可以用一个子集来预测另一个。对一般情况,定义预测算子P,则预测过程写为:dj+1=oddj+1-P(evenj+1)。

式中,P(evenj+1)表示用evenj+1的值的某个组合来预测oddj+1的值。预测误差dj+1表示了信号的细节信息,当信号的相关性较大时,预测将非常有效。在Haar小波变换下,预测是非常简单的,即令dj+1,l=sj,2l+1-sj,2l

c)更新(1312):如图所示sj+1是经分解得到的概貌信号,sj+1的一个重要性质是其均值应该等于原信号sj的均值,并且不随着j变化,所以需要用细节子集dj+1来更新偶序号子集evenj+1,即:sj+1=evenj+1+U(dj+1),式中算子U表示dj+1的某种组合。在Haar小波的情况下,有sj+1=evenj+1+dj+1/2。

若对分解得到的概貌信号sj+1再进行以上三个步骤的分解,那么就可以得到原信号的一个多级分解(130~132)。

如图4所示,为一级Haar小波提升的重构过程(230),用提升方案实现小波分解的最大优点是将小波变换分解成了几个简单的基本步骤,且每个步骤都能很容易找到它的逆变换。重构的过程就是分解的逆过程,也包含三个步骤,即反预测、反更新和合并(merge):

a)反更新(2310):给定概貌信号sj+1和细节信号dj+1,由下式恢复出偶序号序列:evenj+1=sj+1-U(dj+1)。

b)反预测(2311):用反更新计算得出的evenj+1和给定的dj+1,可通过下式预测出奇序号序列:oddj+1=dj+1+P(evenj+1)。

c)合并(2312):通过反更新和反预测步骤,分别获得偶序号序列和奇序号序列,将它们合并即可恢复出原始信号sj,记作:sj=Merge(evenj+1,oddj+1)。

对于Haar小波变换,有最简便的提升算法形式:P=1,U=1/2。分解和重构过程均采用原位运算,节省内存空间,如图5所示。

如图1所示的分解参数的量化和解量化过程(3)根据人耳的听觉感知特性对各级分解得到的概貌和细节部分进行不同方式的矢量量化。对分解得到的各级离散余弦变换系数的量化精度的程度大小为:s3>d3>d2>d1。所用到的码本训练方法为LBG算法,每级信号的量化方式如下:

a)对于第三级分解得到的概貌部分s3,量化方法采用反离散余弦变换后的感知加权矢量量化方法。首先将待量化的矢量和码本中的码字用离散余弦逆变换矩阵进行反变换得到对应的幅度谱矢量,对反变换后的矢量用感知加权均方误差最小的原则进行码本搜索,得到待量化矢量的最佳码字。此量化过程如下:

假设x为待量化的M维行矢量,y为码本中的码字M维行矢量,分别通过离散余弦逆变换N×M矩阵Y进行反变换后得到N维行矢量x’和y’:

      x′=(Y×xT)T;y′=(Y×yT)T(符号T表示矩阵的转置)

码本搜索原则为感知加权均方误差最小,定义感知加权均方误差为:

      d(x′,y′)=(x′-y′)TW(x′-y′)

其中W是感知加权矩阵,为N×N的对角阵,其中对角线的元素wnn是由下式在基频整数倍上计算得到:

>>w>>(>z>)>>=>>1>N>>|>>>>G>>A>>(>z>/>>γ>1>>)>>>ver>>A>^>>>(>z>)>>A>>(>z>/>>γ>2>>)>>>>|> >

G是线性预测残差信号的功率,A(z)是线性预测多项式,是量化的线性预测多项式。加权系数可以取γ1=0.94,γ2=0.6。z=ej2πn/P(i),n=1,2,,,N,N是输入信号带宽内谐波个数,P(i)是当前分析帧第i个提取点特征波的基音周期,N=P(i)/2。非加权情况下则有wnn=1。

c)对于每级分解得到的细节部分d3,d2,d1可以采用较少比特的一般的矢量量化方法和矩阵矢量量化方法。

例如特征波提取速率为400Hz,即每20ms帧提取8个特征波形。则第一级分解的细节部分d1更新速率为200Hz,第二级分解的细节部分d2更新速率为100Hz,第三级分解得到的细节部分d3和概貌部分s3的更新速率为50Hz。对d1每帧4个离散余弦变换系数序列共同用10比特的矩阵矢量量化,d2每帧2个离散余弦变换系数序列共同用8比特的矩阵矢量量化,d3每帧1个离散余弦变换系数序列则用8比特的一般矢量量化方法。对于概貌部分s3每帧用10比特的反离散余弦变换后的感知加权矢量量化。对各级分解所得的概貌及细节部分完全进行编码量化需要的总比特为36比特,特征波形分解参数的码率为1.8kbit/s,此时特征波形内插编码算法可以得到较为满意的合成音质。

在编码速率要求较低的场合,可以只对概貌部分s3和细节部分d3进行量化编码便可以恢复特征波的大部分能量,此时的解码端只需要进行对应最后一级小波分解的第一级小波重构过程,其它未恢复的特征波由一级重构后的特征波序列通过线性内插的方式获得,如此可以获得更低的编码速率,且能够保持可接受的编码质量。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号