首页> 中国专利> 通过自适应变换改进源编码系统

通过自适应变换改进源编码系统

摘要

本发明涉及一个使用了高频重现的用于改进源编码系统的新方法。本发明认为音调信号可以被分为类似脉冲序列的或非类似脉冲序列的。基于这一分类,可以通过变换器的自适应切换在得到的音频质量上获得显著提高。本发明表明这样切换的变换器必须在它们的特性上具有根本的不同。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2010-11-10

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L19/00 变更前: 变更后: 申请日:20011219

    专利权人的姓名或者名称、地址的变更

  • 2005-10-19

    授权

    授权

  • 2004-05-19

    实质审查的生效

    实质审查的生效

  • 2004-03-10

    公开

    公开

说明书

技术领域

本发明涉及一个使用了高频重现来改进源编码系统的新方法。本发明认为音调信号可以被分为类似脉冲序列的或非类似脉冲序列的。基于这一分类,可以通过变换器(transposers)的自适应切换在得到的音频质量上获得显著提高。本发明表明这样的切换变换器必须在它们的特性上具有根本的不同。

背景技术

在“Source Coding Enhancement using Spectral-BandReplication”[WO 98/57436]中,变换是作为在基于HFR(高频重现)的解码器中产生高频的有效手段来定义和建立的。多个变换实施例曾被描述过。然而,除了一些对于瞬态响应的改进的简略讨论外,没有关于基础变换器的依赖编程自适应的特性的细致讨论。

发明内容

本发明认为音调信号段,也就是由带音调的乐器的贡献所主导的片断,可以具有“类似脉冲序列”或“非类似脉冲序列”的特征。前者的一个典型例子就是发元音时的人的声音,或一个单音调的乐器,例如小号,其中“激励信号”可以被模型化成一个“脉冲序列”。后者是多个音调合在一起的情况,也就是说无法辨认出单个脉冲序列。根据本发明,可以通过区别上述两种情形并相应的调节变换器特性来显著改善HFR特性。

当类似脉冲序列的信号段被检测到,变换器将会优先在每脉冲基(per-pulse basis)上工作。这里,作为变换器输入信号的解码低频带能够被看成一系列脉冲相应h(n),它们具有截止频率为fc的低通特性,间隔的周期为Tp。这对应于一个基频为1/Tp的傅立叶级数,该级数包括了频率为不超过fc的1/Tp整数倍的谐波分量。变换器的目的在于,不改变周期Tp,将单个响应h(n)的带宽增大到所需要的带宽Nfc,其中N为变换因子。既然保持脉冲周期不变,变换后的信号仍然对应一个基频为1/Tp的傅立叶级数,该级数现在包括了一直到Nfc的泛频。所以该方法向低频带的截断傅立叶级数提供了一个完美的接续。一些现有技术满足保持脉冲周期的要求。例子有频率转换和根据[WO 98/57436]的FD变换,其中窗口被选择成足够的短,这样就不会包括多于一个周期,也就是长度(窗口)≤Tp。这些实施例中没有任何一个能够将多音调材料处理好,并且只有FD变换提供了低频带截断傅立叶级数的一个完美接续。

当非类似脉冲序列的一段被检测到,例如当遇到多音调的情况,对变换器的要求就从保持脉冲周期变为保持低频带谐波和产生的高频泛频(higher partials)的整数关系。该要求是通过[WO98/57436]中的FD变换方法来达到的,其中窗口被选择成足够长以使得组成序列的单独音调的多个周期Ti能够被包含在一个窗口中,也就是长度(窗口)>>Ti。因此,任何在变换器源频率范围内的截断傅立叶级数[fi,2fi,3fi,...]都被变换成[N fi,2N fi,3N fi,...],其中N是整数变换因子。很清楚,和上述每脉冲操作相反,该方案并不产生低频带傅立叶级数的一个完全接续。这对于多音调信号是可以忍受的,但对于单音调的类似脉冲序列的情况是不理想的。所以,该变换模式最好只用于非类似脉冲序列的情况。

根据本发明,类似脉冲与非类似脉冲的鉴别可以在编码器中完成,并且一个相应的控制信号会被送到解码器。可替换地,该检测可以在解码器中完成,这减去了对控制信号的需要,但以增大解码器复杂性为代价。检测器原理的例子在时域中是瞬态检测,在频域中是尖峰采集。解码器包括了必需的变换器自适应装置。作为例子描述的系统对于类似脉冲序列的情况使用频率转换,对非类似脉冲序列情况使用一个长窗口FD变换器。实际中,在变换器之间的切换和交叉衰减最好在一个包络调整滤波器组中完成。

本发明包括如下特点:

-随着时间自适应地选择用来产生高频的不同的方法,这基于被处理信号是具有类似脉冲序列的特性还是非类似脉冲序列特性。

-选择的完成基于信号表示的时域和频域的峰值采集分析。

-用来产生高频的不同方法是频率转换和FD变换,或者

-用来产生高频的不同方法是具有不同窗口大小的FD变换,或者

-用来产生高频的不同方法是时域脉冲序列变换和FD变换。

附图说明

下面将通过实施例来描述本发明,实施例并不限制本发明的范围和精神,描述时参考了附图,在附图中:

图1a表示了输入脉冲序列信号x(n)。

图1b表示了信号x(n)的强度谱|X(f)|。

图2a表示了一个FIR滤波器的输入响应h0(n)。

图2b表示了该FIR滤波器的强度谱|H0(f)|。

图3a表示了信号y0(n)=x(n)*h0(n)。

图3b表示了信号y0(n)的强度谱|Y0(f)|。

图4a表示了一个FIR滤波器的抽取的冲击响应h1(n)。

图4b表示了抽取的FIR滤波器的强度谱|H1(f)|。

图5a表示了变换的信号y1(n)。

图5b表示了信号y1(n)的强度谱|Y1(f)|。

图6表示了经过了信号x(n)的长窗口的FD变换的强度谱|Y2(f)|。

图7表示了在解码器一端本发明的实现方式。

具体实施方式

下文中的实施例仅仅是本发明中用于HFR系统的自适应变换切换的原理的描述。可以理解,这里所描述的设置和细节上的修改和变动对熟悉技术的人是显而易见的。所以就希望只是由所附的权利要求书来限定范围,而不是通过这里实施例中所描述和解释的具体细节来限定。

单一音调的类脉冲序列的“理想变换”可以通过简单模型来定义。令原始信号为间隔为m个采样的狄拉克函数δ(n)的和,也就是脉冲序列 >>x>>(>n>)>>=>>Σ>>l>=>->∞>>∞>>δ>>(>n>->lm>)>>>s>(方程1)

图1a表示了x(n),图1b表示了相应的强度谱|X(f)|。很明显|X(f)|对应于基频为fs/m的傅立叶级数,其中fs是采样频率。令y(n)为一个经过低通滤波的x(n)的变形,其中低通FIR滤波器具有长度p的脉冲响应h0(n),其中p<m,图2a和2b分别是时域和频域的表示。滤波器截止频率为fc。输出信号为 >>>y>0>>>(>n>)>>=>x>>(>n>)>>*>>h>0>>>(>n>)>>=>>Σ>>l>=>->∞>>∞>>δ>>(>n>->lm>)>>*>>h>0>>>(>n>)>>=>>Σ>>l>=>->∞>>∞>>>h>0>>>(>n>->lm>)>>>s>(方程2)

也就是一个间隔为m个采样的脉冲响应序列。图3a和3b表示了y0(n)和|Y0(f)|。原始的傅立叶级数被有效地截断于频率fc。假设一个基于时域的变换器能够监测单个脉冲响应h0(n-lm),并且那些信号数量按因子2抽取,也就是说每第二个采样能够供送给输出。为了保持信号的长度,被丢弃的采样可以通过在短一些的响应h1(n-lm)中插入零来补偿。图4a和4b表示了抽取的脉冲响应h1(n)和相应的频域表示|H1(f)|。很明显,时域信号的变窄就对应于频域信号的增宽,这里的变化因子为2。最后,被变换的信号 >>>y>1>>>(>n>)>>=>>Σ>>l>=>->∞>>∞>>>h>1>>>(>n>->lm>)>>>s>和|Y1(f)|表示于图5a和5b中。被LP滤波的脉冲序列的带宽被增大,同时保持了正确的时域特性,所以也就保持了正确的频域特性。输出信号y1(n)对应于泛频达到2fc的傅立叶序列。

上述的变换可以通过多种途径来近似。一种方法就是利用频域变换器(FD-变换器),例如[WO 98/57436]中描述的STFT变换器,但这里的变换器具有不同的窗口大小,也就是说短窗口用于脉冲序列信号,而长窗口用于其它所有信号。该短窗口(在上例中长度≤m)确保了变换器工作在每个脉冲基上,给出上述的理想脉冲变换。一个用来实现脉冲变换的不同的方法是利用单边带调制。这确保了脉冲之间的周期时间Tp是正确的,然而,产生的泛频与低频带的泛频不是和谐地联系的。需要指出的是,不同的脉冲序列变换算法对于不同的编程材料,其表现是不一样的。所以,在编码器和/或解码器中,几种脉冲变换器可以采用适当的检测算法以确保最佳性能。

对于上述例子中使用的脉冲序列信号,使用长窗口的FD变换方法会给出不理想的结果。这是由于下面的原因:

当在FD变换方法中使用一个长窗口(其长度>>m)时,下面的关系是适用的 >>u>>(>n>)>>=>>Σ>>i>=>0>>>N>->1>>>>e>i>>>(>n>)>>cos>>(>2>π>>f>i>>n>/>>f>s>>+>>α>i>>)>>→>v>>(>n>)>>=>>Σ>>i>=>0>>>N>->1>>>>e>i>>>(>n>)>>cos>>(>2>πM>>f>i>>n>/>>f>s>>+>>β>i>>)>>>s>(方程3)

其中u(n)是输入,v(n)是输出,M是变换因子,N是正弦波的数量,fi、ei(n)、αi分别是单独输入频率、时间包络以及相位常数,βi是任意的输出相位常数,fs是采样频率,并且有0≤Mfi≤fs/2。输入信号x(n)将使用方程3中的关系根据图6产生一个强度谱为|Y2(f)|的输出信号y2(n),其中y2(n)的泛频与x(n)的泛频是和谐地联系的。然而,它们之间的距离由于变换因子而增大,也就是说信号的音调按变换因子增大了。当在原始的低频带信号上加入这个新的高频带信号时,这两个不同的音调可以被清楚地区分开。这就例如使语音信号的发声好像有另外一个同时说话但音调更高的讲话者,也就发生所谓的鬼声。

然而,一旦输入信号没有表现出单音调的脉冲序列特性,那么如果要求高质量HFR,脉冲变换就不可行。所以,为了优化HFR系统的性能,就很需要检测哪个变换方法能够在给定的时间给出最佳结果。

为了能够从解码器中不同的变换方法特性中获利,需要在编码器和/或解码器中评定出哪种变换方法会得到在给定时间时的最佳结果。有很多检测信号中类脉冲序列特性的方法,其可以在时域或频域中实现。如果一个脉冲序列具有周期Tp,那么脉冲就会以该周期为间隔,而频谱分量间隔为1/Tp。所以,如果Tp很高,也就是一个低音调的脉冲序列,那么既然脉冲相隔相对较远也就容易检测,最好就在时域中进行检测。然而,如果Tp很低,这对应于一个高音调的脉冲序列,也就更容易在频域中进行检测。对于时域检测,更期望对信号频谱进行白化以尽量得到容易检测的类似脉冲序列的特性。时域和频域中的检测方案是相似的。它们基于尖峰采集以及采集到的尖峰之间距离的统计分析。在时域中,尖峰采集是通过比较任意一点前后的信号的能量和峰值来实现的,也就是寻找信号中的瞬态表现。在频域中,尖峰检测是通过谐波积谱来实现的,该谐波积谱是强谐波序列存在时的一个很好的指示。检测到的音调之间的距离被表示在柱状图上,在该图上,通过比较音调相关的记录与非音调相关的记录之间的比来实现检测。

图7所展示的实现方式表示了在同样的解码系统中两种不同类型的变换方法的使用—所说的类型是使用长窗口的一个FD变换器和一个频率转换设备[PCT/SE01/01150]。解复用器701将比特流信号拆开并馈给一个任意的基带解码器702。从基带解码器输出信号,也就是一个频带受限的音频信号,被馈给分析滤波器组703,该分析滤波器组将音频信号分解到频带中。该音频信号还同时被馈给一个FD变换器单元705。705的输出被馈给另一个和滤波器组单元703同类型的分析滤波器组706。来自滤波器组单元703的数据根据频率转换的原理被修补(patched)704,并且和分析滤波器组706的输出一起被馈给混合单元707。该混合单元根据编码器发出的控制信号或解码器所获得的控制信号混合数据。被混合的频谱信号继而被包络调整器708利用比特流中的数据和控制信号进行包络调整。被频谱调整的信号和来自分析滤波器组703的数据被馈给一个合成滤波器组单元709,这样就产生了包络调整的宽带信号。最后,该数字的宽带信号被转换710成模拟的输出信号。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号