首页> 中国专利> 一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法

一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法

摘要

本发明公开了一种用于在一带宽扩展系统中计算一音频信号的带宽扩展数据的装置,其中,第一频谱带以第一数量的比特编码,而不同于第一频谱带的第二频谱带则以第二数量的比特编码,比特的第二数量比比特的第一数量小,所述装置包括一可控带宽扩展参数计算器(10),用于以一逐帧方式为所述音频信号的一序列帧计算第二频谱带的带宽扩展参数,其中一帧具有一可控的开始时刻。所述装置还包括一频谱倾斜检测器(12),用于检测在所述音频信号的一时间段内的频谱倾斜,并根据音频信号的频谱倾斜来发信号通知所述帧的开始时刻。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-06-13

    授权

    授权

  • 2010-11-03

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20090623

    实质审查的生效

  • 2010-09-15

    公开

    公开

说明书

技术领域

本发明涉及音频编码/解码,特别是在带宽扩展(BWE)中的音频编码/解码。BWE之一众所周知的实施方法是频谱带宽复制(SBR),该方法已成为MPEG(动态图像专家组)中的标准。

背景技术

WO00/45378公开了一种利用可变时间/频率分辨率及时间/频率切换的效率高的频谱包络编码。一模拟输入信号输至一A/D转换器,形成一数字信号。该数字音频信号输入至一感知音频编码器,并在感知音频编码器中进行信源编码。此外,该数字信号输送至一瞬态检测器及一分析滤波器组,该分析滤波器组把该信号分成它的频谱表示(子频带信号)。该瞬态检测器对来自该分析滤波器组的该子频带信号进行操作或者直接对该数字时域样本进行操作。该瞬态检测器把该信号分成区组(granule)并决定在该等区组内的子区组是否要标记为瞬态。该信息被发送到一包络分组区块,其指定要用于该目前区组的时间/频率方格(grid)。根据该方格,该区块对均匀采样的子频带信号进行组合以得到非均匀采样的包络值。这些值为组合后的该子频带样本之能量的平均值或者最大值。该包络值连同该分组信息被馈送到包络编码器区块。该区块决定从哪个方向(时间或频率)来对包络值进行编码。最终得到的信号、音频编码器的输出、宽带包络信息以及控制信号被馈送到一复用器,形成待发送或者储存的一串行比特流。

在解码器端,一解复用器对信号进行恢复并把感知音频编码器的输出馈送到一音频解码器,从而产生一低频带数字音频信号。该包络信息从解复用器馈送到包络解码区块,通过使用控制数据来判定当前包络的编码方向并对该数据进行解码。来自音频解码器的低频带信号被发送到一变换模块,所述变换模块产生对由来自该低频带信号的一个或多个谐波组成的原始高频带信号的一估计。该高频带信号被馈送到一分析滤波器组,分析滤波器组与编码器端类型相同。该子频带信号组合于一缩放因子分组单元中。通过使用来自解复用器的控制数据,可采用与编码器端类型相同的组合及子频带样本的时间/频率分布。来自解复用器的包络信息及来自该缩放因子分组单元的信息在一增益控制模块中得到处理。在使用合成滤波器组区块进行重建之前,该增益控制模块对子频带样本所需采用的增益因子进行计算。因此该分析滤波器组之输出为一包络经过调整的高频带音频信号。该信号被加入到一延迟单元的输出中,低频带音频信号被馈送至该延迟单元。该延迟补偿了高频带信号的处理时间。最终,得到的数字宽带带信号在一数模转换器中转换为一模拟音频信号。

当持续的和音(chord)与主要具有高频内容的急剧瞬态(sharptransient)相组合时,所述和音在低频带中的能量高,所述急剧瞬变在低频带中的能量低,然而在高频带中的情况正好相反。产生于瞬态出现的时间间隔中的包络数据由高间歇性瞬态能量控制。典型的编码器以区块为基础进行操作,其中每一区块表示一固定的时间间隔。在该编码器端使用超前瞬态检测器(transientdetectorlook-ahead),这样可对横跨区块边界的包络数据进行处理。这使得能够更灵活地选择时间/频率分辨率。

国际标准ISO/IEC14496-3在第4.6.18.3.3节中公布了一时间/频率方格,其描述了SBR包络的数目、噪声层(noisefloor)和与每一个SBR包络及噪声层相关联的时间段。每一个时间段由一开始时间边界以及一停止时间边界限定。由开始时间边界指示的时隙包含在该时间段中,由停止时间边界指示的时隙排除在该时间段外。一时间段的停止时间边界等于在时间段序列中下一时间段的开始时间边界。因此,在一SBR帧中,SBR包络的时间边界在解码器端是可解码的。相对应的时间方格/频率方格由编码器决定。

美国专利6,453,282B1公开了一种用于检测离散时间音频信号中的一瞬态的方法及装置。一编码器包含一时间/频率转换装置、一量化/编码装置及一比特流格式化装置。该量化/编码级由一心理声学模型级控制。该时间/频率转换级由一瞬态检测器控制,其中在检测到一瞬态的情况下,瞬态检测器控制该时间/频率转换使之从一长窗切换到一短窗。在该瞬态检测器中,将当前时间段中的经滤波后的离散时间音频信号的能量与前一时间段中的经滤波后的离散时间音频信号的能量相比较,或者形成当前时间段中的经滤波后的离散时间音频信号的能量与当前时间段中未经滤波的离散时间音频信号的能量之间的当前关系,且将当前关系与前一相对应的关系相比较。利用这些比较之中的一个和/或另一个,可检测出一瞬态是否出现在离散时间音频信号中。

由于语音不仅包含具有一主要谐波内容的元音(其中总能量的大部分集中在该频谱的低频部分中),也包含大量的齿擦音,因此语音信号编码的要求特别高。齿擦音为一种摩擦辅音或塞擦辅音,由一股气流经过声腔中的一窄通道流向牙齿的边缘而形成。通常认为该术语齿擦音与术语刺耳音同义。术语齿擦音倾向于具有发音的或空气动力学的定义,包含在障碍物处产生一周期性噪声。刺耳音指的是对由产生声音的幅度及频率特性决定的强度的感知质量(即一听觉的或可能是声学的定义)。

齿擦音比与之相对应的非齿擦音要响亮,且其声能的大部分出现于比非齿擦音摩擦音高的频率。[s]在大约8.000Hz时具有最大声音强度,但是能够高达10.000Hz。[∫]在大约4.000Hz具有其声能量的大部分,但能够扩展高到8.000Hz。对于齿擦音来说,的确存在IPA符号,其中的齿龈音及后齿龈音是已知的。还存在哨齿擦音(whistledsibilant),依据相应的语言还存在其它的相关声音。

语音中的所有这些齿擦音辅音具有的共性是:如果直接跟在一元音后面,则低频部分的能量会大量转移到高频部分。用于检测能量随时间增加的瞬态检测器可能无法检测到该能量转移。然而,在基带音频编码中,这可能问题不大,比如在基带音频编码中可以不使用带宽扩展,因为在正常情况下齿擦音的持续时间比在短时间中发生的瞬态事件的时间要长。在如AAC编码的基带编码中,整个频谱以一高频率分辨率进行编码。因此,当一齿擦音例如单词“sister”中[s]的长度与一长窗函数的帧长度相比时,由于在语音信号中齿擦音相对稳定,所以从该低频部分到该高频部分的能量转移未必需要被检测。此外,高频部分以一高比特率进行编码。

然而,当齿擦音在带宽扩展的过程中发生时,这种情况就存在问题。在带宽扩展中,低频率部分利用一基带编码器(如AAC编码器)以一高分辨率/高比特率进行编码,高频带一般只使用某些参数(如频谱包络)使用频谱包络值以一低分辨率/低比特率进行编码,该高频带的频率分辨率比该基带频谱的频率分辨率低得多。换言之,在两个频谱包络参数之间的频谱距离将比低频带频谱中的频谱值之间的频谱距离要大(例如至少10倍)。

在解码器端执行带宽扩展,其中低频带频谱被用于再生成高频带频谱。在这种情况下,当低频带部分的能量向高频带部分转移时,即当发生一齿擦音时,该能量转移对重建的音频信号的正确性/质量的影响变得很明显。然而,寻找在能量上一增加(或减少)的一瞬态检测器将不检测该能量转移,因此涵盖该齿擦音之前或之后的时间段内的频谱包络帧的频谱包络数据将受该频谱内的能量转移影响。在解码器端,由于时间分辨率不足,将导致在高频部分该整个帧将以一平均能量来重建,而不是以在该辅音之前的低能量或者该辅音之后的高能量来重建。这将导致该估计信号的质量下降。

发明内容

本发明的目的是提供一带宽扩展的概念,其产生一改进的带宽扩展音频信号。

上述目的通过一种如权利要求1所述的用于计算带宽扩展数据的装置、一种如权利要求19所述的计算带宽扩展数据的方法或者一种如权利要求20所述的计算机程序来实现。

本发明基于如下发现:在带宽扩展的过程中,需要对低频部分向高频部分转移的能量进行检测。因此本发明中使用一频谱倾斜检测器来检测所述能量转移。例如,当检测到这样的能量转移时,虽然在该信号中的总能量尚未改变或甚至已经减少,一开始时刻信号由该频谱倾斜检测器发送到一可控带宽扩展参数计算器,使得该带宽扩展参数计算器为带宽扩展参数数据的一帧设定一开始时刻。该帧的结束时刻可自动被设定,例如可以设置为开始时刻之后的某个时间,或根据某一帧方格,或当该频谱倾斜检测器检测到频移结束时,或换言之,当频率从高频部分偏移回到低频部分时,该频谱倾斜检测器发出一停止时刻信号。由于心理声学后遮蔽效应(post-maskingeffect)比前遮蔽效应(pre-maskingeffect)更加明显,因此相对一帧的停止时刻而言,对该帧的开始时刻进行准确控制要重要得多。

作为优选方案,且为了节省处理资源及处理延迟,一频谱倾斜检测器作为一低阶LPC分析级应用,这对移动装置(例如移动电话)应用来说其尤为必要。作为优选方案,可基于一个或多个低阶LPC系数来估计该音频信号的时间段内的频谱倾斜。基于具有该频谱倾斜的一预定门限的一门限判决,且较佳地,基于该频谱倾斜的符号上的一改变(具有一门限为零的一门限判决),控制该开始时刻信号的发出。当该频谱倾斜估计中仅使用第一个一阶LPC系数时,只确定该一阶LPC系数的符号就已足够,因为该符号决定了该频谱倾斜的符号,从而决定是否要发送一开始时刻信号到该带宽扩展参数计算器。

作为优选的方案,该频谱倾斜检测器与一瞬态检测器合作,该瞬态检测器适于检测一能量改变,即该整个音频信号的能量增加或减少。在一个实施例中,当检测到该信号中的一瞬态信号时,一带宽扩展参数帧的长度较长,然而当该频谱倾斜检测器已发出一开始时刻信号时,该可控带宽扩展参数计算器设定一较短长度的帧。

附图说明

下面结合附图和实施例对本发明作进一步说明:

图1a为一种用于计算音频信号的带宽扩展数据的装置/方法的一优选实施例;

图1b示出了具有瞬态信号的一音频信号的成帧过程及该频谱倾斜检测器的该相对应的时间段;

图1c示出了控制该参数计算器的时间/帧分辨率的表,以响应来自该频谱倾斜检测器及一附加的瞬态检测器的信号;

图2a示出了一非齿擦音信号之一负频谱倾斜;

图2b示出了用于一类齿擦音信号的一正频谱倾斜;

图2c解释了基于低阶LPC参数的频谱倾斜m的算;

图3为本发明的一优选实施例中的编码器的方框图;及

图4示出了一带宽扩展解码器。

具体实施方式

在详细讨论图1及图2之前,第3图及第4图中描述了一带宽扩展方案。

图3为编码器300的一个实施例,所述编码器300包括SBR相关模块310、一分析QMF组320、一低通滤波器(LP滤波器)330、一AAC核心编码器340及一比特流有效载荷格式器(bitstreampayloadformatter)350。另外,该编码器300包括包络数据计算器210。该编码器300包括PCM样本(音频信号105;PCM=脉冲编码调制)的一输入,该输入连接至所述分析QMF组320,并连接到所述SBR相关模块310及低通滤波器330。分析QMF组320可包含一高通滤波器以分离所述第二频带105b且与包络数据计算器210相连,所述包络数据计算器210继而连接到所述比特流有效载荷格式器350。LP滤波器330可包含一低通滤波器以分离所述第一频带105a且连接到AAC核心编码器340,AAC核心编码器340继而连接到比特流有效载荷格式器350。最后,SBR相关模块310分别与包络数据计算器210及AAC核心编码器340相连。

因此,编码器300对音频信号105降低取样以产生在核心频带105a(在LP滤波器330中)中的成分,这些成分被输入到AAC核心编码器340,AAC核心编码器340对核心频带105a中的音频信号进行编码并将编码的音频信号355转送到比特流有效载荷格式器350,在比特流有效载荷格式器350中,核心频带105a的编码的音频信号355被加入到编码音频流345(一比特流)。另一方面,音频信号105由分析QMF组320进行分析,分析QMF组的高通滤波器提取所述高频带105b的频率成分并将所述信号输入到包络数据计算器210以产生SBR数据375。例如,一个64子频带QMF组320对输入信号的子频带进行滤波。所述滤波器组的输出(即子频带样本)为复值,且因此与一规则QMF组相比,所述输出被两倍过采样。

例如,所述SBR相关模块310包含一种产生所述BWE输出数据的装置且控制所述包络数据计算器210。使用由分析QMF组320产生的音频成分105b,所述包络数据计算器210对SBR数据375进行计算并将其转送到比特流有效载荷格式器350,比特流有效载荷格式器350把SBR数据375与由核心编码器340编码后的成分355组合形成编码音频流345。

可选择地,用于产生BWE输出数据的装置也可以为包络数据计算器210的一部分且所述处理器也可以为比特流有效载荷格式器350的一部分。因此,所述装置的不同组件可是第3图的不同编码器组件的一部分。

第4图为解码器400的一实施例,其中所述编码音频流345被输入到一比特流有效载荷解格式器357,比特流有效载荷解格式器357从SBR数据375中分离出编码的音频信号355。例如,编码的音频信号355被输入到一AAC核心解码器360,其产生第一频带中的解码音频信号105a。音频信号105a(第一频带中的成分)被输入到一分析32频带QMF组370,例如,从第一频带中的音频信号105中产生32频率子频带10532。所述频率子频带音频信号10532被输入到补丁生成器410以产生一原始信号频谱表示425(补丁),所述原始信号频谱表示425被输入到一SBR工具430a。例如,所述SBR工具430a可包含一噪声层计算单元以产生一噪声层。另外,所述SBR工具430a可重建缺失谐波或执行一反向滤波步骤。所述SBR工具430a可实施要在所述补丁生成器410的QMF频谱数据输出上使用的已知的频谱带复制方法。例如,在所述频域中使用的补丁算法可对子频带频域内的频谱数据进行简单镜像或复制。

另一方面,所述SBR数据375(例如包含BWE输出数据102)被输入到一比特流分析处理器380,对SBR数据375进行分析以获得不同的子信息385并将它们输入到例如一哈夫曼(Huffman)解码与解量化单元390,所述哈夫曼解码与解量化单元390提取控制信息412及频谱带复制参数102,指明SBR数据的某一成帧时间分辨率。所述控制信息412控制所述补丁生成器410。所述频谱带复制参数102被输入到SBR工具430a及一包络调整器430b。包络调整器430b对产生的补丁的包络进行调整。因此,包络调整器430b产生用于第二频带的调整过的原始信号105b并把它输入到一合成QMF组440,合成QMF组440把第二频带105b的成分与在频域10532中的音频信号组合起来。合成QMF组440可包含例如64个频带,通过组合两个信号(第二频带105b中的成分和子频带域音频信号10532)来产生合成音频信号105(例如,PCM样本的一个输出,PCM=脉冲编码调制)。

所述合成QMF组440可包含一组合器,该组合器将频域信号10532与第二频带105b组合起来,此后,将组合信号转换到时域并将其作为音频信号105输出。可选择地,组合器可输出频域内的音频信号105。

所述SBR工具430a可包含一传统的噪声工具,将附加的噪声加入已修补频谱(原始信号频谱表示425),频谱成分105a就会呈现出与原始信号的第二频带105b(如第3图中所描述)相似的声调性质,所频谱成分105a由一核心编码器340传输并用于合成第二频带105b的成分。

第1a图说明了一种用于计算带宽扩展系统中的音频信号的带宽扩展数据的装置,其中第一频谱带以第一数量的比特编码,而不同于第一频谱带的第二频谱带则以第二数量的比特编码。比特的第二数量比比特的第一数量小。作为优选的方式,第一频带为低频带,第二频带为高频带,虽然现有的其它带宽扩展方案中的第一频带与第二频带彼此不同,但并非低频带与高频带。而且,根据带宽扩展技术的关键教示,高频带比低频带编码较粗略。较佳地,高频带所需的比特率相对于低频带所需的比特率要降低至少50%或较佳地甚至降低90%。因此,用于第二频带的比特率比用于低频带的比特率低50%或者更低。

图1a中的装置包括一受控带宽扩展参数计算器10,所述受控带宽扩展参数计算器10对音频信号中一序列帧以逐帧(frame-wise)方式计算第二频谱带的带宽扩展参数11。所述受控带宽扩展参数计算器10配置成给序列帧的一帧施加一可控的开始时刻。

本发明的装置进一步包括一频谱倾斜检测器12,用于检测音频信号中一定时间段内的一频谱倾斜,所述音频信号由线路13提供到图1a中的不同模块中。所述频谱倾斜检测器配置成根据音频信号的一频谱倾斜向可控带宽扩展参数计算器10发出代表音频信号中一帧的开始时刻的信号,这样只要由频谱倾斜检测器12发出的开始时刻被接收到,带宽扩展参数计算器10便可应用一开始时间边界。

作为优选的方式,当某个时间段内的音频信号的频谱倾斜其符号不同于前一时间段中的所述音频信号的频谱倾斜的符号时,输出一频谱倾斜信号/开始时刻信号。进一步,当所述频谱倾斜从负向正变化时,发出一开始时刻信号。类似地,当一频谱倾斜从一正频谱倾斜向一负频谱倾斜变化发生时,频谱倾斜检测器12发出一停止时刻信号送至带宽扩展参数计算器10。然而,停止时刻的获得可不考虑音频信号中的频谱倾斜变化。例如,当自相对应的帧的开始时刻起某一时间段已届满,带宽扩展参数计算器10可自律地设定所述帧的停止时刻。

图1a所述的优选实施例提供了一附加的瞬态检测器14,用于分析音频信号13以检测整个信号中从一个时间段到下一个时间段的能量改变。当检测到从一个时间段到下一个时间段的某一最小能量增加时,瞬态检测器14输出一开始时刻信号至可控带宽扩展参数计算器10,使所述带宽扩展参数计算器10为序列带宽扩展参数数据帧中一新的带宽扩展参数帧设定一开始时刻。

作为优选的方式,本发明的计算带宽扩展数据的装置进一步包括一音乐/语音检测器15,用于检测音频信号当前时间段内是一音乐信号还是一语音信号的。如果是一音乐信号,作为优选的方式,所述音乐/语音检测器15将关闭频谱倾斜检测器12,以节省电力/计算资源并避免由非语音信号中的不必要的小帧造成的比特率提高。对于移动装置来说,由于移动装置具有有限的处理资源,更重要地是其具有有限的电力/电池资源,因此上述特征尤其有用。然而,当音乐/语音检测器15检测到音频信号13中的一语音部分时,音乐/语音检测器15就会启用频谱倾斜检测器12。因为频谱倾斜情况主要在语音部分中发生,其在音乐部分中发生的可能性较小,因此音乐/语音检测器15与频谱倾斜检测器12结合是有利的。即使当这些情况在乐段中出现时,由于音乐比语音具有好得多的遮蔽特性,这些发生情况的丢失也不是这么突然的。如已发现的,齿擦音对于已解码的语音的可理解性以及对于听者具有的主观质量印象非常重要。换言之,语音的真实性与语音的齿擦音部分的清晰再现相关性较大。但对于音乐信号来说这点不是很重要。

图1b中上方的时间轴说明了由带宽扩展参数计算器10设定的音频信号某一时间段内的成帧过程。所述成帧过程包括多个规则边界,在未检测到齿擦音的情况下这些边界发生在所述成帧过程中,如16a-16d所指。所述成帧过程还包括多个源于与发明有关的齿擦音或频谱倾斜变化检测的帧边界。这些边界如17a-17c所指。此外,如图1b所示,一帧i的帧起始时间与帧i-1即前一帧的帧停止时间一致。

在图1b中的实施例中,在一帧的开始时刻之后的某一时间段届满后,自动设定所述帧的规则边界16a-16d的停止时刻。此时段的长度决定了用于未检测到齿擦音的带宽扩展参数帧的时间分辨率。

如图中1c所示,所述时间分辨率可基于一开始时刻信号源于图1a中的瞬态检测器14还是源于图1a中的频谱倾斜检测器12来设定。图1c中说明的实施例中的大致规则是,只要接收到来自频谱倾斜检测器的开始时刻信号,就设定一较高的时间分辨率(图1b的成帧过程中的开始时刻与停止时刻之间的较小时间段)。然而,当频谱倾斜检测器没检测到任何频谱倾斜、而所述瞬态检测器14实际上检测到一瞬态时,那么这意味着只发生了能量增加,并未发生能量转移。在这样的情况下,由于音频信号中显然不存在齿擦音,而无关紧要的音乐信号或其它音频信号却存在,因此音帧10b中自动设定的停止时刻与开始时刻相隔较远。

在这种情况下,需要注意的是,根据瞬态检测器或频谱倾斜检测器设定的边界提高了编码信号的比特率。如果图1b中的帧具有较大的长度,则可能得到最低的比特率。然而,另一方面,较大的帧会降低带宽扩展参数数据的时间分辨率。因此,本发明使只在真正需要时才设定一新的开始时刻(也是前一帧的停止时刻)是可能的。此外,依据实际情况(即是否检测到瞬态或者倾斜变化(例如由一齿擦音引起的))而变化的时间分辨率允许进一步以一最佳方式采用成帧以适应质量/比特率需求,借此,两个相矛盾的目标间的总能实现最佳折衷。

图1b中下方的时间轴说明了由频谱倾斜检测器12执行的一示范性的时间处理过程。在图1b的实施例中,频谱倾斜检测器12以一基于区块的方式,特定地,以一重迭的方式操作,使得针对频谱倾斜情况能够搜寻到重迭时间段。然而,所述频谱倾斜检测器也可对一连续的样本流进行操作且不必使用如图1b中所说的基于区块的处理方式。

作为优选的方式,在频谱倾斜变化的检测时间之前设定帧的开始时刻。然而,所述可控带宽扩展参数计算器设定一新帧边界时具有一定的自由,只要保证:对于一规则帧而言,由瞬态检测器检测到的瞬态的开始或由频谱倾斜器检测到的齿擦音的开始在时间上位于所述帧的最初25%内,或作为优选的方式,当未获得一频谱倾斜输出信号时,在时间上位于一规则帧中帧长度的最初10%内。

作为优选的方式,还要保证的是,所述被检测到的频谱倾斜变化的至少一部分在新的帧中而不在前一帧中,但是可能发生状况是,其中一频谱倾斜变化的某一“开始部分”变成位于前一帧中。然而,作为优选的方式,所述开始部分应当少于频谱倾斜变化的全部时间的10%。

图1b中的实施例中,在时间段18a、18b及18c中检测到一频谱倾斜,且频谱倾斜变化的“时刻”被设定出现于时间段18a中。因此,可控带宽扩展参数计算器10将保证一帧在时间段18a、18b及18c中的任一时刻被设定。这种特征允许带宽扩展参数计算器保持某一基本的帧,如果需要这样的一基本帧的话,但有条件是频谱倾斜变化中的大部分位于开始时刻之后,即不是在前一帧内而是在新的帧中。

图2a说明了具有负频谱倾斜的信号的功率谱。负频谱倾斜指的是频谱的斜率是下降的。与此相反,图2b说明了具有正频谱倾斜的信的之功率谱。换言之,所述频谱倾斜的斜率是上升的。实际上,每一频谱如图2a中的频谱或者图2b中的频谱在局部范围内会产生变化,这些变化的斜率与所述频谱倾斜的斜率不同。

例如,当通过将一直线与实际频谱之间的方差最小化而将所述直线拟合至功率谱中时,可得到所述频谱倾斜。把一直线拟合至频谱中可以为计算一短时频谱的频谱倾斜的方法之一。然而,较佳的方法是利用LPC系数来计算频谱倾斜。

出版物“EfficientcalculationofspectraltiltfromvariousLPCparameters”,由V.Goncharoff、E.VonColln及R.Morris所著,海军司令部控制与海洋监视中心RDT及E师(NavalCommand,ControlandOceanSurveillanceCenter(NCCOSC)RDTandEDivision),圣地亚哥,CA92152-52001,1996年5月23日,其公开了计算频谱倾斜的多种方法。

在一个实施例中,频谱倾斜被定义为对数功率谱的一最小平方线性拟合(linearfit)的斜率。然而,也可使用对于非对数功率谱或对于所述振幅频谱或任何其它种类的频谱的线性拟合。在本发明的背景下,这尤其正确,其中在所述的优选实施例中,主要对频谱倾斜的符号感兴趣,即线性拟合结果的斜率是正还是负。然而,频谱倾斜的实际值在本发明的优选实施例中的重要性不大,本发明的优选实施例中考虑了符号,采用了具有零门限的门限判决。然而,在其它的实施例中,不为零的门限也可能是有用的。

当使用语音的线性预测编码(LPC)来模拟它的短时频谱时,在计算上更有效的是,直接由LPC模型参数来计算频谱倾斜而非由对数功率谱来计算。图2c为与第n阶全极点对数功率谱相对应的倒频谱系数ck的方程式。该方程式中,k为整数指数,pn为LPC滤波器z域转换函数H(z)的全极点表示中的第n个极点。图2c中接下来的一个方程式是依据所述倒频谱系数的频谱倾斜,特别地,m为频谱倾斜,k和n为整数,且N是H(z)全极点模型的最高阶极点。图2c中的下一个方程式定义了第N阶LPC滤波器的对数功率谱S(ω)。G为增益常数,αk为线性预测器系数,ω等于2×π×f,其中f为频率。图2c中最下面的方程式直接由LPC系数αk的一函数得到倒频谱系数。所述倒频谱系数ck接着被用于计算频谱倾斜。大体上,与分解LPC多项式以获得极点值、并用所述极方程求解频谱倾斜的方法相比,上述方法在计算上更有效。因此,在计算出LPC系数αk之后,利用图2c底部的方程式,可计算出倒频谱系数ck,接着利用图2c中的第一个方程式,可由频谱系数计算出极点值pn。接着,基于所述极点值,可计算出图2c中第二个方程式定义的频谱倾斜m。

已经发现,一阶LPC系数α1对具有用于所述频谱倾斜的符号的一良好的估计而言是足够的。因此,α1是c1的一良好的估计。因此,c1是p1的一良好的估计。当p1被插入到频谱倾斜m的方程式中时,可以很清楚地看到,由于在图2c中的第二个方程式中的负号,频谱倾斜m的符号与图2c中LPC系数定义中的一阶LPC系数α1的符号是相反的。

图3描述了在一SBR编码器系统中的频谱倾斜检测器12。尤其,所述频谱倾斜检测器12控制包络数据计算器及其它SBR相关模块,以应用SBR相关参数数据的一帧的开始时刻。图3说明了用于把第二频带(优选为高频带)分解为一定数量的子频带(诸如32个子频带)的分析QMF组320,以执行所述SBR参数数据的一逐子频带计算。作为优选的方式,所述频谱倾斜检测器执行一简单的LPC分析,以仅提取如图2c中所讨论的一阶LPC系数。可选择地,利用如线性拟合或其它用于计算频谱倾斜的方法,频谱倾斜检测器12对输入信号进行的一频谱分析并计算频谱倾斜。大体上,较佳的是,与频率分解相关的频谱倾斜检测器的分辨率低于QMF组320的频率分辨率。在其它的实施例中,如图2c中讨论的只计算一阶LPC系数α1的情况下,频谱倾斜检测器12将不执行任何类型的频率分解过程。

在其它的实施例中,频谱倾斜检测器用于计算一阶LPC系数以及比如直到3阶或4阶的LPC系数的一些低阶LPC系数。在这样的实施例中,所述频谱倾斜计算的正确性很高,使得不但可以在斜率从负向正变化时发出一新帧,而且作为优选的方式对一音调信号而言,还可以在频谱倾斜从具有负号的高振幅向同符号的一低振幅(绝对值)变化时触发一新帧。而且,就停止时刻而言,较佳的是,当频谱倾斜已从一高正值变为一低正值时,计算一帧的结束,因为这可以是信号的特性从齿擦音变为非齿擦音的一象征。与计算频谱倾斜的方式无关,一帧开始时刻的检测不但可以由一符号变化来标志,也可以由在某一预定的时间段中超过一判决门限的倾斜值变化来标志。

在所述符号实施例中,所述判决门限是一倾斜值为零的一绝对门限值,且在所述变化实施例中,所述门限值指示倾斜的变化,且此计算亦可通过在计算倾斜函数对时间的一阶导数后得到的函数中使用一绝对门限值来执行。这里,当在音频信号某一时间段内的频谱倾斜值与前一时间段内的频谱倾斜值之间的差值高于一预定门限值时,频谱倾斜检测器发信号通知帧的开始时刻。所述差值可以是一绝对值(例如,用于负差值)或具有符号的一值(例如,用于正差值)且所述预定的门限值在所述实施例中不为零。

如图3与图4中所述,带宽扩展参数计算器10用于计算等频谱包络参数。然而,在其它的实施例中,作为优选的方式是,如从MPEG4的带宽扩展部分了解到的,带宽扩展参数计算器另外还计算噪声参数、反向滤波参数及/或缺失谐波参数。

基本上,作为优选的方式是,设定一帧的一停止时刻作为对频谱倾斜检测器输出信号的响应或者作为对与频谱倾斜检测器输出信号无关的一个事件的响应。被带宽扩展参数计算器用来标志一帧停止时刻的事件出现在相对于开始时刻较晚的一固定时间段之后。如图1c中所讨论的,所述固定时间段可以短或长。当所述固定时间段长时,那么这意味着有一低时间分辨率,而当所述固定时间段短时,那么这意味着有一高时间分辨率。作为优选的方式,当瞬态检测器14标志一瞬态时,所述第一时间段被设定,但一低时间分辨率被使用。因此,与由频谱倾斜检测器输出一开始时刻信号的其它情况下相比,本实施例中相对于开始时刻较晚的固定时间段较长。当一开始时刻由频谱倾斜检测器输出时,那么这意味着语音信号中含有齿擦音部分,因此需要一高时间分辨率。因此,所述固定时间段较在由图1a中的瞬态检测器14发信通知一帧的开始时刻的情况下而言较小。

在其它的实施例中,频谱倾斜检测器可基于语言信息检测语音中的齿擦音。例如,当一语音信号具有诸如国际语音拼写的相关元信息时,那么对此元数据的分析也将提供语音部分的齿擦音检测。在这种情况下,所述音频信号的元数据部分被分析。

虽然本发明仅描述了一装置中的几个方面,但是很显然,这几个方面同时也代表了相对应方法,其中一模块或装置对应于一方法步骤或一方法步骤的一个特征。类似地,对一方法步骤的描述,也代表对一相对应模块或部件或一相对应装置的特征的描述。

根据本发明的方法的特定实现要求,可以以硬件或软件来实现本发明的方法。实现方式可以使用其上存储有电子可读的控制信号的数字存储介质来执行,例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,与可编程计算机系统协作(或者能够与之协作)来执行本发明的方法。

本发明的一些实施例包括具有电子可读控制信号的一数据载体,其能够与一可编程计算机系统协作,以执行本文描述的所述方法之一。

通常,本发明的实施例可作为具有计算机程序代码的一计算机程序产品来实施,当所述计算机程序产品在一计算机上运行时,所述程序代码执行本发明的方法之一。例如,所述程序代码可储存于一机器可读载体上。

其它的实施例包括用于执行本发明的方法之一的计算机程序,这些程序储存于一机器可读载体上。

换句话说,本发明方法的一实施例是具有程序代码的计算机程序,当所述计算机程序在计算机上执行时,所述程序代码用于执行本文描述的方法之一。

本发明的方法的另一实施例为一数据载体(或一数字储存媒体,或计算机可读媒体),其包括记录于所述载体上的、用于执行本文描述的方法之一的计算机程序。

因此,本发明方法的另一实施例是表示用于执行本文描述的方法之一的计算机程序的一数据流或一序列信号。例如,所述数据流或序列信号可经由一数据通讯连接例如因特网进行发送。

另一实施例包括一处理装置,例如,一计算机或一可编程逻辑设备,其配置成或适于执行本文描述的方法之一。

另一实施例包括一计算机,其上已安装用于执行本文描述的方法之一的计算机程序。

在一些实施例中,一可编程逻辑设备(例如,一现场可编程门阵列)可用来执行本文描述的方法的部分或全部功能。在一些实施例中,现场可编程门阵列可与一微处理器合作以执行本文描述的方法之一。大体上,作为优选的方式所述方法可由任何硬件装置执行。

以上描述的实施例仅用于说明本发明的原理。应理解的是,对本领域技术人员来说,本文描述的配置和细节上的修改和变化将是明显的。因此,本发明只受后附的专利申请专利范围限制,而不受本文实施例所描述及说明表现的特定细节限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号