首页> 中国专利> 自适应编码浊音语音的基音周期

自适应编码浊音语音的基音周期

摘要

本发明提供了用于双重模式基音周期编码的系统和方法实施例。所述系统和方法实施例用于根据基音周期长度、稳定性或两者使用一个或两个基音周期编码模式对浊音语音信号的基音周期进行自适应编码。所述两种基音周期编码模式包括具有相对较高的精确度和较小的动态范围的第一基音周期编码模式以及具有相对较大的基音周期动态范围和较低的精确度的第二基音周期编码模式。在确定所述浊音语音信号具有相对较短或相当稳定的基音周期之后,使用所述第一基音周期编码模式。在确定所述浊音语音信号具有相对较长或稳定性较差的基音周期或是相当嘈杂的信号之后,使用所述第二基音周期编码模式。

著录项

  • 公开/公告号CN104254886A

    专利类型发明专利

  • 公开/公告日2014-12-31

    原文格式PDF

  • 申请/专利权人 华为技术有限公司;

    申请/专利号CN201280055505.7

  • 发明设计人 高阳;

    申请日2012-12-21

  • 分类号G10L19/18;

  • 代理机构

  • 代理人

  • 地址 518129 广东省深圳市龙岗区坂田华为总部办公楼

  • 入库时间 2023-12-17 02:55:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-14

    授权

    授权

  • 2015-01-21

    实质审查的生效 IPC(主分类):G10L19/18 申请日:20121221

    实质审查的生效

  • 2014-12-31

    公开

    公开

说明书

本发明要求2012年12月21日递交的发明名称为“自适应编码浊音语 音的基音周期(Adaptively Encoding Pitch Lag For Voiced Speech)”的第 13/724700号美国非临时专利申请案的在先申请优先权,该在先申请案要 求2011年12月21日递交的发明名称为“自适应编码浊音语音的基音周期 (Adaptively Encoding Pitch Lag For Voiced Speech)”的第61/578391号美 国临时专利申请案的在先申请优先权,以上在先申请的内容以引入的方式 并入本文本中

技术领域

本发明大体涉及信号编码领域,且在特定实施例中,涉及一种用于对浊 音语音的基音周期进行编码的系统和方法。

背景技术

传统来讲,参数化语音编码方法都是利用语音信号本身的冗余,来减少 待发送的信息量,并估算一个信号的语音样本在短时段内的参数。这种冗余 起因于语音波形周期性的重复和语音信号的频谱包络慢变过程。不同形式的 语音波形的冗余对应于不同类型的语音信号,例如浊音和清音。就浊音语音 而言,语音信号基本上是周期性的。然而,这种周期性在语音段中是变化的, 而且周期波形在语音段之间缓慢变化。低比特率的语音编码可以很大地受益 于这种周期性。浊音语音周期还称为基音周期,这种基音周期预测通常被命 名为长期预测(LTP)。至于清音,其信号更像是一个随机噪声,可预测性 也较小。

发明内容

根据实施例,一种由语音/音频编码装置实施的双重模式基音周期编码 方法包括,根据基音周期长度、稳定性或两者,使用两种基音周期编码模式 中的一种对一个浊音语音信号中一帧的多个子帧的基音周期进行编码。所述 两种基音周期编码模式包括第一种基音周期编码模式和第二种基音周期编码 模式,其中第一种基音周期编码模式具有相对较高的基音周期编码精确度和 较小的动态范围,而第二种基音周期编码模式具有相对较大的基音周期动态 范围和较低的编码精确度。

根据另一实施例,一种由语音/音频编码装置实施的双重模式基音周期 编码的方法包括,确定一个浊音语音信号是否具有相对较短的基音周期和相 当稳定的基音周期中的一个或者具有相对较长的基音周期和相对稳定性较差 的基音周期中的一个或者是一个相当嘈杂的信号。所述方法进一步包括,在 确定所述浊音语音信号具有相对较短的或相当稳定的基音周期之后,对所述 具有相对较高的基音周期精确度和较小的动态范围的浊音语音信号的基音周 期进行编码,或者在确定所述浊音语音信号具有相对较长的或稳定性较差的 基音周期或者是一个相当嘈杂的信号之后,对所述具有相对较大的基音周期 动态范围和较低的精确度的浊音语音信号的基音周期进行编码。

在又一实施例中,一种支持双重模式基音周期编码的装置,包括一个处 理器和一个存储由所述处理器执行的程序的计算机可读存储介质。所述程序 包括多个指令,以确定浊音语音信号是否具有相对较短的基音周期和相当稳 定的基音周期中的一个或者具有相对较长的基音周期和相对稳定性较差的基 音周期中的一个或者是否是一个相对嘈杂的信号;以及在确定所述浊音语音 信号具有相对较短的或相当稳定的基音周期之后,对具有相对较高的精确度 和较小的动态范围的浊音语音信号的基音周期进行编码;或在确定所述浊音 语音信号具有相对较长的或稳定性较差的基音周期或者是相对嘈杂的信号之 后,对具有相对较大的动态范围和较低的精确度的浊音语音信号的基音周期 进行编码。

附图说明

为了更完整地理解本发明及其优点,现在参考以下结合附图进行的描 述,其中:

图1是码激励线性预测技术(CELP)编码器的方框图。

图2是对应于图1中的CELP编码器的解码器的方框图。

图3是另一具有自适应分量的CELP编码器的方框图。

图4是另一对应于图3中的CELP编码器的解码器的方框图。

图5是基音周期小于子帧大小和半帧大小的浊音语音信号的示例。

图6是基音周期大于子帧大小而小于半帧大小的浊音语音信号的示例。

图7示出了浊音语音信号的频谱的示例。

图8示出了图7中的经过双倍基音周期编码的相同信号的频谱的示例。

图9示出了用于对浊音语音的基音周期进行双重模式的自适应编码的实 施例方法。

图10是可用于实施各种实施例的处理系统的方框图。

具体实施方式

下文将详细论述当前优选实施例的制作和使用。然而,应了解,本发明 提供可在各种具体上下文中体现的许多适用的发明性概念。所论述的具体实 施例仅仅说明用以实施和使用本发明的具体方式,而不限制本发明的范围。

针对浊音或清音,参数编码通过分割频谱包络分量和语音信号的激励分 量来减少语音段的冗余。频谱包络慢变过程可以被描述成线性预测编码 (LPC),也称为短期预测(STP)。低比特率的语音编码也同样受益于短期 预测。这种编码的优点就来自于参数的慢速变化。进一步地,语音信号参数 值可能不会在几毫秒内有很大不同。在8千赫兹(kHz)、12.8kHz或16kHz 采样率时,语音编码算法将10毫秒至30毫秒范围内的语音段作为常用的帧 长。而20毫秒是最常用的帧长。在G.723.1、G.729、G.718、EFR、SMV、 AMR、VMR-WB或AMR-WB等较近期的知名国际标准中已经采用了码激励 线性预测技术(CELP)。CELP是一种编码激励、长期预测和短期预测技术 的结合。尽管不同编解码器的CELP细节可能显著不同,但利用CELP的语 音编码算法在语音压缩领域已经相当流行。

图1示出了CELP编码器100的示例,其中利用综合分析方法可以最小 化合成语音信号102和原始语音信号101之间的加权误差109。CELP编码器 100执行不同的操作或功能。对应的函数W(z)通过误差加权滤波器110实 现。函数1/B(z)通过长期线性预测滤波器105实现。函数1/A(z)通过短 期线性预测滤波器103实现。来自编码激励块108的编码激励107,也称为 固化码本激励,在通过随后滤波器之前乘以增益Gc106调节。短期线性预测 滤波器103通过分析原始信号101实施并由一组系数表示:

A(z)=Σi=1P1+ai·z-i,i=1,2,....,P---(1)

误差加权滤波器110与上述短期线性预测滤波器函数有关。加权滤波器 函数的典型形式可能是

W(z)=A(z/α)1-β·z-1,---(2)

其中β<α,0<β<1,且0<α≤1。长期线性预测滤波器105依赖于信号基音 周期和基音周期增益。可以从原始信号、残余信号或加权原始信号中估计基 音周期。长期线性预测滤波器函数可以表示为

B(z)=1-Gp·z-Pitch   (3)

来自编码激励块108中的编码激励107可由脉冲类似信号或噪声类似信 号组成,这些信号从数学意义上构建或保存在码本中。编码激励索引、量化 增益索引、量化长期预测参数索引,以及量化短期预测参数索引可以从编码 器100传输到解码器。

图2示出了解码器200的示例,该解码器可接收来自编码器100的信 号。编码器200包括输出合成语音信号206的后处理块207。解码器200包 括多个块的组合,多个块包含编码激励块201、长期线性预测滤波器203、 短期线性预测滤波器205,以及后处理块207。解码器200中块的配置类似于 编码器100中对应的块的配置。后处理块207可包含短期后处理和长期后处 理功能。

图3示出了另一CELP编码器300,其通过使用自适应码本块307实施长 期线性预测。自适应码本块307使用过去的合成激励304或在基音周期内重 复过去的激励基音周期。编码器300中的剩余块和分量类似于上面所述的块 和分量。当基音周期相对较大或长时,编码器300可以以整数值编码基音周 期。当基音周期相对较小或短时,该基音周期可以以更加准确的极小值进行 编码。基音周期的周期性信息用来(在自适应码本块307处)产生自适应激 励分量。这时,这种激励分量将乘于增益Gp305(还称为基音周期增益)。 自适应码本块307和编码激励块308的两个由增益控制幅度的激励分量在通 过短期线性预测滤波器303前被加到一起。这两个增益(Gp和Gc)需量化, 然后发送到解码器。

图4示出了解码器400,其可接收来自编码器300的信号。解码器400 包括输出合成语音信号407的后处理块408。解码器400类似于解码器200, 而解码器400中的分量类似于解码器200中对应的分量。然而,解码器400 除了包含其他块(含有编码激励块402、自适应码本401、短期线性预测滤波 器406,以及后处理块408)的组合之外还包含自适应码本块307。后处理块 408可包含短期后处理和长期后处理功能。其他块类似于解码器200中对应 的分量。

由于浊音语音具有相对较强的周期性,因而长期预测可以有效地用在浊 音语音中。浊音语音的相邻基音周期可以彼此相似,这意味着,从数学意义 上来说,下面激励表达中的基音周期增益Gp相对较高或接近1,

e(n)=Gp·ep(n)+Gc·ec(n)   (4)

其中ep(n)是以n为取样序数的子帧,它从使用过去的合成激励304或403 的自适应码本块307或401发送过来。参数ep(n)可以进行自适应地低通滤 波,因为低频区域可能比高频区域更具有周期性或更多谐波。参数ec(n)是 从激励码本308或402(还称为固定码本)发送过来的,它是当前激励贡献。 参数ec(n)可以例如使用高通滤波增强、基音周期增强、色散增强、共振峰 增强等增强。对于浊音语音,来自自适应码本块307或401的ep(n)的贡献 可以是主导的,而且基音周期增益Gp305或404的值大约为1。可以更新每 个子帧的激励。例如,一个典型的帧的大小约为20毫秒,一个典型子帧的 大小约为5毫秒。

对于典型的浊音语音信号来说,一个帧可包括两个以上的基音周期。图 5示出了浊音语音信号500的示例,其中基音周期503小于子帧大小502和 半帧大小501。图6示出了浊音语音信号600的另一示例,其中基音周期603 大于子帧大小602而小于半帧大小601。

通过受益于人类声音特征或人类嗓音产生模型,使用CELP对语音信号 进行编码。CELP算法已经在ITU-T、MPEG、3GPP以及3GPP2等各种标准 中使用。为了更加有效地对语音信号进行编码,可以将语音信号分成不同的 种类,其中每个种类以不同的方式进行编码。例如,在G.718、VMR-WB或 AMR-WB等一些标准中,可以将语音信号分成如下几类:清音 (UNVOICED)、过渡语音(TRANSITION)、普通语音(GENERIC)、浊 音(VOICED)以及噪音(NOISE)。对于每个种类,LPC或STP滤波器用 于表示频谱包络,但是对LPC滤波器的激励可能不一样。UNVOICED和 NOISE种类的语音信号可以使用噪声激励和一些激励增强进行编码。 TRANSITION种类的语音信号可以在不使用自适应码本或LTP的情况下使用 脉冲激励和一些激励增强进行编码。GENERIC种类的语音信号可以使用传 统的CELP方法,例如在G.729或AMR-WB中使用的代数CELP,其中一个 20毫秒(ms)的帧包含四个5ms的子帧。自适应码本激励分量和固化码本激 励分量通过每个帧的一些激励增强产生。第一个和第三个子帧中的自适应码 本的基音周期进行全范围编码,从最小基音周期限制PIT_MIN到最大基音周 期限制PIT_MAX,第二个和第四个子帧中的自适应码本的基音周期与先前编 码的基音周期进行不同地编码。VOICED种类的语音信号的编码与普通语音 信号的编码略有不同,其中第一个子帧中的基音周期进行全范围编码,从最 小基音周期限制PIT_MIN到最大基音周期限制PIT_MAX,其他子帧中的基 音周期与先前编码的基音周期进行不同地编码。例如,假设激励取样率为 12.8kHz,该PIT_MIN值可以是34而PIT_MAX值可以是231。

对于正常语音信号来说,CELP编解码器(编码器/解码器)能够高效工 作,但是对于音乐信号和/或歌声信号来说,低比特率CELP编解码器可能不 工作。对于稳定的浊音语音信号来说,VOICED种类的语音信号的基音周期 编码方法可以通过减少比特率以使用更加差异的基音周期编码对基音周期进 行编码从而提供比GENERIC种类的语音信号的基音周期编码方法更好的性 能。然而,VOICE种类的语音信号的基音周期编码方法可能仍然存在两个问 题。第一,当真实基音周期相当或相对很短时,例如,当真实基音周期小于 PIT_MIN时,性能不足够好。第二,当用于编码的可用比特数目有限时,高 精确度基音周期编码可能产生相当较小的基音周期动态范围。或者,由于编 码比特有限,较大基音周期动态范围可能会导致相对较低精确度的基音周期 编码。例如,4比特的基音周期差分编码可以具有四分之一的样本精确度, 但是只有±2样本动态范围。或者,4比特的基音周期差分编码可以具有±4的 样本动态范围,但是只有二分之一的样本精确度。

关于VOICE种类的语音信号的基音周期编码的第一个问题,当 Fs=12.8kHZ时,PIT_MIN=34到PIT_MAX=231的基音周期范围可以适合各种 人类声音。然而,典型音乐或唱歌信号的真实基音周期可以显著小于CELP 算法中定义的最小限制PIT_MIN=34。当真实基音周期是P时,对应的基频 是F0=Fs/P,其中Fs是取样频率,F0是频谱中第一谐振峰的位置。因此,最 小基音周期限制PIT_MIN实际上可限定CELP算法的最大基频限制 FMIN=Fs/PIT_MIN。

图7示出了浊音语音信号的频谱700的示例,该频谱包括谐振峰701和 频谱包络702。真实基频(第一谐振峰的位置)已经超过最大基频限制FMIN, 这样,CELP算法中已传输的基音周期等同于真实基音周期的双倍或多倍。 作为多倍真实基音周期的错误基音周期可以导致质量下降。换句话说,当谐 波音乐信号或歌声信号的真实基音周期小于CELP算法中限定的最小周期限 制PIT_MIN,已传输的周期可以是真实基音周期的双倍、三倍或多倍。图8 示出了经过双重基音周期编码的相同信号的频谱800的示例(已编码和传输 的基音周期是真实基音周期的双倍)。频谱800包括谐振峰801、频谱包络 802,以及真实谐振峰之间不想要的小峰。图8中的小频谱峰可导致不舒服 的听觉扭曲。

关于VOICE种类的语音信号的基音周期编码的第二问题,相对较短的 基音周期信号或相当稳定的基音周期信号在保证了高精确度基音周期编码时 可以具有好的质量。然而,由于动态范围有限,相对较长的基音周期信号、 稳定性较差的基音周期信号或相当嘈杂的信号的质量会降低。换句话说,当 基音周期编码的动态范围相对较高时,长基音周期信号、稳定性较差的基音 周期信号或相当嘈杂的信号可以具有好的质量,但是相对较短的基音周期信 号或稳定的基音周期信号的质量因基音周期精确度受限可能下降。

本文中提供的系统和方法实施例用于避免VOICE种类的语音信号的基 音周期编码的两个潜在问题。系统和方法实施例用于对基音周期进行双重模 式的自适应地编码,其中每个基音周期编码模式有差别地限定一个基音周期 编码精确度或动态范围。一个基音周期编码模式包括对相对较短的基音周期 信号或稳定的基音周期信号进行编码。另一基音周期编码模式包括对相对较 长的基音周期信号、稳定性较差的基音周期信号,或相当嘈杂的信号进行编 码。下文对双重模式编码进行详细说明。

通常,音乐谐波信号或歌声信号比正常语音信号更平稳。正常语音信号 的基音周期(或基频)可随时间不断变化。然而,音乐信号或歌声信号的基 音周期(或基频)可在相对较长的时长里相对缓慢变化。针对相对较短的基 音周期,为了有效编码,具有精确的基音周期是很有用的。相对较短的基音 周期从一个子帧到下一个子帧变化相对缓慢。这意味着当真实基音周期相当 短时,基音周期编码不需要相当大的动态范围。通常,短基音周期比长基音 周期需要更高的精确度而需要较小的动态范围。针对稳定的基音周期,基音 周期编码不需要相对较大的动态范围,因此,这种基音周期编码着重于高精 确度。相应地,一个基音周期编码模式可用于限定高精确度和相对较小的动 态范围。该基音周期编码模式用来对相对较短的基音周期信号或相当稳定的 基音周期信号进行编码,这些信号在前一子帧和当前子帧之间具有相对较小 的基音周期差异。通过减少基音周期编码的动态范围,可以在对信号子帧的 基音周期进行编码时保存一个或多个比特。可以使用更多的比特用来确保以 基音周期动态范围为代价的高基音周期精确度。

针对相对较长的基音周期信号、稳定性较差的基音周期信号或相当嘈杂 的信号,可以对基音周期进行编码,以具有较低的精确度和更多的动态范 围。这是可能的,因为,长基音周期要求的精确度比短基音周期的低但是需 要更多的动态范围。进一步,变化的基音周期要求的精确度比稳定的基音周 期的低但是需要更多的动态范围。例如,当前一子帧和当前子帧之间的基音 周期差异是2时,四分之一的基音周期精确度可能已经毫无疑义,因为一个 子帧内存在强制的恒定基音周期,这意味着一个子帧内恒定基音周期值的假 设已经不再精确。相应地,其他基音周期编码模式限定了相对较大的动态范 围和较低的基音周期精确度,该模式用来对长的基音周期信号、稳定性较差 的基音周期信号或非常嘈杂的信号进行编码。通过减少基音周期编码中的动 态范围,可以对信号子帧的基音周期进行编码时保存一个或多个比特。可以 使用更多的比特用来确保以基音周期精确度为代价的高基音周期动态范围。

图9示出了用于对浊音语音的基音周期进行双重模式的自适应编码的实 施例方法900。方法900可以由编码器,例如编码器300(或100)实施。在 步骤910中,方法900确定浊音语音信号是否是相对较短的基音周期信号(或 相当稳定的基音周期信号)或该信号是否是相对较长的基音周期信号(或稳 定性较差的基音周期信号或相当嘈杂的信息)。相对较短的基音周期信号或 相当稳定的基音周期浊音语音的示例可以是音乐段、歌声,或女性或孩童歌 声。如果浊音语音信号是相对较短的基音周期信号或相当稳定的基音周期信 号,方法900前进到步骤921。或者,如果浊音语音信号是相对较长的基音 周期信号、稳定性较差的基音周期信号,或相当嘈杂的信号,方法900前进 到步骤931。

在步骤920,方法900使用一个比特,例如指示第一基音周期编码模式 (针对相对较短或相当稳定的基音周期信号)或第二基音周期编码模式(针 对相对较长或稳定性较差的基音周期信号或相当嘈杂的信号)。这一个比特 可设置为0或1以指示第一基音周期编码模式或第二基音周期编码模式。在 步骤921,方法900使用减少的比特数目,例如,根据标准对比于传统CELP 算法,以具有较高或足够精确度和减少的或最小动态范围对基音周期进行编 码。例如,方法900对第一子帧之后的子帧的基音周期进行差分编码以减少 比特数目。

在步骤931,方法900使用减少的比特数目,例如,根据标准对比于传 统CLEP算法,以编码具有减少的或最低精确度和较高或足够的动态范围。 例如,方法900在对第一子帧之后的子帧的基音周期进行差分编码中减少比 特数目。

如果在编码器中实施用于对浊音语音的基音周期进行双重模式的自适应 编码的方法,对应的方法还可由对应的解码器,例如解码器400(或200)实 施。该方法包括接收来自编码器的浊音语音信号以及检测一比特以确定用来 对浊音语音信号进行编码的基音周期编码模式。然后,该方法包括,如果信 号对应于第一模式,解码具有较高精确度和较小动态范围的基音周期,或如 果信号对应于第二模式,解码具有较低精确度和较大动态范围的基音周期。

VOICE种类的语音信号的双重模式基音周期编码方法大大有益于低比特 率编码。在实施例中,每帧中有一个比特用于标识基音周期编码模式。以下 不同的示例包括双重模式基音周期编码方法的不同实施细节。

在第一示例中,浊音语音信号可以在12.8kHz的取样频率下使用每秒 6800比特的编解码器进行编码。表1示出了VOICE种类的语音信号的典型 基音周期编码方法,其中四个连续的子帧分别具有总共23个=(8+5+5+5) 比特。

表1:6.8kbps的编解码器的旧基音周期表

通过使用VOICE种类的语音信号的双重模式基音周期编码方法,第一 基音周期编码模式限定了相当稳定的基音周期或短基音周期,至少对于第二 个和第三个子帧来说,这满足了前一子帧和当前子帧之间的基音周期差异小 于或等于2(同时基音周期小于143)或者这满足了相当短的基音周期(所有 子帧的基音周期大于等于16并小于等于34)。如果不满足所限定的条件, 第一基音周期编码模式对具有高精确度和较少动态范围的基音周期进行编 码。表2示出了第一基音周期编码模式的详细限定。

表2:6.8kbps的编解码器的第一基音周期编码模式中的新基音周期表

不满足上述第一基音周期编码模式的其他情况归类于VOICE种类的语 音信号的第二基音周期编码模式。第二基音周期编码模式对具有低精确度和 相对较大的动态范围进行编码。表3示出了第二基音周期编码模式的详细限 定。

表3:6.8kbps的编解码器的第二基音周期编码模式中的新基音周期表

在上述示例中,新的双重模式基音周期编码解决方案与旧的解决方案具 有相同的总比特率。然而,从16到34的基音周期范围在不牺牲基音周期范 围为34到231的质量下进行编码。可以修改表2和3,使得相比于旧的解决 方案,保持或提高质量同时保存总比特率。修改后的表2和表3在下面称为 表2.1和表3.1。

表2.1:6.8kbps的编解码器的第一基音周期编码模式中的新基音周期表

表3.1:6.8kbps的编解码器的第二基音周期编码模式中的新基音周期表

在第二示例中,浊音语音信号可以在12.8kHz的取采样频率下使用 7600bps的编解码器进行编码。表4示出了VOICE种类的语音信号的典型基 音周期编码方法,其中四个连续的子帧分别具有总共20个=(8+4+4+4)比 特。

表4:7.6kbps的编解码器的旧基音周期表

通过使用VOICE种类的语音信号的双重模式基音周期编码方法,第一 基音周期编码模式限定了相当稳定的基音周期或短的基音周期,至少对于第 二个和第三个子帧来说,这满足了前一子帧和当前子帧之间的基音周期差异 小于或等于1(同时基音周期小于143)或者这满足了相当短的基音周期(所 有子帧的基音周期大于等于16并小于等于34)。如果不满足所限定的条件, 第一基音周期编码模式对具有高精确度和较少动态范围的基音周期进行编 码。表5示出了第一基音周期编码模式的详细限定。

表5:7.6kbps的编解码器的第一基音周期编码模式中的新基音周期表

不满足上述第一基音周期编码模式的其他情况归类于VOICE种类的语 音信号的第二基音周期编码模式。第二基音周期编码模式对具有低精确度和 相对较大的动态范围进行编码。表6示出了第二基音周期编码模式的详细限 定。

表6:7.6kbps的编解码器的第二基音周期编码模式中的新基音周期表

在上述示例中,新的双重模式基音周期编码解决方案与旧的解决方案具 有相同的总比特率。然而,从16到34的基音周期范围在不牺牲基音周期范 围为34到231的质量下进行编码。

在第二示例中,浊音语音信号可以在12.8kHz的取采样频率下使用 9200bps、12800bps或16000bps的编解码器进行编码。表7示出了VOICE种 类的语音信号的典型基音周期编码方法,其中四个连续的子帧分别具有总共 24个=(9+5+5+5)比特。

表7:速率大于等于9.2kbps的编解码器的旧基音周期表

通过使用VOICE种类的语音信号的双重模式基音周期编码方法,第一 基音周期编码模式限定了相当稳定的基音周期或短的基音周期,至少对于第 二个子帧来说,这满足了前一子帧和当前子帧之间的基音周期差异小于或等 于2(同时基音周期小于143)或者这满足了相当短的基音周期(所有子帧的 基音周期大于等于16并小于等于34)。如果不满足所限定的条件,第一基 音周期编码模式对具有高精确度和较少动态范围的基音周期进行编码。表8 示出了第一基音周期编码模式的详细限定。

表8:速率大于等于9.2kbps的编解码器的第一基音周期编码模式中的新基音 周期表

不满足上述第一基音周期编码模式的其他情况归类于VOICE种类的语 音信号的第二基音周期编码模式。第二基音周期编码模式对具有低精确度和 相对较大的动态范围进行编码。表9示出了第二基音周期编码模式的详细限 定。

表9:速率大于等于9.2kbps的编解码器的第二基音周期编码模式中的新基音 周期表

在上述示例中,新的双重模式基音周期编码解决方案与旧的解决方案 具有相同的总比特率。然而,从16到34的基音周期范围在不牺牲或提高基 音周期范围为34到231的质量下进行编码。可以修改表8和9,使得相比于 旧的解决方案,保持或提高质量同时保存总比特率。修改后的表8和表9在 下面称为表8.1和表9.1。

表8.1:速率大于等于9.2kbps的编解码器的第一基音周期编码模式中的新基 音周期表

表9.1:速率大于等于9.2kbps的编解码器的第二基音周期编码模式中的新基 音周期表

在实施例中,可以实施低比特率编解码器的双重模式基音周期编码决策 的过程,其中stab_pit_flag=1意味着设置了第一基音周期编码模式,而 stab_pit_falg=0意味着设置了第二基音周期编码模式。在该过程中,参数 Pit[0]、Pit[1]、Pit[2]和Pit[3]分别是编码器中第一、第二、第三和第四子帧 的经估计的基音周期。该过程可包括以下或类似的代码:

信噪比(SNR)是语音编码的客观测试测量方法之一。加权分段SNR (WsegSNR)是另一种主观测试测量方法,其比SNR稍微靠近真感知质量测 量。SNR或WsegSNR中相对较小的差别可能察觉不到,而SNR或WsegSNR 中的较大差别可能很容易或清晰地察觉到。下文的表10到表15示出了上述 示例中使用/没有使用双重模式基音周期编码的主观测量结果。这些表示出 了双重模式基音周期编码方法可以在包含相当较短的基音周期时显著提高语 音或音乐编码质量。其他听力测试结果还示出了具有真实基音周期小于等于 PIT_MIN的语音或音乐质量在使用双重模式基音周期编码之后显著提高。

表10:具有真实基音周期大于PIT_MIN的清晰语音的SNR

  6.8kbps 7.6kbps 9.2kbps 12.8kbps 16kbps 参照 6.527 7.128 8.102 8.823 10.171 双重模式 6.536 7.146 8.101 8.822 10.182 差异 0.009 0.018 -0.001 -0.001 0.011

表11:具有真实基音周期大于PIT_MIN的清晰语音的WsegSNR

  6.8kbps 7.6kbps 9.2kbps 12.8kbps 16kbps 参照 6.912 7.430 8.356 9.084 10.232 双重模式 6.941 7.447 8.377 9.130 10.288 差异 0.019 0.017 0.021 0.046 0.056

表12:真实基音周期大于PIT_MIN的噪声语音的SNR

  6.8kbps 7.6kbps 9.2kbps 12.8kbps 16kbps 参照 5.208 5.604 6.400 7.320 8.390 双重模式 5.202 5.597 6.400 7.320 8.387 差异 -0.006 -0.007 0.000 0.000 -0.003

表13:真实基音周期大于PIT_MIN的噪声语音的WsegSNR

  6.8kbps 7.6kbps 9.2kbps 12.8kbps 16kbps 参照 5.056 5.407 6.182 7.206 8.231 双重模式 5.053 5.404 6.182 7.202 8.229 差异 -0.003 -0.003 0.000 -0.004 -0.002

表14:具有真实基音周期小于等于PIT_MIN的清晰语音的SNR

  6.8kbps 7.6kbps 9.2kbps 12.8kbps 16kbps 参照 5.241 5.865 6.792 7.974 9.223 双重模式 5.732 6.424 7.272 8.332 9.481

差异 0.491 0.559 0.480 0.358 0.258

表15:具有真实基音周期小于等于PIT_MIN的清晰语音的WsegSNR

  6.8kbps 7.6kbps 9.2kbps 12.8kbps 16kbps 参照 6.073 6.593 7.719 9.032 10.257 双重模式 6.591 7.303 8.184 9.407 10.511 差异 0.528 0.710 0.465 0.365 0.254

图10是可用于实施各种实施例的装置或处理系统1000的方框图。例 如,处理系统1000可以是网络部件的一部分或耦合到网络部件,例如路由 器、服务器或任何合适的网络部件或装置。特定设备可以利用所示的所有部 件,或仅部件的子集,而集成水平随设备的不同而不同。进一步地,设备可 以包含部件的多个实例,如多个处理单元、处理器、存储器、发射器、接收 器等等。处理系统1000可以包括配备有一个或多个输入/输出设备的处理单 元1001,所述输入/输出设备包括扬声器、麦克风、鼠标、触摸屏、小键 盘、键盘、打印机、显示器等等。处理单元1001可包括中央处理单元(CPU) 1010、存储器1020、大容量存储设备1030、视频适配器1040,以及连接到 总线的I/O接口1060。所述总线可以为任何类型的若干总线架构中的一个或 多个,包括存储总线或者存储控制器、外设总线以及视频总线等等。

所述CPU1010可包括任意类型的电子数据处理器。存储器1020可包括 任意类型的系统存储器,比如静态随机存取存储器(SRAM)、动态随机存 取存储器(DRAM)、同步DRAM(SDRAM)、只读存储器(ROM)或其 组合等等。在实施例中,存储器1020可包括在开机时使用的ROM以及执行 程序时使用的程序和数据存储的DRAM。在实施例中,存储器1020是非瞬 时的。大容量存储器设备1030可包括任意类型的存储器设备,其用于存储 数据、程序和其他信息,并使这些数据、程序和其他信息通过总线访问。大 容量存储器设备1030可包括如下项中的一种或多种:固态磁盘、硬盘驱动 器、磁盘驱动器、光盘驱动器等等。

视频适配器1040和I/O接口1060提供接口以耦合外部输入输出设备至 处理单元。如图所示,输入输出设备的示例包括耦合至视频适配器1040的 显示器1090和耦合至I/O接口1060的鼠标/键盘/打印机1070。其它设备可以 耦合至处理单元1001,可以利用附加的或更少的接口卡。例如,可使用串行 接口卡(未示出)将串行接口提供给打印机。

处理单元1001可以包括一个或多个网络接口1050,网络接口可包括有 线链路,如以太网电缆等等,和/或无线链路以接入节点或者一个或多个网 络1080。网络接口1050允许处理单元1001通过网络1080与远程单元通信。 比如,网络接口1050可以通过一个或多个发送器/发射天线以及一个或多个 接收器/接收天线提供无线通信。在实施例中,所述处理单元1001耦合到局 域网或广域网用于数据处理并与远程设备通信进行通信,所述远程设备可包 括其他处理单元、互联网、远程存储设施或诸如此类。

虽然已参考说明性实施例描述了本发明,但此描述并不意图限制本发明。 所属领域的一般技术人员在参考该描述后,会显而易见地认识到说明性实施 例的各种修改和组合,以及本发明的其他实施例。因此,希望所附权利要求 书涵盖任何此类修改或实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号