首页> 中国专利> 修改的离散余弦变换音频编码器的带宽扩展方法和装置

修改的离散余弦变换音频编码器的带宽扩展方法和装置

摘要

一种方法包括针对具有第一频率带内的谱的信号限定过渡频带,其中,过渡频带被限定为第一频率带的一部分,并且位于邻近第一频率带的邻近频率带近旁。该方法:分析过渡频带,以获得过渡频带谱包络和过渡频带激励谱;估计邻近频率带谱包络;通过以信号的基音频率确定的重复周期,周期性地重复至少一部分过渡频带激励谱,来生成邻近频率带激励谱;以及组合邻近频率带谱包络和邻近频率带激励谱,以获得邻近频率带信号谱。还公开了用于执行该方法的信号处理逻辑。

著录项

  • 公开/公告号CN102308333A

    专利类型发明专利

  • 公开/公告日2012-01-04

    原文格式PDF

  • 申请/专利权人 摩托罗拉移动公司;

    申请/专利号CN201080006565.0

  • 申请日2010-02-02

  • 分类号G10L21/02(20060101);G10L19/06(20060101);G10L19/08(20060101);

  • 代理机构11219 中原信达知识产权代理有限责任公司;

  • 代理人李佳;穆德骏

  • 地址 美国伊利诺伊州

  • 入库时间 2023-12-18 04:08:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-04-27

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L21/038 变更前: 变更后: 申请日:20100202

    专利权人的姓名或者名称、地址的变更

  • 2016-04-27

    专利权的转移 IPC(主分类):G10L21/038 登记生效日:20160407 变更前: 变更后: 申请日:20100202

    专利申请权、专利权的转移

  • 2014-03-19

    授权

    授权

  • 2012-02-22

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20100202

    实质审查的生效

  • 2012-01-04

    公开

    公开

说明书

相关申请的交叉引用

本公开涉及:于2007年11月29日提交的美国专利申请No.11/946, 978,代理机构卷号:CML04909EV,题目为METHOD AND  APPARATUS TO FACILITATE PROVISION AND USE OF AN  ENERGY VALUE TO DETERMINE A SPECTRAL ENVELOPE SHAPE  FOR OUT-OF-SIGNAL BANDWIDTH CONTENT;于2008年2月1日提 交的美国专利申请No.12/024,620,代理机构卷号为:CML04911EV, 题目为METHOD AND APPARATUS FOR ESTIMATING HIGH-BAND  ENERGY IN A BANDWIDTH EXTENSION SYSTEM;于2008年2月7日 提交的美国专利申请No.12/027,571,代理机构卷号为: CML06672AUD,题目为METHOD AND APPARATUS FOR  ESTIMATING HIGH-BAND ENERGY IN A BANDWIDTH  EXTENSION SYSTEM;其全部内容通过引用合并于此。

技术领域

本公开涉及音频编码器,并且提供可听内容,更具体地,涉及用 于音频编码器的带宽扩展技术。

背景技术

移动电话上的电话语音通常仅利用可听音频谱的一部分,例如, 300至3400Hz音频谱内的窄带语音。与正常语音相比,这种窄带语音具 有含混质量和降低的可懂度。因而,扩展语音编码器的输出的带宽的 多种方法,被称为“带宽扩展”或“BWE”,可以被应用,以人为地 改进编码器输出的被感知声音质量。

虽然BWE方案可以是参数的或者非参数的,但是大多数已知BWE 方案都是参数的。参数从语音生成的源滤波器模型产生,其中,语音 信号被认为是已经通过声道在听觉上过滤的激励源信号。例如使用线 性预测(LP)技术计算滤波器系数,可以由全极点滤波器对声道建模。 LP系数有效地参数化语音谱包络信息。其他参数方法利用线谱频率 (LSF)、梅尔倒谱系数(MFCC)、以及对数谱包络样本(LES)来对语音谱 包络建模。

当前的多种语音/音频编码器利用输入信号的修改的离散余弦变 换(MDCT)表示,并且因而需要可以应用于基于MDCT的语音/音频编码 器的BWE方法。

附图说明

图1是在实施例中使用的具有用于估计高频率带信号谱的高频率 带附近的过渡频带的音频信号的示意图。

图2是根据实施例的编码器的基本操作的流程图。

图3是示出根据实施例的编码器的操作的进一步细节的流程图。

图4是采用根据实施例的编码器的通信设备的框图。

图5是根据实施例的编码器的框图。

图6是根据实施例的编码器的框图。

具体实施方式

本公开提供用于编码器中的带宽扩展的方法,并且包括:针对具 有第一频率带内的频谱的信号限定过渡频带,其中,该过渡频带被限 定为第一频率带的一部分,并且位于邻近第一频率带的邻近频率带近 旁。该方法:分析过渡频带,以获得过渡频带谱包络和过渡频带激励 谱;估计邻近频率带谱包络;通过以由信号的基音频率(pitch frequency) 确定的重复频率,周期性地重复至少一部分过渡频带激励谱,来生成 邻近频率带激励谱;以及组合邻近频率带谱包络和邻近频率带激励谱, 以获得邻近频率带信号谱。还公开了用于执行该方法的信号处理逻辑。

根据实施例,可以至少使用由对一个频率带,诸如4至7kHz,进行 建模的语音或音频编码器生成的量化MDCT系数,来预测对另一频率 带,诸如7至14kHz,建模的MDCT系数以实现带宽扩展。

现在转到附图,其中,相同的附图标记表示相同的组件,图1是表 示在0到Y kHz的音频谱102上的音频信号101的图100,其不按比例绘 制。信号101具有低频率带部分104、以及不被再现为低频率带语音的 一部分的高频率带部分105。根据实施例,过渡频带103被选择和利用, 以估计高频率带部分105。可以以多种方式获得输入信号。例如,信号 101可以是在通信系统的数字无线信道上接收的、被发送至移动站的语 音。还可以从例如音频回放设备中的存储器从所存储的音频文件中获 得信号101。

图2示出根据实施例的编码器的基本操作。在201,在信号101的第 一频率带104内限定过渡频带103。过渡频带103被限定为第一频率带的 一部分,并且位于邻近频率带(诸如,高频率带部分105)近旁。在203, 分析过渡频带103以获得过渡频带谱数据,并且在205,使用过渡频带 谱数据生成邻近频率带信号谱。

图3示出一个实施例的操作的进一步细节。在301中,类似于201 地限定过渡频带。在303中,分析过渡频带,以获得过渡频带谱数据, 其包括过渡频带谱包络和过渡频带激励谱。在305中,估计邻近频率带 谱包络。然后,通过以由输入信号的基音频率确定的重复频率,周期 性地重复至少一部分过渡频带激励谱,来生成邻近频率带激励谱,如 307中所示。如图309中所示,可以组合邻近频率带谱包络和邻近频率 带激励谱,以获得邻近频率带的信号谱。

图4是示出根据实施例的电子设备400的组件的框图。电子设备可 以是移动站、膝上型计算机、个人数字助理(PDA)、无线电设备、音频 播放器(诸如,MP3播放器)或者任何其他合适设备,其可以经由有线或 者无线传输接收音频信号,并且使用在此公开的实施例的方法和装置 对音频信号进行解码。电子设备400包括输入部分403,其中,根据实 施例,音频信号被提供给信号处理逻辑405。

将理解,图4以及图5和图6是仅用于解释目的,用于向本领域技术 人员示出用于做出和使用在此描述的实施例所必需的逻辑。从而,在 此的附图不是用于例如实现电子设备所必需的所有组件的完整示意 图,而是仅示出便于本领域技术人员理解如何做出和使用在此描述的 实施例所必需的那些组件。从而,还将明白,可以利用多种逻辑配置、 以及所示的任何内部组件、以及其间的任何对应连接,并且这种配置 和对应连接仍然符合在此公开的实施例。

如在此使用的术语“逻辑”包括在一个或多个可编程处理器、 ASIC、DSP、硬布线逻辑或其组合上执行的软件和/或固件。从而,根 据实施例,任何所描述的逻辑,包括例如信号处理逻辑405,都可以以 任何合适方式实现,并且仍然符合在此公开的实施例。

电子设备400可以包括接收器、或收发器、前端部分401和用于接 收信号的任何必需的一个或多个天线。从而,接收器401和/或输入逻辑 403单独地或以组合的形式包括将适于由信号处理逻辑405进一步处理 的合适的音频信号提供给信号处理逻辑405的所有必需逻辑。在一些实 施例中,信号处理逻辑405还可以包括一个或多个码本407和查找表 409。查找表409可以是谱包络查找表。

图5提供信号处理逻辑405的进一步细节。信号处理逻辑405包括估 计和控制逻辑500,其确定表示音频信号的高频率带部分的MDCT系数 的集合。逆-MDCT(IMDCT)501用于将信号转换到时域,然后其经由求 和运算505与音频信号的低频率带部分503组合,以获得带宽扩展音频 信号。然后,带宽扩展音频信号被输出至音频输出逻辑(未示出)。

一些实施例的进一步细节由图6示出,但是所示的一些逻辑可以 不、并且不需要出现在所有实施例中。为了解释的目的,以下,低频 率带被认为覆盖从50Hz到7kHz的范围(名义上称为宽带语音/音频谱), 并且高频率带被认为覆盖从7kHz到14kHz的范围。低频率带和高频率带 的组合即,从50Hz到14kHz的范围,名义上被称为超宽带语音/音频谱。 清楚地,用于低频率带和高频率带的其他选择是可能的,并且仍然符 合实施例。而且,出于说明的目的,作为基线编码器的一部分的输入 框403被示出,以提供以下信号:i)解码的宽带语音/音频信号Swb,ii)至 少与过渡频带对应的MDCT系数,以及iii)基音频率606或对应的基音周 期/延迟。在一些实施例中,输入框403可以仅提供解码的宽带语音/音 频信号,并且在这种情况下,其他信号可以在解码器处从其推导得到。 如图6所示,在601中从输入框403选择量化的MDCT系数的集合,以表 示过渡频带。例如,4到7kHz的频率带可以被用作过渡频带;然而,可 以使用其他频谱部分,并且仍符合实施例。

接下来,使用所选过渡频带MDCT系数以及从解码的宽带语音/ 音频(例如,达到7kHz)计算的所选参数,生成一个集合的估计的MDCT 系数,以指定邻近频率带,例如7-14kHz,中的信号内容。从而,所选 过渡频带MDCT系数被提供给过渡频带分析逻辑603和过渡频带能量 估计器615。通过过渡频带能量估计器逻辑615计算表示过渡频带的量 化MDCT系数中的能量。过渡频带能量估计器逻辑615的输出是与解 码的宽带语音/音频信号的过渡频带中的能量虽然不相同但非常接近的 能量值。

在615中确定的能量值被输入到高频率带能量预测器611中,其 是计算对邻近频率带,例如,7-14kHz的频率带,进行建模的MDCT 系数的能量的非线性能量预测器。在一些实施例中,为了改进高频率 带能量预测器611性能,高频率带能量预测器611可以使用由过零点 计算器619计算的解码的语音的过零点,结合由过渡频带形状估计器 609确定的过渡频带谱部分的谱包络形状。根据过零点值和过渡频带形 状,使用不同的非线性预测器,从而导致增强的预测器性能。在设计 预测器时,大的训练数据库首先基于过零点值和过渡频带形状被分为 多个分区,并且对于这样生成的每个分区,计算独立的预测器系数。

特别地,可以使用量化帧过零点的8-级标量量化器来量化过零点 计算器619的输出,并且同样地,过渡频带形状估计器609可以是对 谱包络形状分级的8-形状谱包络矢量量化器(VQ)。从而,在每帧最多 提供64(即,8×8)个非线性预测器,并且在该帧采用与所选分区对应的 预测器。在多数实施例中,使用少于64个预测器,这是因为64个分 区中的一些没有被从训练数据库中分配足够数量的帧来保证它们的内 含物,并且这些分区可能随后与邻近分区合并。根据实施例,在低能 量帧上训练的独立能量预测器(未示出)可以用于这种低能量帧。

为了计算与过渡频带(4-7kHz)对应的谱包络,表示该频率带中的信 号的MDCT系数首先在框603中由绝对值运算符处理。接下来,处理 后的为零值的MDCT系数被识别,并且归零的幅度被下述值替代:该 值通过在边界非零值MDCT幅度之间的线性内插而获得,在应用线性 内插运算符之前已经按比例缩小了(例如,按系数5)边界非零值MDCT 幅度。上述零值MDCT系数的消除减小了MDCT幅度谱的动态范围, 并且改善了从修改后的MDCT系数计算的谱包络的建模效率。

然后,修改后的MDCT系数经由20*log10(x)运算符(未示出)被转 换到dB域。在从7到8kHz的频率带内,dB谱通过相对于与7kHz对 应的频率索引进行的谱折叠(folding)获得,以进一步减小将被计算用于 4-7kHz频率带的谱包络的动态范围。接下来将逆离散傅立叶变换(IDFT) 应用至dB谱,从而构建4-8kHz频率带,以计算前8个(伪)倒谱系数。 然后,dB谱包络通过对倒谱系数执行离散傅立叶变换(DFT)运算来计 算。

以两种方式来使用得到的过渡频带MDCT谱包络。首先,形成到 过渡频带谱包络矢量量化器的输入,即到过渡频带形状估计器609的 输入,其返回与输入谱包络最接近的预存储谱包络(八个中的一个)的索 引。该索引以及由从解码的语音计算的过零点的标量量化器返回的索 引(八个中的一个)被用于选择最多64个非线性能量预测器中的一个, 如先前详细描述的。其次,所计算的谱包络被用于平坦化过渡频带 MDCT系数的谱包络。可以这样做的一种方式是将每个过渡频带 MDCT系数除以其对应的谱包络值。还可以在对数域中实现平坦化, 在这种情况下,除法运算被减法运算代替。在后者的实施方式中,MDCT 系数符号(或极性)被保留用于随后恢复,这是因为到对数域的转换要求 正值输入。在实施例中,在对数域中实现平坦化。

然后,由框603输出的平坦化的过渡频带MDCT系数(表示过渡频 带MDCT激励谱)被用于生成在7-14kHz的频率带中对激励信号建模的 MDCT系数。在一个实施例中,假设在32kHz采样下的初始MDCT索 引是0和20ms帧大小,与过渡频带对应的MDCT索引的范围可以是 160到279。给出平坦化的过渡频带MDCT系数,使用以下映射,生成 表示与7-14kHz频率带对应的索引280到559的激励的MDCT系数:

MDCTexc(i)=MDCTexc(i-D),i=280,...,559,D<=120.

对于给定帧,根据20ms帧的最后子帧,其是核心编解码器发送的 信息的一部分,的长期预测器(LTP)延迟的值计算频率延迟D的值。根 据该解码的LTP延迟,计算该帧的估计的基音频率值,并且识别该基 音频率值的最大整数倍,以产生小于或等于120的对应的整数频率延 迟值D(在MDCT索引域中被限定)。该方法确保平坦化的过渡频带 MDCT信息的重新使用,从而保护4-7kHz频率带中的MDCT系数和 针对7-14kHz频率带估计的MDCT系数之间的谐波关系。可替换地, 从白噪声序列输入计算的MDCT系数可以用于在7-14kHz频率带中形 成平坦化的MDCT系数的估计。任一种方式,表示7-14kHz频率带中 的激励信息的MDCT系数的估计都通过高频率带激励生成器605形成。

由非线性能量预测器输出的7-14kHz频率带中的MDCT系数的预 测能量值可以基于解码的宽带信号特性被能量适配器逻辑617调整, 以最小化伪迹(artifact)并且提高带宽扩展输出语音的质量。为此目的, 能量适配器617接收除了预测的高频率带能量值之外的以下输入:i) 来自高频率带能量预测器611的预测误差的标准偏差σ,ii)来自浊化水 平(voicing level)估计器621的浊化水平v,iii)节首音/爆破音检测器623 的输出d,以及iv)稳态/过渡检测器625的输出ss。

给出7-14kHz频率带中的MDCT系数的预测和调整的能量值,与 该能量值一致的谱包络选自码本407。这种表征7-14kHz频率带中的 MDCT系数的、对谱包络建模、并且根据该频率带中的能量值被分类 的谱包络的码本被离线训练。与同预测和调整的能量值最接近的能量 级对应的包络由高频率带包络选择器613选择。

所选谱包络由高频率带包络选择器613提供给高频率带MDCT生 成器607,并且然后被应用以使对7-14kHz频率带中的平坦化激励进行 建模的MDCT系数成形。表示高频率带MDCT谱的与7-14kHz频率带 对应的成形的MDCT系数接下来被应用至逆修改余弦变换 (IMDCT)501,以形成具有在7-14kHz频率带中的内容的时域信号。然 后,该信号通过求和运算505与具有达7kHz的内容,即低频率带部分 503,的解码的宽带信号组合,以形成包括达14kHz的信息的带宽扩展 信号。

通过一种方法,上述预测和调整的能量值可以用于促进访问包括 多个对应候选谱包络形状的查找表409。为了支持这种方法,如果希望, 该装置还可以包括在操作中地耦合至信号处理逻辑405的一个或多个 查找表409。这样配置,当合适时,信号处理逻辑405可以容易地访问 查找表409。

将明白,上述信号处理可以通过与基站无线通信的移动站来执行。 例如,基站可以经由传统手段将宽带或窄带数字音频信号发送至移动 站。一旦被接收,则移动站内的信号处理逻辑就执行必要操作,以生 成对于移动站的用户来说更清楚和听起来更愉悦的数字音频信号的带 宽扩展版本。

另外,在一些实施例中,浊化水平估计器621可以与高频率带激 励生成器605结合使用。例如,指示清音语音的浊化水平0可以用于 确定噪声激励的使用。类似地,指示浊音语音的浊化水平1可以用于 确定从上述过渡频带激励推导的高频率带激励的使用。当浊化水平在0 和1之间指示混合浊音语音时,多种激励可以在浊化水平确定的合适 部分被混合和使用。噪声激励可以是伪随机噪声函数,并且如上所述, 可以被认为基于浊化水平填充或修补谱中的空洞。从而,混合高频率 带激励适用于浊音、清音和混合浊音的声音。

图6示出估计和控制逻辑550,其包括过渡频带MDCT系数选择 器逻辑601、过渡频带分析逻辑603、高频率带激励生成器605、高频 率带MDCT系数生成器607、过渡频带形状估计器609、高频率带能量 预测器611、高频率带包络选择器613、过渡频带能量估计器615、能 量适配器617、过零点计算器619、浊化水平估计器621、节首音/爆破 音检测器623、以及SS/过渡检测器625。

输入403提供解码的宽带语音/音频信号Swb、至少与过渡频带对 应的MDCT系数、以及每帧的基音频率(或延迟)。过渡频带MDCT选 择器逻辑601是基线编码器的一部分,并且将用于过渡频带的MDCT 系数的集合提供给过渡频带分析逻辑603和过渡频带能量估计器615。

浊化水平估计:为了估计浊化水平,过零点计算器619可以计算 宽带语音Swb的每帧中的过零点zc的数目,如下:

zc=12(N-1)Σn=0N-2|Sgn(swb(n))-Sgn(swb(n+1))|

其中,

其中,n是样本索引,并且N是样本中的帧大小。在估计和控制 逻辑500中使用的帧大小和百分比重叠是通过基线编码器确定的,例 如,在32kHz采样频率和50%重叠处,N=640。如上计算的zc参数的 值在0到1的范围内。根据zc参数,浊化水平估计器621可以估计浊 化水平v,如下。

其中,ZC和ZC分别表示适当选择的低和高阈值,例如,ZC=0.125并且ZC=0.30。

为了估计高频率带能量,过渡频带能量估计器615从过渡频带 MDCT系数估计过渡频带能量。过渡频带在此被限定为被包括在宽带 内并且接近高频率带的频率带,即,其用作到高频率带的过渡,(在该 示意性示例中,其为约7000-14000Hz)。计算过渡频带能量Etb的一种 方式是对过渡频带内的谱分量,即MDCT系数,的能量求和。

根据过渡频带能量Etb,单位dB(分贝),高频率带能量Ehb0,单位 dB,被估计为

Ehb0=αEtb

其中,系数α和β被选择以最小化基于来自训练语音/音频数据库 的大量帧的高频率带能量的真实和估计值之间的均方差。

估计准确度可以通过使用来自附加语音参数的上下文信息,诸如 过零点参数zc和可以由过渡频带形状估计器609提供的过渡频带谱形 状被进一步增强。先前所述的过零点参数表示语音浊化水平。过渡频 带形状估计器609提供过渡频带包络形状的高分辨率表示。例如,可 以使用过渡频带谱包络形状的矢量量化表示(单位dB)。矢量量化器(VQ) 码本由从大训练数据库计算的、被称为过渡频带谱包络形状参数tbs的 8个形状构成。可以使用zc和tbs参数形成对应zc-tbs参数平面,以实 现改进的性能。如先前所述,zc-tbs平面被分为与zc的8个标量量化 等级和8个tbs形状对应的64个分区。由于缺乏来自训练数据库的足 够的数据点,一些分区可能与附近分区合并。针对zc-tbs平面中的其余 分区中的每个,计算独立预测器系数。

高频率带能量预测器611可以通过在估计Ehb0时使用较高的Etb功率来提供估计准确度的附加改进,

Ehb0=α4Etb4+α3Etb3+α2Etb2+α1Etb1+β.

在这种情况下,五个不同系数,即,α4,α3,α2,α1和β,被选择用于 zc-tbs参数平面的每个分区。由于用于估计Ehb0的以上等式是非线性的, 所以当输入信号电平,即能量,改变时,必须特别注意调节估计的高 频率带能量。实现它的一种方式是估计输入信号电平,单位dB,调高 或调低Etb,以对应于标称信号电平,估计Ehb0,并且调低或调高Ehb0, 以对应于实际信号电平。

高频率带能量的估计倾向于错误。由于过高估计导致伪迹,所以 所估计的高频率带能量偏向于低了与Ehb0的估计误差的标准偏差成比 例的量。即,高频率带能量在能量适配器617中被调整为:

Ehb1=Ehb0-λ·σ

其中,Ehb1是调整后的高频率带能量,单位dB,Ehb0是估计的高 频率带能量,单位dB,λ≥0是比例因子,并且σ是估计误差的标准偏 差,单位dB。从而,在确定估计的高频率带能量电平之后,估计的高 频率带能量电平基于估计的高频率带能量的估计准确度被修改。参考 图6,高频率带能量预测器611另外在估计高频率带能量电平时确定不 可靠性的度量(measure),并且能量适配器617使估计的高频率带能量 电平偏向于低了与不可靠性的度量成比例的量。在一个实施例中,不 可靠性的度量包括估计的高频率带能量电平的误差的标准偏差σ。还可 以在不脱离实施例的范围的情况下,采用不可靠性的其他度量。

通过使估计的高频率带能量“向下偏(biasing down)”,能量过高 估计的可能性(或发生次数)降低,从而降低了伪迹的数目。而且,估计 的高频率带能量减少的量与估计有多好成比例-更加可靠的(即,低σ值) 估计比不太可靠的估计减少较少的量。虽然设计了高频率带能量预测 器611,但是与zc-tbs参数平面的每个分区对应的σ值可以从训练语音 数据库计算并且被存储用于在使估计的高频率带能量“向下偏”中随 后使用。zc-tbs参数平面的分区(<=64)的σ值例如在约4dB到约8dB的 范围内,平均值约为5.9dB。用于该高频率带能量预测器的λ的合适值 例如是1.2。

在现有技术方法中,通过使用不对称成本函数来处理高频率带能 量的过高估计,该不对称成本函数在高频率带能量预测器611的设计 中,比低估的误差更多地处罚高估的误差。与该现有技术方法相比, 在此描述的“向下偏”方法具有以下优点:(A)高频率带能量预测器611 的设计更简单,这是因为其基于标准对称“均方误差”成本函数;(B) 在操作阶段明确地进行“向下偏”(并且在设计阶段不明显地进行),并 且从而“向下偏”的量可以容易地按照所想要的被控制;以及(C)“向 下偏”的量对估计的可靠性的依赖性是明显的和直接的(代替不明显地 取决于在设计阶段期间使用的特定成本函数)。

除了减少由于能量过高估计导致的伪迹之外,上述“向下偏”方 法具有用于浊音帧的附加益处--即,在高频率带谱包络形状估计中掩饰 任何错误,并且从而减少所得到的“有噪声”伪迹。然而,对于清音 帧,如果估计的高频率带能量的减少非常高,则带宽扩展输出语音听 起来不再像超宽带语音。为了应对这一点,估计的高频率带能量根据 其浊化水平在能量适配器617中被进一步调整为

Ehb2=Ehb1+(1-v)·δ1+v·δ2

其中,Ehb2是浊化水平调整的高频率带能量,单位dB,v是从清 音语音的0到浊音语音的1的范围内的浊化水平,并且δ1和δ21>δ2) 是常数,单位dB。δ1和δ2的选择取决于用于“向下偏”的λ的值并且 根据经验被确定,以产生最好的声音输出语音。例如,当λ被选择为 1.2时,δ1和δ2可以分别被选择为3.0和-3.0。注意,对于λ的值的其他 选择可能导致δ1和δ2的不同选择--δ1和δ2的值可以是正的或者负的,或 者具有相反符号。用于清音语音的增加的能量电平与宽带输入相比, 在带宽扩展输出中强调这种语音,并且还帮助选择对于这种清音段的 更合适的谱包络形状。

参考图6,浊化水平估计器621将浊化水平输出至能量适配器617, 其通过基于浊化水平进一步修改估计的高频率带能量电平,基于宽带 信号特性进一步修改估计的高频率带能量电平。进一步修改可以包括 减少用于基本浊音语音的高频率带能量电平和/或增加用于基本清音语 音的高频率带能量电平。

虽然能量适配器617之前的高频率带能量预测器611对于大多数 帧都工作得非常好,但是偶尔存在高频率带能量大体上被过低或过高 估计的帧。从而,一些实施例可以提供这种估计误差,并且使用包括 平滑滤波器的能量跟踪平滑器逻辑(未示出)至少部分地校正它们。从 而,基于宽带信号特性修改估计的高频率带能量电平的步骤可以包括: 平滑估计的高频率带能量电平(其已经基于估计σ和浊化水平v的标准 偏差如上述被在先修改),本质上减小了连续帧之间的能量差。

例如,浊化水平调整后的高频率带能量Ehb2可以使用3-点平均滤 波器被平滑为

Ehb3=[Ehb2(k-1)+Ehb2(k)+Ehb2(k+1)]/3

其中,Ehb3是平滑后的估计,并且k是帧索引。平滑减小了连续帧 之间的能量差,特别是当估计是“异常值”时,即,帧的高频率带能 量估计与相邻帧的估计相比太高或太低。从而,平滑帮助减少输出带 宽扩展语音中的伪迹的数目。3-点平均滤波器引入一个帧的延迟。有或 没有延迟的其他类型滤波器也可以被设计用于平滑能量跟踪。

平滑后的能量值Ehb3可以进一步通过能量适配器617被调整,以 获得最终调整后的高频率带能量估计Ehb。该调整可以涉及基于由稳态 /过渡检测器625输出的ss参数和/或由节首音/爆破音检测器623的d 参数输出减少或增加平滑后的能量值。从而,基于宽带信号特性修改 估计的高频率带能量电平的步骤可以包括:基于帧是稳态还是瞬态来 修改估计的高频率带能量电平(或者在先修改的估计的高频率带能量电 平)的步骤。这可以包括减小用于过渡态帧的高频率带能量电平和/或增 加用于稳态帧的高频率带能量电平,并且可以进一步包括基于节首音/ 爆破音的出现修改估计的高频率带能量电平。通过一种方法,调整高 频率带能量值不仅改变了能量电平,而且改变了谱包络形状,这是因 为高频率带谱的选择依赖于所估计的能量。

如果帧具有足够能量(即,帧是语音帧并且不是静寂帧),则该帧被 限定为稳态帧,并且其在谱的意义上和在能量方面接近其邻近帧中的 每个。如果两个帧之间的Itakura距离低于指定阈值,则两个帧可以被 认为异常接近。还可以使用其他类型的谱距离度量。如果两个帧的宽 带能量的差低于指定阈值,则该两个帧被认为在能量方面接近。不是 稳态帧的任何帧都被认为是过渡帧。稳态帧能够在高频率带能量估计 中比过渡帧更好地掩饰误差。从而,帧的估计的高频率带能量基于ss 参数,即依赖于其是稳态帧(ss=1)还是过渡帧(ss=0),而被调整为

其中,μ2>μ1≥0是根据经验选择的约束,单位dB,以实现良好的 输出语音质量。μ1和μ2的值取决于用于“向下偏”的比例常数λ的选 择。例如,当λ被选择为1.2时,δ1为3.0并且δ2为-3.0,μ1和μ2可以 分别被选择为1.5和6.0。注意,在该示例中,我们稍微增加了用于稳 态帧的估计的高频率带能量,并且显著减小了进一步用于过渡帧的估 计的高频率带能量。注意,对λ、δ1和δ2的值的其他选择可能导致μ1和μ2的不同选择-μ1和μ2的值可以是正的、或者负的、或者具有相反 符号。而且,注意,还可以使用用于识别稳态/过渡帧的其他准则。

基于节首音/爆破音检测器623的输出d,估计的高频率带能量电 平可以按以下调节:当d=1时,其指示对应帧包括节首音,例如,从 静寂到清音或浊音、或者爆破音的过渡。如果在前帧的宽带能量低于 特定阈值并且当前和前帧之间的能量差超过另一阈值,则在当前帧检 测节首音/爆破音。在另一实施方式中,当前帧和前帧的过渡频带能量 被用于检测节首音/爆破音。还可以采用检测节首音/爆破音的其他方 法。节首音/爆破音表示由于以下原因导致的特定问题:A)节首音/爆破 音附近的高频率带能量的估计困难;B)由于采用典型的块处理,预回 声类型的伪迹可能在输出语音中出现;以及C)爆破音(例如,[p]、[t]、 以及[k]),在它们的初始能量爆发之后,在宽带中具有类似于特定齿擦 音(例如,[s]、[∫]、和[3])的特性,与高频率带中非常不同,导致能量 过高估计和随之发生的伪迹。用于节首音/爆破音(d=1)的高频率带能量 调整如下进行:

其中,k是帧索引。对于开始于节首音/爆破音被检测的帧(k=1)的 前Kmin个帧,高频率带能量被设置为最低可能值Emin。例如,Emin可以 被设置为-∞dB或者具有最低能量的高频率带谱包络形状的能量。对于 随后的帧(即,对于由k=Kmin+1到k=Kmax给出的范围),只在帧的浊化 水平v(k)超过阈值V1时,才进行能量调整。代替浊化水平参数,具有 合适阈值的过零点参数zc也可以用于该目的。只要该范围内的帧的浊 化水平小于或等于V1,节首音能量调整就立即停止,即,Ehb(k)被设置 为等于Ehb4(k),直到检测到下一个节首音。如果浊化水平v(k)大于V1, 则对于k=Kmin+1到k=KT,高频率带能量减小固定量Δ。对于k=KT+1 到k=Kmax,高频率带能量通过预先指定的序列ΔT(k-KT)并且在 k=Kmax+1处,从Ehb4(k)-Δ朝向Ehb4(k)逐渐增加,Ehb(k)被设置为等于 Ehb4(k),并且其继续,直到检测到下一个节首音。用于基于节首音/爆 破音的能量调整的参数的典型值例如为Kmin=2, KT=3,Kmax=5,V1=0.9,Δ=-12dB,ΔT(1)=6dB,以及ΔT(2)=9.5dB。对于 d=0,不进行能量的进一步调整,即,Ehb被设置为等于Ehb4。从而,基 于宽带信号特性修改估计的高频率带能量电平的步骤可以包括:基于 节首音/爆破音的发生修改估计的高频率带能量电平(或在先修改的估 计的高频率带能量电平)的步骤。

上述估计的高频率带能量的调整帮助最小化带宽扩展输出语音中 的伪迹的数目,并且从而提高其质量。虽然用于调整估计的高频率带 能量的操作的顺序以特定方式呈现,但是本领域技术人员将认识到, 关于顺序的这种独特性并非必要,并且同样地,其他顺序可以使用并 且将符合在此公开的实施例。而且,在实施例中,被描述用于修改高 频率带能量电平的操作可以选择性地被应用。

从而,在此已经公开了信号处理逻辑和操作方法,用于在约7到 14kHz的范围内估计高频率带谱部分,并且确定MDCT系数,使得可 以提供具有在高频率带中的谱部分的音频输出。对于本领域普通技术 人员来说,等价于在此公开的实施例的其他改变可以发生并且仍然符 合由以下权利要求在此限定的实施例的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号