首页> 中国专利> 用于使用时域噪声/修补整形对编码音频信号进行编码和解码的设备及方法

用于使用时域噪声/修补整形对编码音频信号进行编码和解码的设备及方法

摘要

一种用于对编码音频信号进行解码的设备,包括:频谱域音频解码器(602),其用于生成第一组第一频谱部分的第一解码表示,第一解码表示是频谱预测残差值;频率再生器(604),其用于使用第一组第一频谱部分中的第一频谱部分来生成重构的第二频谱部分,其中,重构的第二频谱部分另外地包括频谱预测残差值;以及逆预测滤波器(606),其用于使用包括在编码音频信号中的预测滤波器信息(607)使用第一组第一频谱部分和重构的第二频谱部分的频谱残差值来执行关于频率的逆预测。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-26

    授权

    授权

  • 2016-07-20

    著录事项变更 IPC(主分类):G10L21/0388 变更前: 变更后: 申请日:20140715

    著录事项变更

  • 2015-08-05

    实质审查的生效 IPC(主分类):G10L21/0388 申请日:20140715

    实质审查的生效

  • 2015-07-08

    公开

    公开

说明书

本发明涉及音频编码/解码,并且更具体地涉及使用智能间隙填充(IGF) 的音频编码。

音频编码为使用心理声学知识处理音频信号中的冗余及无关部分的信 号压缩领域。如今音频编解码器通常需要大约60kbps/声道以对几乎任何类 型的音频信号进行感知透明编码。较新的编解码器旨在使用如带宽扩展 (BWE)的技术通过利用信号中的频谱相似度来降低编码比特率。BWE方 案使用低比特率参数集来表示音频信号的高频(HF)分量。HF频谱填充有 来自低频(LF)区域的频谱内容,并且频谱形状、倾斜和时域连续性被调整 以维持原始信号的音质和音色。这样的BWE方法使得音频编解码器即使在 大约24kbps/声道的低比特率下仍能够保持良好的品质。

音频信号的存储或传输经常受到严格的比特率约束。在过去,仅当有很 低的比特率可用时编码器才被迫大幅度地减小传输音频带宽。

现代音频编解码器如今能够通过使用带宽扩展(BWE)方法[1]对宽带 信号进行编码。这些算法依赖于高频内容(HF)的参数化表示以及参数驱动 的后处理的应用,高频内容(HF)的参数化表示借助于将解码信号的波形编 码的低频部分(LF)转移至HF频谱区域中(“修补(patching)”)来生成。 按照BWE方案,高于给定的所谓的交叉频率的HF频谱区域的重构通常基 于频谱修补。通常,HF区域包括多个相邻修补,并且这些修补中的每一个 源自低于给定的交叉频率的LF频谱的带通(BP)区域。现有技术系统通过 将一组相邻子带系数从源区域拷贝至目标区域来有效地执行滤波器组表示 例如正交镜像滤波器组(QMF)内的修补。

在如今的音频编解码器中发现的提高压缩效率从而使得能够在低比特 率下扩展音频带宽的另一种技术是音频频谱的适当部分的参数驱动合成替 换。例如,原始音频信号的类噪声信号部分可以用在解码器中生成并且由边 信息参数缩放的人造噪声来替换,而基本上不损失主观品质。一个示例是包 括在MPEG-4高级音频编码(AAC)中的感知噪声替代(PNS)工具[5]。

还提供了也使得能够在低比特率下扩展带宽的另一种技术,其是包括在 MPEG-D统一语音与音频编码(USAC)[7]中的噪声填充技术。通过由于太 粗糙的量化导致的量化器的死区而推断出的频谱间隙(零)随后以解码器中 的人工噪声来填充并且通过参数驱动后处理来缩放。

另一种现有技术系统被称为精确频谱替换(ASR)[2-4]。除了波形编解 码器以外,ASR还采用专用信号合成段,其在解码器处恢复信号的感知上重 要的正弦部分。此外,[5]中描述的系统依赖于波形编码器的HF区域中的正 弦建模以使得扩展的音频带宽在低比特率下仍具有还不错的感知品质。所有 这些方法涉及将数据变换至除了改进的离散余弦变换(MDCT)以外的第二 域的变换并且还涉及用于保留HF正弦分量的相当复杂的分析/合成段。

图13A示出了用于如在例如高效高级音频编码(HE-ACC)中使用的带 宽扩展技术的音频编码器的示意图。线1300处的音频信号被输入至包括低 通1302和高通1304的滤波器系统。通过高通滤波器1304输出的信号被输 入至参数提取器/编码器1306。参数提取器/编码器1306被配置成用于计算和 编码参数如例如频谱包络参数、噪声添加参数、丢失的谐波参数或逆滤波参 数。所提取的这些参数被输入至比特流复用器1308。低通输出信号被输入至 通常包括下采样器1310和核心编码器1312的功能的处理器。低通1302将 要被编码的带宽限于与出现在线1300上的原始输入音频信号中出现的带宽 相比明显较小的带宽。这由于以下事实而提供了明显的编码增益:核心编码 器中出现的全部功能仅必须对具有减小了的带宽的信号进行操作。当例如线 1300上的音频信号的带宽为20kHz时并且当低通滤波器1302具有例如4kHz 的带宽时,为了满足采样定理,理论上充分的是,下采样器之后的信号的采 样频率为8kHz,其基本上降低至必须至少是40kHz的音频信号1300所需的 采样速率。

图13B示出了相应的带宽扩展解码器的示意图。解码器包括比特流复用 器1320。比特流解复用器1320提取核心解码器1322的输入信号和参数解码 器1324的输入信号。在上面的示例中,核心解码器输出信号的采样速率为 8kHz并且因此带宽为4kHz,然而,为了完成带宽重构,高频重构器1330 的输出信号必须处于20kHz,其要求至少40kHz的采样速率。为了使这可能, 需要具有上采样器1325和滤波器组1326的解码器处理器。然后,高频重构 器1330接收由滤波器组1326输出的经频率分析的低频信号,并且使用高频 带的参数化表示对由图13A的高通滤波器1304限定的频率范围进行重构。 高频重构器1330具有几个功能如使用低频范围中的源范围来再生上频率范 围、频谱包络调整、噪声添加功能以及在上频率范围内引入丢失的谐波的功 能,并且为了解释较高频率范围通常与较低频率范围具有不同的音调的事 实,如果在图13A的编码器中施加以及计算,则还包括逆滤波操作。在 HE-ACC中,丢失的谐波在解码器侧上被重新合成,并且被精确地置于重构 频带的中间。因此,在某个重构频带中确定了的所有丢失的谐波线未被放置 在位于原始信号中的频率值处。替代地,那些丢失的谐波线被置于某个频带 的中心内的频率处。从而,当原始信号中的丢失的谐波线被放置得很靠近原 始信号中的重构频带边界时,通过将重构信号中的该丢失的谐波线置于频带 的中心处而引入的频率中的误差接近生成并且发送了参数的个别重构频带 的50%。

此外,尽管典型的音频核心编码器操作在频谱域中,然而核心解码器生 成时域信号,然后该时域信号通过滤波器组1326功能再次被转换至频谱域。 这引入了额外的处理延迟,由于首先从频谱域变换成频域以及再次变换成通 常不同的频域的串联处理而可能引入伪声,并且当然这还要求大量的计算复 杂度以及因此电力,当带宽扩展技术被应用于移动装置如移动电话、平板或 手提计算机等时,电力尤其是问题。

当前音频编解码器使用BWE作为编码方案的主要部分来执行低比特率 音频编码。然而,BWE技术限于仅替换高频(HF)内容。此外,它们不能 使得高于给定的交叉频率的感知上重要的内容能够被波形编码。因此,由于 在大多数系统中不考虑信号的音调谐波的精确对准,所以当实现BWE时, 当代音频编解码器丢失HF细节或音品。

目前现有技术的BWE系统的另一缺点是需要将音频信号变换至新的域 中以实现BWE(例如,从MDCT域变换至QMF域)。这导致同步复杂、 额外的计算复杂度以及增加了的存储需求。

特别地,如果在滤波器组或时间频率变换域中实现带宽扩展系统,则仅 存在有限的可能性来控制带宽扩展信号的时域形状。通常,时域粒度受在相 邻变换窗之间使用的跳距(hop-size)的限制。这可以导致带宽扩展频谱范 围内的不想要的预回声和后回声。为了增大时域粒度,可以使用较短的跳距 或较短的带宽扩展帧,但这由于以下事实而导致比特率开销:对于某个时间 段,较大数量的参数通常是每个时间帧的某组参数必须要被发送。否则,如 果使得各个时间帧太大,则尤其对于音频信号的瞬变部分的会有预回声和后 回声生成。

本发明的目的是提供一种改进的编码/解码概念。

该目的通过权利要求1的用于对编码音频信号进行解码的设备、权利要 求10的用于对音频信号进行编码的设备、权利要求16的解码方法、权利要 求18的编码方法或权利要求19的计算机程序来实现。

本发明基于以下发现:通过将时域噪声整形(TNS)或时域片(tile)整 形(TTS)技术与高频重构组合来获得改进的质量和降低的比特率,特别是 对于包括在音频信号中经常出现的瞬变部分的信号而言,提高了品质并且减 小了比特率。编码器侧上的通过关于频率的预测来实现的TNS/TTS处理重 构音频信号的时间包络。取决于该实现,即,当在不仅包括源频率范围而且 还包括要在频率再生解码器中重构的目标频率范围的频率范围内确定时域 噪声整形滤波器时,时域包络不仅被应用于直至间隙填充起始频率的核心音 频信号而且还被应用于重构的第二谱部分的频谱范围。从而,在不使用时域 片整形的情况下出现的预回声和后回声被减少或消除。这通过不仅在直至某 个间隙填充起始频率的核心频率范围内而且在高于核心频率范围的频率范 围内应用关于频率的逆预测来完成。为此,在应用关于频率的预测之前,在 解码器侧上执行频率再生或频率片生成。然而,取决于是否对滤波之后的频 谱残差值或包络整形之前的(全)频谱值执行能量信息计算,可以在频谱包 络整形之前或频谱包络整形之后应用关于频率的预测。

关于一个或更多个频率片的TTS处理另外地建立源范围与重构范围之 间的或两个相邻的重构范围或频率片内的相关的连续性。

按照一种实现,优选地使用复数TNS/TTS滤波。从而,避免临界采样 的实数表示如MDCT的(时域)混叠伪声。通过不仅应用改进的离散余弦 变换还应用改进的离散正弦变换,除了获得复数改进的变换以外还能够在编 码器侧上计算复数TNS滤波器。然而,仅改进的离散余弦变换值即复数变 换的实部被发送。然而,在解码器侧上,可以使用先前或后续帧的MDCT 频谱来估计变换的虚部以使得在解码器侧上可以再次在关于频率的逆预测 中再次应用复数滤波器,并且特别是源范围与重构范围之间的边界上的预测 以及还有重构范围内的频率相邻的频率片之间的边界上的预测。

另一方面基于以下发现:可以通过在核心解码器所操作的相同频谱域中 执行带宽扩展来解决和克服一方面与带宽扩展的分离而另一方面与核心编 码有关的问题。因此,提供对全音频信号范围进行编码和解码的全速率核心 解码器。这不要求在编码器侧上需要下采样器以及在解码器侧上要求上采样 器。替代地,在全采样速率或全带宽域中执行全部处理。为了获得高编码增 益,对音频信号进行分析以找到必须要以高分辨率编码的第一组第一频谱部 分,其中,在一种实施方式中,第一组第一频谱部分可以包括音频信号的音 调部分。另一方面,音频信号中的构成第二组第二频谱部分的非音调或有噪 声的分量以低频谱分辨率参数化地被编码。编码音频信号则仅需要以高频谱 分辨率按照波形保留方式被编码的第一组第一频谱部分以及另外地使用源 自第一组的频率“片”以低分辨率参数化地被编码的第二组第二频谱部分。 在解码器侧上,作为全频带解码器的核心解码器按照波形保留方式即无需知 道存在任何另外的频率再生来重构第一组第一频谱部分。然而,如此生成的 频谱具有很多频谱间隙。这些间隙随后通过使用一方面使用应用参数化数据 的频率再生以及另一方面使用源频谱范围即由全速率音频解码器重构的第 一频谱部分用本发明的智能间隙填充(IGF)技术来填充。

在另外的实施方式中,通过噪声填充而非带宽复制或频率片填充重构的 频谱部分包括第三组第三频谱部分。由于编码概念一方面在核心编码/解码的 单个域中操作而另一方面在频率再生的单个域中操作的事实,通过不使用频 率再生的噪声填充或者通过使用不同的频率范围处的频谱片的频率再生, IGF不仅仅被限于填充较高的频率范围,而且还可以填充较低的频率范围。

此外,要强调的是,关于频谱能量的信息、关于各个能量的信息或者各 个能量信息、关于残存能量的信息或残存能量信息、关于片能量的信息或片 能量信息、或关于丢失能量的信息或丢失能量信息可以不仅包括能量值,而 且还可以包括(例如,绝对)幅度值、电平值或任何其他值,根据这些可以 得到最终能量值。因此,关于能量的信息可以包括例如能量值本身和/或电平 的值和/或幅度的值和/或绝对幅度的值。

又一方面基于以下发现:相关性情况不仅对于源范围重要,而且对于目 标范围也重要。此外,本发明承认以下情况:在源范围和目标范围中可以出 现不同的相关情况。例如,当考虑具有高频噪声的语音信号时,该情况可以 是:当扬声器被放置在中间时,包括具有小数量的泛音的话音信号的低频频 带在左声道和右声道中高度相关。然而,由于与右侧上的另外的高频噪声或 非高频噪声相比在左侧上可能存在不同的高频噪声的事实,高频部分可以强 烈地不相关。从而,当可以执行忽略该情况的简单的间隙填充操作时,则高 频部分也可以相关,并且这可以在重构信号中生成严重的空间隔离伪声。为 了解决这个问题,计算重构频带或通常必须要使用第一组第一频谱部分被重 构的第二组第二频谱部分的参数化数据以标识第二频谱部分或者不同地陈 述的重构频带的第一双声道表示或不同的第二双声道表示。因此,在编码器 侧上,针对第二频谱部分计算双声道标识,即,针对另外地计算重构频带的 能量信息的部分计算双声道标识。然后,解码器侧上的频率再生器根据第一 组第一频谱部分即源范围中的第一部分以及第二部分的参数化数据如频谱 包络能量信息或任何其他频谱包络数据以及另外地根据第二部分的双声道 标识即重新考虑的情况下的该重构频带的双声道标识来生成第二频谱部分。

优选地,双声道标识作为每个重构频带的标签被发送,并且该数据被从 编码器发送至解码器,然后解码器按照由优选地计算的关于核心频带的标签 所表示的对核心信号进行解码。则按照一种实现,核心信号以两种立体声表 示(例如,左/右和中间/侧)被存储,并且对于IGF频率片填充,按照由对 于智能间隙填充或重构频带即对于目标范围的双声道标识标签所表示的,选 择源片表示来匹配目标片表示。

要强调的是,该过程不仅对立体声信号即对左声道和右声道起作用,而 且对于多声道信号也工作。在多声道信号的情况下,可以以该方式对几对不 同声道如左声道和右声道作为第一对,左环绕声道和右环绕声道作为第二对 以及中心声道和LFE声道作为第三对进行处理。对于较高的输出声道格式 如7.1、11.1等,可以确定其他配对。

又一方面基于以下发现:可以通过信号自适应频率片填充方案来弥补音 频品质的损伤。为此,在编码器侧上执行分析以找出某个目标区域的最匹配 的候选源区域。针对目标区域标识某个源区域的匹配信息连同可选地一些附 加信息一起被生成,并且作为边信息被发送至解码器。然后,解码器使用该 匹配信息来应用频率片填充操作。为此,解码器从发送的数据流或数据文件 读取匹配信息,并且访问针对某个重构频带而识别的源区域,并且如果在匹 配信息中表示,则另外地执行该源区域数据的某种处理以生成重构频带的原 始频谱数据。然后,使用频谱包络信息对该频率片填充操作的结果即重构频 带的原始频谱数据进行整形,以最终获得包括第一频谱部分如音调部分的重 构频带。然而,这些音调部分不是通过自适应片填充方案生成,但是这些第 一频谱部分由音频解码器或核心解码器直接输出。

自适应频谱片选择方案可以以低粒度来操作。在该实现中,源区域被细 分成通常交叠的源区域,并且目标区域或重构频带通过非交叠的频率目标区 域来给出。那么,在编码器侧上确定每个源区域与每个目标区域之间的相似 度,并且通过匹配信息来标识源区域与目标区域的最佳匹配对,并且在解码 器侧上,在匹配信息中标识的源区域用于生成重构频带的原始频谱数据。

出于获得较高粒度的目的,允许每个源区域移动以获得其中相似度最大 的某个滞后。该滞后可以如频率点一样精细,并且允许源区域与目标区域之 间的甚至更佳的匹配。

此外,除了仅标识最佳匹配对以外,该相关滞后还可以在匹配信息内被 发送,并且另外地,甚至符号可以被发送。当在编码器侧上确定该符号为负 时,则还在匹配信息内发送相应的符号标签,而在解码器侧上,将源区域频 谱值乘以“-1”,或者在复数表示中,将源区域频谱值“旋转”180°。

本发明的又一实现应用片白化操作。频谱的白化去除粗糙的频谱包络信 息,并且强调评估片相似度最感兴趣的频谱精细结构。因此,在计算互相关 测量之前,一方面对频率片和/或另一方面对源信号进行白化。当使用预定的 过程仅对片进行白化时,向解码器发送表示应当对IGF内的频率应用相同预 定的白化处理的白化标志。

关于片选择,优选地使用相关性的滞后来从频谱上将再生的频谱移动整 数数量个的变换频率点。取决于基本的变换,频谱移动可能需要加法相关。 在奇数滞后的情况下,该片另外地通过乘以交替的时域序列-1/1被调制以补 偿MDCT内的每个其他频带的频率颠倒表示。此外,当生成频率片时,应 用相关性结果的符号。

此外,优选地使用片修剪和稳定化,以确保避免由同一重构区域或目标 区域的快速变化的源区域导致的伪声。为此,不同的所标识的源区域之间的 相似度分析被执行,并且当源片以高于阈值的相似度类似于其他源片时,则 可以从一组潜在的源片中丢弃该源片,因为其与其他源片高度相关。此外, 作为一种片选择稳定化,优选地,如果当前帧中的源片中没有一个源片与当 前帧中的目标片相关(好于给定阈值),则保持来自先前帧的片顺序。

音频编码系统有效地以宽范围的比特率对任意音频信号进行编码。然 而,对于高比特率,本发明的系统会聚于透明度,对于低比特率,使感知烦 恼最小化。因此,可用比特率的主要份额用于在编码器中对信号的仅感知上 最相关的结构进行波形编码,并且结果的频谱间隙在解码器中以大致近似原 始频谱的信号内容来填充。非常有限的比特预算被消耗以通过从编码器发送 至解码器的专用边信息控制参数驱动的所谓的频谱智能间隙填充(IGF)。

随后参照附图描述本发明的优选实施方式,在附图中:

图1A示出了用于对音频信号进行编码的设备;

图1B示出了与图1A的编码器匹配的用于对编码音频信号进行解码 的解码器;

图2A示出了解码器的优选实现;

图2B示出了编码器的优选实现;

图3A示出了由图1B的频谱域解码器生成的频谱的示意性表示;

图3B示出了表示比例因子频带的比例因子与用于重构频带的能量之 间的关系及噪声填充频带的噪声填充信息的表格;

图4A示出了频谱域编码器的用于将频谱部分的选择应用至第一组第 一频谱部分和第二组频谱部分的功能;

图4B示出了图4A的功能的实现;

图5A示出了MDCT编码器的功能;

图5B示出了使用MDCT技术的解码器的功能;

图5C示出了频率再生器的实现;

图6A示出了具有时域噪声整形/时域片整形功能的音频编码器;

图6B示出了使用时域噪声整形/时域片整形技术的解码器;

图6C示出了时域噪声整形/时域片整形功能的具有频谱预测滤波器 和频谱整形器的不同顺序的又一功能;

图7A示出了时域片整形(TTS)功能的实现;

图7B示出了与图7A的编码器实现相匹配的解码器实现;

图7C示出了原始信号和不具有TTS的扩展信号的频谱表示;

图7D示出了示出智能间隙填充频率与时域片整形能量之间的对应关 系的频率表示;

图7E示出了原始信号和具有TTS的扩展信号的频谱图;

图8A示出了具有频率再生的双声道解码器;

图8B示出了示出表示和源/目的范围的不同组合的表格;

图8C示出了示出具有图8A的频率再生的双声道解码器的功能的流 程图;

图8D示出了图8A的解码器的更详细的实现;

图8E示出了用于要由图8A的解码器解码的双声道处理的编码器的 实现;

图9A示出了具有使用再生频率范围的能量值的频率再生技术的解码 器;

图9B示出了图9A的频率再生器的更详细的实现;

图9C示出了示出图9B的功能的示意图;

图9D示出了图9B的解码器的又一实现;

图10A示出了与图9A的解码器匹配的编码器的框图;

图10B示出了用于说明图10A的参数计算器的又一功能的框图;

图10C示出了示出图10A的参数化计算器的又一功能的框图;

图10D示出了图10A的参数化计算器的又一功能的框图;

图11A示出了具有解码器中的频谱片填充操作的特定源范围识别的 又一解码器;

图11B示出了图11A的频率再生器的又一功能;

图11C示出了用于与图11A中的解码器协作的编码器;

图11D示出了图11C的参数计算器的实现的框图;

图12A和图12B示出了用于示出源范围和目标范围的频率示意图;

图12C示出了两个信号的示例相关的图;

图13A示出了具有带宽扩展的现有技术编码器;以及

图13B示出了具有带宽扩展的现有技术解码器。

图1A示出了用于对音频信号99进行编码的设备。音频信号99被输入 至时间频谱转换器100,时间频谱转换器100用于将具有采样速率的音频信 号转换成由该时间频谱转换器输出的频谱表示101。频谱101被输入至用于 分析频谱表示101的频谱分析器102。频谱分析器101被配置成确定要以第 一频谱分辨率被编码的第一组第一频谱部分103以及要以第二频谱分辨率被 编码的不同的第二组第二频谱部分105。第二频谱分辨率小于第一频谱分辨 率。第二组第二频谱部分105被输入至用于计算具有第二频谱分辨率的频谱 包络信息的参数计算器或参数化编码器104。此外,设置频谱域音频编码器 106用于生成具有第一频谱分辨率的第一组第一频谱部分的第一编码表示 107。此外,参数计算器/参数化编码器104被配置成用于生成第二组第二频 谱部分的第二编码表示109。第一编码表示107和第二编码表示109被输入 至比特流复用器或比特流形成器108,并且块108最终输出编码音频信号以 进行传输或存储在存储装置上。

通常,第一频谱部分如图3A的306会由两个第二频谱部分如307A和 307B围绕。在HE AAC中并不是这种情况,在HE AAC中核心编码器频率 范围频带受限。

图1B示出了与图1A的编码器匹配的解码器。第一编码表示107被输入 至用于生成第一组第一频谱部分的第一解码表示的频谱域音频解码器112, 该解码表示具有第一频谱分辨率。此外,第二编码表示109被输入至用于生 成具有低于第一频谱分辨率的第二频谱分辨率的第二组第二频谱部分的第 二解码表示的参数化解码器114。

解码器还包括用于使用第一频谱部分再生具有第一频谱分辨率的重构 的第二频谱部分的频率再生器116。频率再生器116执行片(tile)填充操作, 即,使用第一组第一频谱部分的片或一部分并且将第一组第一频谱部分拷贝 至具有第二频谱部分的重构范围或重构频带中,并且通常执行频谱包络成形 或由参数化解码器114所输出的第二解码表示所指示的其他操作,即,通过 使用关于第二组第二频谱部分的信息。如在线117上的频率再生器116的输 出端处所示,经解码的第一组第一频谱部分和重构的第二组频谱部分被输入 至频谱时间转换器118,频谱时间转换器118被配置成用于将第一解码表示 和重构的第二频谱部分转换成时间表示119,该时间表示具有某个高的采样 速率。

图2B示出了图1A的编码器的实现。音频输入信号99被输入至与图1A 的时间频谱转换器100对应的分析滤波器组220。然后,在TNS块222中执 行时域噪声整形操作。因此,至与图2B的音调掩蔽块对应的图1A的频谱分 析器102的输入在当时域噪声整形/时域片整形操作不被应用时可以是全部 频谱值,并且在当如2B所示的块222的TNS操作被应用时可以是频谱残差 值。对于双声道信号或多声道信号,可以另外地执行联合声道编码228以使 得图1A的频谱域编码器106可以包括联合声道编码块228。此外,提供用 于执行无损数据压缩的熵编码器232,其也是图1A的频谱域编码器106的 一部分。

频谱分析器/音调掩蔽226将TNS块222的输出分离成与第一组第一频 谱部分103对应的核心频带和音调分量以及与图1A的第二组第二频谱部分 105对应的残差分量。被表示为IGF参数提取编码的块224对应于图1A的 参数化编码器104,并且比特流复用器230对应于图1A的比特流复用器108。

优选地,分析滤波器组222被实现为MDCT(改进的离散余弦变换滤波 器组),并且该MDCT用于使用用作频率分析工具的改进的离散余弦变换将 信号99变换至时间频率域。

优选地,频谱分析器226应用音调掩蔽。该音调掩蔽估计段用于将信号 中的音调分量与类噪声分量分离开。这使得核心编码器228能够使用心理声 学模块对所有音调分量进行编码。音调掩蔽估计段可以按照大量不同的方式 来实现,并且优选地被实现成在功能方面类似于在语音/音频编码的正余弦建 模中使用的正弦轨迹估计段[8,9]或在[10]中描述的基于HILN模型的音频编 码器。优选地,使用一种易于实现而不必须维持生死轨迹的实现,但是还可 以使用任何其他音调或噪声检测器。

IGF模块计算源区域与目标区域之间存在的相似度。目标区域将由来自 源区域的频谱表示。使用互相关方法来进行源区域与目标区域之间的相似度 的测量。目标区域被划分成nTar个非交叠频率片。对于目标区域中的每个片, 从固定起始频率起创建nSrc个源片。这些源片以0与1之间的因子交叠,其 中0表示0%交叠,1表示100%交叠。这些源片中的每一个与各种滞后处的 目标片相关,以找出与目标片最佳地匹配的源片。最佳匹配片数量被存储在 ttleNum[tdx_tar]中,在其处与目标最相关的滞后被存储在 xcorr_lag[tdx_tar][tdx_src]中,并且相关的符号被存储在xcorr_stgn[tdx_tar][tdx_src] 中。在高度负相关的情况下,源片需要在解码器处进行片填充处理之前乘以 -1。由于使用音调掩蔽来保存音调分量,所以IGF模块还要注意不覆写频谱 中的音调分量。带状能量参数用于存储目标区域的能量,其使得能够准确地 重构频谱。

该方法相对于经典的SBR[1]具有某些优点的原因在于:由核心编码器保 存多音调信号的谐波网格,而仅正弦波之间的间隙填充有来自源区域的最匹 配的“整形噪声”。该系统相比ASR(精确频谱替换)[2-4]而言的另一优点 是不存在信号合成段,该信号合成段在解码器处创建信号的重要部分。替代 地,该任务由核心编码器接管,使得能够保存频谱的重要分量。所提出的系 统的另一优点是特征所提供的连续的可伸缩性。对于每个片,仅使用 ttleNum[tdx_tar]以及xcorr_lag=0,其被称为粗粒度匹配,并且当为每个片使用 变量xcorr_lag时,可以用于低比特率,使得能够较佳地匹配目标频谱和源频 谱。

另外,提出了片选择稳定化技术,其移除频域伪声如颤音噪声或音乐噪 声。

在立体声声道对的情况下,应用另外的联合立体声处理。这是必要的, 因为对于某个目的范围,信号可以来自高度相关的平移(panned)声音源。 在针该特定区域而选择的源区域非良好相关的情况下,虽然能量针对目的区 域被匹配,但空间图像可能由于不相关的源区域而受损。编码器分析每个目 的区域能量频带,通常执行频谱值的互相关,并且如果超过某个阈值,则为 该能量频带设置联合标签。在解码器中,如果未设置联合立体声标签,则单 独地处理左声道能量频带和右声道能量频带。在设置联合立体声标签的情况 下,在联合立体声域执行能量和修补两者。IGF区域的联合立体声信息类似 于核心编码的联合立体声信息被用信号发送,包括在预测情况下表示预测的 方向是从下混合至残差还是从残差值下混合的标签。

能量可以根据L/R域中的传送能量来计算。

midNrg[k]=leftNrg[k]+rightNrg[k];

sideNrg[k]=leftNrg[k]-rightNrg[k];

其中,k是变换域中的频率索引。

另一解决方案是在联合立体声域中针对其中联合立体声是活动的频带 直接计算和发送能量,所以在解码器侧不需要额外的能量变换。

源片总是根据中间/侧矩阵来创建:

midTile[k]=0.5·(leftTile[k]+rightTile[k])

sideTile[k]=0.5·(leftTile[k]-rightTile[k])

能量调整:

midTile[k]=midTile[k]*midNrg[k];

sideTile[k]=sideTile[k]*sideNrg[k];

联合立体声->LR变换:

如果没有另外的参数被编码:

leftTile[k]=midTile[k]+sideTile[k]

rightTile[k]=midTile[k]-sideTile[k]

如果有另外的预测参数被编码并且如果用信号发送的方向是从中间至 侧:

ideTile[k]=sideTile[k]-predictionCoeff·midTile[k]

leftTile[k]=midTile[k]+sideTile[k]

rightTile[k]=midTile[k]-sideTile[k]

如果用信号发送的方向是从侧至中间:

midTilel[k]=midTile[k]-predictionCoeff·sideTile[k]

leftTile[k]=midTile1[k]-sideTile[k]

rightTile[k]=midTile1[k]+sideTile[k]

该处理确保:根据用于再生成高度相关的目的区域和平移目的区域的 片,即使源区域不相关,结果的左声道和右声道仍表示相关和平移声音源, 保留了这样的区域的立体声图像。

换言之,在比特流中,传送表示是否应当使用L/R或M/S作为一般联 合立体声编码的示例的联合立体声标签。在解码器中,首先,如与由核心频 带的联合立体声标签表示的,核心信号被解码。第二,核心信号被存储在L/R 和M/S表示中。对于IGF片填充,如由IGF频带的联合立体声信息表示, 源片表示被选择以匹配目标片表示。

时域噪声整形(TNS)是标准技术并且是ACC[11-13]的一部分。TNS 可以被认为是感知编码器的基本方案的扩展,在滤波器组与量化段之间插入 可选的处理步骤。TNS模块的主要任务是将所产生的量化噪声隐藏在瞬变类 似信号的时域掩蔽区域中,从而导致更高效的编码方案。首先,TNS在变换 域例如MDCT中使用“前向预测”计算一组预测系数。然后,这些系数用 于平坦化信号的时域包络。当量化影响经TNS滤波的频谱时,量化噪声也 在时间上平坦。通过在解码器侧上应用逆TNS滤波,量化噪声根据TNS滤 波器的时域包络被整形,因此量化噪声短暂地被掩蔽。

IGF基于MDCT表示。为了高效编码,优选地,必须使用大约20ms 的长块。如果这样的长块内的信号包括瞬变信号,则由于片填充而在IGF频 谱带中出现可听见的预回声和后回声。图7C示出了由于IGF的在瞬变开始 之前的典型预回声效果。在左侧上,示出了原始信号的频谱图,在右侧上, 示出了没有进行TNS滤波的带宽扩展信号的频谱图。

在IGF背景下,通过使用TNS来减小该预回声效果。在此,当在解码 器中对TNS残差信号执行频谱再生时,TNS用作时域片整形(TTS)工具。 照例使用编码器侧上的全频谱来计算和应用所需的TTS预测系数。TNS/TTS 起始和终止频率不受IGF工具的IGF起始频率fIGFstart的影响。与传统的 TNS相比,TTS终止频率被增大至IGF工具的终止频率,其高于fIGFstart。 在解码器侧上,再次对全频谱即核心频谱加上再生的频谱加上来自音调图的 音调分量(参见图7E)应用TNS/TTS系数。TTS的应用对于以下是必需的: 形成再生的频谱的时域包络以再次与原始信号的包络匹配。所以,减小了示 出的预回声。另外,仍然照例使用TNS对信号中的低于fIGFstart的量化噪声 进行整形。

在传统的解码器中,对音频信号的频谱修补破坏修补边界处的频谱相 关,并且因此通过引入分散而损害音频信号的时域包络。因此,对残差信号 执行IGF片填充的另一益处在于:在应用整形滤波器之后,片边界无缝相关, 从而导致对信号的更加逼真的时域再现。

在本发明的编码器中,经历了TNS/TTS滤波、音调掩蔽处理和IGF参 数估计的频谱缺乏除了音调分量以外的任何高于IGF起始频率的信号。该稀 疏频谱现在由核心编码器使用算术编码和预测编码的原理来编码。这些编码 的分量连同信令比特形成音频的比特流。

图2A示出了对应的解码器实现。图2A中的与编码音频信号对应的比 特流被输入至解复用器/解码器,解复用器/解码器相对于图1B将被连接至块 112和114。比特流解复用器将输入的音频信号分离成图1B的第一编码表示 107和图1b的第二编码表示109。具有第一组第一频谱部分的第一编码表示 被输入至与图1b的频谱域解码器112对应的联合声道解码块204。第二编码 表示被输入至未在图2A中示出的参数化解码器114,然后被输入至与图1B 的频率再生器116对应的IGF块202。频率再生所需要的第一组第一频谱部 分经由线203被输入至IGF块202。此外,在联合声道解码204之后,在音 调掩蔽块206中应用具体的核心解码以使得音调掩蔽206的输出对应于频谱 域解码器112的输出。然后,通过组合器208执行组合,即,其中组合器208 的输出现在具有全范围频谱但仍处于TNS/TTS滤波域的帧构建。然后,在 块210中,使用经由线109提供的TNS/TTS滤波器信息执行逆TNS/TTS操 作,即,TTS边信息优选地包括在由频谱域编码器106生成的第一编码表示 中,或者可以被包括在第二编码表示中,频谱域编码器106可以是例如简单 的AAC或USAC核心编码器。在块210的输出处,提供直至最大频率为止 的完整频谱,其是由原始输入信号的采样速率限定的全范围频率。然后,在 合成滤波器组212中执行频谱/时间转换以最终获得音频输出信号。

图3A示出了频谱的示意性表示。该频谱按照比例因子频带SCB被细分, 其中,在图3A示出的示例中具有7个比例因子频带SCB1至SCB7。如图 3A中示意性地示出的,比例因子频带可以是以AAC标准限定的AAC比例 因子频带,并且具有至上频率的增大的带宽。优选的是不从频谱的一开始即 在低频处执行智能间隙填充,而是在309处示出的IGF起始频率处开始IGF 操作。因此,核心频带从最低频率扩展至IGF起始频率。在IGF起始频率 之上,应用频谱分析以将高分辨率频谱分量304、305、306、307(第一组第 一频谱部分)与由第二组第二频谱部分表示的低分辨率分量分离开。图3A 示出了被示例性地输入至频谱域编码器106或联合声道编码器228的频谱, 即,核心编码器在全范围下操作,但是对大量的零频谱值进行编码,即,这 些零频谱至被量化成零或者在量化前后被设置成零。无论如何,核心解码器 操作在全范围,即,如频谱会如所示出的一样,即,核心解码器不必非得知 道具有较低频谱分辨率的第二组第二频谱部分的任何智能间隙填充或编码。

优选地,高分辨率由频谱线如MDCT线的线状(line-wise)编码来限定, 而第二分辨率或低分辨率通过例如仅计算每比例因子频带的单个频谱值来 限定,其中,比例因子频带覆盖几条频率线。从而,第二低分辨率关于其频 谱分辨率远低于通常由核心编码器如AAC或USAC核心编码器所应用的线 状编码定义的第一或高分辨率。

关于比例因子或能量计算,在图3B中示出了该情况。由于编码器是核 心编码器的事实以及由于在每个频带中可以存在但不是必须存在第一组频 谱部分的事实,核心编码器不仅在低于IGF起始频率309的核心范围中而且 还在高于IGF起始频率直至最大频率fIGFstop的范围内计算每个频带的比例因 子,fIGFstop小于或等于采样频率的二分之一即fs/2。从而,图3a的编码音调部 分302、304、305、306、307以及在该实施方式中连同比例因子SCB1至SCB7 对应于高分辨率频谱数据。低分辨率频谱数据从IGF起始频率开始被计算, 并且对应于能量信息值E1、E2、E3、E4,其连同比例因子SF4至SF7一起 被发送。

特别地,当核心编码器处于低比特率条件下时,可以在核心频带即频率 低于IGF起始频率,即在比例因子频带SCB1至SCB3中另外地应用另外的 噪声填充操作。在噪声填充中,存在被量化成了零的几条相邻的频谱线。在 解码器侧上,这些量化成零的频谱值被重新合成,并且经重新合成的频谱值 的大小使用噪声填充能量如图3B中的308处示出的NF2被调整。尤其相对 于USAC中的比例因子可以以绝对值或相对值给出的噪声填充能量对应于 被量化成零的该组频谱值的能量。这些噪声填充频谱线还可以被视为第三组 第三频谱部分,其在没有任何依赖于使用来自其他频率的频率片的频率再生 的IGF操作的情况下通过简单的噪声填充合成来生成,所述噪声填充合成用 于使用来自源范围的频谱值以及能量信息E1、E2、E3、E4来重构频率片。

优选地,计算能量信息的频带与比例因子频带一致。在其他实施方式中, 应用能量信息值分组以使得例如对于比例因子频带4和5仅发送单个能量信 息值,但是甚至在该实施方式中,分组的重构频带的边界与比例因子边界的 边界一致。如果应用不同的频带分离,则可以应用某些重新计算或合成,并 且这可以根据某个实现而合乎情理。

优选地,图1A的频谱域编码器106是如图4A中所示的心理声学驱动 的编码器。通常,如按照例如MPEG2/4AAC标准或MPEG1/2,层3标准 所示,要在变换成了频谱范围(图4A中的401)之后被编码的音频信号转 发至比例因子计算器400。比例因子计算器由心理声学模型控制,该心理声 学模型另外地接收要量化的音频信号或如在MPEG1/2层3或按照MPEG  AAC标准中接收音频信号的复数频谱表示。心理声学模型针对每个比例因子 频带计算用于表示心理声学阈值的比例因子。另外,然后,比例因子通过公 知的内外迭代循环的协作或通过任何其他适当的编码过程被调整以使得实 现某些比特率条件。一方面要量化的频谱值和另一方面所计算的比例因子被 输入至量化器处理器404。在简单的音频编码器操作中,要量化的频谱值通 过比例因子加权,并且然后经加权的频谱值被输入至固定的量化器,该固定 的量化器通常具有至上幅度范围的压缩功能。然后,在量化器处理器的输出 端处,确实存在量化索引,然后量化索引被转发至熵编码器,熵编码器通常 具有对于相邻频率值或在本领域也称作零值的“运行(run)”的一组零量化 索引的特定并且非常有效的编码。

然而,在图1A的音频编码器中,量化器处理器通常接收关于来自频谱 分析器的第二频谱部分的信息。从而,量化器处理器404弄清楚:在量化器 处理器404的输出中,如由频谱分析器102识别的第二频谱部分为零或者具 有由编码器或解码器承认为零表示的表示,零表示可以很高效地被编码,尤 其当在频谱中存在零值的“运行”时。

图4B示出了量化器处理器的实现。MDCT频谱值可以被输入至设置成 零块410。然后,在在块412中通过比例因子执行加权之前,第二频谱部分 就已经被设置成零。在另一实现中,不提供块410,但是在加权块412之后 的块418中执行设置成零协作。在又一实现中,还可以在量化器块420中的 量化之后的设置成零块422中执行设置成零操作。在该实现中,不会出现块 410和418。一般地,根据具体实现来提供块410、418、422中的至少之一。

然后,在块422的输出端处,获得与图3A中示出的频谱对应的经量化 的频谱。然后,该经量化的频谱被输入至熵编码器如图2B中的232,其可以 是Huffman编码器或按照例如USAC标准定义的算术编码器。

彼此交替地或者并行地设置的设置成零块410、418、422由频谱分析器 424来控制。优选地,频谱分析器包括公知的音调检测器的任何实现或者包 括操作地用于将频谱分离成要以高分辨率编码的分量以及要以低分辨率编 码的分量的任何不同类型的检测器。在频谱分析器中实现的其他这样的算法 可以是语音活动检测器、噪声检测器、话音检测器或根据不同频谱部分的频 谱信息或关于分辨率要求的相关联的元数据进行判决的任何其他检测器。

图5A示出了图1A的时间频谱转换器的优选实现,例如按照AAC或 USAC来实现。时间频谱转换器100包括由瞬变检测器504控制的加窗器 (windower)502。当瞬变检测器504检测到瞬变时,则从长窗口至短窗口 的切换被用信号发送给加窗器。然后,加窗器502针对交叠的块计算加窗的 帧,其中每个加窗的帧通常具有2N个值如2048个值。然后,在块变换器 506内执行变换,并且该块变换器通常另外地提供抽取(decimation)来使 得执行组合的抽取/变换以获得具有N个值如MDCT频谱值的频谱帧。从而, 对于长窗口操作,块506的输入端处的帧包括2N个值如2048个值并且频谱 帧则具有1024个值。那么,然而,当执行8个短块,并且其中每个短块与 长窗口相比具有1/8的加窗时域值并且每个频谱块长块相比具有1/8的频谱 值时,对短块执行切换。从而,当该抽取与加窗器的50%的交叠操作组合时, 频谱是时域音频信号99的临界采样的版本。

随后,参照图5B,图5B示出了图1B的频率再生器116和频谱时间转 换器118或图2A的块208、212的组合操作的具体实现。在图5B中,考虑 特定的重构频带如图3A的比例因子频带6。该重构频带中的第一频谱部分 即图3a的第一频谱部分306被输入至帧构建器/调整器块510。此外,比例 因子频带6的重构的第二频谱部分也被输入至帧构建器/调整器510。此外, 比例因子频带6的能量信息如图3B的E3也被输入至块510。重构频带中的 重构的第二频谱部分已经使用源范围通过频率片填充被生成,并且则重构频 带对应于目标范围。现在,执行帧的能量调整以因此最终获得具有N个值的 完整重构的帧如例如在图2A的组合器208的输出端处获得的。然后,在块 512中,执行逆块变换/插值以在块512的输入端处获得例如124个频谱值的 248个时域值。然后,在块514中执行合成加窗操作,块514再次由作为编 码音频信号中的边信息被发送的长窗口/短窗口表示来控制。然后,在块516 中,执行与先前时间帧的交叠/相加操作。优选地,MDCT应用50%的交叠, 使得对于2N个值的每个新的时间帧,最终输出N个时域值。50%的交叠由 于以下事实而被强烈地优选:其提供临界采样以及由于块516中的交叠/相加 操作从一个帧至下一个帧的连续交叉。

如图3A中的301处所示,例如对于与图3A的比例因子频带6一致的 设想的重构频带,可以不仅在IGF起始频率之下而且还在IGF起始频率之 上另外地应用噪声填充操作,然后,噪声填充频谱值也可以被输入至帧构建 器/调整器510,并且在该块中还可以应用噪声填充频谱值的调整,或者在被 输入至帧构建器/调整器510之前,就已经可以使用噪声填充能量来调整噪声 填充频谱值。

优选地,IGF操作,即,使用来自其他部分的频谱值进行的频谱片填充 操作可以被应用于完整的频谱。从而,频谱片填充操作不仅可以应用于IGF 起始频率之上的高频带中,而且还可以应用于低频带中。此外,不使用频谱 片填充的噪声填充也不仅可以应用于IGF起始频率之下,而且还可以应用于 IGF起始频率之上。然而,已经发现,如图3A中所示,当噪声填充操作限 于IGF起始频率之下的频谱范围时并且当频率片填充操作限于IGF起始频 率之上的频谱范围时,可以获得高品质和高效音频编码。

优选地,目标片(TT)(具有大于IGF起始频率的频率)受制于全速率 编码器的比例因子频带边界。从其获取信息的源片(ST),即,低于IGF起 始频率的频率的源片不受制于比例因子频带边界。ST的大小应当对应于相 关联的TT的大小。这使用下面的示例来示出。TT[0]具有10个MDCT频 率点(bin)的长度。这精确地对应于两个后续的SCB的长度(如4+6)。然 后,要与TT[0]相关的所有可能的ST也具有10个频率点的长度。与TT[0] 相邻的第二目标片TT[1]具有15个频率点I的长度(具有7+8的长度的SCB)。 然后,其ST具有15个频率点的长度而非TT[0]的10个频率点的长度。

假如出现不能找到用于具有目标片的长度的ST的TT的情况(当例如 TT的长度大于可用源范围时),则不计算相关性,并且不将源范围多次拷贝 至该TT中(一个接一个进行拷贝以使得第二拷贝的最低频率的频率线在频 率上紧紧跟随第一拷贝的最高频率的频率线),直到完全填充目标片TT。

随后,参照图5C,图5C示出了图1B的频率再生器116或图2A的IGF 块202的又一优选实施方式。块522是频率片生成器,其不仅接收目标频带 ID而且另外还接收源频带ID。示例性地,在编码器侧上确定了:图3A的 比例因子频带3非常好地适合于重构比例因子频带7。从而,源频带ID将是 2,目标频带ID将是7。基于该信息,频率片再生器522应用复制或谐波片 填充操作或任何其他片填充操作以生成频谱分量523的原始第二部分。频谱 分量的原始第二部分具有与第一组第一频谱部分中包括的频率分辨率相同 的频谱分辨率。

然后,重构频带如图3A的307的第一频谱部分被输入至帧构建器524, 并且原始第二部分523也被输入至帧构建器524。然后,调整器526使用由 增益因子计算器528计算的重构频带的增益因子对重构帧进行调整。然而, 重要地,帧中的第一频谱部分不受调整器526影响,而是重构帧的仅原始第 二部分受调整器526的影响。为此,增益因子计算器528分析源频带或原始 第二部分523并且额外地分析重构频带中的第一频谱部分以最终找到正确的 增益因子527,使得当设想比例因子频带7时由调整器526输出的经调整的 帧的能量具有能量E4

在该背景下,非常重要的是,相比于HE-AAC来评估本发明的高频重 构准确度。这将相对于图3A中的比例因子频带7来说明。假定现有技术编 码器如图13A中示出的编码器将要以高分辨率编码的频谱部分307检测为 “丢失的谐波”。然后,将该频谱分量的能量连同关于该重构频带如比例因 子频带7的频谱包络信息一起发送至解码器。然后,解码器将重建丢失的谐 波。然而,在其处由图13B的现有技术解码器重构丢失的谐波307的频谱值 将位于由重构频率390表示的频率处的频带7的中间。从而,本发明避免会 由图13D的现有技术解码器引入的频率误差391。

在一种实现中,频谱分析器还被实现成:计算第一频谱部分与第二频谱 部分之间的相似度并且基于所计算的相似度针对重构范围内的第二频谱部 分确定尽可能地与第二频谱部分匹配的第一频谱部分。然后,在该可变的源 范围/目的范围实现中,参数化编码器会额外地将针对每个目的范围表示匹配 源范围的匹配信息引入至第二编码表示中。然后,在解码器侧上,该信息将 由图5C的频谱片生成器522使用,图5C示出了原始第二部分523的基于源 频带ID和目标频带ID的生成。

此外,如图3A中所示,频谱分析器被配置成对直至最大分析频率的频 谱表示进行分析,最大分析频率仅是低于采样频率的二分之一的小数量,并 且优选地是采样频率的至少四分之一或通常较高。

如所示出的,编码器在无下采样的情况下进行操作,并且解码器在无上 采样的情况下进行操作。换言之,频谱域音频编码器被配置成生成具有奈奎 斯特频率的频谱表示,该奈奎斯特频率由与原始输入的音频信号的采样速率 来限定。

此外,如图3A中所示,频谱分析器被配置成对频谱表示进行分析,该 频谱表示始于间隙填充起始频率并且止于由该频谱表示中包括的最大频率 表示的最大频率,其中,从最小频率向上延伸至间隙填充起始频率的频谱部 分属于第一组频谱部分,并且其中,具有高于间隙填充频率的频率值的另外 的频谱部分如304、305、306、307另外地被包括在第一组第一频谱部分中。

如所概述的,频谱域音频解码器112被配置成使得由第一解码表示中的 频谱值表示的最大频率等于具有采样速率的时间表示中包括的最大频率,其 中,第一组第一频谱部分中的最大频率的频谱值为零或不为零。不管怎样, 对于第一组频谱分量中的该最大频率而言,存在关于比例因子频带的比例因 子,不论如在图3A和图3B的背景下所讨论的该比例因子频带中的所有频谱 值被设置成零还是不被设置成零,均生成和发送该比例因子。

因此,本发明的优点在于:相对于增大压缩效率的其他参数化技术,例 如,噪声替代和噪声填充(这些技术专门用于类噪声局部信号内容的有效表 示),本发明使得能够对音调分量进行准确的频率再现。目前,没有现有技 术通过频谱间隙填充来解决任意信号内容的有效参数化表示,而不限制低频 带(LF)和高频带(HF)中的固定的先验划分。

本发明系统的实施方式改进现有技术方法,从而甚至在低比特率的情况 下仍提供高压缩效率、没有或仅有小量的感知烦恼以及全音频带宽。

一般系统包括:

●全频带核心编码

●智能间隙填充(片填充或噪声填充)

●由音调掩蔽选择的核心中的稀疏音调部分

●全频带的联合立体声对编码,包括片填充

●对片的TNS

●IGF范围内的频谱白化

迈向更高效系统的第一步骤是去除将频谱数据变换成与核心编码的变 换域不同的第二变换域的需要。当大多数音频编解码器诸如例如AAC使用 MDCT作为基本变换,在MDCT域也执行BWE是有用的。BWE系统的第 二要求将是保存音调网格的需要,由此甚至HF音调分量被保存,从而编码 音频的品质优于现有系统。为了小心处理上面提到的关于BWE方案的两个 要求,提出了称作智能间隙填充(IGF)的新系统。图2B示出了编码器侧 上的所提出的系统的框图,图2A示出了解码器侧上的系统。

图6A示出了本发明的另一实现中的用于对编码音频信号进行解码的设 备。用于解码的设备包括:频谱域音频解码器602,其用于生成第一组频谱 部分的第一解码表示;以及频率再生器604,其连接在频谱域音频解码器602 的下游,用于使用第一组第一频谱部分中的第一频谱部分来生成重构的第二 频谱部分。如603处所示,第一频谱部分和第二频谱部分中的频谱值是频谱 预测残差值。为了将这些频谱预测残差值变换成全频谱表示,提供了频谱预 测滤波器606。该逆预测滤波器被配置成使用第一组第一频率和重构的第二 频谱部分的频谱残差值来执行关于频率的逆预测。频谱逆预测滤波器606由 被包括在编码音频信号中的滤波器信息来配置。图6b示出了图6A的实施方 式的更详细的实现。频谱预测残差值603被输入至频率片再生器612,该频 率片再生器612生成关于重构频带或某个第二频率部分的原始频谱值,从而 现在具有与第一频谱表示的高分辨率相同的分辨率的该原始数据被输入至 频谱整形器614。频谱整形器现在使用比特流中传输的包络信息来对频谱进 行整形,然后频谱整形的数据被施加至频谱预测滤波器616,该频谱预测滤 波器616使用从编码器经由比特流发送至解码器的滤波器信息607来最终生 成全频谱值的帧。

在图6B中,假定:在编码器侧上,在计算包络信息之后,执行经由比 特流发送且经由线607使用的滤波器信息的计算。因此,换言之,与图6B 的解码器匹配的编码器将首先计算频谱残差值,然后会使用频谱残差值来计 算包络信息,例如如图7A中所示。然而,对于某些实现而言,其他实现也 是有用的,其中,在在编码器侧上执行TNS或TTS滤波之前,计算包络信 息。然后,在在块624中执行频谱整形之前,应用频谱预测滤波器622。从 而,换言之,在应用频谱整形操作624之前,生成(全)频谱值。

优选地,计算复数值TNS滤波器或TTS滤波器。这在图7A中被示出。 原始音频信号被输入至复数MDCT块702。然后,在复数域执行TTS滤波 器计算和TTS滤波。然后,在块706中,计算IGF边信息,以及还计算任 何其他操作如用于编码的频谱分析等。然后,由块706生成的第一组第一频 谱部分由708处示出的心理声学模型驱动编码器编码以获得在图7A中的 X(k)处表示的第一组第一频谱部分,然后所有这些数据被转发至比特流复用 器710。

在解码器侧上,编码数据被输入至解复用器720来一方面分离IGF边信 息,另一方面分离TTS边信息以及第一组第一频谱部分的编码表示。

然后,块724用于根据一个或更多个实数值频谱来计算复数频谱。然后, 实数值频谱和复数频谱两者均被输入至块726以生成对于重构频带的第二组 第二频谱部分中的重构的频率值。然后,对完整地获得并且片填充的全频带 帧执行逆TTS操作728,以及在解码器侧上,在块730中执行最终的逆复数 MDCT操作。从而,复数TNS滤波器信息的使用使得当不仅被应用在核心 频带或单独的片频带内而且被应用在核心/片边界或片/片边界上时能够自动 生成片边界处理,最终其重新引入片之间的频谱相关性。片边界上的该频谱 相关性不能仅通过生成频率片和对频率片的原始数据执行频谱包络调整来 获得。

图7C示出了原始信号(左侧面板)与不使用TTS的扩展信号的比较。 可以看到,存在由750处示出的上频率范围中的扩大部分示出的强伪声。然 而,当750处的同一频谱部分与图7C的伪声相关的分量750相比时,在图 7E中却不发生这种情况。

实施方式或本发明的音频编码系统使用可用比特率的主要份额以在编 码器中对信号的仅感知上最相关的结构进行波形编码,并且结果的频谱间隙 在解码器中被填充有大致近似于原始频谱的信号内容。非常有限的比特预算 被消耗以通过从编码器发送至解码器的专用边信息来控制参数驱动的所谓 的频谱智能间隙填充(IGF)。

音频信号的存储或传输通常受到严格的比特率约束。在过去,仅当很低 的比特率可用时,编码器才被迫大幅度地减小传输音频带宽。现代音频编解 码器如今能够通过使用类似于频谱带宽复制(SBR)[1]的带宽扩展(BWE) 方法对宽带信号进行编码。这些算法依赖于高频内容(HF)的参数化表示以 及参数驱动的后处理的应用,高频内容(HF)根据解码信号的波形编码低频 部分(LF)借助于至HF频谱区域的移动(“修补”)来生成。在BWE方案 中,高于给定的所谓的交叉频率的HF频率区域的重构通常基于频谱修补。 通常,HF区域包括多个相邻的修补,并且这些修补中每一个源自低于给定 的交叉频率的LF频谱的带通(BP)区域。现有技术系统通过将相邻子带系 数组从源区域复制到目标区域来有效地执行滤波器组表示内的修补。

如果在滤波器组或时间频率变换域中实现BWE系统,则仅存在一个有 限的可能性来控制带宽扩展信号的时域形状。通常,时域粒度受限于在相邻 变换窗之间使用的跳距。这可以导致BWE频谱范围内的不想要的预回声和 后回声。

根据感知音频编码,已知的是,音频信号的时域包络的形状可以通过使 用频谱滤波技术如时域包络整形(TNS)[14]来恢复。然而,根据现有技术 所知的TNS滤波器是关于实数值频谱的实数值滤波器。关于实数值频谱的 这样的实数值滤波器可以由混叠的伪声严重地影响,尤其在基本的实数变换 是改进的离散余弦变换(MDCT)的情况下。

时域包络片整形对复数值频谱应用复数滤波,比如通过例如复数改进的 离散余弦变换(CMDCT)得到的。从而,避免了混叠的伪声。

时域片整形包括:

●复数滤波器系数估计以及在编码器处对原始信号频谱应用平坦化 滤波器

●边信息中的滤波器系数的传输

●在解码器处对片填充的重构频谱应用整形滤波器

本发明通过沿着频率方向的线性预测来扩展从音频变换编码已知的现 有技术,尤其时域噪声整形(TNS),在带宽扩展的背景下,用于以修改的 方式来使用。

此外,本发明的带宽扩展算法基于智能间隙填充(IGF),但是与依赖于 信号的实数值临界采样的MDCT表示的IGF标准配置相反,利用过采样的 复数值变换(CMDCT)。CMDCT可以被看作每个复数值频谱系数的实部的 MDCT系数与虚部的MDST系数的组合。

虽然在IGF的背景下描述的新的方法,但是本发明的处理可以结合基于 音频信号的滤波器组表示的任何BWE方法来使用。

在该新颖的背景下,沿着频率方向的线性预测不被用作时域噪声整形, 而是被用作时域片整形(TTS)技术。该重命名通过以下事实来证明:与通 过现有技术的感知变换编解码器中的TNS进行量化噪声整形相反,片填充 的信号分量通过TTS来进行时域整形。

图7A示出了使用IGF和新的TTS方法的BWE编码器的框图。

所以基本的编码方案工作如下:

-计算时域信号x(n)的CMDCT以获得频域信号X(k)

-计算复数值TTS滤波器

-获得用于BWE的边信息并且去除必须由解码器复制的频谱信息

-使用心理声学模块(PAM)应用量化

-存储/发送数据,仅实数值MDCT系数被发送

图7B示出了相应的解码器。其主要逆向进行在编码器中执行的步骤。

在此,基本的解码方案工作如下:

-根据MDCT值估计MDST系数(该处理增加一个块解码器延迟), 并且将MDCT和MDST组合成复数值CMDCT系数

-使用其后处理执行片填充

-使用所传输的TTS滤波器系数应用逆TTS滤波

-计算逆CMDCT

注意,可替代地,如果在编码器一致地颠倒TTS分析和IDG参数估计, 则在解码器中还可以颠倒TTS合成和IGF后处理的顺序。

对于高效变换编码,优选地,必须使用所谓的近似20ms的“长块”来 实现合理的变换增益。如果这样的长块内的信号包括瞬变,则由于片填充在 重构频谱频带中出现听得见的预回声和后回声。图7C示出了由于IGF损害 瞬变的典型的预回声和后回声效果。在图7C的左侧面板上,示出了原始信 号的频谱图,而在右侧面板上,示出了不具有本发明的TTS滤波的片填充的 信号的频谱图。在该示例中,核心频带与片填充的频带之间的IGF起始频率 fIGFstart或fSplit被选择为fs/4。在图7C的右侧面板中,围绕瞬变可见不同的 预回声和后回声,在复制的频率区域的上频谱结束处尤为突出。

TTS模块的主要任务是限制瞬变附近的这些不想要的信号分量,从而将 它们隐藏在由人类感知的时域掩蔽效果支配的时域区域中。因此,所需要的 TTS预测系数被计算并且使用“前向预测”被应用于CMDCT域中。

在将TTS和IGF组合到编解码器中的实施方式中,重要的是,对某些 TTS参数和IGF参数进行排列以使得IGF片完全地或者不完全地被一个 TTS滤波器(平坦或整形滤波器)滤波。因此,所有TTSstart[..]或TTSstop[..]频 率不应当被包括在IGF片内,而是被排列至相应的fIGF...频率。图7D示出了 一组三个TTS滤波器的TTS和IGF操作区域的示例。

TTS终止频率被调整成IGF工具的终止频率,其高于fIGFstart。如果TTS 使用多于一个滤波器,则必须确保:两个TTS滤波器之间的交叉频率必须匹 配IGF分割频率。否则,一个TTS自滤波器将超出fIGFstart,导致不想要的 伪声例如过整形。

在图7A和图7B中描绘的实现变型中,必须额外注意,正确地调整解码 器IGF能量。尤其是以下情况:在TTS和IGF处理的过程中具有不同的预 测增益的不同的TTS滤波器被应用于一个IGF片的源区域(如平坦化滤波 器)和目标频谱区域(如整形滤波器,其不是所述平坦化滤波器的精确副本)。 在这种情况下,两个所应用的TTS滤波器的预测增益比率不再等于1,并且 因此必需应用以该比率的能量调整。

在替选的实现变型中,IGF后处理和TTS的顺序被颠倒。在解码器中, 这表示通过IGF后处理的能量调整在TTS滤波之后被计算,并且因此是合 成变换之前的最终处理步骤。因此,不管在编码期间不同的TTS滤波器增益 被应用于一个片,通常总是通过IGF处理正确地调整最终能量。

在解码器侧上,TTS滤波器系数再次被应用在全频谱即通过再生频谱扩 展的核心频谱上。TTS的应用对于以下是必需的:形成再生频谱的时域包络 以再次匹配原始信号的包络。所以,示出的预回声被减少。另外,如同传统 的TNS,其仍然在时间上对信号中的低于fIGFstart的量化噪声进行整形。

在传统的编码器中,对音频信号的频谱修补(例如,SBR)会破坏修补 边界处的频谱相关性,并且因此通过引入扩散来损害音频信号的时域包络。 因此,对残差信号执行IGF片填充的另一益处在于:在应用TTS整形滤波 器之后,片边界无缝地相关,导致对信号的更加逼真的时域再现。

在图7E中示出了相应处理的信号的结果。与未滤波的版本(图7C,右 侧面板)相比。TTS滤波的信号显示出了不想要的预回声和后回声(图7E, 右侧面板)的良好减少。

此外,如所讨论的,图7A示出了与图7B的解码器或图6A的解码器匹 配的编码器。基本上,用于对音频信号进行编码的设备包括时间频谱转换器 如702,其用于将音频信号转换成频谱表示。频谱表示可以是实数值频谱表 示,或者如块702中所示的复数值频谱表示。此外,用于执行关于频率的预 测的预测滤波器如704被设置为生成频谱残差值,其中,预测滤波器704由 从音频信号得到并且被转发至比特流复用器710的的预测滤波器信息来限 定,如图7A中的714处所示。此外,还设置有音频编码器如心理声学驱动 的音频编码器704。音频编码器被配置成用于对频谱残差值的第一组第一频 谱部分进行编码以获得编码的第一组第一频谱值。另外,参数化编码器如图 7A中的706处所示的参数化编码器被设置成用于对第二组第二频谱部分进 行编码。优选地,与第二组第二频谱部分相比,第一组第一频谱部分以较高 的频谱分辨率被编码。

最后,如图7A中所示,输出接口被设置成用于将包括参数化地编码的 第二组第二频谱部分、编码的第一组第一频谱部分和如图7A中的714处示 为“TTS边信息”的滤波器信息的编码信号输出。

优选地,预测滤波器704包括滤波器信息计算器,其被配置成使用频谱 表示的频谱值来计算滤波器信息。此外,预测滤波器被配置成使用用于计算 滤波器信息的频谱表示的相同的频谱值来计算频谱残差值。

优选地,TTS滤波器704以与根据AAC标准应用TNS工具的已知的现 有技术音频编码器相同的方式被配置。

随后,在图8A至图8E的背景下来讨论使用双声道解码的另外的实现。 此外,参照图2A、图2B的背景下的相应的元素的描述(联合声道编码228 和联合声道解码204)。

图8A示出了用于生成解码的双声道信号的音频解码器。音频解码器包 括用于对编码的双声道信号进行解码以获得第一组第一频谱部分的4个音频 解码器802,并且另外地包括用于提供第二组第二频谱部分的参数化数据以 及额外地用于标识第二频谱部分的第一双声道表示或不同的第二双声道表 示的双声道标识的参数化解码器804。另外,频率再生器806被设置成用于 根据第一组第一频谱部分的第一频谱部分以及第二部分的参数化数据和第 二部分的双声道标识来再生第二频谱部分。图8B示出了源范围和目的范围 中的双声道表示的不同组合。源范围可以按照在第一双声道表示,并且目的 范围也可以按照第一双声道表示。可替代地,源范围可以按照第一双声道表 示,而目的范围可以按照第二双声道表示。此外,如图8B的第三列中所示, 源范围可以按照第二双声道表示中并且目的范围可以按照第一双声道表示。 最后,源范围和目的范围两者可以按照第二双声道表示。在一种实施方式中, 第一双声道表示是其中双声道信号的两个声道被单独地表示的分离的双声 道表示。然后,第二双声道表示是其中双声道表示的两个声道被联合地表示, 即,按照输出至对应扬声器的需求而需要另外的处理或表示变换来重新计算 分离的双声道表示的联合表示。

在一种实现中,第一双声道表示可以是左/右(L/R)表示,而第二双声 道表示是联合立体声表示。然而,除了左/右或M/S或立体声预测以外的其 他双声道表示也可以被应用并且用于本发明。

图8C示出了通过图8A的音频解码器执行的操作的流程图。在步骤812 中,音频解码器802执行源范围的解码。相对于图3A,源范围可以包括比 例因子频带SCB1至SCB3。此外,可以存在每个比例因子频带的双声道标 识,并且比例因子频带1可以例如按照第一表示(如L/R),而第三比例因子 频带可以按照第二双声道表示如M/D或预测下混合/残差。从而,步骤812 可以产生不同频带的不同表示。然后,在步骤814中,频率再生器806被配 置成用于选择用于频率再生的源范围。在步骤816中,频率再生器806然后 检查源范围的表示,并且在块818中,频率再生器806将源范围的双声道表 示与目标范围的双声道表示进行比较。如果两个表示相同,则频率再生器806 针对双声道信号的每个声道提供单独的频率再生。然而,当在块818中检测 的两个表示不同时,则采用信号流824,并且块822根据源范围计算其他双 声道表示,并且将该计算的其他双声道表示用于再生目标范围。从而,图8A 的解码器使得可以使用按照第一双声道表示的源范围来再生被表示为具有 第二双声道标识的目的范围。当然,本发明另外地使得能够使用具有相同的 双声道标识的源范围来再生目标范围。并且另外地,本发明使得能够给:再 生具有表示联合双声道表示的双声道标识的目标范围,并且然后将该表示变 换成用于存储或传输至双声道信号的对应的扬声器所需的分离的声道表示。

要强调的是,双声道表示的两个声道可以是两个立体声声道如左声道和 右声道。然而,信号还可以是具有例如五个声道和超低音扬声器声道或具有 甚至更多声道的多声道信号。然后,可以执行在图8A至图8E的背景下讨论 的成对双声道处理,其中,配对可以是例如左声道和右声道、左环绕声道和 右环绕声道以及中心声道和LFE(超低音扬声器)声道。为了通过三个双声 道处理过程表示例如六个输入声道,可以使用任何其他配对。

图8D示出了与图8A对应的本发明的解码器的框图。源范围或核心解 码器830可以对应于音频解码器802。其他块832、834、836、838、840、 842、846可以是图8A的频率再生器806的部分。具体地,块832是表示变 换器,其用于对各个频带中的源范围表示进行变换,使得在块832的输出处 一方面存在按照第一表示的源范围的完整组以及另一方面存在按照第二双 声道表示的源范围的完整组。这两个完整的源范围表示可以被存储在存储存 储器834中用于源范围的两个表示。

然后,块836应用频率片再生,其使用源范围ID作为输入以及另外地 使用目标范围的双声道ID作为输入。基于目标范围的双声道ID,频率片生 成器访问存储器834并且接收与被输入至835处的频率片再生器的目标范围 的双声道ID匹配的源范围的双声道表示。从而,当目标范围的双声道ID表 示联合立体声处理时,则频率片生成器836访问存储器834以获得由源范围 ID 833表示的源范围的联合立体声表示。

频率片生成器836针对每个目标范围执行该操作,并且频率片生成器的 输出使得呈现由双声道标识所标识的声道表示的每个声道。然后,通过包络 调整器838执行包络调整。在由双声道标识所标识的双声道域中执行包络调 整。为此,需要包络调整参数,并且这些参数以所描述的相同的双声道表示 被从编码器发送至解码器。当要由包络调整器处理的目标范围的双声道标识 具有表示与该目标范围的包络数据不同的双声道表示的双声道标识时,则参 数变换器840将包络参数变换成所需的双声道表示。当例如一个频带的双声 道标识表示联合立体声编码时并且当该目标范围的参数已经作为L/R包络参 数被发送时,则参数变换器根据所描述的L/R包络参数计算联合立体声包络 参数,使得正确的参数化表示用于目标范围的频谱包络调整。

在另一优选实施方式,当联合立体声用于目标频带时,包络参数已经作 为联合立体声参数被发送。

当假定到包络调整器838的输入是一组具有不同的双声道表示的目标范 围时,则包络调整器838的输出是按照不同的双声道表示的一组目标范围。 当目标范围具有联合表示如M/S时,则该目标范围由表示变换器842处理以 计算存储或传输至扬声器所需的分离的表示。然而,当目标范围已经具有分 离的表示时,采用信号流844,并且表示变换器842被旁路。在块842的输 出处,作为分离的双声道表示的双声道频谱表示被获得,其然后还可以如由 块846所示被进一步处理,其中,该进一步的处理可以是例如频率/时间转换 或任何其他所需的处理。

优选地,第二频谱部分对应于频率频带,并且双声道标识被设置成与图 8B的表格对应的标签数组,其中,每个频带存在一个标签。然后,参数化解 码器被配置成检查是否设置标签并且根据标签来控制频率再生器106以使用 第一频谱部分的第一表示或第二表示。

在一种实施方式中,仅始于图3A的IGF起始频率309的重构范围具有 关于不同重构频带的双声道标识。在又一种实施方式中,这也适用于低于IGF 起始频率309的频率范围。

在又一种实施方式中,可以通过相似度分析来自适应地确定源频带标识 和目标频带标识,然而,当存在源范围到目标范围的固定关联时,还可以应 用本发明的双声道处理。源范围可以用于关于频率使用类似于从高效AAC 处理知道的多个修补的处理的两个或更多个频率片填充通过谐波频谱片填 充操作或复制频率片填充操作来重建较宽的目标范围。

图8E示出了用于对双声道音频信号进行编码的音频编码器。该编码器 包括时间频谱转换器860,其用于将双声道音频信号转换成频谱表示。此外, 还包括频谱分析器866,其用于将双声道音频声道音频信号转换成频谱表示。 此外,频谱分析器866还被设置成用于执行分析以便确定哪些频谱部分要以 高分辨率编码,即,找出第一组第一频谱部分以及另外地找出第二组第二频 谱部分。

此外,双声道分析器864被设置成用于对第二组第二频谱部分进行分析 以确定用于标识第一双声道表示或第二双声道表示的双声道标识。

取决于双声道分析器的结果,按照第二频谱表示的频带使用第一双声道 表示或第二双声道表示被参数化,并且这通过参数编码器868来执行。核心 频率范围,即,低于图3A的IGF起始频率309的频带由核心编码器870来 编码。块868和870的结果被输入至输出接口872。如所表示的,双声道分 析器提供高于IGF起始频率或全部频谱范围的每个频带的双声道标识,并且 该双声道标识还被转发至输出接口872以使得该数据还被包括在由输出接口 872输出的编码信号873中。

此外,优选地,音频编码器包括带状变换器862。基于双声道分析器862 的判决,时间频谱转换器862的输出信号被变换成由双声道分析器具体地由 双声道ID 835表示的表示。从而,带状变换器862的输出是一组频带,其中, 每个频带可以按照第一双声道表示或不同的第二双声道表示。当本发明被应 用于全频带时,即,当源范围和重构范围均由带状变换器处理时,频谱分析 器860可以分析该表示。然而,可替代地,频谱分析器860还可以对如由控 制线861表示的由时间频谱转换器输出的信号进行分析。从而,频谱分析器 860可以对带状变换器862的输出或者时间频谱转换器860的输出在由带状 变换器862处理之前应用优选的音调分析。此外,频谱分析器可以对带状变 换器862的结果或者时间频谱转换器860的结果应用某个目标范围的最佳匹 配的源范围的标识。

随后,参照图9A至图9D,其用于示出了在图3A和图3B的背景下已 经讨论的能量信息值的优选计算。

现有技术音频编码器应用各种技术来使表示给定音频信号的数据量最 小化。音频编码器例如USAC[1]应用时间至频率变换如MDCT来获得给定 音频信号的频谱表示。这些MDCT系数利用人类听觉系统的心理声学特点 被量化。如果降低可用比特率,则量化变得粗糙,引入大量的零频谱值,这 在解码器侧处导致听得见的伪声。为了提高感知品质,现有技术解码器使用 随机噪声来填充这些零频谱部分。IGF方法从剩余的非零信号获得片来填充 频谱中的那些间隙。对于解码音频信号的感知品质而言至关重要的是:保留 频谱包络和频谱系数的能量分布。在此给出的能量调整方法使用发送的边信 息来重构音频信号的频谱MDCT包络。

在eSBR[15]内,音频信号至少以因子2被下采样,并且频谱的高频部 分完全被清零[1,17]。该删除的部分在解码器侧上通过参数化技术被替换成 eSBR。eSBR暗示使用另外的变换QMF变换,其用于替换空的高频部分并 且对音频信号进行重采样[17]。这增加音频编码器的计算复杂度和存储消耗。

USAC编码器[15]提供使用随机噪声填充频谱洞(零频谱线)的可能性, 但是具有以下缺点:随机噪声不能保留瞬变信号的时域精细结构,且也不能 保留音调信号的谐波结构。

eSBR在解码器侧上操作的区域完全地被编码器删除[1]。因此,eSBR 倾向于删除高频区域中的音调线或使原始信号的谐波结构失真。当eSBR的 QMF频率分辨率很低时并且正弦分量的重新插入仅在基本的滤波器组的粗 糙分辨率下才可以时,复制的频率范围中的eSBR的音调分量的再生具有很 低的精确度。

eSBR使用技术来调整修补区域的能量,即,频谱包络调整[1]。该技术 使用QMF频率时间网格上的发送的能量值来对频谱包络进行重新整形。现 有技术不处理部分删除的频谱,并且因为高的时间分辨率,其倾向于需要相 对大量的比特来发送适当的能量值或对能量值应用粗糙量化。

当其使用如[15]中所描述被计算的传统的MDCT变换时,IGF的方法不 需要另外的变换。

在此给出的能量调整方法使用由编码器生成的边信息来重构音频信号 的频谱包络。如下面所概述的,该边信息由编码器生成:

a)将加窗的MDCT变换应用于输入音频信号[16,章节4.6],可选 地计算加窗的MDST或根据所计算的MDCT来估计加窗的MDST

b)对MDCT系数应用TNS/TTS[15,章节7.8]

c)计算高于IGF起始频率(fIGFstart)直到IGF终止频率(fIGFstop) 的每个MDCT比例因子频带的平均能量

d)对平均能量值进行量化

fIGFstart和fIGFstop是用户给定的参数。

根据步骤c)和d)所计算的值被无损编码,并且作为边信息与比特流 一起被发送至解码器。

解码器接收所发送的值并且使用它们来调整频谱包络。

a)对发送的MDCT值进行去量化

b)如果被用信号发送,则应用传统的USAC噪声填充

c)应用IGF片填充

d)对所发送的能量值进行去量化

e)调整频谱包络比例因子频带状

f)如果被用信号发送,应用TNS/TTS

设为窗口长度为2N的加窗音频信号的MDCT变换的实数值频谱 表示。在[16]中描述了该变换。可选地,编码器对可选地应用TNS。

在[16,4.6.2]中,描述了比例因子频带中的的分解。比例因子频带是一 组索引的集合,并且在本文中用scb来表示。

每个scbk(其中,k=0,1,2,...max_sfb)的极限由数组swb_offset[16,4.6.2] 来限定,其中,swb_offset[k]和swb_offset[k+1]-1限定scbk中包括的最低频谱系 数和最高频谱系数的第一索引和最后一个索引。将比例因子频带表示为:

scbk:={swb_offset[k],1+swb_offset[k],2+swb_offset[k],...,swb_offset[k+1]-1}

如果编码器使用IGF工具,则用户限定IGF起始频率和IGF终止频率。 这两个值被映射到最佳填充比例因子频带索引igfStartSfb和igfStopSfb。这两 者在比特流中被用信号发送给解码器。

[16]描述了长块变换和短块变换。对于长块,仅一组频谱系数连同一组 比例因子被发送至解码器。对于短块,8个短窗口连同8组不同的频谱系数 被计算。为了节省比特率,这8个短块窗口的比例因子由编码器分组。

在IGF的情况下,在此给出的方法使用传统的比例因子频带来对被发送 至解码器的频谱值进行分组:

Ek=1|scbk|Σiscbkx^i2

其中,k=igfStartSfb,1+igfStartSfb,2+igfStartSfb,...,igfEndSfb。

对于量化,计算所有值被发送至解码器。

我们假定编码器决定对num_window_group个比例因子组进行分组。用w来 表示作为8个短窗口的索引的集合{0,1,2,…,7}的分组分解。wi表示w的第 l个子集,其中,l表示窗口组的索引,且0≤l<num_window_group。

对于短块计算,用户定义的IGF起始/终止频率被映射到适当的比例因 子频带。然而,为了简单起见,针对短块表示: k=igfStartSfb,1+igfStartSfb,2+igfStartSfb,...,igfEndSfb。

IGF能量计算使用分组信息来对值Ek,l进行分组:

Ek,l:=1|wl|Σjwl1|scbk|Σiscbkx^j,i2

对于量化,计算所有值被发送至解码器。

上面提到的编码公式使用仅实数值MDCT系数进行操作。为了获得 IGF范围内的更稳定的能量分布,即,减少时域幅值波动,可以使用替选的 方法来计算

设为窗口长度为2N的加窗音频信号的MDCT变换的实数值频 谱表示,以及为音频信号的同一部分的实数值MDST变换的频谱表 示。可以精确地计算或根据估计MDST频谱表示表示加窗 音频信号的复数频谱表示,使得为其实部,为其虚部。可选地,编码器对 或应用TNS。

现在,IGF范围中的原始信号的能量可以使用下式来测量:

Eok=1|scbk|Σiscbkc^i2.

重构频带的实数值能量和复数值能量,即,在重构IGF范围scbk时应当 在解码器侧上使用的片使用下式来计算:

Etk=1|scbk|Σitrkc^i2,Erk=1|scbk|Σitrkx^ri2

其中,trk是一组索引—依赖scbk的关联源片范围。在上面的两个公式中, 代替索引组scbk,可以使用组(在本文中随后定义)来重建trk以实现 更准确的值Et和Er

计算

fk=EokEtk

如果Etk>0,否则fk=0。

现在利用计算Fk的更稳定的版本,由于仅具有MDCT值的Ek的 计算由于MDCT值不遵守帕塞瓦尔定理的事实而受损,因此,他们不反 映频谱值的完整能量信息。按照上面来计算

如较早指出的,对于短块,假定编码器决定对num_window_group个比例因 子组进行分组。如上所述,wl表示w的第l个子集,其中,l表示窗口组的 索引,并且0≤l<num_window_group。

再次,可以计算上面概述的用于计算Ek,l的更稳定的版本的替选版本。利 用是长度为2N的MDCT变换加窗音频信号以及是长度为2N的MDST变换加窗音频信号的定义来计算:

Eok,l=1|wl|Σlwl1|scbk|Σiscbkc^i,l2.

类似地,计算,

Etk,l=1|wl|Σlwl1|scbk|Σitrkc^i,l2,Erk,l=1|wl|Σlwl1|scbk|Σitrkx^r,l2,

并且使用因子fk,l来处理,

fk,l=Eok,lEtk,l

其用于调整先前计算的Erk,l

Ek,l=fk,lErk,l

按照上面来计算

不仅使用从复数重构频带或从MDCT值得到的重构频带的能量而且还 使用来自源范围的能量信息的过程提供改进的能量重构。

具体地,参数计算器1006被配置成使用关于重构频带的能量的信息以 及另外地使用关于要用于对重构频带进行重构的源范围的能量的信息来计 算关于重构频带的能量信息。

此外,参数计算器1006被配置成计算关于原始信号的复数频谱的重构 频带的能量信息(Eok),以计算关于要用于对重构频带进行重构的原始信号 的复数频谱的实数值部分的源范围的另外的能量信息(Erk),其中,参数计 算器被配置成使用能量信息(Eok)和另外的能量信息(Erk)来计算关于重构 频带的能量信息。

此外,参数计算器1006被配置成:用于确定关于原始信号的复数频谱 的重构的比例因子频带的第一能量信息(Eok);用于确定关于要用于对重构 的比例因子频带进行重构的原始信号的复数频谱的源范围的第二能量信息 (Etk);用于确定关于要用于对重构的比例因子频带进行重构的原始信号的 复数频谱的实数部分的源范围的第三能量信息(Erk);用于基于第一能量信 息、第二能量信息和第三能量信息中的至少两个之间的关系来确定加权信 息;以及用于使用加权信息对第一能量信息和第三能量信息之一进行加权以 获得加权的能量信息并且将加权的能量信息用作关于重构频带的能量信息。

关于计算的示例如下,但是鉴于上面的一般原理,对本领域中的技术人 员而言,将出现很多其他示例:

A)

f_k=E_ok/E_tk;

E_k=sqrt(f_k*E_rk);

B)

f_k=E_tk/E_ok;

E_k=sqrt((1/f_k)*E_rk);

C)

f_k=E_rk/E_tk;

E_k=sqrt(f_k*E_ok)

D)

f_k=E_tk/E_rk;

E_k=sqrt((1/f_k)*E_ok)

所有这些示例承认以下事实:尽管在解码器侧上处理实数MDCT值, 但是由于交叠和相加,实际的计算是隐含地使用复数数字进行的时域混叠消 除过程。然而,特别地,与具有重构频带920中的频率的第一频谱部分921 不同的频率值的重构频带920的另外的频谱部分922、923的片能量信息的 确定918依赖于实数MDCT值。因此,被发送至解码器的能量信息通常会 小于关于原始信号的复数频谱的重构频带的能量信息Eok。例如,对于上面 的情况C,这表示因子f_k(加权信息)会小于1。

在解码器侧上,如果IGF工具被用信号通知为打开,则所发送的值根 据比特流来获得,并且应当针对所有 k=igfStartSfb,1+igfStartSfb,2+igfStartSfb,...,igfEndSfb使用 Ek=214E^k来去量化。

解码器将所发送的MDCT值去量化成并且计算剩余的残存能 量:

sEk:=Σiscbkxi2,

其中,k在上面定义的范围内。

我们表示该集合包括已经由编码器量化成零 的比例因子频带scbk的所有索引。

IGF获得子带方法(在此未描述)用于通过使用所发送的MDCT的非 零值来填充由于编码器侧处的MDCT频谱值的粗糙量化导致的频谱间隙。x 会另外地包括替换所有先前清零的值的值。片能量由下式来计算:

tEk:=Σiscbkxi2,

其中,k在上面定义的范围内。

在重构频带中丢失的能量由下式来计算:

mEk:=|scbk|Ek2-sEk

以及用于调整的增益因子由下式来获得:

其中,g′=min(g,10)。

使用该增益因子的频谱包络调整是:对于所有

xi:=g′xi

以及k在上面定义的范围内。

这将x的频谱包络重新整形成原始频谱包络的形状。对于短窗口序列, 所上面所概述的所有计算在原理上保持相同,但是考虑比例因子频带的分 组。我们将根据比特流获得的去量化的分组的能量值表示为Ek,l。计算

sEk,l:=1|wl|ΣjwlΣiscbj,kxj,i2

以及

pEk,l:=1|wl|ΣjwlΣiscbj,kxj,i2

索引j描述短块序列的窗口索引。

计算mEk,l:=|scbk|Ek,l2-sEk,l

以及

其中,g′=min(g,10)

对于所有

应用xj,i:=g′xj,i

对于低比特率应用,值Ek的成对分组在不丢失太多精度的情况下是可以 的。该方法仅由长块应用:

Ek>>1=1|scbkscbk+1|Σiscbkscbk+1x^i2

其中,k=igfStartSfb,2+igfStartSfb,4+igfStartSfb,...,igfEndSfb

再次,在量化之后,所有值Ek>>1被发送至解码器。

图9A示出了用于对包括第一组第一频谱部分的编码表示以及表示第二 组第二频谱部分的频谱能量的参数化数据的编码表示的编码音频信号进行 解码的设备。在图9A中在901a处表示第一组第一频谱部分,在图9A的901b 处表示参数化数据的编码表示。提供音频解码器900用于对第一组第一频谱 部分的编码表示901a进行解码以获得解码的第一组第一频谱部分904,并且 用于对参数化数据的编码表示进行解码以获得关于表示各个重构频带的各 个能量的第二组第二频谱部分的解码的参数化数据902,其中,第二频谱部 分位于重构频带中。此外,提供频率再生器906用于对包括第二频谱部分的 重构频带的频谱值进行重构。频率再生器906使用第一组第一频谱部分的第 一频谱部分和关于重构频带的各个能量信息,其中,重构频带包括第一频谱 部分和第二频谱部分。频率再生器906包括计算器912,其用于确定包括具 有重构频带中的频率的第一频谱部分的累积能量的残留能量信息。此外,频 率再生器906包括计算器918,其用于确定重构频带的另外的频谱部分的片 能量信息,而频率值不同于第一频谱部分,其中,这些频率值具有重构频带 中的频率,其中,另外的频谱部分要使用与重构频带中的第一频谱部分不同 的第一频谱部分通过频率再生来生成。

频率再生器906还包括计算器914,其用于确定重构频带中的丢失能量, 并且计算器914使用重构频带的各个能量以及由块912生成的残留能量来操 作。此外,频率再生器906包括频谱包络调整器916,其用于基于丢失能量 信息和由块918生成的片能量信息对重构频带中的另外的频谱部分进行调 整。

参照图9C,图9C示出了某个重构频带920。该重构频带包括在921处 示意性地示出的重构频带中的第一频谱部分如图3a中的第一频谱部分306。 此外,重构频带920中的其余频谱值要使用例如来自低于图3a的智能间隙 填充起始频率的比例因子频带1、2、3的源区域来生成。频率再生器906被 配置成用于生成第二频谱部分922和923的原始频谱值。然后,如图9c中所 示,计算增益因子g以最终对频率频带922、923中的原始频谱值进行调整 来获得重构频带920中的经重构并且调整的第二频谱部分,该经重构并且调 整的第二频谱部分现在与第一频谱部分921具有相同的频谱分辨率即相同的 线距离。重要的是要理解,图9C中的921处示出的重构频带中的第一频谱 部分由音频解码器900来解码,而不受图9b的包络调整执行块916的影响。 替代地,921处所表示的重构频带中的第一频谱部分按原样留下,因为第一 频谱部分由全带宽或全速率音频解码器900经由线904来输出。

随后,对使用实数数字的特定示例进行讨论。由块912计算的剩余的残 留能量为例如5个能量单位,并且该能量是第一频谱部分921中的示例性地 所表示的4个频谱线的能量。

此外,与图3B或图3A的比例因子频带6对应的重构频带的能量值E3 等于10个单位。重要地,能量值不仅包括频谱部分922、923的能量,而是 包括在编码器侧上,即,在使用例如声道掩蔽执行频谱分析之前计算的重构 频带920的全部能量。因此,10个能量单元覆盖重构频带中的第一频谱部分 和第二频谱部分。则,假定块922、923的源范围数据或块922、923的原始 目标范围数据的能量等于8个能量单元。从而,计算出5个单元的丢失能量。

基于丢失能量除以片能量tEk,计算出增益因子0.79。然后,将第二频 谱部分922、923的原始频谱线乘以所计算的增益因子。从而,仅对第二频 谱部分922、923的频谱值进行调整,而第一频谱部分921的频谱线不受该 包络调整影响。在乘以第二频谱部分922、923的原始频谱值之后,计算完 整的重构频带,其包括重构频带中的第一频谱部分,并且包括重构频带920 中的第二频谱部分922、923中的频谱线。

优选地,用于生成频带922、923中的原始频谱数据的源范围相对于频 率而言低于IGF起始频率309,而重构频带920高于IGF起始频率309。

此外,优选地,重构频带边界与比例因子边界一致。从而,在一种实施 方式中,重构频带具有核心音频解码器的相应的比例因子频带的大小,或者 将其大小做成使得:当应用能量配对时,重构频带的能量值提供等于或大于 2的整数个比例因子频带的能量。从而,当假定对于比例因子频带4、比例 因子频带5和比例因子频带6执行能量累积时,则重构频带920的较低频率 边界等于比例因子频带4的较低边界,而重构频带920的较高频率边界与比 例因子频带6的较高边界一致。

随后,讨论图9D以示出图9A的解码器的另外的功能。音频解码器900 接收与第一组频谱部分的第一频谱部分对应的去量化的频谱值,并且另外 地,将如图3B中示出的比例因子频带的比例因子提供至逆缩放块940。逆缩 放块940提供低于图3A的IGF起始频率309的所有第一组第一频谱部分以 及另外地提供高于IGF起始频率的第一频谱部分,即,都位于图9D中的941 处示出的重构频带的图3A的第一频谱部分304、305、306、307。此外,源 频带中的用于重构频带中的频率片填充的第一频谱部分被提供至包络调整 器/计算器942,并且该块额外接收被设置为相对于如图9D中的943处所示 的编码音频信号的参数化边信息的关于重构频带的能量信息。然后,包络调 整器/计算器942提供图9B和图9C的功能,并且最后输出重构频带中的第 二频谱部分的经调整的频谱值。重构频带中的第二频谱部分的这些经调整的 频谱值922、923和图9D中的线941表示的重构频带中的第一频谱部分921 联合地表示重构频带的完整的频谱表示。

随后,参照图10A和图10B,图10A和图10B用于说明用于对音频信 号进行编码以提供或生成编码音频信号的音频编码器的优选实施方式。该编 码器包括时间/频谱转换器1002,其给频谱分析器1004馈送,并且频谱分析 器1004一方面与参数计算器1006连接并且另一方面与音频编码器1008连 接。音频编码器1008提供第一组第一频谱部分的编码表示,并且不覆盖第 二组第二频谱部分。另一方面,参数计算器1006提供覆盖第一频谱部分和 第二频谱部分的重构频带的能量信息。此外,音频编码器1008被配置成生 成具有第一频谱分辨率的第一组第一频谱部分的第一编码表示,其中,音频 编码器1008提供由块1002生成的频谱表示的所有频带的比例因子。另外, 如图3B中所示,编码器提供相对于频率而言位于如图3A所示的IGF起始 频率309之上的至少重构频带的能量信息。从而,对于优选地与比例因子频 带或与比例因子频带的组一致的重构频带,给出了两个值,即,来自音频编 码器1008的相应的比例因子以及另外地由参数计算器1006输出的能量信 息。

优选地,音频编码器具有具有不同的频率带宽即具有不同数量的频谱值 的比例因子频带。因此,参数化计算器包括归一化器1012,其用于相对于特 定重构频带的带宽对不同带宽的能量进行归一化。为此,归一化器1012接 收频带中的能量以及频带中的大量频谱值作为输入,然后归一化器1012输 出归一化能量每重构/比例因子频带。

此外,图10A的参数化计算器1006a包括能量值计算器,其用于如图 10A中的线1007所示从核心或音频编码器1008接收控制信息。该控制信息 可以包括关于由音频编码器使用的长/短块的信息和/或分组信息。因此,虽 然关于长/短块的信息以及关于短窗口的分组信息与“时间”分组有关,但是 分组信息可以另外地指代频谱分组,即,将两个比例因子频带分组成单个重 构频带。因此,当已经对仅频谱部分分组时,能量值计算器1014输出覆盖 第一频谱部分和第二频谱部分的每个分组的频带的单个能量值。

图10D示出了用于实现频谱分组的又一实施方式。为此,块1016被配 置成用于计算两个相邻频带的能量值。然后,在块1018中,将两个相邻频 带的能量值进行比较,并且当能量值与例如由阈值限定的相比未有明显不同 或有较小程度的不同时,则如块1020中所示,生成两个频带的单个(经归 一化的)值。如由线1019所示,块1018可以被旁路。此外,由块1020执 行的关于两个或更多个频带的单个值的生成可以由编码器比特率控制器 1024来控制。从而,当比特率要降低时,编码比特率控制器1024控制块1020 来生成两个或更多个频带的单个归一化的值,即使块1018中的比较未被允 许对能量信息值进行分组。

在音频编码器执行两个或更多个短窗口的分组的情况下,也对于能量信 息应用该分组。当核心编码器执行两个或更多个短块的分组时,则对于这些 两个或更多个块,仅单组比例因子被计算和发送。那么,在解码器侧上,音 频解码器对于两个分组的窗口应用同一组比例因子。

关于能量信息计算,对于两个或更多个短窗口累积重构频带中的频谱 值。换言之,这表示短块和随后的短块的某个重构频带中的频谱值被累积在 一起,以及对于覆盖两个短块的该重构频带而言,仅单个能量信息被发送。 那么,在解码器侧上,对于每个短块不单独执行关于图9a至图9d讨论的包 络调整,但是对于一组分组的短窗口,一起执行关于图9a至图9d讨论的包 络调整。

然后,再次应用相应的归一化,使得即使已经执行了频率中的任何分组 或者时间中的分组,归一化容易地使得能够:对于解码器侧上的能量值信息计 算,一方面仅能量值信息以及重构频带中或一组分组重构频带中的频谱线的 量必须已知。

在现有技术BWE中,高于给定的所谓的交叉频率的HF频谱区域的重 构通常基于频谱修补。通常,HF区域包括多个相邻的修补,并且这些修补 中的每一个来源于低于给定的交叉频率的LF频谱的带通(BP)区域。在信 号的滤波器组表示内,这样的系统将LF频谱中的一组相邻的子带系数复制 到目标区域中。所选择的组的边界通常是系统依赖的,而非信号依赖的。对 于一些信号内容,该静态修补选择可以导致重构信号的不愉快的音品和着色 (coloring)。

其他方法通过信号自适应单边频带(SSB)调制将LF信号转换成HF。 与[1]相比,这样的方法具有高的计算复杂度,因为它们以高采样速率对时域 样本进行操作。此外,修补可以变得不稳定,尤其对于非音调信号(例如, 非语音话音),从而现有技术信号自适应修补会对信号引入损害。

本发明的方法被称为智能间隙填充(IGF),并且按照其优选配置,其被 应用于基于时间频率转换诸如例如改进的离散余弦变换(MDCT)的BWE 系统。然而,本发明的教示一般例如在基于正交镜像滤波器组(QMF)的系 统内近似地适用。

基于MDCT的IGF配置的优点是无缝集成到基于MDCT的音频编码器 例如MPEG高级音频编码(AAC)中。对于波形音频编码和BWE共享相 同的变换显著降低音频编解码器的整体计算复杂度。

此外,本发明提供了关于在现有技术自适应修补方案中发现的固有稳定 性问题的解决方案。

所提出的系统基于以下观察:对于一些信号,无引导的修补选择会导致 音品变化和信号着色。如果信号在频谱源区域(SSR)中是音调而在频谱目 标区域(STR)中类似于噪声,则通过音调SSR修补类噪声STR会导致不 自然的音品。信号的音品也可以变化,因为信号的音调结构会通过修补过程 变得错位或甚至被破坏。

提出的IGF系统使用互相关作为特定SSR与特定STR之间的类似性测 量来执行智能片选择。两个信号的互相关提供那些信号的相似度的测量以及 此外最大相关性的滞后及其符号。因此,基于相关性的片选择的方法还可以 用于精确地调整复制的频谱的频谱偏移以变得尽可能地接近原始频谱结构。

提出的系统的基本贡献是对适当的相似度测量的选择以及此外对片选 择处理稳定化的技术。提出的技术提供了瞬时信号适应与同时时间稳定性之 间的最佳平衡。对于具有SSR和STR的很小相似度并且因此展现出低的互 相关值的信号而言或者当采用含糊的相似度测量时,提供临时稳定性尤其重 要,因此表现出低的交叉相关性值,或者是否利用相似度测量是模糊的。在 这样的情况下,稳定化防止自适应片选择的伪随机行为。

例如,通常造成现有技术BWE的问题的一类信号通过至任意频谱区域 的不同的能量集中来表征,如图12A(左侧)所示。虽然存在可用的方法来 调整目标区域中的重构频谱的频谱包络和音调,但是对于一些信号而言,这 些方法不能够如图12A(右侧)中所示很好地保留音色。在图12A中示出的 示例中,原始信号的目标区域中的高于所谓的交叉频率fxover(图12A,左 侧)的频谱的大小近似线性地减小。相反,在重构频谱(图12A,右侧)中, 存在被感知为音品着色伪声的不同组的谷峰。

新的方法的一个重要步骤是定义一组片,在该组片中可以进行后续的基 于相似度的选择。首先,源区域与目标区域两者之间的片边界必须根据彼此 来定义。因此,核心编码器的IGF起始频率fIGFstart与最高可用频率fIGFstop之 间的目标区域被划分成任意整数数量nTar的片,这些片中的每一个具有各自 预定义的大小。然后,对于每个目标片tar[idx_tar],生成一组大小相等的源 片src[idx_src]。通过这,确定IGF系统的基本自由度。源片的总数量nSrc通 过源区域的带宽来确定,

bwsrc=(fIGFstart-fIGFmin)

其中,fIGFmin是片选择的最低可用频率,使得源片的整数数量nSrc符合 bwsrc。源片的最小数量是0。

为了进一步增加选择和调整的自由度,源片可以被定义成以0与1之间 的交叠因子彼此交叠,其中,0表示无交叠,1表示100%交叠。100%交叠 可以暗指仅一个或没有源片可用。

图12B示出了一组片的片边界的示例。在这种情况下,所有目标片与每 个源片相关。在该示例中,源片按照50%交叠。

对于目标片,在向上xcorr_maxLag个频率点的延迟处使用各种源片来 计算互相关。对于给定的目标片idx_tar和源片idx_src,xcorr_val[idx_tar][idx_src] 给出了片之间的绝对互相关的最大值,然而,xcorr_lag[idx_tar][idx_src]给出了在 其处出现最大值的延迟,xcorr_sign[idx_tar][idx_src]给出了xcorr_lag[idx_tar][idx_src], 处的互相关的符号。

参数xcorr_lag用于控制源片与目标片之间的匹配的接近度。该参数导致伪 声减小,并且有助于更好地保留信号的音品和音色。

在一些场景下,其可以发生特定目标片的大小大于可用的源片的大小。 在这种情况下,每当需要时重复可用的源片来完全填充目标片。仍然还可以 执行大的目标片与较小的源片之间的互相关,以便根据互相关延迟xcorr_lag和 符号xcorr_sign来获得源片在目标片中的最好位置。

原始频谱片和原始信号的互相关可能不是被应用于具有强共振峰结构 的音频频谱的最适合的相似度测量。频谱的白化去除粗糙的包络信息,从而 强调频谱精细结构,其对于评估片相似度最感兴趣。对于由IGF处理的区域, 白化还有助于在解码器处容易地对STR进行包络整形。因此,可选地,在 计算互相关之前,对片和源信号进行白化。

按照其他配置,使用预定义的过程仅对片进行白化。所发送的“白化” 标签向解码器表示应当对IGF内的片应用相同预定义的白化处理。

对于对信号进行白化,首先计算频谱包络估计。然后,MDCT频谱除以 频谱包络。可以基于MDCT频谱、MDCT频谱能量、基于MDCT的复数功 率频谱或功率频谱估计来估计频谱包络估计。从现在开始,估计其包络的信 号将被称为基础(base)信号。

根据基于MDCT的复数功率谱或功率谱估计而计算的包络作为基础信 号具有以下优点:在音调分量上没有时域波动。

如果基础信号位于能量域,则MDCT谱必须除以包络的平方根以正确 地对信号进行白化。

存在计算包络的不同的方法:

●使用离散余弦变换(DCT)来变换基础信号,仅保留较低的DCT 系数(将最重要的设置成零),然后计算逆DCT

●计算根据时域音频帧而算的一组线性预测系数(LPC)的频谱包络

●使用低通滤波器对基础信号进行滤波

优选地,选择最后一种方法。对于要求低计算复杂度的应用而言,可以 对MDCT频谱的白化进行一些简化:首先,借助于移动平均来计算包络。 这每MDCT频率点仅需要两个处理器周期。然后,为了避免除法和平方根 的计算,谱包络近似于2n,其中,n是包络的整数对数。在该域中,平方根 操作简单地变成移位操作,并且此外可以通过另一移位操作来执行除以包络 的除法运算。

在计算每个源片与每个目标片的相关性之后,对于所有nTar个目标片, 选择具有最高相关性的源片来替换它。为了最佳匹配原始谱结构,使用相关 性的延迟来将所复制的频谱调制整数个变换频率点。在奇数滞后的情况下, 通过乘以交替的时域序列-1/1来另外地调制该片以补偿MDCT内的每个其 他频带的频率颠倒表示。

图12C示出了源片与目标片之间的相关性的示例。在该示例中,相关性 的滞后为5,所以源片必须在BWE算法的拷贝段中朝向较高频率点被调制5 个频率点。另外,当最大相关性值为负时,片的符号必须被翻转,以及如上 所述的另外的调制导致奇数滞后。

所以,被从编码器发送至解码器的全部数量的边信息包括以下数据:

●tileNum[nTar]:每目标片的所选择的源片的索引

●tileSign[nTar]:目标片的符号

●tileMod[nTar]:每目标片的相关性的延迟

片修剪和稳定化是IGF中的重要步骤。使用示例来说明其需要和优点, 假定静态音调音频信号类似例如稳定的律管音符。如果对于给定的目标区域 源片总是选自横跨多个帧的相同源区域,则逻辑指出引入最少的伪声。即使 假定信号为静态,但是由于另外的同样地相似的源区域的相似度测量(例如, 相关性)会支配相似度结果(例如,互相关),所以该条件在每个帧中无法 很好地保持。这导致相邻帧之间的tileNum[nTar]在两个或三个很相似的选择之 间摇摆。这可以是讨厌的音乐噪声如伪声的源。

为了消除该类型的伪声,一组源片应当被修剪,使得源组的剩余成员最 大程度地不同。这相对于一组源片来实现如下:

S={s1,s2,...sn}。

对于任何源片si,将其与所有其他源片相关,找出si与sj之间的最佳相关 性,并且将其存储在矩阵Sx。在此,Sx[i][j]包括si与sj之间的最大绝对互相 关值。沿着列添加矩阵Sx,给出源片si与所有其他源片T的互相关的和。

T[i]=Sx[i][1]+Sx[i][2]...+Sx[i][n]

在此,T表示源如何类似于其他源片的度量。如果对于任何源片i,T>阈 值,则源片i可以从一组潜在的源中除去,因为其与其他源高度相关。该 组片中的具有最小相关性的满足等式1中的条件的片被选择为该子组的 代表性片。以这种方式,确保源片彼此最大程度地不同。

片修剪方法还包括先前帧中使用的经修剪的片组的存储器。如果存在用 于修剪的替选候选片,则在先前帧中活动的片也被保留在下一个帧中。

设片S3、S4和S5在帧K中的片{s1,s2...,s5}中活跃,则在帧k+1中,即使 片S1、S3和S2竞争来使用与其他片最大程度地相关的S3来修剪,但是S3被 保留,因为其是先前帧中的有用的源片,并且因此将其保留在该组源片中对 于加强片选择中的时间连续性有益。如果被表示为Tx[i][j]的源i与目标j之间 的互相关高,则优选地应用该方法。

用于片稳定化的另外方法是:如果当前帧k中的源片中没有源片与目标 片很好相关,则保留来自先前帧k-1的片顺序。如果被表示为Tx[i][j]的源i与 目标j之间的交叉相关性对于所有i,j而言很低,则这会发生。

例如,如果,Tx[i][j]<0.6

现在使用的试验性阈值,则对于该帧k的所有nTar而言,

tileNum[nTar]k=tileNum[nTar]k-1

上述两种技术极大地减少由于快速改变横跨多个帧之间的组片数量而 出现的伪声。该片修剪和稳定化的另一附加的优点在于:没有额外的信息需 要被发送至解码器或者不需要改变解码器架构。所提出的片修剪是减少频谱 区域中的潜在的音乐噪声如伪声或过度噪声的上等方式。

图11A示出了用于对编码音频信号进行解码的音频解码器。该音频解码 器包括音频(核心)解码器1102,其用于生成第一组第一频谱部分的第一解 码表示,该解码表示具有第一频谱分辨率。

此外,音频解码器包括参数化解码器1104,其用于生成第二组第二频谱 部分的第二解码表示,该第二解码表示具有第二频谱分辨率,第二频谱分辨 率小于第一频谱分辨率。此外,提供频率再生器1106,其用于接收解码的第 一频谱部分作为第一输入1101以及接收参数化信息作为1103处的第二输入, 该参数化信息对于每个目标频率或目标重构频带而言包括源范围信息。然 后,频率再生器1106通过使用来自由匹配信息识别的源范围的频谱值来应 用频率再生,以生成目标范围的频谱数据。然后,第一频谱部分1101和频 率再生器1107的输出均被输入值频谱时间转换器1108,以最终生成解码的 音频信号。

虽然音频解码器还可以被实现为任何其他音频解码器如时域或参数化 音频解码器,但是优选地,音频解码器1102是频谱域音频解码器。

如在图11B处所表示的,频率再生器1106可以包括示出了关于奇数滞 后的源范围选择器片调制器的块1120、当提供白化标签1123时的白化滤波 器1120的功能,以及另外地,使用由块1120或块1122或两个块的合作生 成的原始频谱数据在块1128中示出的实现频谱包络的调整功能。无论如何, 频率再生器1106可以包括对接收的白化标签1123有反应的开关1124。当白 化标签被设置时,关于奇数延迟的源范围选择器/片调制器的输出被输入至白 化滤波器1122。然而,然后,对于某个重构频带不设置白化标签1123,则旁 路线1126被激活,使得块1120的输出在不进行任何白化的情况下被提供给 频谱包络调整块1128。

可以具有在比特流中用信号通知的多于一个的等级的白化(1123),并 且这些等级可以每片用信号通知。在存在每片用信号通知的三个等级的情况 下,它们应当以下面的方式被编码:

MID_WHITENING和STRONG_WHITENING指代不同的白化滤波器(1122),白化滤波器

(1122)可以在计算包络(如前面所述)的方式上不同。

当仅应用粗糙的频谱片选择方案时,解码器侧频率再生器可以由源范围 ID 1121控制。然而,当应用精细调整的频谱片选择方案时,则另外地提供 源范围延迟1119。此外,假设相关性计算提供负的结果,则,另外地还可以 给块1120应用相关性的符号,使得页面数据频谱线各自乘以“-1”以说明负 的符号。

从而,如图11A、图11B所讨论的,本发明确信:由于某个目的或目标 范围的最佳匹配的源范围在编码器侧上被计算并且在解码器侧上被应用的 事实,所以获得最佳音频品质。

图11C是用于对音频信号进行编码某种音频编码器,其包括时间频谱转 换器1130、随后连接的频谱分析器1132以及另外地参数计算器1134和核心 编码器1136。核心编码器1136生成编码的源范围,以及参数计算器1134输 出目标范围的匹配信息。

编码的源范围连同关于目标范围的匹配信息一起被发送至解码器,使得 图11A中示出的解码器能够执行频率再生。

参数计算器1134被配置成用于计算第一频谱部分与第二频谱部分之间 的相似度并且用于基于所计算的相似度对于第二频谱部分确定与第二频谱 部分匹配的匹配第一频谱部分。优选地,如图12A、图12B中所示不同的源 范围和目标范围的匹配结果确定所选择的匹配对包括第二频谱部分,以及参 数计算器被配置成用于将识别匹配对的该匹配信息提供到编码音频信号中。 优选地,该参数计算器1134被配置成使用第二组第二频谱部分中的预定的 目标区域或第一组第一频谱部分中的预定的源区域,如例如图12B中所示。 优选地,预定的目标区域非交叠,或者预定的源区域交叠。当预定的源区域 是低于图3A的间隙填充起始频率309的第一组第一频谱部分的子集时,并 且优选地,覆盖较低的频谱区域的预定的目标区域与具有间隙填充起始频率 的其较低的频率边界一致,使得任何目标范围位于间隙填充起始频率之上, 并且源范围位于间隙填充起始频率之下。

如所讨论的,通过将目标区域与源区域进行比较在源区域与同一源区域 之间不具有任意滞后而具有特定滞后的情况下,获得精细粒度。在图11D的 互相关计算器1140中应用这些延迟,并且匹配对选择最终由片选择器1144 执行。

此外,优选的是执行块1142处示出的源范围和/或目标范围白化。然后, 该块1142向比特流提供白化标签,其用于控制图11B的解码器侧开关1123。 此外,如果互相关计算器1140提供负的结果,则该负的结果也被用信号通 知给解码器。从而,在优选实施方式中,片选择器输出目标范围的源范围ID、 滞后、符号,并且块1142另外地提供白化标签。

此外,参数计算器1134被配置成用于通过减少潜在的源范围的数量来 执行源片修剪1146在于:基于相似度阈值从一组潜在的源片中除去源修补。 从而,当两个源片之间的相似度大于或等于相似度阈值时,则这两个源片之 一被从该组潜在的源中去除,并且该去除的源片不再对于另外的处理被使 用,并且具体地,可以不由片选择器1144选择或者不用于块1140中执行的 不同的源范围与目标范围之间的互相关计算。

已经参照不同的图描述了不同的实现。图1A至图5C涉及全速率或全 带宽编码器/解码器方案。图6A至图7E涉及使用TNS或TTS处理的编码 器/解码器。图8A至图8E涉及具有特定的双声道处理的编码器/解码器。图 9A至图10D涉及特定的能量信息计算和应用,以及图11A至图12C涉及片 选择的具体方式。

所有这些不同的方面可以是相互依赖于的本发明的用途,但是另外地, 也可以基本上如图2A和图2B中所示,一起被应用。然而,特定的双声道处 理也可以被应用于如图13中所示的编码器/解码器方案,并且对于TNS/TTS 处理、重构频带中的包络能量信息计算和应用或自适应源范围识别和解码器 侧上的相应的应用同样成立。另一方面,在使用或不使用TNS/TTS处理, 使用或不使用双声道处理,使用或不使用自适应源范围识别或使用频谱包络 表示的其他类型的能量计算的情况下,全速率方面适用。从而,清楚的是, 这些各个方面之一的特征也可以适用于其他方面中。

虽然在用于编码或解码的设备的背景下描述了一些方面,但是清楚的 是,这些方面还给出相应的方法的描述,其中,一个块或装置对应于方法步 骤或者方法步骤的特征。类似地,在方法步骤的背景下描述的方面还给出相 应的块或项目的描述或者相应的设备的特征。一些或全部方法步骤可以由 (或者使用)硬件设备诸如例如微处理器、可编码计算机或电子电路来执行。 在一些实施方式中,最重要的方法步骤中的某些一个或更多个可以由这样的 设备来执行。

取决于某些实现要求,本发明的实施方式可以以硬件或软件被实现。实 现可以使用例如数字存储介质的非暂态存储介质来实现,例如软盘、硬盘驱 动(HDD)、DVD、蓝光、CD、ROM、PROM和EPROM、EEPROM或 者闪存存储器,其上存储有电可读的控制信号,其与可编程计算机系统合作 (或能够与其合作),使得执行相应的方法。因此,数字存储介质可以是计 算机可读的。

根据本发明的一些实施方式包括数据载体,数据载体具有电可读控制信 号,电可读控制信号能够与可编程计算机系统协作以使得执行本文中描述的 方法之一。

通常,本发明的实施方式可以被实现为具有程序代码的计算机程序产 品,当计算机程序产品在计算机上运行时,程序代码操作地用于执行方法之 一。程序代码可以被存储在例如机器可读载体上。

其他实施方式包括被存储在机器可读载体上的用于执行本文中描述的 方法之一的计算机程序。

换言之,本发明的方法的实施方式因此是具有程序代码的计算机程序, 当计算机程序在计算机上运行时,程序代码用于执行本文中描述的方法之 一。

因此,本发明的方法的又一实施方式是数据载体(或数字存储介质或者 计算机可读介质),该数据载体包括其上存储的用于执行本文中描述的方法 之一的计算机程序。数据载体、数字存储介质或记录介质通常为有形的和/ 或非暂态。

因此,本发明的方法的另一实施方式是表示用于执行本文中描述的方法 之一的计算机程序的数据流或信号序列。数据流或信号序列可以被配置成例 如经由数据通信连接例如经由因特网被传送。

又一实施方式包括处理装置例如计算机或可编程逻辑器件,处理装置被 配置成或适于执行本文中描述的方法之一。

又一实施方式包括其上安装有用于执行本文中描述的方法之一的计算 机程序的计算机。

根据本发明的又一实施方式包括被配置成将用于执行本文中描述的方 法之一的计算机程序(例如,电子地或光学地)传送至接收器的设备或系统。 接收器可以是例如计算机、移动装置、存储装置等。设备或系统可以包括例 如用于将计算机程序传送至接收器的文件服务器。

在一些实施方式中,可编程逻辑器件(例如,现场可编程门阵列)可以 用于执行本文中描述的方法的一些或全部功能。在一些实施方式中,现场可 编程门阵列可以与微处理器协作以执行本文中描述的方法之一。通常,优选 地,这些方法由任意硬件设备来执行。

上述实施方式对于本发明的原理仅为说明性。应当理解,对本领域中的 其他技术人员而言,本文中描述的布置和细节的修改和变化会很明显。因此, 意在仅受所附专利权利要求的范围的限制,而不受借助于本文中的实施方式 的描述和说明给出的具体细节的限制。

引用文献列表

[1]Dietz、L.Liljeryd、K.和O.Kunz,“Spectral Band Replication, a novel approach in audio coding”,第112次AES(音频工程协会)会议, 慕尼黑,2002年5月

[2]Ferreira、D.Sinha,“Accurate Spectral Replacement”,音频工程协会 会议,巴塞罗那,西班牙,2005年

[3]D.Sinha、A.Ferreira1和E.Harinarayanan,“A Novel Integrated  Audio Bandwidth Extension Toolkit(ABET)”,音频工程协会会议,巴黎, 法国,2006年

[4]R.Annadana、E.Harinarayanan、A.Ferreira和D.Sinha,“New  Results in Low Bit Rate Speech Coding and Bandwidth Extension”,音频 工程协会会议,旧金山,美国,2006年

[5]T.M.Bartkowiak,“Audio bandwidth extension by frequency  scaling of sinusoidal partials”,音频工程协会会议,旧金山,美国,2008 年

[6]J.Herre、D.Schulz,Extending the MPEG-4AAC Codec by Perceptual  Noise Substitution,第104次AES(音频工程协会)会议,阿姆斯特丹, 1998年,预印本4720

[7]M.Neuendorf、M.Multrus、N.Rettelbach等人,MPEG Unified Speech  and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio  Coding of all Content Types,第132次AES(音频工程协会)会议,布达 佩斯,匈牙利,2012年4月

[8]McAulay、Robert J.、Quatieri、Thomas F,“Speech Analysis/Synthesis  Based on a Sinusoidal Representation”,关于声学、语音和信号处理的 IEEE会报,第34(4)卷,1986年8月

[9]Smith,J.O.、Serra,X.,“PARSHL:An analysis/synthesis program for  non-harmonic sounds based on a sinusoidal representation”,国际计算机 音乐会议的会议记录,1987年

[10]Purnhagen、H.;Meine、Nikolaus,“HILN-the MPEG-4parametric  audio coding tools”,电路与系统,2000年ISCAS(电路与系统国际研讨 会)会议记录,日内瓦,2000年,2000IEEE国际研讨会,第3卷,第 201、204页,第3卷,2000

[11]国际标准ISO/IEC 13818-3,“Generic Coding of Moving Pictures and  Associated Audio:Audio”,日内瓦,1998年

[12]M.Bosi、K.Brandenburg、S.Quackenbush、L.Fielder、K.Akagiri、 H.Fuchs、M.Dietz、J.Herre、G.Davidson、Oikawa,“MPEG-2Advanced  Audio Coding”,第101次AES(音频工程协会)会议,洛杉矶,1996 年

[13]J.Herre,“Temporal Noise Shaping,Quantization and Coding  methods in Perceptual Audio Coding:A Tutorial introduction”,关于高质 量音频编码的第17次AES((音频工程协会)国际会议,1999年8月

[14]J.Herre,“Temporal Noise Shaping,Quantization and Coding  methods in Perceptual Audio Coding:A Tutorial introduction”,关于高质 量音频编码的第17次AES((音频工程协会)国际会议,1999年8月

[15]国际标准ISO/IEC 23001-3:2010,Unified speech and audio coding  Audio,日内瓦,2010年

[16]国际标准ISO/IEC 14496-3:2005,Information technology-Coding of  audio-visual objects-Part 3:Audio,日内瓦,2005年

[17]P.Ekstrand,“Bandwidth Extension of Audio Signals by Spectral  Band Replication”,关于MPCA的第1次IEEE比荷卢经济联盟研讨会 的会议记录,勒芬,2002年11月

[18]F.Nagel、S.Disch、S.Wilde,A continuous modulated single sideband  bandwidth extension,关于声学、语音和信号处理的ICASSP国际会议, 达拉斯,德克萨斯州(美国),2010年4月

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号