首页> 中国专利> 音讯信号解码器、音讯信号编码器、编码多声道音讯信号表现形态、方法及计算机程序

音讯信号解码器、音讯信号编码器、编码多声道音讯信号表现形态、方法及计算机程序

摘要

一种根据一编码多声道音讯信号表现形态提供一解码多声道音讯信号表现形态的音讯信号解码器,包含一时间扭曲解码器,该时间扭曲解码器被组配成选择性地使用个别音讯声道特定时间扭曲轮廓或一共同多声道时间扭曲轮廓以重建由编码多声道音讯信号表现形态表示的多个音讯声道。用于提供一多声道音讯信号的编码表现形态的音讯信号编码器,包含一编码音讯表现形态提供器,该编码音讯表现形态提供器被组配成依据描述与多个音讯声道中的不同音讯声道相关联的时间扭曲轮廓之间的相似性或差异的信息,选择性地提供包含与该多声道音讯信号的所述多个音讯声道共同相关联的一共用时间扭曲轮廓信息的一音讯表现形态,或包含与所述多个音讯声道中的不同音讯声道个别地相关联的个别时间扭曲轮廓信息的一编码音讯表现形态。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-08-21

    授权

    授权

  • 2011-05-25

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20090701

    实质审查的生效

  • 2011-04-06

    公开

    公开

说明书

技术领域

背景技术

发明背景

根据本发明的一些实施例关于一音讯信号解码器。根据本发明的进一步实施例关于一音讯信号编码器。根据本发明的另一些实施例关于一编码多声道音讯信号表现形态。根据本发明的又一些实施例关于一种用于提供一解码多声道音讯信号表现形态的方法、及一种用于提供一多声道音讯信号的一编码表现形态的方法、及一种用于实施所述方法的计算机程序。

根据本发明的一些实施例与针对时间扭曲MDCT转换编码器的方法有关。

在下文中,将对在时间扭曲音讯编码领域做一简要介绍,其中时间扭曲音讯编码的概念可连同本发明的一些实施例来被应用。

在最近几年,用以将音讯信号转换成频域表现形态、及有效率地编码这一这一频域表现形态(例如考虑知觉遮蔽临界值)的技术已被开发。这一音讯信号编码概念在以下情况下特别有效率,即如果对于传送一组编码频谱系数而言的区块段长度长,且如果只有是一相对少数的频谱系数远大于全域遮蔽临界值,而多数的频谱系数在该全域遮蔽临界附近或小于该全域遮蔽临界从而可被忽略(或用最小码长编码)。

例如,余弦式或正弦式调制重叠转换由于其能量集中压缩性质通常被用在信号源编码的应用中。也就是说,对于具有恒定基本频率(fundamental frequency)(基频(pitch))的谐音而言,它们将信号能量集中到少数频谱分量(子频带),这导致有效率的信号表现形态。

一般地,信号的(基本)基频将被理解为可与信号之频谱区别的最低主频。在一般的语音模型中,基频是经人的喉咙调制的激励信号的频率。若只是一个单一的基本频率存在,则频谱将极为简单,只包含该基本频率与泛音。这种频谱可被高效地编码。然而,对于具有变化基频的信号而言,与每一谐波分量相对应的能量通过若干转换系数来传播,从而导致编码效率的降低。

为了克服这一编码效率的降低,将被编码的音讯信号被以一非均匀时间网格有效率地重新取样。在随后的处理中,通过非均匀重新取样所获得的样本位置如同它们将代表非均匀时间网格上的值地被处理。这种操作通常由短语「时间扭曲」来表示。取样次数可依据基频的时间变化有利地选择,借此在音讯信号的时间扭曲版本中的基频变化小于音讯信号的原始版本(在时间扭曲之前)中的基频变化。在将音讯信号时间扭曲之后,音讯信号的时间扭曲版本被转换到频域。基频依赖时间扭曲具有的效应是,时间扭曲音讯信号的频域表现形态典型地能量集中到一数目远少于原始(非时间扭曲)音讯信号频域表现形态的频谱分量。

在解码器端,时间扭曲音讯信号的频域表现形态被转换回到时域,借此在解码器端可得到时间扭曲音讯信号的时域表现形态。然而,在解码器端重建时间扭曲音讯信号的时域表现形态中,编码器端输入音讯信号的原始基频变化不包括在内。因此,通过对时间扭曲音讯信号的解码器端重建时域表现形态的重新取样,又一时间扭曲被施加。为了在解码器端获得编码器端输入音讯信号的良好重建,期望的是解码器端时间扭曲至少近似是关于编码器端时间扭曲的反操作。为了获得一合适的时间扭曲,期望的是在解码器端可得一容许调整解码器端时间扭曲的一信息是所期望的。

因为典型所需要的是从音讯信号编码器向音讯信号解码器传送这一信息,所以期望的是维持这一传输所需要的比特率较小而仍然能够使解码器端进行所需要的时间扭曲信息可靠的重建。

鉴于以上讨论,期望有考虑到多声道音讯信号的高比特效率有效储存及/或传输的一概念。

发明内容

发明概要

根据本发明的一实施例产生根据一编码多声道音讯信号表现形态提供一解码多声道音讯信号表现形态的一音讯信号解码器。该音讯信号解码器包含一时间扭曲解码器,该时间扭曲解码器被组配成选择性地使用个别音讯声道特定时间扭曲轮廓或一共同多声道时间扭曲轮廓以时间扭曲重建由编码多声道音讯信号表现形态表示的多个音讯声道。

根据本发明的这一实施例基于以下发现,不同类型多声道音讯信号的有效率编码可通过在音讯声道特定时间扭曲轮廓与共同多声道时间扭曲轮廓的储存及/或传输之间切换来实现。已发现的是,在一些情况下,在一多声道音讯信号的多个声道中,基频变化明显地不同。而且,已发现的是在其他情况下,对于一多声道音讯信号的多个声道而言,基频变化接近相等。鉴于这些不同类型的信号(或一单一音讯信号的多个信号部分),已发现的是,若解码器可灵活地(可切换地或选择性地)从个别音讯声道特定时间扭曲轮廓表现形态或从一共同多声道时间扭曲轮廓表现形态得出用于重建多声道音讯信号的不同声道的时间扭曲轮廓的话,则编码效率可被提高。

在一较佳实施例中,时间扭曲解码器被组配成选择性地使用一共同多声道时间扭曲轮廓来时间扭曲重建多个音讯声道,个别编码频谱域信息可用于此。根据本发明的一层面,已发现的是,使用一共同多声道时间扭曲轮廓以时间扭曲重建多个音讯声道不仅在不同音讯声道表示一类似音讯内容的情况下,即使在不同音讯声道表示明显不同音讯内容的情况下也是可应用的。因此,已发现的是,针对不同音讯声道评估个别编码频谱域信息时结合使用一共同多声道时间扭曲轮廓的概念是有用的。例如,若第一音讯声道表示复音音乐作品的第一部分,而第二音讯声道表示复音音乐作品的第二部分,则这一概念特别有用。第一音讯信号与第二音讯信号可例如表示由不同歌手或不同乐器产生的声音。因此,第一音讯声道的频谱域表现形态可能与第二音讯声道的频谱域表现形态明显不同。例如,不同音讯声道的基本频率可能是不同的。且,不同的音讯声道可能包含有关基本频率的谐波的不同特性。然而,不同音讯声道的基频也许有接近平行变化的明显趋势。在这种情况下,将一共用时间扭曲(通过共同多声道时间扭曲轮廓来描述)施加到不同的音讯声道是非常有效的,即使不同的音讯声道包含明显不同的音讯内容(例如具有不同的基本频率与不同的谐波频谱)。然而,在其他情况下,自然是期望将不同时间扭曲施加到不同音讯声道。

在本发明的一较佳实施例中,时间扭曲解码器被组配成接收与第一音讯声道相关联的第一编码频谱域信息,并据以使用一频域到时域转换提供第一音讯声道的扭曲时域表现形态。并且,时间扭曲解码器进一步被组配成接收与第二音讯声道相关联的第二编码频谱域信息,并据以使用一频域到时域转换提供第二音讯声道的扭曲时域表现形态。在这种情况下,第二编码频谱域信息可能与第一频谱域信息不同。并且,时间扭曲解码器被组配成根据共同多声道时间扭曲轮廓来时变地重新取样第一音讯声道的扭曲时域表现形态(或它的一处理过的版本),获得第一音讯声道的规则取样表现形态、且也根据共同多声道时间扭曲轮廓来时变地重新取样第二音讯声道的扭曲时域表现形态(或它的一处理过的版本),获得第二音讯声道的规则取样表现形态。

在另一较佳实施例中,时间扭曲解码器被组配成从共同多声道时间扭曲轮廓信息得出一共同多声道时间轮廓。再者,时间扭曲解码器被组配成根据第一编码窗口形状信息得出与第一音讯声道相关联的第一个别特定声道(channel-specific)窗口形状,及根据第二编码窗口形状信息得出与第二音讯声道相关联的第二个别特定声道窗口形状。时间扭曲解码器进一步被组配成将第一窗口形状施加到第一音讯声道的扭曲时域表现形态,以获得第一音讯声道的扭曲时域表现形态的一处理过的版本,及将第二窗口形状施加到第二音讯声道的扭曲时域表现形态,以获得第二音讯声道的扭曲时域表现形态的一处理过的版本。在这种情况下,时间扭曲解码器可依据一个别的特定声道窗口形状信息将不同的窗口形状施加到第一与第二音讯声道的扭曲时域表现形态。

已发现的是,在一些情况下在准备一时间扭曲操作中将不同形状的窗口施加到不同音讯信号是值得推荐的,即使时间扭曲操作是基于一共用时间扭曲轮廓。例如可能存在一帧与一接续帧之间的过渡,其中在该帧中针对两个音讯声道存在一共用时间扭曲轮廓,而在该接续帧中针对两个音讯声道存在不同的时间扭曲轮廓。然而,在该接续帧中的这两个音讯声道其中之一的时间扭曲轮廓可能是当前帧中的共用时间扭曲轮廓的一非变化延续,而在该接续帧中的另一音讯声道的时间扭曲轮廓可能相对于当前帧中的共用时间扭曲轮廓有变化。因此,适于时间扭曲轮廓的非变化演化的窗口形状可用于所述音讯声道之一,而适于时间扭曲轮廓的变化演化的窗口形状可应用于另一音讯声道。因此,音讯声道的不同演化可被考虑在内。

在根据本发明的另一实施例中,时间扭曲解码器可被组配成施加一共用时间依比例调整,在窗口化该第一与第二音讯声道的时域表现形态时,将一共用时间依比例调整施加到不同的窗口形状,该共用时间依比例调整由该共同多声道时间轮廓决定。已发现的是,即使在各自的时间扭曲之前不同的窗口形状用于窗口化不同的音讯声道,对扭曲轮廓的时间依比例调整也应被并行地调整,以避免听觉印象的降级

根据本发明的又一实施例产生一音讯信号编码器,该音讯信号编码器用于提供一多声道音讯信号的编码表现形态。该音讯信号编码器包含一编码音讯表现形态提供器,该编码音讯表现形态提供器被组配成依据描述与多个音讯声道中的不同音讯声道相关联的时间扭曲轮廓之间的相似性或差异的信息,选择性地提供包含与多声道音讯信号的多个音讯声道共同相关联的一共用时间扭曲轮廓信息的一音讯表现形态,或包含与多个音讯声道中的不同音讯声道个别地相关联的个别时间扭曲轮廓信息的一编码音讯表现形态。根据本发明的这一实施例是基于以下发现,即在许多情况下,多声道音讯信号的多个声道包含类似的基频变化特性。因此,在一些情况下,将与多个音讯声道共同相关联的一共用时间扭曲轮廓信息包括在多声道音讯信号的编码表现形态中是有效率的。以此方式,编码效率对许多信号可被提高。然而,已发现的是,对于其他类型的信号(或甚至一信号的其他部分)而言,则不推荐使用这种共用时间扭曲信息。因此,若音讯信号编码器判定与考虑中的不同音讯声道相关联的扭曲轮廓之间的相似性或差异,则一有效率信号编码可被获得。然而,已发现的是,查看个别时间时间扭曲轮廓确实是值得的,因为有许多包含明显不同时域表现形态或频域表现形态的信号,尽管它们具有非常类似的时间扭曲轮廓。因此,已发现的是,时间扭曲轮廓的评估是用于评估信号的相似性的新准则,相较于只评估多个音讯信号的时域表现形态或所述音讯信号的频域表现形态,这提供额外的信息。

在一较佳实施例中,编码音讯表现形态提供器被组配成应用一共用时间扭曲轮廓信息来获得第一音讯声道的时间扭曲版本,及获得第二音讯声道的时间扭曲版本。该编码音讯表现形态提供器进一步被组配成根据第一音讯声道的时间扭曲版本提供与第一音讯声道相关联的第一个别编码频谱域信息,及根据第二音讯声道的时间扭曲版本提供与第二音讯声道相关联的第二个别编码频谱域信息。这一实施例是基于上述发现,即音讯声道可具有明显不同的音讯内容,即使其具有非常类似的时间扭曲轮廓。因此,提供与不同音讯声道相关联的不同频谱域信息通常是值得推荐的,即使音讯声道根据共用时间扭曲信息被时间扭曲。换言之,实施例是基于以下发现,即在时间扭曲轮廓的相似性与不同音讯声道的频域表现形态相似性之间不存在严格的相互关系。

在另一较佳实施例中,编码器被组配成获得共用扭曲轮廓信息,使得共用扭曲轮廓表示与第一音讯信号声道及第二音讯信号声道相关联的个别扭曲轮廓的一平均。

在又一较佳实施例中,编码音讯表现形态提供器被组配成在多声道音讯信号的编码表现形态中提供旁侧信息,使得该旁侧信息逐一音讯帧地(on a per-audio-frame basis)指示一帧的时间扭曲数据是否存在及一帧的共用时间扭曲轮廓信息是否存在。通过提供指示一帧的时间扭曲数据是否存在的信息,减少传输时间扭曲信息所需要的比特率是可能的。已发现的是,若时间扭曲用于这一帧,则典型地需要传送描述这一帧中的多个时间扭曲轮廓值的信息。然而,也已发现时间扭曲的应用对于许多帧不带来明显的利益。然而,已发现的是,更有效率的是使用例如一额外信息的比特来指示时间扭曲数据对于一帧是否可使用。通过使用这种发信,大量时间扭曲信息(典型包含关于多个时间扭曲轮廓值的信息)的传输可被省略,从而节省比特。

根据本发明的再一实施例产生表示一多声道音讯信号的一编码多声道音讯信号表现形态。该多声道音讯信号表现形态包含表示根据一共用时间扭曲而时间扭曲的多个时间扭曲音讯声道的一编码频域表现形态。该多声道音讯信号表现形态也包含与所述音讯声道共同相关联且表示共用时间扭曲的一共用时间扭曲轮廓信息的编码表现形态。

在一较佳实施例中,编码频域表现形态包含具有不同音讯内容的多个音讯声道的编码频域信息。同样地,共用扭曲轮廓信息的编码表现形态与具有不同音讯内容的所述多个音讯声道相关联。

根据本发明的另一实施例产生一种根据编码多声道音讯信号表现形态提供解码多声道音讯信号表现形态的方法。该方法可通过本文中同样地针对本发明装置所描述的特征与功能中的任意一者来实施。

根据本发明的又一实施例产生一种用于提供多声道音讯信号的编码表现形态的方法。该方法可通过本文中同样地针对本发明装置所描述的特征与功能中的任意一者来实施。

根据本发明的再一实施例产生一种用于实施上述方法的计算机程序。

附图说明

根据本发明的实施例将随后参考所包含附图予以描述,其中:

图1显示一时间扭曲音讯编码器的方块概要图;

图2显示一时间扭曲音讯解码器的方块概要图;

图3显示根据本发明的一实施例的一音讯信号解码器的方块概要图;

图4显示根据本发明的一实施例的用于提供解码音讯信号表现形态之方法的流程图;

图5显示根据本发明的一实施例的从一音讯信号解码器之方块概要图的详细摘录;

图6显示根据本发明的一实施例的从用于提供解码音讯信号表现形态的方法的流程图的详细摘录;

图7a、图7b显示根据本发明的一实施例的重建时间扭曲轮廓的图形表现形态;

图8显示根据本发明的一实施例的重建时间扭曲轮廓的另一图形表现形态;

图9a、图9b显示用于计算时间扭曲轮廓的算法;

图9c显示从一时间扭曲比索引到一时间扭曲比值的映射表;

图10a及图10b显示用于计算时间轮廓、样本位置、过渡长度、「第一位置」及「最后位置」的算法的表现形态;

图10c显示用于窗口形状计算的算法的表现形态;

图10d及图10e显示用于一窗口的应用的算法的表现形态;

图10f显示用于时变重新取样的算法的表现形态;

图10g显示用于后时间扭曲帧处理及用于重叠与相加的算法的图形表现形态;

图11a及图11b显示一图例;

图12显示可从一时间扭曲轮廓提取的一时间轮廓的图形表现形态;

图13显示根据本发明的一实施例提供扭曲轮廓的装置的详细方块概要图;

图14显示根据本发明的另一实施例的一音讯信号解码器的方块概要图;

图15显示根据本发明的一实施例的另一时间扭曲轮廓计算器的方块概要图;

图16a及图16b显示根据本发明的一实施例的计算时间扭曲节点值的图形表现形态;

图17显示根据本发明的一实施例的另一音讯信号编码器的方块概要图;

图18显示根据本发明的一实施例的另一音讯信号解码器的方块概要图;以及

图19a-19f显示根据本发明的一实施例的一音讯流的语法元素的表现形态。

具体实施方式

实施例的详细描述

1.根据图1的时间扭曲音讯编码器

因为本发明与时间扭曲音讯编码及时间扭曲音讯解码有关,可实施本发明的一原型时间扭曲音讯编码器及一时间扭曲音讯解码器的简略概述将被提出。

图1显示一时间扭曲音讯编码器的方块概要图,其中本发明的一些层面及实施例可被整合在该时间扭曲音讯编码器中。图1中的音讯信号编码器100被组配成接收一输入音讯信号110及在一帧序列中提供该输入音讯信号110的一编码表现形态。音讯编码器100包含一取样器104,该取样器104适于对音讯信号110(输入信号)取样,以得到被用作频域转换的基础的信号区块(取样表现形态)105。音讯编码器100进一步包含一转换窗口计算器106,该转换窗口计算器106适于得到用于从取样器104输出的取样表现形态105的依比例调整窗口。这些被输入到一窗口化程序(windower)108中,该窗口化程序108适于将依比例调整窗口施加到从取样器104得到的取样表现形态105。在一些实施例中,音讯编码器100可额外地包含一频域转换器108a,以得到取样且依比例调整表现形态105的频域表现形态(例如以转换系数形式)。该频域表现形态可被处理或进一步作为音讯信号110的编码表现形态被传送。

音讯编码器100进一步使用可被提供给音讯编码器100或可通过音讯编码器100得到之音讯信号110的基频轮廓112。因此音讯编码器100可取舍地包含用于得到基频轮廓112的一基频估计器。该取样器104可在输入音讯信号110的一连续表现形态上操作。可取舍地,取样器104可在输入音讯信号110的一已取样表现形态上操作。在后一种情况下,取样器104可对音讯信号110重新取样。取样器104可例如适于时间扭曲相邻重叠音讯区块,使得重叠部分在取样后的每一输入区块中具有一恒定基频或被减小基频变化。

转换窗口计算器106依据由取样器104所执行的时间扭曲得到音讯区块的依比例调整窗口。为了达到这个目的,一可取舍的取样率调整方块114可能是存在的,以定义取样器所使用的时间扭曲规则,该时间扭曲规则而后也被提供给转换窗口计算器106。在一备选实施例中,取样率调整方块114可被省略,且基频轮廓112可被直接提供给转换窗口计算器106,该转换窗口计算器106本身可执行合适的计算。再者,取样器104可将所施加的取样动作传送至转换窗口计算器106,以致能合适依比例调整窗口的计算。

时间扭曲被执行,使得由取样器104扭曲与取样的取样音讯区块的基频轮廓较输入区块中的原始音讯信号110的基频轮廓恒定。

2.根据图2的时间扭曲音讯解码器

图2显示一时间扭曲音讯解码器200的方块概要图,其中该时间扭曲音讯解码器200用于处理一音讯信号之第一与第二帧的第一时间扭曲且取样或简单时间扭曲表现形态,其中该音讯信号具有一帧序列,其中第二帧接着第一帧,且用于进一步处理该第二帧及接着该帧序列中的该第二帧的第三帧的第二时间扭曲表现形态。音讯解码器200包含一转换窗口计算器210,该转换窗口计算器210适于使用关于第一与第二帧的基频轮廓212的信息得到用于第一时间扭曲表现形态211a的第一依比例调整窗口,以及使用关于第二与第三帧的基频轮廓的信息得到用于第二时间扭曲表现形态211b的第二依比例调整窗口,其中所述依比例调整窗口可具有相同的样本数目,且其中用来渐出(fade out)第一依比例调整窗口的第一样本数目可不同于用来渐入(fade in)第二依比例调整窗口的第二样本数目。音讯解码器200进一步包含一窗口化程序216,该窗口化程序216适于将第一依比例调整窗口施加到第一时间扭曲表现形态,以及将第二依比例调整窗口施加到第二时间扭曲表现形态。音讯解码器200此外还包含一重新取样器218,该重新取样器218适于反时间扭曲第一依比例调整时间扭曲表现形态,以使用关于第一与第二帧之基频轮廓的信息得到第一取样表现形态,以及反时间扭曲第二依比例调整表现形态,以使用关于第二与第三帧的基频轮廓的信息得到第二取样表现形态,借此第一取样表现形态中与第二帧相对应的部分包含一基频轮廓,该基频轮廓在一预定容限范围内等于第二取样表现形态中与第二帧相对应的部分的基频轮廓。为了得到依比例调整窗口,转换窗口计算器210可直接接收基频轮廓212,或从一可取舍的取样率调整器220接收关于时间扭曲的信息,取样率调整器220接收基频轮廓212且以如下方式得到一反时间扭曲策略:即在重叠区域中的样本在一线性时间标度上的样本位置是相同的或接近相同的且被规则地间隔,使得重叠区域中的基频变成相同,且可取舍地,在反时间扭曲之前在重叠窗口部分中不同的衰落长度在反时间扭曲之后变成相同的长度。

音讯解码器200此外还包含一可取舍的加法器230,该加法器230适于将第一取样表现形态中与第二帧相对应的部分加入到第二取样表现形态中与第二帧相对应的部分,以得到音讯信号的第二帧的一重建表现形态作为一输出信号242。在一个实施例中,第一时间扭曲表现形态与第二时间扭曲表现形态可被提供作为音讯解码器200的输入。在另一实施例中,可取舍地,音讯解码器200可包含一反频域转换器240,该反频域转换器240可从被提供到该反频域转换器240的输入端的第一与第二时间扭曲表现形态的频域表现形态得到第一与第二时间扭曲表现形态。

3.根据图3的时间扭曲音讯信号解码器

在下文中,将予以描述一简化音讯信号解码器。图3显示这一简化音讯信号解码器300的方块概要图。该音讯信号解码器300被组配成接收编码音讯信号表现形态310,并据以提供一解码音讯信号表现形态312,其中该编码音讯信号表现形态310包含一时间扭曲轮廓演化信息。该音讯信号解码器300包含一时间扭曲轮廓计算器320,该时间扭曲轮廓计算器320被组配成根据时间扭曲轮廓演化信息产生时间扭曲轮廓数据322,该时间扭曲轮廓演化信息描述时间扭曲轮廓的时间演化,且该时间扭曲轮廓演化信息被编码音讯信号表现形态310所包含。当从时间扭曲轮廓演化信息312得到时间扭曲轮廓数据322时,时间扭曲轮廓计算器320从一预定时间扭曲轮廓初始值一再地重新开始,这将在下文中予以详细地描述。重新开始可能会有时间扭曲轮廓包含不连续(大于通过时间扭曲轮廓演化信息312编码的步阶的步进式改变)的结果。音讯信号解码器300进一步包含一时间扭曲轮廓数据重新依比例调整器330,该时间扭曲轮廓数据重新依比例调整器330被组配成重新依比例调整时间扭曲轮廓数据322的至少一部分,使得在时间扭曲轮廓的重新依比例调整版本332中,在时间扭曲轮廓计算的重新开始处的不连续被避免、减小或消除。

音讯信号解码器300也包含一扭曲解码器340,该扭曲解码器340被组配成根据编码音讯信号表现形态310且使用时间扭曲轮廓的重新依比例调整版本332提供一解码音讯信号表现形态312。

为了将音讯信号解码器300放入到时间扭曲音讯解码之背景脉络中,应注意的是,编码音讯信号表现形态310可包含转换系数211的一编码表现形态,而且也包含基频轮廓212(也被指定为时间扭曲轮廓)的一编码表现形态。时间扭曲轮廓计算器320与时间扭曲轮廓数据重新依比例调整器330可被组配成以时间扭曲轮廓的重新依比例调整版本332之形式提供基频轮廓212的重建表现形态。扭曲解码器340可例如接管窗口化216、重新取样218、取样率调整220以及窗口形状调整210的功能。再者,扭曲解码器340可例如可取舍地包含反转换240及重叠/相加230的功能,使得解码音讯信号表现形态312可与时间扭曲音讯解码器200的输出音讯信号232等效。

通过将重新依比例调整施加到时间扭曲轮廓数据322,时间扭曲轮廓的一连续(或至少近似连续)的重新依比例调整版本332可被获得,从而保证数值上溢或下溢被避免,甚至当使用对编码有效率的相对变化时间扭曲轮廓演化信息时亦然。

4.根据图4的一种用于提供解码音讯信号表现形态的方法。

图4显示根据包含时间扭曲轮廓演化信息的编码音讯信号表现形态提供解码音讯信号表现形态之方法的流程图,该流程可借根据图3的装置300执行。方法400包含第一步骤410,第一步骤410根据描述时间扭曲轮廓的时间演化的时间扭曲轮廓演化信息从一预定时间扭曲轮廓初始值一再地重新开始产生时间扭曲轮廓数据。

方法400进一步包含步骤420,步骤420重新依比例调整时间扭曲控制数据的至少一部分,使得在时间扭曲轮廓的重新依比例调整版本中,在其中的一个重新开始处的不连续被避免、减小或消除。

方法400进一步包含根据编码音讯信号表现形态且使用时间扭曲轮廓的重新依比例调整版本提供解码音讯信号表现形态的步骤430。

5.参考图5-9且根据本发明之一实施例的详细描述

在下文中,将参考图5-9详细地描述根据本发明的一实施例。

图5显示一装置500方块概要图,该装置500根据时间扭曲轮廓演化信息510提供时间扭曲控制信息512。装置500包含根据时间扭曲轮廓演化信息510提供重建时间扭曲轮廓信息522的一装置520,以及根据重建时间扭曲轮廓信息522提供时间扭曲控制信息512的一时间扭曲控制信息计算器530。

提供重建时间扭曲轮廓信息的装置520

在下文中,装置520的结构与功能将予以描述。装置520包含一时间扭曲轮廓计算器540,该时间扭曲轮廓计算器540被组配成接收时间扭曲轮廓演化信息510,并据以提供一新扭曲轮廓部分信息542。例如,针对将被重建的每一音讯信号帧,一组时间扭曲轮廓演化信息可被传送至装置500。然而,与将被重建的一音讯信号帧相关联的该组时间扭曲轮廓演化信息510可被用于重建多个音讯信号帧。类似地,多组时间扭曲轮廓演化信息可被用于重建一单一音讯信号帧的音讯内容,这将在下文中予以详细地讨论。作为结论,在一些实施例中可陈述为,时间扭曲轮廓演化信息510可以以一速率被更新,音讯信号的多组转换域系数将以该同一速率被重建或更新(每一音讯信号帧一个时间扭曲轮廓部分)。

时间扭曲轮廓计算器540包含一扭曲节点值计算器544,该扭曲节点值计算器544被组配成根据多个时间扭曲轮廓比值(或时间扭曲比索引)(或其时间序列)计算多个扭曲轮廓节点值(或其时间序列),其中时间扭曲比值(或索引)由时间扭曲轮廓演化信息510所组成。为了达到这一目的,扭曲节点值计算器544被组配成以一预定初始值(例如1)开始提供时间扭曲轮廓节点值,以及使用时间扭曲轮廓比值计算接续的时间扭曲轮廓节点值,这将在下文中予以讨论。

再者,时间扭曲轮廓计算器540可取舍地包含一内插器548,该内插器548被组配成在接续的时间扭曲轮廓节点值之间内插。因此,新时间扭曲轮廓部分的描述542被获得,其中该新时间扭曲轮廓部分典型地从扭曲节点值计算器524所使用的预定初始值开始。此外,装置520被组配成考虑额外的时间扭曲轮廓部分,即用于提供全部时间扭曲轮廓部分的一所谓的「上一时间扭曲轮廓部分」及一所谓的「当前时间扭曲轮廓部分」。为了达到这一目的,装置520被组配成将该所谓的「上一时间扭曲轮廓部分」及该所谓的「当前时间扭曲轮廓部分」储存在没有在图5中显示的一存储器中。

然而,装置520也包含一重新依比例调整器550,该重新依比例调整器550被组配成重新依比例调整该「上一时间扭曲轮廓部分」及该「当前时间扭曲轮廓部分」,以避免(或减小、或消除)基于「上一时间扭曲轮廓部分」、「当前时间扭曲轮廓部分」及「新时间扭曲轮廓部分」的全部时间扭曲轮廓部分中的任何不连续。为了达到这一目的,重新依比例调整器550被组配成接收「上一时间扭曲轮廓部分」及「当前时间扭曲轮廓部分」的所储存描述,以及共同地重新依比例调整该「上一时间扭曲轮廓部分」及该「当前时间扭曲轮廓部分」,以获得该「上一时间扭曲轮廓部分」及该「当前时间扭曲轮廓部分」的重新依比例调整版本。与重新依比例调整器550所执行的重新依比例调整有关的细节将参考图7a、图7b及图8在下文中予以讨论。

此外,重新依比例调整器550也可被组配成例如从没有在图5中显示的一存储器接收与「上一时间扭曲轮廓部分」相关联的一和值及与「当前时间扭曲轮廓部分」相关联的另一和值。这些和值有时分别用“last_warp_sum”及“cur_warp_sum”标明。重新依比例调整器550被组配成使用一重新依比例调整因数重新依比例调整与时间扭曲轮廓部分相关联的和值,其中对应的时间扭曲轮廓部分用该同一重新依比例调整因数来重新依比例调整。因此,重新依比例调整和值被获得

在一些情况下,装置520可包含一更新器560,该更新器560被组配成一再地更新重新依比例调整器550的时间扭曲轮廓部分输入且亦更新重新依比例调整器550的和值输入。例如,更新器560可被组配成以帧速率更新该信息。例如,当前帧周期的「新时间扭曲轮廓部分」可作为下一帧周期中的「当前时间扭曲轮廓部分」。类似地,当前帧周期的重新依比例调整的「当前时间扭曲轮廓部分」可作为下一帧周期中的「上一时间扭曲轮廓部分」。因此,一存储器有效率实施态样被产生,因为当前帧周期的「上一时间扭曲轮廓部分」可在当前帧周期完成以后被丢弃。

综上所述,装置520被组配成为每一帧周期(一些特别帧周期除外,例如在帧序列开始、或在帧序列结束、或在时间扭曲无效的帧中)提供包含一「新时间扭曲轮廓部分」、一「重新依比例调整当前时间扭曲轮廓部分」及一「重新依比例调整上一时间扭曲轮廓部分」的描述的时间扭曲轮廓部分的描述。此外,装置520可为每一帧周期(上述特别帧周期除外)提供例如包含一「新时间扭曲轮廓部分和值」、一「重新依比例调整当前时间扭曲轮廓和值」及一「重新依比例调整上一时间扭曲轮廓和值」的扭曲轮廓和值的表现形态。

时间扭曲控制信息计算器530被组配成根据装置520所提供的重建时间扭曲轮廓信息计算时间扭曲控制信息512。例如,时间扭曲控制信息计算器包含一时间轮廓计算器570,该时间轮廓计算器570被组配成根据重建时间扭曲控制信息计算时间轮廓572。再者,时间扭曲轮廓信息计算器530包含一样本位置计算器574,该样本位置计算器574被组配成接收时间轮廓572并据以例如以样本位置向量576的形式提供样本位置信息。样本位置向量576描述例如由重新取样器218所执行的时间扭曲。

时间扭曲控制信息计算器530也包含一过渡长度计算器,该过渡长度计算器被组配成从重建时间扭曲控制信息得到过渡长度信息。过渡长度信息582可例如包含描述左过渡长度的信息以及描述右过渡长度的信息。过渡长度可例如依据由「上一时间扭曲轮廓部分」、「当前时间扭曲轮廓部分」及「新时间扭曲轮廓部分」所描述的时间部分的长度而定。例如,若由「上一时间扭曲轮廓部分」所描述的时间部分的时间扩展较由「当前时间扭曲轮廓部分」所描述的时间部分的时间扩展短,或若由「新时间扭曲轮廓部分」所描述的时间部分的时间扩展较由「当前时间扭曲轮廓部分」所描述的时间部分的时间扩展短,则过渡长度可被缩短(当与缺省过渡长度相比较时)。

此外,时间扭曲控制信息计算器530可进一步包含第一与最后位置计算器584,该第一与最后位置计算器584被组配成根据左及右过渡长度计算所谓的「第一位置」与所谓的「最后位置」。「第一位置」与「最后位置」增加重新依比例调整器的效率,因为在窗口化以后,这些位置以外的区域与零相同,从而不需要针对时间扭曲被考虑。在这里应注意的是,样本位置向量576包含例如由重新依比例调整器280所执行之时间扭曲所需要的信息。此外,左与右过渡长度582及「第一位置」与「最后位置」586组成例如窗口化程序216所需要的信息。

因此,可以说装置520与时间扭曲控制信息计算器530可一起接管取样率调整220、窗口形状调整210及取样位置计算219的功能。

在下文中,包含装置520及时间扭曲控制信息计算器530的音讯解码器的功能将参考图6、图7a、图7b、图8、图9a-9c、图10a-10g、图11a、图11b及图12予以描述。

图6显示根据本发明之一实施例的用于解码音讯信号的编码表现形态的方法的流程图。方法600包含提供一重建时间扭曲轮廓信息,其中提供重建时间扭曲轮廓信息之该步骤包含计算610扭曲节点值、在扭曲节点值之间内插620以及重新依比例调整630一个或多个先前计算的扭曲轮廓部分及一个或多个先前计算的扭曲轮廓和值。该方法600进一步包含使用在步骤610及620所获得的「新时间扭曲轮廓部分」、重新依比例调整的先前计算的时间扭曲轮廓部分(「当前时间扭曲轮廓部分」及「上一时间扭曲轮廓部分」)也可取舍地使用该重新依比例调整的先前计算的扭曲轮廓和值计算640时间扭曲控制信息。结果,时间轮廓信息、及/或样本位置信息、及/或过渡长度信息及/或第一位置与最后位置信息可在步骤640被获得。

方法600进一步包含使用在步骤640所获得的时间扭曲控制信息执行650时间扭曲信号重建。与时间扭曲信号重建有关的细节随后将予以描述。

方法600也包含更新存储器的步骤660,这将在下文中予以描述。

时间扭曲轮廓部分的计算

在下文中,与时间扭曲轮廓部分的计算有关的细节将参考图7a、图7b、图8、图9a、图9b、图9c予以描述。

将假设一初始状态是存在的,这在图7a的图形表现形态710中予以绘示。可看出的是,第一扭曲轮廓部分716(扭曲轮廓部分1)与第二扭曲轮廓部分718(扭曲轮廓部分2)是存在的。每一扭曲轮廓部分通常包含通常储存在一存储器中的多个离散扭曲轮廓数据值。不同的扭曲轮廓数据值与多个时间值相关联,其中时间在横坐标712处被显示。扭曲轮廓数据值的幅度在纵坐标714处被显示。可看出的是,第一扭曲轮廓部分具有一终值1,而第二扭曲轮廓部分具有一初始值1,其中值1可被认为是一「预定值」。应注意的是,第一扭曲轮廓部分716可被认为是一「上一时间扭曲轮廓部分」(也被指定为“last_warp_contour”),而第二扭曲轮廓部分718可被认为是一「当前时间扭曲轮廓部分」(也被称为“cur_warp_contour”)。

从该初始状态开始,一新扭曲轮廓部分例如在方法600的步骤610、620被计算。因此,第三扭曲轮廓部分的扭曲轮廓数据值(也被指定为「扭曲轮廓部分3」或「新时间扭曲轮廓部分」或“new_warp_contour”)被计算。该计算可例如根据在图9a中所示的算法910被分成扭曲节点值的计算,及根据在图9a中所示的算法920的在扭曲节点值之间的内插620。因此,一新扭曲轮廓部分722被获得,该新扭曲轮廓部分722从预定值(例如1)开始且被显示在图7a的图形表现形态720中。可看出的是,第一时间扭曲轮廓部分716、第二时间扭曲轮廓部分718及第三时间扭曲轮廓部分与相继且连续的时间区间相关联。再者,可看出的是,在第二时间扭曲轮廓部分718的结束点718b与第三时间扭曲轮廓部分的起始点722a之间存在一不连续724。

应注意的是,不连续724通常包含一幅度,该幅度大于一时间扭曲轮廓部分中的时间扭曲轮廓的任何两个时间相邻扭曲轮廓数据值之间的变化。这是由于第三时间扭曲轮廓部分722的初始值722a被施加为预定值(例如1)且与第二时间扭曲轮廓部分718的终值718b相独立的事实。应注意的是,不连续724从而大于两个相邻、离散扭曲轮廓数据值之间的不可避免的变化。

然而,第二时间扭曲轮廓部分718与第三时间扭曲轮廓部分722之间的这一不连续对于时间扭曲轮廓数据值的进一步使用而言将是不利的。

因此,在方法600的步骤630,第一时间扭曲轮廓部分与第二时间扭曲轮廓部分被共同地重新依比例调整。例如,第一时间扭曲轮廓部分716的时间扭曲轮廓数据值及第二时间扭曲轮廓部分718的时间扭曲轮廓数据值通过乘以一重新依比例调整因数(也被指定为“norm_fac”)来重新依比例调整。因此,第一时间扭曲轮廓部分716的一重新依比例调整版本716’被获得,且第二时间扭曲轮廓部分718的一重新依比例调整版本718’也被获得。相反,在这一重新依比例调整步骤,第三时间扭曲轮廓部分的左侧通常不受影响,这可在图7a的图形表现形态730中看出。重新依比例调整可被执行,使得经重新依比例调整的结束点718b’包含与第三时间扭曲轮廓部分722的起始点722a至少近似相同的数据值。因此,第一时间扭曲轮廓部分的重新依比例调整版本716’、第二时间扭曲轮廓部分的重新依比例调整版本718’及第三时间扭曲轮廓部分722一起形成一(近似)连续的时间扭曲轮廓部分。特别地,该依比例调整可被执行,使得经重新依比例调整的结束点718b’与起始点722a的数据值之间的差值不大于时间扭曲轮廓部分716’、718’、722中任何两个相邻数据值之间的差值的最大值。

因此,包含重新依比例调整的时间扭曲轮廓部分716’、718’及原始时间扭曲轮廓部分722的近似连续的时间扭曲轮廓部分被用于计算在步骤640被执行的时间扭曲控制信息。例如,针对与第二时间扭曲轮廓部分718时间相关联的音讯帧,时间扭曲控制信息可被计算。

然而,在步骤640计算时间扭曲控制信息之后,在步骤650,一时间扭曲信号重建可被执行,这将在下文中较详细地解释。

随后,需要获得下一音讯帧的时间扭曲控制信息。为了达到这一目的,第一时间扭曲轮廓部分的重新依比例调整版本716’可被摒弃以节省存储器,因为其不再被需要。然而,重新依比例调整版本716’自然也可被保存用于任何目的。此外,在新的计算上以第二时间扭曲轮廓部分的重新依比例调整版本718’代替「上一时间扭曲轮廓部分」,这在图7b中的图形表现形态740中可看出。再者,作为先前计算中之「新时间扭曲轮廓部分」的第三时间扭曲轮廓部分722在下一计算中扮演「当前时间扭曲轮廓部分」的角色。关联性在图形表现形态740中被显示。

继存储器的这一更新(方法600的步骤660)之后,一新时间扭曲轮廓部分752被计算,这可在图形表现形态750中看出。为了达到这一目的,方法600的步骤610及步骤620可在新的输入数据下被重新执行。第四时间扭曲轮廓部分752当前作用为「新时间扭曲轮廓部分」。如所看出的,在第三时间扭曲轮廓部分的结束点722b与第四时间扭曲轮廓部分752的起始点752a之间通常存在不连续。这一不连续754通过接续重新依比例调整(方法600的步骤630)第二时间扭曲轮廓部分的重新依比例调整版本718’及第三时间扭曲轮廓部分722的原始版本来减小或消除。因此,第二时间扭曲轮廓部分的两次重新依比例调整版本718”及第三时间扭曲轮廓部分的一次重新依比例调整版本722’被获得,这可从图7b中的图形表现形态760看出。如所看出的,时间扭曲轮廓部分718”、722’、752形成一至少近似连续的时间扭曲轮廓部分,该时间扭曲轮廓部分用于在重新执行步骤640时计算时间扭曲控制信息。例如,时间扭曲控制信息可根据时间扭曲轮廓部分718”、722’、752被计算,该时间扭曲控制信息与集中在第二时间扭曲轮廓部分上的一音讯信号时间帧相关联。

应注意的是,在一些情况下,期望每一时间扭曲轮廓部分具有一相关联扭曲轮廓和值。例如,第一扭曲轮廓和值可能与第一时间扭曲轮廓部分相关联、第二扭曲轮廓和值可能与第二时间扭曲轮廓部分相关联等等。所述扭曲轮廓和值可例如用于在步骤640计算时间扭曲控制信息。

例如,扭曲轮廓和值可代表各自时间扭曲轮廓部分的扭曲轮廓数据值的和。然而,因为时间扭曲轮廓部分被依比例调整,有时期望也依比例调整时间扭曲轮廓和值,使得时间扭曲轮廓和值追随其相关联时间扭曲轮廓部分的特性。因此,当第二时间扭曲轮廓部分718被依比例调整以获得其依比例调整版本718’时,与该第二时间扭曲轮廓部分718相关联的扭曲轮廓和值可被依比例调整(例如通过相同的依比例调整因数)。类似地,当第一时间扭曲轮廓部分716被依比例调整以获得其依比例调整版本716’时,与该第一时间扭曲轮廓部分716相关联的扭曲轮廓和值可被依比例调整(例如通过相同的依比例调整因数),如果期望的话。

再者,当继续考虑新时间扭曲轮廓部分时,一重新相关联(或存储器重新分配)可被执行。例如,作用为计算与时间扭曲轮廓部分716’、718’、722相关联的时间扭曲控制信息的「当前时间扭曲轮廓和值」的与第二时间扭曲轮廓部分的依比例调整版本718’相关联的扭曲轮廓和值可被认为是用于计算与时间扭曲轮廓部分718”、722’、752相关联的时间扭曲控制信息的「上一时间扭曲和值」。类似地,与第三时间扭曲轮廓部分722相关联的扭曲轮廓和值可被认为是用于计算与时间扭曲轮廓部分716’、718’、722相关联之时间扭曲控制信息的「新扭曲轮廓和值」且可被映射以作为用于计算与时间扭曲轮廓部分718”、722’、752相关联之时间扭曲控制信息的「当前扭曲轮廓和值」。再者,第四时间扭曲轮廓部分752的最新计算的扭曲轮廓和值可作用为计算与时间扭曲轮廓部分718”、722’、752相关联之时间扭曲控制信息的「新扭曲轮廓和值」。

根据图8的例子

图8显示绘示通过根据本发明的实施例解决之问题的图形表现形态。第一图形表现形态810显示以一些习知实施例所获得的一经重建的相对基频随时间推移的时间演化。横坐标812描述时间,纵坐标814描述相对基频。曲线816显示可从相对基频信息被重建的相对基频随时间推移的时间演化。关于相对基频轮廓的重建,应注意的是,对于应用时间扭曲修正型离散余弦转换(MDCT)而言,只是对实际帧中的基频的相对变化的知晓是必要的。为了理解这一点,现参考用于从相对基频轮廓获得时间轮廓的计算步骤,该步骤针对相同的相对基频轮廓的依比例调整版本产生相同的时间轮廓。因此,只编码相对而非绝对基频值就足够,而这增加了编码效率。为了进一步增加效率,实际量化值不是相对基频而是基频中的相对改变,即当前相对基频与先前相对基频的比(这将在下文中详细地讨论)。在例如信号根本不显示出谐波结构的一些帧中,可能并不希望时间扭曲。在这些情况下,额外的旗标可以可取舍地指示一平坦基频而非用上述方法编码这一平坦轮廓。因为在真实世界的信号中,这些帧的数量通常足够高,所以在全部时刻加入的该额外比特与保存用于非扭曲帧的比特之间的折中有利于比特节省。

用于计算基频变化(相对基频轮廓、或时间扭曲轮廓)的初始值可被任意地选择,且甚至在编码器与解码器中会是不同的。由于时间扭曲MDCT(TW-MDCT)的性质,基频变化的不同初始值仍然产生相同的样本位置及适合的窗口形状以执行TW-MDCT。

例如,一(音讯)编码器获得每一节点的基频轮廓,其在连同一非必需的浊音/清音说明的样本中被表现为实际基频延迟,该浊音/清音说明例如是通过应用从语音编码所知的一基频估计及浊音/清音判定获得。若对于当前节点而言,分类被设定为浊音,或无浊音/清音判定可利用,则编码器计算实际基频延迟间的比并将其量化,或如果是清音则只设定该比为1。另一例子可能是基频变化通过一种合适方法(例如信号变化估计)直接估计。

在解码器中,在编码音讯的起始处的第一相对基频的初始值被设定为一任意值,例如设定为1。因此,解码相对基频轮廓不再处于与编码器基频轮廓相同的绝对范围内而是它的一依比例调整版本。然而,如上所述,TW-MDCT算法产生相同的样本位置与窗口形状。此外,若编码基频比将产生一平坦基频轮廓,则编码器可能决定不发送完全编码轮廓,而是将activePitchData旗标设定为0,以在这一帧中节省比特(例如在这一帧中节省numPitchbits*numPitches个比特)。

在下文中,在不存在发明的基频轮廓重新正规化之情况下发生的问题将予以讨论。如上所述,对于TW-MDCT而言,只需要在围绕当前区块的某一有限时间间距范围内的相对基频改变用于计算时间扭曲与正确的窗口形状调适(参考上文的解释)。时间扭曲针对检测到基频改变的部分采用解码轮廓,并且在所有其他情况下保持恒定(参考图8的图形表现形态810)。对于计算一个区块的窗口与取样位置而言,需要三个连续的相对基频轮廓部分(例如三个时间扭曲轮廓部分),其中第三个是该帧中新近被传送的一者(被指定为「新时间扭曲轮廓部分」),而其他的两个过去被缓存(例如被指定为「上一时间扭曲轮廓部分」与「当前时间扭曲轮廓部分」)。

为了获得一例子,例如参考图7a及图7b以及图8的图形表现形态810、860所做出的解释。为了计算例如用于从帧0延伸到帧2的帧1的(或与帧1相关联的)窗口的取样位置,帧0、1及2的(或与帧0、1及2相关联的)基频轮廓是需要的。在比特流中,只帧2的基频信息在当前帧中被发送,而其他两个从过去获得。如在这里所解释的,通过将第一解码相对基频比施加到帧1的上一基频以获得在帧2的第一节点处的基频等等,基频轮廓可以是连续的。由于信号的性质,现在可能的是,若基频轮廓是简单连续的(即若新近被传送的轮廓部分被附接到现存的两个部分而未加以任何修改),编码器的内部数字格式中的范围上溢在某一时间之后发生。例如,信号可能以具有强谐波特性及在开始处具有一高基频值的一部分开始,其中该高基频值在该部分中不断减小,从而产生不断减小的相对基频。然后可能接着是不具有基频信息的一部分,使得相对基频保持恒定。然后,一谐波部分可能再次以较先前部分中的最后绝对基频高的一绝对基频开始,且再次下降。然而,若我们只使相对基频连续,则其与在上一谐波部分的末尾处相同,且将进一步下降等等。若信号足够强且在其谐波部分具有一总体上升或下降的趋势(如在图8的图形表现形态810中所示),相对基频迟早要达到内部数字格式之范围的边界。从语音编码所周知的是,语音信号的确显示出此特性。因此,当使用上述的习知方法时,编码包括语音的真实世界信号的一序连集合在一相对短暂时间后实际超出用于相对基频的浮点数值范围并不令人吃惊。

总之,对于其中基频可被决定的音讯信号部分(或帧),相对基频轮廓(或时间扭曲轮廓)的合适演化可被决定。对于其中基频不可被决定(例如因为音讯信号部分是类似噪声)的音讯信号部分(或音讯信号帧),相对基频轮廓(或时间扭曲轮廓)可被保持恒定。因此,若在具有不断增加基频与不断减小基频的音讯部分之间存在不平衡,则相对基频轮廓(或时间扭曲轮廓)将陷入数值下溢或数值上溢。

例如,在图形表现形态810中,针对存在具有不断减小基频的多个相对基频轮廓部分820a、820a、820c、820d以及不具有基频的一些音讯部分822a、822b,而不存在具有不断增加基频之音讯部分的情况,一相对基频轮廓被显示。因此,可看出的是,相对基频轮廓816陷入数值下溢(至少在非常不利的情况下)。

在下文中,针对这一问题的解决方案将予以描述。为了避免上述问题,特别是数值下溢或上溢,根据本发明的一层面的一周期性相对基频轮廓重新正规化已被引入。因为扭曲时间轮廓与窗口形状的计算只依赖于上述三个相对基频轮廓部分(也被指定为「时间扭曲轮廓部分」)上的相对改变,如这里所解释的,用相同的结果重新正规化(例如音讯信号之)每一帧的这一轮廓(例如可由三个「时间扭曲轮廓部分」组成的时间扭曲轮廓)是可能的。

为此,例如选择第二轮廓部分(也被指定为「时间扭曲轮廓部分」)中的最后样本作为参考,且轮廓此时以使这一样本具有一值1.0的方式被正规化(例如在线性域中倍增)(参考图8中的图形表现形态860)。

图8的图形表现形态860表示相对基频轮廓正规化。横坐标862显示以帧(帧0、1、2)被再分的时间。纵坐标864描述相对基频轮廓的值。

在正规化之前的相对基频轮廓用870标明且覆盖两个帧(例如帧标编号0及帧标编号1)。从预定相对基频轮廓初始值(或时间扭曲轮廓初始值)开始的一新相对基频轮廓部分(也被指定为「时间扭曲轮廓部分」)用874标明。如所看到的,新相对基频轮廓部分874从该预定相对基频轮廓初始值(例如1)的重新开始带来在重新开始时间点之前的相对基频轮廓部分870与新相对基频轮廓部分874之间的不连续,该不连续用878标明。这一不连续将对根据轮廓的任何时间扭曲控制信息的导出带来严重的问题,且可能会产生音讯失真。因此,先前所获得的在重新开始时间点重新开始之前的相对基频轮廓部分870被重新依比例调整(或被正规化),以获得一重新依比例调整相对基频轮廓部分870’。该正规化被执行,使得相对基频轮廓部分870中的最后样本被依比例调整为预定相对基频轮廓初始值(例如1.0)。

算法的详细描述

在下文中,通过根据本发明之一实施例的一音讯解码器执行的一些算法将予以详细地描述。为了达到这一目的,现参考图5、图6、图9a、图9b、图9c及图10a-10g。再者,参考图11a及图11b中的数据元素、辅助元素及常数的图例。

一般而言,可以说在这里所描述的方法可用于解码根据一时间扭曲修正型离散余弦转换被编码的音讯流。因此,当TW-MDCT针对音讯流被致能时(这可由例如被称为“twMdct”旗标的一旗标指示,该旗标可能被包含在一特定配置信息中),一时间扭曲滤波器组与区块交换可取代一标准滤波器组与区块交换。除反修正型离散余弦反转换(IMDCT)之外,时间扭曲滤波器组与区块交换包含从一任意间隔时间网格到正常规则间隔时间网格的时域到时域映射及窗口形状的对应调适。

在下文中,解码过程将被描述。在第一步,扭曲轮廓被解码。扭曲轮廓可能例如使用扭曲轮廓节点的码簿索引被编码。扭曲轮廓节点的码簿索引例如使用在图9a的图形表现形态910中所示的算法来解码。根据该算法,扭曲比值(warp_value_tbl)例如使用由图9c中的映射表990所定义的映射从扭曲比码簿索引(tw-ratio)得到。如从参考数字910所示的算法看出的是,若旗标(tw_data_present)指示时间扭曲数据不存在,则扭曲节点值可被设定为一恒定预定值。相反,若该旗标指示时间扭曲数据是存在的,则第一扭曲节点值可被设定为预定时间扭曲轮廓初始值(例如1)。(一时间扭曲轮廓部分的)接续的扭曲节点值可根据多重时间扭曲比值的一乘积来决定。例如,紧接第一扭曲节点(i=0)的一节点的扭曲节点值可等于第一扭曲比值(若初始值为1)或等于第一扭曲比值与初始值的乘积。接续的时间扭曲节点值(i=2、3、…、num_tw_nodes)通过形成多重时间扭曲比值(可取舍地考虑初始值,若初始值不等于1的话)的一乘积来计算。自然,乘积形成的顺序是任意的。然而,通过将第i扭曲节点值乘以一单一扭曲比值而从第i扭曲节点值得到第(i+1)扭曲节点值是有利的,其中该单一扭曲比值描述时间扭曲轮廓的两个接续节点值之间的比例。

如可从在参考数字910处所示的算法看出的,对于一单一音讯帧上的一单一时间扭曲轮廓部分而言,可能存在多个扭曲比码薄索引(其中在时间扭曲轮廓部分与音讯帧之间可能存在一对一对应)。

总之,在步骤610,针对一特定时间扭曲轮廓部分(或一特定音讯帧),多个时间扭曲节点值可例如使用扭曲节点值计算器544被获得。随后,一线性内插可在时间扭曲节点值(warp_node_values[i])之间被执行。例如,为了获得「新时间扭曲轮廓部分」(new_warp_contour)的时间扭曲轮廓数据值,在图9a的参考数字920处所示的算法可被使用。例如,新时间扭曲轮廓部分中的样本数目等于反修正型离散余弦反转换的时域样本数目的一半。关于这一问题,应注意的是,相邻音讯信号帧通常被移位(至少近似)MDCT或IMDCT的时域样本数目的一半。换言之,为了获得样本式(N_long个样本)new_warp_contour[],warp_node_values[]使用在参考数字920处所示的算法被线性内插在被相等间隔(interp_dist分开)的节点之间。

内插可以例如通过图5之装置的内插器548或者在算法600的步骤620被执行。

在获得针对这一帧(即当前在考虑中的帧)的全部扭曲轮廓之前,过去被缓存的值被重新依比例调整,使得past_warp_contour[]的最后扭曲值等于1(或任何其他预定值,较佳地,等于新时间扭曲轮廓部分的初始值)。

这里应注意的是,术语「过去扭曲轮廓(past warp contour)」较佳地包含上述「上一时间扭曲轮廓部分」及上述「当前时间扭曲轮廓部分」。也应注意的是,「过去扭曲轮廓」通常包含等于IMDCT中时域样本数目的一长度,使得「过去扭曲轮廓」的值用在0与2*n_long-1之间的索引来标明。因此,“past_warp_contour[2*n_long-1]”标明「过去扭曲轮廓」的一最后扭曲值。因此,正规化因子“norm_fac”可根据在图9a的参考数字930处所示的方程式来计算。因此,过去扭曲轮廓(包含「上一时间扭曲轮廓部分」与「当前时间扭曲轮廓部分」)可根据在图9a的参考数字932处所示的方程式来成倍地重新依比例调整。此外,「上一扭曲轮廓和值」(last_warp_sum)与「当前扭曲轮廓和值」(cur_warp_sum)可被成倍地重新依比例调整,如在图9a的参考数字934及936处所示。该重新依比例调整可由图5的重新依比例调整器550或在图6的方法600的步骤630被执行。

应注意的是,在这里(例如在参考数字930处)所描述的正规化然后可被修改,例如通过用任何其他所期望的预定值取代初始值「1」。

通过施加正规化,也被指定作为一「时间扭曲轮廓部分」的“fullwarp_contour[]”通过序连“past_warp_contour”与“new_warp_contour”来获得。因此,三个时间扭曲轮廓部分(「上一时间扭曲轮廓部分」、「当前时间扭曲轮廓部分」及「新时间扭曲轮廓部分」)形成「全部扭曲轮廓(full warp contour)」,这在进一步的计算步骤中可能被应用。

此外,一扭曲轮廓和值(new_warp_sum)被计算,例如作为所有“new_warp_contour[]”值的和。例如,新扭曲轮廓和值可根据在图9a的参考数字940处所示的算法计算。

接着上述计算,被时间扭曲控制信息计算器330或方法600的步骤640所需要的输入信息是可得的。因此,时间扭曲控制信息的计算640可例如通过时间扭曲控制信息计算器530来执行。同样地,时间扭曲信号重建650可通过音讯解码器来执行。计算640与时间扭曲信号重建650两者将在下文中较详细地解释。

然而,注意到本算法一再地继续进行是重要的。从而在计算上有效率,以更新存储器。例如,丢弃关于上一时间扭曲轮廓部分的信息是可能的。再者,使用当前的「当前时间扭曲轮廓部分」作为下一计算周期中的「上一时间扭曲轮廓部分」是可取的。再者,使用当前的「新时间扭曲轮廓部分」作为下一计算周期中的「当前时间扭曲轮廓部分」是可取的。这一分配可使用在图9b的参考数字950处所示的方程式来做出,(其中warp_contour[n]描述当前的「新时间扭曲轮廓部分」,其中2*n_long≤n<3·n_long)。

合适的分配可在图9b的参考数字952及954处看到。

换言之,用于解码下一帧的存储器缓冲器可根据在参考数字950、952及954处所示的方程式来更新。

应注意的是,若没有针对一先前帧产生合适的信息,则根据方程式950、952及954的更新不提供合理的结果。因此,在解码第一帧之前,或若最后帧用在交换编码器的背景脉络中的一不同类型编码器(例如一LPC域编码器)编码,则存储器的状态可根据在图9b的参考数字960、962及964处所示的方程式来设定。

时间扭曲控制信息的计算

在下文中,将简要地描述时间扭曲控制信息可如何根据时间扭曲轮廓(包含例如三个时间扭曲轮廓部分)及根据扭曲轮廓和值来计算。

例如,所期望的是使用时间扭曲轮廓来重建时间轮廓。为了达到这一目的,在图10a的参考数字1010、1012处所示的算法可被使用。如所看出的,时间轮廓将一索引i(0≤i≤3·n_long)映射到一对应时间轮廓值上。这种映射的一例子被显示在图12中。

基于时间轮廓的计算,通常需要计算样本位置(sample_pos[]),该样本位置描述以一线性时间依比例调整的时间扭曲样本的位置。这种计算可使用在图10b的参考数字1030处所示的算法来执行,在算法1030中,在图10a的参考数字1020及1022处所示的辅助函数可被使用。因此,关于取样时间的信息可被获得。

此外,时间扭曲过渡的某些长度(warp_trans_len_left;warped_trans_lenright)例如使用在图10b中所示的算法1032来计算。可取舍地,时间扭曲过渡长度可依据窗口类型或转换长度来调整,例如使用在图10b的参考数字1034处所示的算法。此外,所谓的「第一位置」及所谓的「最后位置」可以根据过渡长度信息,例如使用在图10b的参考数字1036处所示的算法来计算。总之,可通过装置530或在方法600的步骤640被执行的样本位置与窗口长度调整将被执行。从“warp_contour[]”,以一线性时间调整的时间扭曲样本的一样本位置向量(“sample_pos[]”)可被计算。为此,首先,时间轮廓可使用在参考数字1010、1012处所示的算法来产生。在参考数字1020及1022处所示的辅助函数“warp_in_vec()”及“warp_time_inv()”下,样本位置向量(“sample_pos[]”)及过渡长度(“warped_trans_len_left”及“warped_trans_len_right”)被计算,例如使用在参考数字1030、1032、1034及1036处所示的算法。因此,时间扭曲控制信息512被获得。

时间扭曲信号重建

在下文中,可根据时间扭曲控制信息被执行的时间扭曲信号重建将被简要地讨论,以将时间扭曲轮廓的计算放入到合适的背景脉络中

音讯信号的重建包含执行在这里没有详细描述的反修正型离散余弦反转换,因为其为本技术领域中的任何一个具有通常知识者所熟知。反修正型离散余弦反转换的执行允许根据一组频域系数重建扭曲时域样本。执行IMDCT例如可被逐帧式地执行,这表示例如一2048扭曲时域样本帧根据一1024频域系数组来重建。为了正确重建,接续的窗口重叠不多于两个是必要的。由于TW-MDCT的性质,可能发生的是,一个帧的反时间扭曲部分延伸到一非相邻帧,从而违反了上述前提。因此窗口形状的衰落长度需要通过计算上述合适的warped_trans_len_left及warped_trans_len_right值来缩短。

一窗口化与区块交换650b而后被施加到从IMDCT所获得的时域样本。该窗口化与区块交换650b可依据时间扭曲控制信息被施加到由IMDCT 650a所提供的扭曲时域样本,以获得窗口化扭曲时域样本。例如,依据“window_shape”信息或元素,不同的过取样转换窗口原型可被使用,其中过取样窗口的长度可由在图10c的参考数字1040处所示的方程式提出。例如,对于第一种类型的窗口形状(例如window_shape==1)而言,窗口系数根据在图10c的参考数字1042处所示的定义由凯萨尔-贝塞尔导出(KBD)窗口(“Kaiser-Bessel”derived(KBD)window)提出,其中W’、「凯萨尔-贝塞尔核心窗口函数(“Kaiser-Bessel kernel window function”)」被定义,如在图10c的参考数字1044处所示。

否则,当一不同窗口形状被使用时(例如,若window_shape==0),一正弦窗口可根据在参考数字1046处的定义被使用。对于所有种类的窗口序列(“window_sequences”)而言,用于左窗口部分的原型通过先前区块的窗口形状来决定,在图10c的参考数字1048处所示的公式表示这一事实。同样地,用于右窗口形状的原型通过在图10c的参考数字1050处所示的公式来决定。

在下文中,上述窗口对由IMDCT所提供的扭曲时域样本的施加将予以描述。在一些实施例中,帧的信息可由多个短序列(例如,八个短序列)提供。在其他实施例中,帧的信息可使用具有不同长度的区块来提供,其中对于起始序列、停止序列及/或非标准长度序列而言,特别处理可能被需要。然而,因为过渡长度可如上述那样被决定,可能足以区分使用八个短序列被编码的帧(由合适的帧类型信息“eight_short_sequence”指示)与所有其他帧。

例如,在由八个短序列所描述的帧中,在图10d的参考数字1060处所示的算法可被施加用于窗口化。相反,对于使用其他信息被编码的帧而言,在图10e的参考数字1064处所示的算法可被施加。换言之,在图10d中的参考数字1060处所示的类似C-程序码部分描述一所谓「八个短序列」的窗口化与内部重叠相加。相反,在图10d的参考数字1064处所示的类似C-程序码部分描述其他情况下的窗口化。

重新取样

在下文中,依据时间扭曲控制信息的窗口化扭曲时域样本的反时间扭曲650c将予以描述,从而规则取样的时域样本、或简单时域样本通过时变重新取样来获得。在时变重新取样中,窗口化区块z[]根据取样位置来重新取样,例如使用在图10f的参考数字1070处所示的脉冲响应。在重新取样之前,窗口化区块可在两端用零填充,如在图10f的参考数字1072处所示。重新取样本身通过在图10f的参考数字1074处所示的伪码部分来描述。

后重新取样器帧处理

在下文中,时域样本的一可取舍的后处理650d将予以描述。在一些实施例中,后重新取样帧处理可依据窗口序列的类型来执行。依据参数“window_sequence”,某些进一步的处理步骤可被施加。

例如,若窗口序列是一所谓的“EIGHT_SHORT_SEQUENCE”、一所谓的“LONG_START_SEQUENCE”、一所谓的“SHORT_START_1152_SEQUENCE”后接一所谓的LPD_SEQUENCE,则如在参考数字1080a、1080b、1082处所示的后处理可被执行。

例如,若下一窗口序列是一所谓的“LPD_SEQUENCE”,则一修正窗口Wcorr(n)可考虑在参考数字1080b处所示的定义被计算,如在参考数字1080a处所示。同样地,修正窗口Wcorr(n)可被施加,如在图10g的参考数字1082处所示。

对于所有其他情况而言,可能没有什么要做,如在图10g的参考数字1084处所看出的。

与先前窗口序列的重叠与相加

此外,当前时域样本与一个或多个先前时域样本的重叠与相加650e可被执行。对于所有序列而言,该重叠与相加可能是相同的,且可如在图10g的参考数字1086处所示地在数学上描述。

图例

关于所提出的解释,现参考在图11a及图11d中所示的图例。特别地,反转换的合成窗口长度N通常是语法元素“window_sequence”与算法脉络的函数。其可例如被定义如在图11b的参考数字1190处所显示。

根据图13的实施例

图13显示用于提供重建时间扭曲轮廓信息的装置1300的方块概要图,其中该装置1300接管参考图5所描述的装置520的功能。然而,数据路径与缓冲器被较详细地显示。该装置1300包含执行扭曲节点值计算器544之功能的一扭曲节点值计算器1344。该扭曲节点值计算器1344接收扭曲比的码薄索引“tw_ratio[]”作为编码扭曲比信息。扭曲节点值计算器包含一扭曲值表格表示,例如在图9c中所表示的时间扭曲比索引到时间扭曲比值上的映射。扭曲节点值计算器1344可进一步包含用于执行在图9a的参考数字910处所表示的算法的一乘法器。因此,扭曲节点值计算器提供扭曲节点值“warp_node_values[i]”。再者,装置1300包含一扭曲轮廓内插器1348,该扭曲轮廓内插器1348起内插器540a的功能且可被组配成执行在图9a的参考数字920处所示的算法,从而获得新扭曲轮廓(“new_warp_contour”)的值。装置1300进一步包含一新扭曲轮廓缓冲器1350,该新扭曲轮廓缓冲器1350储存新扭曲轮廓的值(即warp_contour[i],其中2·n_long≤i<3·n_long)。装置1300进一步包含一过去扭曲轮廓缓冲器/更新器1360,该过去扭曲轮廓缓冲器/更新器1360储存「上一时间扭曲轮廓部分」与「当前时间扭曲轮廓部分」且根据一重新依比例调整及根据当前帧之处理的完成更新存储器的内容。因此,该过去扭曲轮廓缓冲器/更新器1360可与过去扭曲轮廓重新依比例调整器1370协同工作,使得该过去扭曲轮廓缓冲器/更新器与该过去扭曲轮廓重新依比例调整器一起完成算法930、932、934、936、950、960的功能。可取舍地,该过去扭曲轮廓缓冲器/更新器1360也可接管算法932、936、952、954、962、964的功能。

因此,装置1300提供扭曲轮廓(“warp_contour”)且最佳地也提供扭曲轮廓和值。

根据图14的音讯信号编码器

在下文中,根据本发明的一层面的音讯信号编码器将予以描述。图14的该音讯信号编码器整体用1400标明。该音讯信号编码器被组配成接收音讯信号1410,及可取舍地,与该音讯信号1410相关联的一在外部被提供的扭曲轮廓信息1412。再者,该音讯信号编码器1400被组配成提供音讯信号1410的一编码表现形态1440。

音讯信号编码器1400包含一时间扭曲轮廓编码器1420,该时间扭曲轮廓编码器1420被组配成接收与音讯信号1410相关联的时间扭曲轮廓信息1422,且据以提供一编码时间扭曲轮廓信息1424。

音讯信号编码器1400进一步包含一时间扭曲信号处理器(或时间扭曲信号编码器)1430,该时间扭曲信号处理器1430被组配成接收音讯信号1410,以及据以提供音讯信号1410的时间扭曲编码表现形态1432,将时间扭曲信息1422所描述的时间扭曲考虑在内。音讯信号1410的编码表现形态1414包含编码时间扭曲轮廓信息1424及音讯信号1410的频谱的编码表现形态1432。

可取舍地,音讯信号编码器1400包含一扭曲轮廓信息计算器1440,该扭曲轮廓信息计算器1440被组配成根据音讯信号1410提供时间扭曲轮廓信息1422。然而,或者,该时间扭曲轮廓信息1422可根据在外部被提供的扭曲轮廓信息1412来提供。

时间扭曲轮廓编码器1420可被组配成计算由时间扭曲轮廓信息1422所描述的时间扭曲轮廓之接续节点值之间的比例。例如,所述节点值可能是由时间扭曲轮廓信息所表示的时间扭曲轮廓的样本值。例如,若针对音讯信号1410的每一帧,时间扭曲轮廓信息包含多个值,时间扭曲节点值可以是这一时间扭曲轮廓信息的一真正的子集。例如,时间扭曲节点值可以是时间扭曲轮廓值的一周期性真正子集。每N个音讯样本可能存在一时间扭曲轮廓节点值,其中N可能大于或等于2。

时间扭曲轮廓节点值比例计算器可被组配成计算时间扭曲轮廓的接续时间扭曲节点值之比,从而提供描述时间扭曲轮廓的接续节点值之比的信息。时间扭曲轮廓编码器的比例编码器可被组配成编码时间扭曲轮廓的接续节点值之比。例如,比例编码器可将不同比例映射到不同的码薄索引。例如,一映射可被选择,使得由时间扭曲轮廓值比例计算器所提供的比例在0.9与1.1之间或者甚至在0.95与1.05之间的一范围内。因此,该比例编码器可被组配成将这一范围映射到不同的码薄索引。例如,在图9c的表格中所示的对应关系可作为这一映射中的支持点,使得例如一比例1被映射到码薄索引3上,而比例1.0057被映射到码薄索引4上等等(比较图9c)。在图9c的表格中所示的那些之间的比值可被映射到合适的码薄索引,例如对在图9c的表格中所示的码薄索引而言,映射到最接近比值的码薄索引。

自然,不同的编码可被使用,使得例如一些可用码薄索引可被选择较这里所显示的大或小。同样地,在扭曲轮廓节点值与码薄值索引之间的相关联性可被合适地选择。同样地,码薄索引可使用例如二进制编码、可取舍地使用熵编码来编码。

因此,编码比例1424被获得。

时间扭曲信号处理器1430包含一时间扭曲时域到频域转换器1434,该转换器1434被组配成接收音讯信号1410及与该音讯信号(或其一编码版本)相关联的时间扭曲轮廓信息1422a,以及据以提供一频谱域(频域)表现形态1436。

时间扭曲轮廓信息1422a可较佳地使用一轮廓解码器1425从由时间扭曲轮廓编码器1420所提供的编码信息1424得到。以此方式,可实现的是,编码器(特别是其时间扭曲信号处理器1430)及解码器(接收音讯信号的编码表现形态1414)在同一扭曲轮廓(即解码(时间)扭曲轮廓)上操作。然而,在一简化实施例中,时间扭曲信号处理器1430所使用的时间扭曲轮廓信息1422a可与输入到时间扭曲轮廓编码器1420的时间扭曲轮廓信息1422相同。

当例如使用音讯信号1410的时变重新依比例调整操作形成频域表现形态1436时,时间扭曲时域到频域转换器1434可例如考虑时间扭曲。然而,可取舍地,时变重新依比例调整与时域到频域转换被整合在一单一处理步骤中。时间扭曲信号处理器也包含一频谱值编码器1438,该频谱值编码器1438被组配成编码频域表现形态1436。频谱值编码器1438可例如被组配成考虑知觉遮蔽。同样地,频谱值编码器1438可被组配成使编码精确性适应频带的知觉相关性以及施加一熵编码。因此,音讯信号1410的编码表现形态1432被获得。

根据图15的时间扭曲轮廓计算器

图15显示根据本发明之另一实施例的时间扭曲轮廓计算器的方块概要图。时间扭曲轮廓计算器1500被组配成接收一编码扭曲比信息1510,以便据以提供多个扭曲节点值1512。该时间扭曲轮廓计算器1500包含例如一扭曲比解码器1520,该扭曲比解码器1520被组配成从编码扭曲比信息1510得到一扭曲比值序列1522。该时间扭曲轮廓计算器1500也包含一扭曲轮廓计算器1530,该扭曲轮廓计算器1530被组配成从扭曲比值序列1522得到扭曲节点值序列1512。例如,扭曲轮廓计算器可被组配成获得从一扭曲轮廓初始值开始的扭曲轮廓节点值,其中与一扭曲轮廓起始点相关联的扭曲轮廓初始值与扭曲轮廓节点值之比由扭曲比值1522决定。扭曲节点值计算器亦被组配成根据一乘积形成计算以一中间扭曲轮廓节点与扭曲轮廓起始点隔开的一特定扭曲轮廓节点的扭曲轮廓节点值1512,且该乘积包含扭曲轮廓初始值(例如1)与中间扭曲轮廓节点的扭曲轮廓节点值之比、及中间扭曲轮廓节点的扭曲轮廓节点值与该特定扭曲轮廓节点的扭曲轮廓节点值之比作为因数。

在下文中,时间扭曲轮廓计算器1500的操作将参考图16a及图16b予以简要地讨论。

图16a显示时间扭曲轮廓的连续计算的图形表现形态。第一图形表现形态1610显示一时间扭曲比码薄索引序列1510(索引=0、索引=1、索引=2、索引=3、索引=7)。再者,图形表现形态1610显示与所述码薄索引相关联的一扭曲比值序列(0.983、0.988、0.994、1.000、1.023)。再者,可看出的是,第一扭曲节点值1621(i=0)被选择为1(其中1是一初始值)。如所看出的,第二扭曲节点值1622(i=1)通过将初始值1乘以第一比值0.983(与第一索引0相关联)来获得。可进一步看出的是,第三扭曲节点值1623通过使第二扭曲节点值16220.983乘以第二扭曲比值0.988(与第二索引1相关联)来获得。以同样的方式,第四扭曲节点值1624通过使第三扭曲节点值1623乘以第三扭曲比值0.994(与第三索引2相关联)来获得。

因此,一扭曲节点值序列1621、1622、1623、1624、1625、1626被获得。

各自的扭曲节点值被有效率地获得,使得其是初始值(例如1)与位于起始扭曲节点值1621与各自扭曲节点值1622到1626之间的所有中间扭曲比值的乘积。

图形表现形态1640绘示扭曲节点值之间的线性内插。例如,在两个相邻时间扭曲节点值1621、1622之间的内插值1621a、1621b、1621c可例如利用线性内插在一音讯信号解码器中被获得。

图16b显示使用从一预定初始值的周期性重新开始的一时间扭曲轮廓重建的图形表现形态,该时间扭曲轮廓重建动作可以可取舍地在时间扭曲轮廓计算器1500中被实施。换言之,一再或周期性重新开始不是一基本特征,所提供的数值上溢可在编码器端或在解码器端通过任何合适的测量被避免。如所看到的,一扭曲轮廓部分可从一起始点1660开始,其中扭曲轮廓节点1661、1662、1663、1664可被决定。为了达到这一目的,扭曲比值(0.983、0.988、0.965、1.000)可被考虑,使得第一时间扭曲轮廓部分的邻近扭曲轮廓节点1661到1664以这些扭曲比值所决定的比例被分开。然而,一另外的第二时间扭曲轮廓部分可在第一时间扭曲轮廓部分(包含节点1660-1664)的一结束点1664之后开始已被实现。第二时间扭曲轮廓部分可从一新起始点1665开始,该新起始点1665可独立于任何扭曲比值而取用该预定初始值。因此,第二时间扭曲轮廓部分的扭曲节点值可根据第二时间扭曲轮廓部分的扭曲比值从第二时间扭曲轮廓部分的起始点1665开始被计算。稍后,第三时间扭曲轮廓部分可从一相对应的起始点1670开始,该对应起始点1670可再次独立于任何扭曲比值而取用该预定初始值。因此,时间扭曲轮廓部分的周期性重新开始被获得。可取舍地,一再重新正规化可被施加,如上文所详细描述的。

根据图17的音讯信号编码器

在下文中,根据本发明之另一实施例的音讯信号编码器将参考图17予以简要地描述。音讯信号编码器1700被组配成接收一多声道音讯信号1710且提供该多声道音讯信号1710的一编码表现形态1712。该音讯信号编码器1700包含一编码音讯表现形态提供器1720,该编码音讯表现形态提供器1720被组配成依据描述与多个音讯声道中的不同音讯声道相关联的扭曲轮廓之间的相似性或差异的信息,选择性地提供包含通常与该多声道音讯信号的多个音讯声道相关联的一共同扭曲轮廓信息的一音讯表现形态,或包含与多个音讯声道中的不同音讯声道个别地相关联的个别扭曲轮廓信息的一编码音讯表现形态。

例如,音讯信号编码器1700包含被组配成提供描述与音讯声道相关联的扭曲轮廓之间的相似性或差异的信息1732的一扭曲轮廓相似性计算器或扭曲轮廓差异计算器1730。该编码音讯表现形态提供器包含例如一选择性时间扭曲轮廓编码器1722,该选择性时间扭曲轮廓编码器1722被组配成接收时间扭曲轮廓信息1724(该信息1724可在外部被提供或可由一可取舍的时间扭曲轮廓信息计算器1734提供)及信息1732。若信息1732指示两个或多个音讯声道的时间扭曲轮廓充分地相似,选择性时间扭曲轮廓编码器1722可被组配成提供一共同编码时间扭曲轮廓信息。该共同扭曲轮廓信息可例如基于两个或多个声道的扭曲轮廓信息的平均。然而,或者,该共同扭曲轮廓信息可基于一单音讯声道的一单一扭曲轮廓信息,但与多个声道共同地相关联。

然而,若信息1732指示多个音讯声道的扭曲轮廓不充分地相似,则选择性时间扭曲轮廓编码器1722可提供不同扭曲轮廓的独立编码信息。

编码音讯表现形态提供器1720也包含一时间扭曲信号处理器1726,该时间扭曲信号处理器1726亦被组配成接收时间扭曲轮廓信息1724与多声道音讯信号1710。时间扭曲信号处理器1726被组配成编码音讯信号1710的多个声道。时间扭曲信号处理器1726也包含不同的操作模式。例如,时间扭曲信号处理器1726可被组配成个别地选择性地编码音讯声道,或利用声道之间的相似性共同地对它们编码。在一些情况下,时间扭曲信号处理器1726能共同地编码具有一共用时间扭曲轮廓信息的多个音讯声道。有些情况中,左音讯声道与右音讯声道显示出相同的相对基频演化但是具有除此之外不同的信号特性,例如,不同绝对基本频率或不同频谱包络线。在这种情况下,因为左音讯声道与右音讯声道之间的明显差异,不希望共同地编码左音讯声道与右音讯声道。然而,左音讯声道与右音讯声道中的相对基频演化可能是平行的,使得共用时间扭曲的应用是非常有效率的解决方案。这种音讯信号的一个例子是复音音乐(polyphone music),其中多个音讯声道的内容显示出明显的差异(例如受不同歌手或乐器支配),但是显示出类似的基频变化。因此,通过提供针对多个音讯声道具有时间扭曲轮廓的共同编码的可能性而同时保持独立编码被提供共用基频轮廓信息的不同音讯声道的频谱的选择,编码效率可被明显地提高。

编码音讯表现形态提供器1720可取舍地包含一旁侧信息编码器1728,该旁侧信息编码器1728被组配成接收信息1732及提供一旁侧信息,该旁侧信息指示是否针对数个音讯声道提供一共用编码扭曲轮廓或是否针对多个音讯声道提供个别编码扭曲轮廓。例如,这种旁侧信息可以一1比特旗标(即“common_tw”)的形式被提供。

总之,选择性时间扭曲轮廓编码器1722选择性地提供与多个音讯信号相关联的时间扭曲音讯轮廓的个别编码表现形态,或表示与多个音讯声道相关联的一单一共同时间扭曲轮廓的一共同编码时间扭曲轮廓表现形态。旁侧信息编码器1728可取舍地提供指示个别时间扭曲轮廓表现形态或一共同时间扭曲轮廓表现形态是否被提供的一旁侧信息。时间扭曲信号处理器1726提供多个音讯声道的编码表现形态。可取舍地,一共用编码信息可针对多个音讯声道被提供。然而,通常情况下甚至可能提供多个音讯声道的个别编码表现形态,其中对所述多个音讯声道而言,一共用时间扭曲轮廓表现形态是可得的,使得具有不同音讯内容但是相同时间扭曲的不同音讯声道被适当地表示。因此,编码表现形态1712包含由选择性时间扭曲轮廓编码器1722、及时间扭曲信号处理器1726、及选择性地旁侧信息编码器1728所提供的编码信息。

根据图18的音讯信号解码器

图18显示根据本发明之一实施例的一音讯信号解码器的方块概要图。音讯信号解码器1800被组配成接收一编码音讯信号表现形态1810(例如编码表现形态1712)及据以提供多声道音讯信号的一解码表现形态1812。音讯信号解码器1800包含一旁侧信息提取器1820及一时间扭曲解码器1830。该旁侧信息提取器1820被组配成从编码音讯信号表现形态1810提取一时间扭曲轮廓应用信息1822及一扭曲轮廓信息1824。例如,旁侧信息提取器1820可被组配成认定针对编码音讯信号的多个声道,一单一共用时间扭曲轮廓信息是否可得,或者针对多个声道,独立时间扭曲轮廓信息是否可得。因此,该旁侧信息提取器可提供时间扭曲轮廓应用信息1822(指示共同或个别时间扭曲轮廓信息是否是可得的)与时间扭曲轮廓信息1824(描述个别时间扭曲轮廓的共用(共同)时间扭曲轮廓的时间演化)两者。时间扭曲解码器1830可被组配成根据编码音讯信号表现形态1810重建多声道音讯信号的解码表现形态,将由信息1822、1824所描述的时间扭曲考虑在内。例如,时间扭曲解码器1830可被组配成施加用于解码不同音讯声道的一共用时间扭曲轮廓,其中对于所述不同声道而言,个别编码频域信息是可得的。因此,时间扭曲解码器1830可例如重建包含类似或相同时间扭曲但是不同基频的多声道音讯信号的不同声道。

根据图19a到图19e的音讯流

在下文中,包含一个或多个声道及一个或多个时间扭曲轮廓的一编码表现形态的一音讯流将予以描述。

图19a显示一所谓“USAC_raw_data_block”数据流元素的图形表现形态,其中该数据流元素可包含一单声道元素(SCE)、一双声道元素(CPE)或一个或多个单声道元素及/或一个或多个双声道元素的一组合。

“USAC_raw_data_block”通常可包含一编码音讯数据区块,而额外的时间扭曲轮廓信息可在一独立数据流元素中被提供。然而,将一些时间扭曲轮廓数据编码到“USAC_raw_data_block”中通常是可能的。

如从图19b所看出的,一单声道元素典型地包含一频域声道流(“fd_channel_stream”),这将参考第9d图予以详细地解释。

如从图19c可看出的,一双声道元素(“channel_pair_elelment”)通常包含多个频域声道流。同样地,双声道元素可包含时间扭曲信息。例如,可在一组态数据流元素中或在“USAC_saw_data_block”中被传送的时间扭曲启动旗标(“tw_MDCT”)决定时间扭曲信息是否被包括在该双声道元素中。例如,若tw_MDCT旗标指示时间扭曲有效,则双声道元素可包含指示针对双声道元素的音讯声道是否存在一共用时间扭曲的一旗标(“common_tw”)。若该旗标(“common_tw”)指示针对多个音讯声道存在一共用时间扭曲,则一共用时间扭曲信息(tw_data)被例如与频域声道流相独立地包括在该双声道元素中。

现参考描述频域声道流的图19d。如从图19d可看出的,频域声道流例如包含一全域增益信息。同样地,若时间扭曲有效(旗标“tw_MDCT”有效)且针对多个音讯信号声道不存在共用时间扭曲信息(旗标“common_tw”是无效的),则频域声道流包含时间扭曲数据。

再者,频域声道流也包含依比例调整因数数据(“scale_factor_data”)及编码频谱数据(例如算术编码频谱数据“ac_spectral_data”)。

现参考简要讨论时间扭曲数据的语法的图19e。时间扭曲数据可例如可取舍地包含指示时间扭曲数据是否存在的一旗标(例如“tw_data_present”或「有效基频数据(active Pitch Data)」)。若时间扭曲数据是存在的(即时间扭曲数据不是平的),则时间扭曲数据可包含具有可例如根据图9c的码薄表被编码的多个编码时间扭曲比值(例如“tw_ratio[i]”或“pitchIdx[i]”)的一序列。

因此,时间扭曲数据可包含指示不存在可得时间扭曲数据的一旗标,若时间扭曲轮廓是恒定的(时间扭曲比近似等于1.000),则该旗标可由一音讯信号编码器设定。相反,若时间扭曲轮廓是变化的,则接续时间扭曲轮廓节点之间的比可使用组成“tw_ratio”信息的码薄索引来编码。

结论

综上所述,根据本发明的实施例带来时间扭曲领域中的不同提高。

在此所描述的本发明层面在时间扭曲MDCT转换编码器之背景脉络中(参见例如参考文献[1])。根据本发明的实施例提供用于提高时间扭曲MDCT转换编码器之性能的方法。

根据本发明的一层面,一特别有效率的比特流格式被提供。该比特流格式描述基于且增强MPEG-2 AAC比特流语法(例如参见参考文献[2]),但是当然可应用到在一串流起始具有一般性描述标头及一独立逐帧式信息语法的所有比特流格式。

例如,以下旁侧信息可在比特流中被传送:

一般地,一个比特旗标(例如所指定的“tw_MDCT”)在一般特定音讯配置(GASC)中可能是存在的,指示时间扭曲是否有效。基频数据可使用在图19e中所示的语法或在图19f中所示的语法来传送。在图19f中所示的语法中,基频的数目(“numPitches”)可能等于16,且基频比特的数目(“numPitchBits”)可能等于3。换言之,每一时间扭曲轮廓部分(或每一音讯信号帧)可能存在16个编码扭曲比值,且每一扭曲轮廓比值可使用3个比特来编码。

此外,在一单声道元素(SCE)中,若扭曲是有效的,基频数据(pitch_data[])可能位于个别声道中的部分数据之前。

在双声道元素(CPE)中,若二声道有一共同基频数据,则一共同基频旗标发出信号,其后结果是若无共同基频数据,个别基频轮廓被发现于个别声道中。

在下文中,针对一双声道元素的实例将被提出。一个实例可能是被置于立体声全景中的一单一谐波声源的信号。在这种情况下,第一声道与第二声道的相对基频轮廓将是相等的或者由于变化估计中的一些小错误将只略有不同。在这种情况下,编码器可决定不是针对每一声道发送两个独立编码的基频轮廓,而是只发送一个基频轮廓,该基频轮廓是第一与第二声道的基频轮廓的一平均,并且在这两个声道上施加TW-MDCT的过程中使用相同的轮廓。另一方面,可能存在一信号,其中基频轮廓的估计针对第一与第二声道分别产生不同结果。在这种情况下,独立编码的基频轮廓在对应声道中被发送。

在下文中,根据本发明的一层面的基频轮廓数据的有利解码将予以描述。例如,若「有效基频数据(PitchData)」旗标为0,则基频轮廓针对该帧中的所有样本被设定为1,否则个别基频轮廓节点被计算如下:

●存在numPitches+1个节点,

●node[0]总是1.0;

●node[i]=node[i-1]·relChange[i](i=1..numPitches+1),其中relChange通过pitchIdx[i]的反量化来获得。

基频轮廓而后通过节点间的线性内插来产生,其中节点样本位置是0:frameLen/numPitches:frameLen。

实施备选

依据某些实施要求,本发明的实施例可用硬件或软件实施。实施态样可使用数字储存媒质来执行,例如其上储存有多个电气可读控制信号的软式磁碟、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,其中所述电气可读控制信号与(或可与)一可编程计算机系统协同工作,使得各自的方法被执行。

根据本发明的一些实施例包含具有多个电气可读控制信号的一数据载体,所述电气可读控制信号可与一可编程计算机系统协同工作,使得本文所述的其中一种方法被执行。

一般地,本发明的实施例可被实施为具有程序码的一计算机程序产品,当该计算机程序产品在一计算机上执行时,该程序码可操作以执行其中的一种方法。该程序码可例如被储存在一机器可读载体上。

其他实施例包含储存在一机器可读载体上的用于执行本文所述的其中一种方法的计算机程序。

换言之,本发明方法的一实施例从而是具有程序码的一计算机程序,当该计算机程序在一计算机上执行时,该程序码用于执行本文所述的其中的一种方法。

本发明方法的另一实施例从而是包含(其上记录)用于执行本文所述的其中一种方法之计算机程序的一数据载体(或数字储存媒质、或计算机可读媒质)。

本发明方法的又一实施例从而是表示用于执行本文所述的其中一种方法的计算机程序的一数据流或一信号序列。该数据流或信号序列可例如被组配成通过例如因特网的一数据通讯连接体来传送。

再一实施例包含被组配成或适于执行本文所述的其中一种方法的一处理装置,例如一计算机、或一可编程逻辑装置。A1

另一实施例包含其上安装有用于执行本文所述的其中一种方法的计算机程序的一计算机。

在一些实施例中,一可编程逻辑装置(例如一现场可编程门阵列)可用来执行本文所述的方法的一些或全部功能。在一些实施例中,一现场可编程门阵列可与一微处理器协同工作,以执行本文所述的其中一种方法。

参考文献

[1]L.Villemoes,“Time Warped Transform Coding of Audio Signals”,PCT/EP2006/010246,国际专利申请案(Int.patent application),2005年11月

[2]Generic Coding of Moving Pictures and Associated Audio:Advanced Audio Coding.国际标准(International Standard)13818-7,ISO/IECJTC1/SC29/WG11运动图像专家组(Moving pictures Expert Group),1997

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号