首页> 中国专利> 信号处理器、窗口提供器、编码的媒体信号、用于处理信号的方法以及用于提供窗口的方法

信号处理器、窗口提供器、编码的媒体信号、用于处理信号的方法以及用于提供窗口的方法

摘要

一种信号处理器,用于根据输入信号提供输入信号的处理版本,该信号处理器包括:窗口化器,被配置为根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将输入信号的一部分或其预处理版本窗口化,以获得输入信号的处理版本。该信号处理器还包括窗口提供器,用于根据一个或多个窗口形状参数,提供用于多个窗口值指数值的信号处理窗口值。

著录项

  • 公开/公告号CN102893329A

    专利类型发明专利

  • 公开/公告日2013-01-23

    原文格式PDF

  • 申请/专利权人 弗兰霍菲尔运输应用研究公司;

    申请/专利号CN201180023357.6

  • 申请日2011-03-08

  • 分类号G10L19/022(20130101);

  • 代理机构11240 北京康信知识产权代理有限责任公司;

  • 代理人余刚;吴孟秋

  • 地址 德国慕尼黑

  • 入库时间 2024-02-19 17:13:29

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-01-13

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L19/022 变更前: 变更后: 申请日:20110308

    专利权人的姓名或者名称、地址的变更

  • 2015-04-08

    授权

    授权

  • 2013-03-06

    实质审查的生效 IPC(主分类):G10L19/022 申请日:20110308

    实质审查的生效

  • 2013-01-23

    公开

    公开

说明书

技术领域

根据本发明的实施方式涉及用于根据输入信号提供处理版本的输入 信号的信号处理器、涉及用于提供信号处理窗口值的窗口提供器、涉及编 码的媒体信号、涉及用于处理信号的方法、以及涉及用于提供信号处理窗 口值的方法。

根据本发明的一个实施方式涉及用于使用可变的窗口函数将音频或 视频信号进行编码或解码的设备。根据本发明的另一个实施方式涉及用于 使用可变的窗口函数将音频或视频信号进行编码或解码的方法。

根据本发明的实施方式大致涉及信号分析和处理方法,例如,音频或 视频编码系统内可使用的那些方法。

背景技术

离散信号的有限脉冲响应(FIR)过滤,尤其在滤波器组的环境下进 行过滤,被广泛地用于频谱分析、处理、合成以及媒体数据压缩等应用。 众所周知,FIR滤波器的时间上(或空间上)的有限性以及在时间或空间 内的某个瞬间可处理的信号间隔的有限性可产生称为偏置或泄漏的现象。 例如,通过不同的增益变化或量子化,修改过滤的间隔时,反转过滤操作 时,可发生块效应或环效应。已发现,发生这些效应,可归因于所处理的 间隔(后文中称为区段)的信号波形的端点之间的不连续性及其微分的不 连续性。已发现,为了减少这种不必要的泄露影响,因此,将区段内的不 连续性及其微分的某些不连续性最小化是有利的或者甚至是必须的。通过 在过滤之前、以及在过滤域内操作信号的情况下、以及在反向过滤之后, 将N长度区段的每个样品s(n),n=0、1、...、N-1乘以某个权重w(n), 可实现这种最小化,从而区段的端点及其微分的端点逐渐减小为零。一种 等效的方法是,将这些权重用于滤波器组的每个基础滤波器(例如,见参 考文献[2])。由于通常使用解析表达式描述加权因子,所以一组因子通常 称为加权函数或窗口函数。

在通常的音频和视频编码系统内,如上分割源波形,并且将每个区段 量化为更粗糙的形式,以便完成高数据压缩,即,储存或发送信号所需要 的较低的比特率。试图通过能量压缩为少于N个样品(或者,换言之,提 高用于指定比特率的编码信号的感知质量),从而获得编码增益时,在量 子化之前区段的滤波器组变换已经变得普遍。近年来研发的系统使用改进 的离散余弦变换(MDCT)形式的重叠正交时间频率转换,滤波器组允许 相邻的区段重叠,同时依然允许临界抽样。对于改进性能而言,正向和反 向MDCT操作与每个区段的加权结合:在中心侧,在正向MDCT之前应 用分析窗口wa(n),并且在接收器侧,在反向MDCT之后使用合成窗口 ws(n)。遗憾的是,并非所有的加权函数都适用于MDCT。假设具有预定 的(时间/空间不变)窗口,已经发现,为了在没有量子化或传输误差时, 整个结构进行完整的输入重构,必须如下选择wa(n)和ws(n):

wa(n)·ws(n)+wa(N/2+n)·ws(N/2+n)=1,n=0,1,...,N/2-1,(1)

如果wa(n)和ws(n)相同,即,wa(n)=ws(n)=w(n),那么等式(1)降 低为参考文献[7]内所公布的更熟知的约束条件

w(n)2+w(N/2(n)2=1,n=0,1,...,N/2-1,(2)

为了最好地进行能量压缩,通常使用关于n=N/2-1/2对称的w(n), 即

w(N-1-n)=w(n),n=0,1,...,N/2-1,(3)

在高级音频编码(AAC)标准(参考文献[8])内,可使用两个窗口 函数。一个为正弦函数,表示为

wsin(n)=sin(π·(n+1/2)/N),n=0,1,...,N-1,(4)

另一个为贝塞尔导出(KBD)窗,在Fielder和Davidson申请的题为 “Low bit rate transform coder,decoder,and encoder/decoder for high-quality audio”的美国专利5109417和5142656中描述了该窗口。该窗口也用于 AC-3(杜比数字)编码标准(ATSC,Inc.,“Digital Audio Compression Standard(AC-3,E-AC-3),修订本B,”文档A/52B,2005年6月)内,虽然 具有不同的配置(α=5)。Vorbis规格(参考文献[9])限定了窗口

wvarbis(n)=sin(π/2·sin2(π·(n-1/2)/N)),n=0,1,...,N-1,(5)

图5示出了AAC和Vorbis窗口函数的频率响应,根据参考文献[4], 通过傅里叶变换获得该频率响应。可见,正弦窗口具有较高的闭频选择性 (主瓣较窄)以及较低的阻带抑制度(旁波瓣衰减较低)。相反,KBD窗 口具有较高的阻带抑制度以及较低的闭频选择性。Vorbis窗口位于前面两 个窗口之间的中间。

已经发现,对于某些应用而言,最好更细微地控制满足等式(2)的 加权函数的通带选择性和阻带抑制度。更具体地说,已经发现,为了提高 编码效率,窗口参数需要连续地将窗口特性调整成适应于输入频谱的那些 特性。在上述所有三个函数中,仅仅KBD函数提供这种参数α,该参数 可变化,从而具有不同的选择性/衰减权衡。然而,该函数包括需要大量计 算的数学(贝塞尔函数、双曲正弦、平方根以及除法),潜在地阻止了在 低功率装置上或在实时系统内计算每个信号区段。这同样适用于窗口函数 的类别,在Sinha和Ferreira发布的题为“A New Class of Smooth Power Complementary Windows and their Application to Audio Signal Processing”的 文章中(AES第119次会议,2005年10月,第6604页),显示了这些窗 口函数,需要复值操作、谱因子分解和傅里叶变换。也已经发现,两个函 数(例如,KBD和正弦)之间的内插(通过加权和最有效),可用于稍微 控制频率响应,但是这种方法的灵活性有限。

例如,在参考文献[1]、[2]、[3]、[4]、[5]内,已经引证了多个窗口函 数,朝着不同的标准优化这些函数。如今使用的最流行的函数中大概有三 个函数由Hann、Hamming以及Blackman报告。

下面描述某些典型的窗口函数。换言之,下面再次访问上述窗口函数 (例如,Hann、Hamming以及Blackman),并且确认基本的总体设计等式。

为了与窗口函数的开创性调查一致并且与其相比,在本讨论中采用 Nuttall的方法和符号(例如,见参考文献[4])。尤其地,L表示窗口实现 的持续时间(长度),t表示加权内的位置(时间)、f表示窗口的功率密度 谱内的频率,由窗口函数的傅里叶变换获取。此外,应将所有的窗口函数 归一化为一个窗口函数的峰值振幅。由于本文中仅仅研究了对称的(优选 地为均匀长度)钟形窗口,所以这表示w(L/2)=1。对于DSP应用而言(t 的非负值),要考虑的第一加权函数称为Hann(或Hanning)函数。在参 考文献[2]内指定为

wHann(t)=sin2(π·tL)---(11)

如参考文献[2]中所示,并且(11)中可证明,Hann函数为取幂正弦 函数的特殊情况:

wa(t)=sina(π·tL),a0.---(12)

实际上,a通常取正整数。要注意的是,(12)也可写为偏移和缩放 余弦的和:

wHann(t)=0.5-0.5cos(2π·tL).---(13)

该公式允许通过改变偏移和缩放因子,Hann窗口(见以下有关估算 和优化的讨论)具有特定的谱优化。结果为Hamming函数,在参考文献 [4]将其精确的参数化表示为

wHamming(t)=0.53836-0.46164cos(2π·tL).---(14)

Nuttall(例如,见参考文献[4])指出,Hann以及Hamming窗口为(k+1) 项函数的类别的二项体现,称为余弦总和函数。用于DSP应用中时,将 Nuttall的符号简化,可写为

wb(t)=Σk=0K(-1)kbkcos(2·tL)---(15)

这与参考文献[4]的等式11相等,标量1/L被省略。也常见三项实施 方式。简单的实例为(15),K=2,并且因子为

b0=0.375,b1=0.5,b2=0.125,(16)

这相当于(12),a=4。与Hamming方法一样,Blackman(例如, 见参考文献[1])得出以下优化的bk

b0=0.42,b1=0.5,b2=0.08,(17)

Nuttall(例如,见参考文献[4])进一步改善Blackman的值,用于更 好的近场谱响应(第一旁瓣,见以下有关估算和优化的讨论):

b0=0.40897,b1=0.5,b2=0.09103,(18)

鼓励有兴趣的读者参看参考文献[4],以便查看其他优化的3和4项 余弦总和窗口。

如上所述,需要替换的窗口函数,这种函数的计算复杂性中等,但是 提供良好的设计灵活性。

因此,本发明的一个目标在于,提供一种处理信号的思想,这个思想 允许获得计算复杂性中等以及设计灵活性良好的窗口函数。

发明内容

根据本发明的一个实施方式,提供了一种信号处理器,用于根据输入 信号提供输入信号的处理版本。该信号处理器包括窗口化器,被配置为根 据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将部 分输入信号或其预处理版本窗口化,以便获得输入信号的处理版本。该信 号处理器也包括窗口提供器,用于根据一个或多个窗口形状参数,提供用 于多个窗口值指数值的信号处理窗口值。窗口提供器被配置为估算与窗口 值指数值相关的多个变元(argument,自变量)值的正弦函数,以便获得 信号处理窗口值。该窗口提供器被配置为计算线性项和一个或多个整形函 数的函数值的加权和,该线性项线性地取决于窗口值指数值,一个或多个 整形函数将窗口值指数值映射到相应的函数值上,并且该一个或多个整形 函数相对于窗口斜面的中心呈点对称,以便获得变元值。

根据本发明的该实施方式基于以下发现:由于可用非常低的计算工作 量计算线性项以及一个或多个整形函数的加权和,所以通过以上述方式确 定信号处理窗口值,可用简单的可调节的方式将输入信号窗口化。然而, 也已经发现,一个或多个整形函数的点对称以及多个变元值的正弦函数的 估算给窗口带来特别好的性能,例如,随后的两个窗口斜面之间具有良好 的节能特性。此外,通过根据一个或多个窗口形状参数,修改一个或多个 整形函数的加权,能够容易地调节信号处理窗口值所限定的窗口的特性, 所以使用较小的计算工作量,可获得具有不同特性的窗口。例如,通过改 变一个或多个整形函数的加权,本文中所定义的思想允许获得大量不同的 窗口形状,这些形状均具有上述良好的特性。

而且,应注意的是,使用上述思想,可以以非常高的粒度计算具有不 同特性的窗口,这些窗口的计算不需要特别困难的计算,仅仅需要形成加 权和,以便获得变元值,并且需要使用变元值估算正弦函数。

根据本发明的另一个实施方式,提供了一种信号处理器,用于根据输 入信号提供输入信号的处理版本。该信号处理器包括窗口化器,被配置为 根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将 部分输入信号或其预处理版本窗口化,以便获得输入信号的处理版本。该 信号处理窗口值为与窗口值指数值相关的多个变元值的正弦函数估算的 结果值,其中,变元值为线性项和一个或多个正弦型整形函数的函数值的 加权和,该线性项线性地取决于窗口值指数值,一个或多个正弦型整形函 数将窗口值指数值映射到相应的函数值上,并且该一个或多个正弦型整形 函数相对于窗口斜面的中心呈点对称。根据本发明的该实施方式基于与上 述实施方式相同的关键思想。而且,已发现,使用正弦型整形函数给信号 处理窗口带来特别好的特性。

根据本发明的另一个实施方式,提供了一种窗口提供器,用于根据一 个或多个窗口形状参数,提供用于多个窗口值指数值的信号处理窗口值。 窗口提供器被配置为估算与窗口值指数值相关的多个变元值的正弦函数, 以便获得信号处理窗口值。该窗口提供器被配置为计算线性项和一个或多 个整形函数的函数值的加权和,该线性项线性地取决于窗口值指数值,以 便获得变元值。一个或多个整形函数将窗口值指数值映射到相应的函数值 上,并且该一个或多个整形函数相对于窗口斜面的中心呈点对称。

根据本发明的该实施方式基于与上述实施方式相同的思想。

根据本发明的另一个实施方式,提供了一种信号处理器,用于根据输 入信号提供输入信号的处理版本。该信号处理器包括窗口化器,被配置为 根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将 部分输入信号或其预处理版本窗口化,以便获得输入信号的处理版本。该 信号处理器也包括窗口提供器,用于根据一个或多个窗口形状参数,提供 用于多个窗口值指数值的信号处理窗口值。窗口提供器被配置为计算多个 正弦型整形函数的函数值的加权和,以便获得信号处理窗口值,这些正弦 型整形函数将窗口函数值指数值映射到相应的函数值上。函数值的加权由 窗口形状参数确定。根据本发明的该实施方式基于以下发现:对于多种应 用而言,使用窗口形状参数和所述的计算规则,可获得具有足够好的特性 的窗口形状,具有良好的计算效率和灵活性,以便调节窗口特性。

根据本发明的另一个实施方式,提供了一种信号处理器,用于根据输 入信号提供输入信号的处理版本。该信号处理器包括窗口化器,被配置为 根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将 部分输入信号或其预处理版本窗口化,以便获得输入信号的处理版本。该 信号处理窗口值为多个正弦型整形函数的函数值的加权和的结果值,这些 函数将窗口值指数值映射到相应的函数值上。根据本发明的该实施方式基 于与上述实施方式相同的关键思想。

根据本发明的另一个实施方式,提供了一种编码的媒体信号,该编码 的媒体信号包括媒体内容的编码表示和一个或多个窗口形状参数。一个或 多个窗口形状参数限定将媒体内容的编码表示解码时所使用的窗口的形 状。一个或多个窗口形状参数描述了加权,用于计算线性地取决于窗口值 指数值的线性项和一个或多个整形函数的函数值的加权和,以便获得变元 值,用于通过估算多个变元值的正弦函数,从而获得用于多个窗口值指数 值的信号处理窗口值。这个编码的媒体信号为窗口化的信令提供较高的灵 活性,这是因为使用窗口形状参数,能够描述大量不同类型的窗口,解码 器可有效地获得这些窗口。

附图说明

随后参看附图,描述根据本发明的实施方式,其中:

图1a示出根据本发明的一个实施方式的信号处理器的方框示意图;

图1b示出根据本发明的另一个实施方式的信号处理器的方框示意 图;

图2示出根据本发明的另一个实施方式的信号处理器的方框示意图;

图3示出根据本发明的一个实施方式的窗口提供器的方框示意图;

图4示出根据本发明的一个实施方式的编码媒体信号的示意图;

图5示出dB纵坐标尺度上的AAC和Vorbis窗口的频率幅度响应的 图示;

图6示出AAC KBD窗口函数和本发明函数的某个实例的幅度的图 示;

图7示出与线性横坐标和dB纵坐标规模的AAC KBD窗口的频率幅 度响应相比,本发明窗口函数的所述实例的频率幅度响应的图示;

图8示出与对数横坐标和dB纵坐标规模的AAC KBD窗口的频率幅 度响应相比,本发明窗口函数的所述实例的频率幅度响应的图示;

图9示出与AAC KBD和第三级Sinha-Ferreira窗口的频率幅度响应 相比,本发明窗口函数的另外两个实例的频率幅度响应的图示;

图10示出用于本发明的以及相似的窗口函数的信号自适应工序的方 框图;

图11示出根据等式(12)的某些取幂正弦函数的频谱的图示;

图12示出根据等式(15)的优化余弦总和函数的频谱的图示;

图13示出根据等式(19)的所提出的优化正弦总和窗口的图示;

图14示出应用不同的窗口函数之后,频率为Lf=32和96.5的两个正 弦曲线的DFT频谱的图示;

图15示出两个PC窗口和所提出的窗口的频谱的图示;以及

图16示出窗口的示意图。

具体实施方式

1.根据图1a的信号处理器

图1示出根据本发明的第一实施方式的信号处理器100的方框示意 图。信号处理器100被配置为接收输入信号110,并且根据该信号,提供 输入信号的处理版本112。信号处理器100包括窗口化器120,被配置为 根据用于多个窗口值指数值n的信号处理窗口值122所描述的信号处理窗 口,将部分输入信号110或输入信号的预处理版本110'(可通过可选的预 处理111获得)窗口化,以便获得输入信号的处理版本112(或在可选的 后处理器130内经历进一步进行后处理的输入信号的版本112')。

为此,窗口化器120可从窗口提供器130接收信号处理窗口值w(n), 该窗口提供器通常也为信号处理器100的一部分。窗口提供器130被配置 为根据一个或多个窗口形状参数132,提供用于多个窗口值指数值n的信 号处理窗口值w(n)。窗口提供器被配置为估算与窗口值指数值n相关的多 个变元值c’(n)的正弦函数,以便获得信号处理窗口值w(n)。该窗口提供 器130也被配置为计算线性项和一个或多个整形函数的函数值的加权和, 该线性项例如由c(n)表示,线性地取决于窗口值指数值n。一个或多个整 形函数可将窗口值指数值n映射到相应的函数值上。一个或多个整形函数 相对于窗口斜面的中心呈点对称。计算加权和,以便获得变元值c’(n)。

因此,窗口提供器130提供信号处理窗口值w(n),这些值描述了具 有特别好的特性的窗口。两个相应的窗口斜面重叠时,在窗口提供器内使 用正弦函数估算,以便获得信号处理窗口值w(n),这允许获得具有良好的 节能特性的窗口。而且,通过使用用于正弦函数估算的变元值c’(n),这些 值并非窗口值指数值(也简称为“指数值”)的线性函数,而是为线性项 的重叠,该线性项线性地取决于指数值和一个或多个整形函数的函数值, 这些函数是非线性的且相对于窗口斜面的中心点对称,能够调节信号处理 窗口值w(n)所描述的信号处理窗口的形状。

例如,能够调节一个或多个整形函数对变元值c’(n)的影响,所以根 据一个或多个窗口形状参数132,可获得变元值(根据指数值n)的不同 演化。因此,可根据一个或多个窗口形状参数132,调节信号处理窗口值 所描述的信号处理窗口的特征,以便满足特定的需要。而且,已经发现, 选择相对于窗口斜面的中心呈点对称的一个或多个形成函数,有助于确保 信号处理窗口具有良好的节能和压缩特性,并且还提供了减少计算变元值 的计算工作量的机会。

现在描述与计算信号处理窗口值wnew(n)有关的细节,这些窗口值代 替信号处理窗口值w(n)。

2.根据图1b的信号处理器

图1b示出了信号处理器150的方框示意图,该处理器与信号处理器 100相似。因此,相同的装置和信号由相同的参考数字表示。然而,信号 处理器150包括窗口提供器180,该提供器与窗口提供器130不同。窗口 提供器180接收一个或多个形状参数ck’182,并且根据该参数,提供信号 处理窗口值w(t),这些值例如由wc(t)表示。在本文中应注意的是,变量t 为窗口值指数值,并且也可简称为“指数值”。

窗口提供器180被配置为根据一个或多个窗口形状参数ck,提供用于 多个窗口值指数值t的信号处理窗口值w(t)。窗口提供器180被配置为计 算将窗口函数值指数值映射到相应的函数值上的多个正弦型整形函数的 函数值的加权和,以便获得信号处理窗口值w(t)。函数值的加权由窗口形 状参数ck确定。

通过使用窗口提供器180提供信号处理窗口值,从而可提供信号处理 窗口值,使得在多种情况下,这些值包括足够好的特性。而且,能够使用 一个或多个窗口形状参数ck,调节专有特性,从而对于一个或多个窗口形 状参数的不同选择而言,可获得不同的信号处理窗口。

通过使用正弦型整形函数并且形成所述正弦型加权函数的函数值的 加权和,从而获得具有良好特性的窗口,下面进行详细的讨论。

而且,应注意的是,下面讨论与计算信号处理窗口值w(t)有关的细节, 窗口提供器180提供这些窗口值。

3.根据图2的信号处理器

图2示出根据本发明的一个实施方式的信号处理器200的方框示意 图。信号处理器200被配置为接收输入信号210,并且根据该信号,提供 输入信号的处理版本212。

信号处理器200包括窗口化器220,被配置为根据用于多个窗口值指 数值(简称为“指数值”)的信号处理窗口值所描述的信号处理窗口,将 部分输入信号210或输入信号的预处理版本210窗口化,以便获得输入信 号的处理版本212。信号处理器200可包括可选的预处理211和可选的后 处理213。

该信号处理窗口值为与窗口值指数值相关的多个变元值的正弦函数 估算的结果值,其中,变元值为线性项和一个或多个正弦型整形函数的函 数值的加权和,该线性项线性地取决于窗口值指数值,一个或多个正弦型 整形函数将窗口值指数值映射到相应的函数值上。一个或多个正弦型整形 函数相对于窗口斜面的中心呈点对称。

因此,窗口化器220可进行窗口化,这与窗口化器120进行窗口化非 常相似。例如,窗口化器220所使用的信号处理窗口值可与窗口化器120 所使用的信号处理窗口值相同。窗口化器220所使用的信号处理窗口值例 如可储存在查找表内或者可另外获得这些值。

在替换的实施方式中,可使用不同的信号处理窗口值。在一个替换的 实施方式中,信号处理窗口值为多个正弦型整形函数的函数值的加权和的 结果值,这些函数可将窗口值指数值映射在相应的函数值上。

总之,窗口化器220例如可被配置为将信号处理窗口值wnew(n)所描 述的窗口用于输入信号210中或者用于其预处理版本211’中。然而,或者, 窗口化器220可将信号处理窗口值wc(t)用于输入信号210中或者用于其预 处理版本210’中。

下面可描述与窗口化器220所使用的信号处理窗口有关的细节。

4.根据图3的窗口提供器

图3示出根据本发明的一个实施方式的窗口提供器300的方框示意 图。窗口提供器300被配置为接收一个或多个窗口形状参数310(通常为 可变值),并且根据这些参数提供用于多个窗口值指数值的一组信号处理 窗口值w(n)312。窗口提供器300被配置为估算与窗口值指数值相关的多 个变元值的正弦函数,以便获得信号处理窗口值w(n)。该窗口提供器也被 配置为计算线性项和一个或多个整形函数的函数值的加权和,该线性项有 时称为c(n)并且线性地取决于窗口值指数值n。一个或多个整形函数将窗 口值指数值n映射到相应的函数值上。一个或多个整形函数相对于窗口斜 面的中心呈点对称。

因此,窗口提供器300基本上履行了窗口提供器130的功能。然而, 应注意的是,窗口提供器300可为独立于窗口化器130的部件。然而,或 者,窗口提供器300可履行窗口提供器180的功能。

5.根据图4的编码的媒体信号

下面描述编码的媒体信号。图4示出了这种编码的媒体信号的示意 图。编码的媒体信号400包括媒体内容的编码表示和窗口形状参数。窗口 整形的参数例如适合于用作窗口提供器130的一个或多个窗口形状参数 132,或者用作窗口提供器180的一个或多个窗口形状参数132。因此,编 码的媒体信号400中的窗口形状参数被选择,从而使用窗口提供器130或 窗口提供器180产生信号处理窗口值w(n)或w(t)。而且,通常根据窗口形 状参数所描述的窗口,使用窗口化,将媒体内容的编码表示进行编码。

6.有关窗口提供器130所提供的或窗口化器220所使用的窗口的细 节

6.1概述和定义

下面描述有关窗口提供器130所提供的窗口的某些细节,窗口化器 220也可使用这些窗口。本文中应注意的是,这些窗口在本文中由信号处 理窗口值w(n)限定。所述信号处理窗口值w(n)通常乘以输入信号110或其 预处理版本110',以便获得输入信号的窗口化版本或其预处理版本110'。 窗口通常由信号处理窗口值w(n)描述,其中,n为指数值(例如,时间指 数值),该值表示信号处理器窗口值。

此外,应注意的是,窗口通常包括左侧窗口斜面和右侧窗口斜面。可 选地,窗口可进一步包括恒定的(或者大致恒定的)中心部分,使得多个 中心信号处理窗口值采用同一个预定的值。然而,应注意的是,窗口的左 侧窗口斜面和右侧窗口斜面可不同。因此,应指出的是,以下讨论大致描 述了单个窗口斜面的形状,即,在较小的窗口值(例如,零窗口值)和较 大的窗口值(例如,最大的窗口值1)之间进行转换。

现在参看图16,该图示出了窗口的示意图,在图16的示图中更详细 地进行解释,横坐标1610描述了指数值n,并且纵坐标1612描述了与指 数值n相关的信号处理窗口值w(n)。可见,窗口1600包括左侧窗口部分 1620和右侧窗口部分1622。左侧窗口部分包括左侧窗口斜面1630,作为 关键元素。例如,由多个信号处理窗口值w(n)限定左侧窗口斜面1630, n=n1到n=n2。左侧窗口部分1620也可可选地包括左侧外部部分,对于该 部分,信号处理窗口值w(n)采取较小的值,例如,w(n)=0。左侧窗口部分 可选地也包括一部分中心窗口部分,对于该部分,信号处理窗口值w(n) 采取预定的值,例如,w(n)=1。窗口1600包括右侧窗口部分1622,该部 分包括右侧窗口斜面1640,作为关键元素。右侧窗口部分可选地包括一部 分中心窗口部分,对于该部分,信号处理窗口值采取预定的值,例如, w(n)=1。右侧窗口部分也可选地包括右侧外部部分,对于该部分,信号处 理窗口值w(n)采取较小的值,例如,w(n)=0。

应注意,左侧外部部分、中心窗口部分以及右侧外部窗口部分应视为 可选。而且,应注意的是,窗口1600可对称或非对称。因此,左侧窗口 斜面1630和右侧窗口斜面1640可相等,或者在某些实施方式中可明显不 同。

本文中应注意的是,以下讨论大致涉及左侧窗口斜面1630,即,在 较小的或零窗口值和较大的或最大窗口值之间进行转换。然而,应注意的 是,可选地添加左侧外部部分、可选地添加中心窗口部分、添加右侧窗口 斜面以及可选地添加右侧外部部分,从而通过了解左侧窗口斜面1630,可 获得整个窗口1600。还应注意,使用简单的镜像处理获得右侧窗口斜面 1640的方式可与左侧窗口斜面相同,例如,等式(3)的处理。

本文中还应注意,根据以下讨论,左侧窗口斜面应由值w(n)描述, n=0到n=N/2-1。然而,当然能够使用不同的指数值。

6.2窗口wnew(n)的细节

通过揭示到等式(4)的正弦窗口函数的扩展,根据本发明的实施方 式解决了MDCT应用缺少灵活的以及计算上有效的窗口函数这一问题。

要注意的是,等式(4)可视为围绕n=N/2-1/2对称的三角形窗口函 数的正弦。给出等式(3),这表示

c(n)=(n+1/2)·2/N,(6)

wsin(n)=sin(π/2·c(n)),n-0,1,...,N/2-1,(7)

其中,c(n)表示窗口核心函数,由于预先确定该函数,所以可提前计 算该函数。所提议的扩展将加权的正弦曲线加至等式(7)中的c(n),该 正弦曲线具有角频率,角频率为2π的整数倍:

c′(n)=c(n)+∑af·sin(2π·f·c(n)),f=1,2,...,(8)

wnew(n)=sin(π/2·c′(n)),n=0,1,...,N/2-1,(9)

也可提前计算c'(n)内的正弦项。仅仅需要调节其加权,由af因子规 定。因此,以逐个转换的方式,将所提议的窗口调节成信号时,仅仅需要 重新计算等式(9)和等式(8)内的加权,使得该调节在计算上的复杂性 低于KBD和Sinha-Ferreira窗口。

而且,值得一提的是,由于等式(8)和(9)内的正弦项,所提议的 窗口函数类别的每个实现在其端点处均完全衰减为零,这就确保在窗口的 频率响应中,旁瓣等级以每倍频程具有至少12dB的速度进行衰减。对于 KBD窗口以及Princen和Bradley的文章(“Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation”,IEEE Trans.Acoustics, Speech,and Signal Processing,1986年10月,1153-1161页)以及Ferreira 的文章(“Convolutional Effects in Transform Coding with TDAC:An Optimal Window”,IEEE Trans.Speech and Audio Processing,1996年3月,104-114 页)中发布的窗口而言,并非如此,其远频率旁瓣因此以每倍频程少于12 dB的速度进行衰减。对于相等的主瓣宽度而言,这表示在远频率旁瓣衰 减方面,根据等式(8)和(9)的窗口潜在地超过现有技术的窗口。

根据本发明的窗口计算或调整包括以下步骤:

-基于设计上的考虑,选择c'(n)中正弦项的数量以及合适的加权因子 af。

-确定或限定窗口长度N,并且使用所选的af以及正弦项的数量,计 算c'(n)。

-计算等式(9)的wnew(n),n=0、1、...、N/2-1,然后,使用等式 (3)获得长度N的窗口实例。

-如果一个不同的窗口参数化用于前面相邻的区段,那么通过校正前 面窗口实例的右半部,或者校正当前的窗口实例的左半部,或者校正前面 实例的右半部以及当前实例的左半部,从而满足任何完整的反向约束条 件。

在优选的实施方式中,在计算复杂性方面,窗口函数可与正弦和 Vorbis窗口进行比较,但是至少为KBD和Sinha-Ferreira窗口提供设计灵 活性。

如上所述,应注意的是,可将值c’(n)视为与窗口值指数值n相关的 变元值。而且,应注意的是,可将函数sin(2π·f·c(n))视为整形函数。

而且,应注意的是,不需要将正弦函数用作整形函数。更确切地说, 选择整形函数,使得这些整形函数与窗口斜面的中心呈点对称即可。窗口 斜面的中心例如由线性项的值c(n)=0.5限定。例如,可使用点对称的多项 式函数代替正弦函数,有利于在某些情况下进行估算。而且,整形函数应 优选地采取足以接近零的值,c(n)=0和c(n)=1,即,在窗口斜面的最左边 的窗口值指数值的环境中以及在窗口斜面的最右边的窗口值指数值的环 境中。换言之,在最左边的窗口值指数值(例如,n=0)和最右边的窗口 值指数值(例如,n=N/2-1)的环境(或者相邻区域)中,整形函数应具 有零,或者应采取大约为零的值。

而且,应注意的是,例如,通过窗口提供器130的变元值计算,可估 算等式(6)和(7),并且通过窗口提供器130的正弦函数估算,可估算 等式(9)。因此,窗口提供器130的正弦函数估算获得的值wnew(n)(n=0 到n=N/2-1)可描述例如左侧窗口斜面1630。

因此,窗口提供器130可被配置为根据与左侧窗口斜面相关的所述信 号处理窗口值,组装整个窗口1610。为此,窗口提供器可添加左侧外部部 分、中心窗口部分、右侧窗口斜面以及左侧外部部分,如图16所示。通 过在对称窗口的情况下,镜像左侧窗口斜面,可获得右侧窗口斜面。然而, 或者,右侧窗口斜面可与左侧窗口斜面不同,并且通过镜像与左侧窗口斜 面不同的窗口形状参数的窗口斜面,可获得该右侧窗口斜面。

而且,应注意,由于满足了完整的反向约束条件,所以信号处理器可 确保,与输入信号的前面部分相关的右侧转换斜面以及与输入信号的后面 部分相关的左侧转换斜面匹配。为此,可确保,使用已经用于获得与输入 信号的前面部分相关的右侧窗口斜面的相同参数,获得与输入信号的后面 部分相关的左侧窗口斜面。

而且,应注意,等式(6)、(8)以及(9)限定的算法适合于在具有 有限的计算能力的设备内,在线计算窗口函数。

然而,可将等式(6)、(8)以及(9)限定的窗口估算一次,因此, 在某些实施方式中,可将这些结果储存在查找表内,以备后用。

6.3窗口设计的注释

下面讨论某些条件,这些条件产生具有特别好的特性的窗口。然而, 应注意的是,遵守下面讨论的条件,不应视为是必须的。

如背景技术部分的讨论中所述,采用MDCT的信号编码器需要将某 些条件施加给用于该信号的窗口函数,以便不操作任何信号时,允许完全 可反转整个系统,即,提供完整的输入重构。符合等式(2)的函数也称 为功率互补函数,表示合适的分类。该窗口类别的所有实现方式属于这个 分类。然而,可显示出,具有对于所有部署的n为非负值c'(n)的实现方式

c′(n)≥0,n=0,1,...,N/2-1,(10)

产生特别好的通带选择性和阻带抑制度。因此,以下讨论集中于窗口类别 的这个子集。在某些情况下,对于所有部署的n为非负值c'(n)的实现方式 同时产生满意的通带选择性和阻带抑制度。

通常,在等式(8)内能够使用任意数量的正弦项,以设计适合于指 定的使用情况的窗口频率响应,发现两个正弦项(f=1、2)在灵活性、 复杂性以及内存使用之间提供充分的权衡。尤其地,使用两个正弦项,可 得出参数,在窗口实例中,这些参数

-将主瓣宽度最小化,即,将闭频选择性最大化,

-将某个归一化频率之上的最大旁瓣等级最小化,

-将旁瓣衰减的速率最大化,即,远频率阻带衰减,

-将最大微分最小化为现有的参考窗口实例。

下面,借助于特定实例,检查这些设计考虑中的每一个。

6.3.1具有最大的通带选择性的窗口

虽然等式(2)的功率互补条件限制了可实现的频率响应的范围,尤 其是在最初的几个旁瓣的宽度和等级方面,但是通过将c'(n)内所有的af因子设为零,可获得产生最窄主瓣的窗口函数。显而易见,所产生的窗口 等于等式(4)的AAC正弦窗口。在图5中描述了其频谱,以及KBD(α =4)和Vorbis窗口的频谱。

然而,总之,应注意的是,优选地,应将至少一个窗口形状参数af设为非零值。然而,窗口提供器113的上述结构具有灵活性,从而通过仅 仅设置窗口形状参数af,甚至获得AAC正弦窗口,而没有任何特定的信 号。

6.3.2具有最小的旁瓣最大值的窗口

等式(9)的配置将最大的旁瓣等级最小化,通过穷举或基于梯度的 搜索方法,共同优化af参数,从而可获得这些配置。然而,由于等式(2), 值得推荐的是,限定更低的频率界限Nω0>1.5,在该频率界限上,进行极 小极大优化。发现,Nω0=4.5值产生参数a1=0.1224和a2=0.00523。图6 中示出了这样配置的窗口函数。与还描绘出的AAC KBD窗口函数的相似 性是明显的。图7中示出了相应的窗口频谱。值得注意的是,与KBD窗 口相比时,本发明窗口的最初两个旁瓣具有更低的等级,并且Nω0≈5之 上的最大的旁瓣等级减小(该频率之上所提出的窗口的最初三个旁瓣的等 级为-66.8dB,而KBD窗口到达略微更高的等级-63.0dB)。

由于在c'(n)内使用正弦项,所以该窗口类别的每个实现方式均具有连 续性,并且因此确保在其端点处,平稳地衰减为零。在图8中阐述了这个 优点。可见,先前获得的窗口的旁瓣以每倍频程12dB的速率衰减。相反, KBD窗口具有更小的衰减速率,这是因为KBD的加权函数的端点具有轻 微的不连续性。结果,即使在Nω≈250和Nω≈7之间,KBD窗口超过所 提出的窗口,但是在Nω≈250之上,与KBD窗口相比,所提出的窗口具 有更高的抑制度。在某些分析或合成应用中,该特征有利。

6.3.3具有最大的旁瓣衰减的窗口

在某些情况下,最好使用其旁瓣以每倍频程大于12dB的速率衰减的 窗口。本发明允许例如构成以每倍频程24dB的速率衰减的窗口。要求加 权函数具有连续的一阶微分,即,在窗口实例边缘的微分消没,从而实现 该目的。该问题最直观的解决方法为配置a1=0.1591、a2=0。图9中描 述了所产生的窗口响应,以及下面讨论的另外三个响应。

6.3.4近似参考窗口的窗口

为了完成所提出的窗口类别的灵活性的这种展示,试图产生两个窗口 实现方式,这两个实现方式与两个现有的窗口非常相似。由于其多样性, 选择KBD(α=4)以及第三阶Sinha-Ferreira函数作为参考。在最小均方的 意义上,通过c'(n)和等式(9)进行重构,即,通过将参考和近似值之间 的平方差最小化(要注意的是,也能够使用其他方法)。图9示出了结果。 可见,本发明的窗口与其现有技术的窗口大致相同,并且主要的差别仅仅 在于具有非常低的等级。因此,在复杂性或内存较为关键的环境中,可由 使用本窗口类别的装置代替参考窗口,同时将向后兼容性维持较高的程 度,并且如果适用,可维持近乎完整的重构的可能性。

7.信号自适应系统内的实施方式

系统处理具有不同长度的信号区段时,该窗口类别显示出额外的优 点,该长度为2的整数幂。在AAC内,例如,该过程也被称为区块切换, 通过在每个帧的2048(1920)个采样上使用一次MDCT,或者在每个帧 的256(240)个采样上使用8次,从而现实该过程。在本文中,等式(8) 内的各项的子集(例如,n=0、1、...、N/8-1)可重新用作核心函数,用 于长度较小的窗口,或者在正弦项的情况下,甚至用作窗口函数本身。如 果可接受长度较小的窗口降低的设计灵活性,那么这可用于进一步减小储 存核心函数所需要的存储器容量。

8.本发明的其他应用

对于音频或视频编码以外的若干个应用情况而言,功率互补窗口函数 (例如,本文中所报告的那些函数)可相当具有吸引力。如背景技术部分 的第6段中引用的论文中所述,功率互补窗口可用于瞬时能量储存软切换 或开关系统以及在连续的模块之间具有重叠的逐块进行操作的信号分析 和处理装置内。更具体地说,在构建其过滤内核时,在一维或高维信号上 执行过滤任务的任何设备可使用该报告的窗口,包括但不限于

高通(微分)、低通(积分)以及带通滤波器,

下采样器(抽取滤波器)和上采样器(内插滤波器),

单频带或多频带均衡器、压缩器、扩展器和限制器,

用于减噪以及相关的提高的算法或特效工具。

通过在这种系统内采用本文中所示的本发明的窗口函数以及使得其 频谱特性适用于应用要求,优选地以信号区段自适应的方式,希望可提高 感知性能。

9.根据图10的媒体信号编码器和媒体信号解码器

图10示出了媒体信号编码器和媒体信号解码器的方框示意图。媒体 信号编码器1010被配置为接收一个或多个信道信号s1(n)到sM(n),并且根 据该信号,提供编码表示。输入媒体信号的编码表示可采取MDCT系数 S1(k)到SM(k)的方式,或者可为这种MDCT系数的编码表示。信号编码器 1010例如包括多个相同的信号路径1012a-1012m,这些路径可单独地操作 或者可耦合。此外,信号编码器1010还包括编码参数计算器602,该计算 器确定一个或多个编码参数(例如,块长度)、时间噪声成形(TNS)参 数、子带增益补偿参数、配置信息和/或心理声学模型信息。下面讨论路径 或分支1012a,但是以上讨论也可用于其他的分支,例如,分支1012m。

分支1012a包括窗口检测器603,该检测接收各个信道的输入信号s1(n) 以及来自编码参数测定器602的信息。窗口检测器603可提供例如窗口形 状信息603a,该信息描述了所需要的窗口的形状。

窗口形状信息例如可根据到窗口检测器603的输入来确定,从而优化 或提高编码器1010的客观性能(编码增益、频率选择性或能量压缩、数 据压缩、引入的混淆量)或主观性能(无误差或错误的传输和解码之后, 编码输出的感知质量)。

分支1012a还包括窗口同步器604,应将该同步器视为可选,并且该 同步器可结合该分支1012a的窗口检测器603所提供的窗口形状信息和不 同分支的窗口检测器所提供的窗口形状信息。因此,同步的窗口形状信息 604a可选地由窗口同步器604提供。信号路径1012a还包括完整的重构实 施器605,被配置为接收窗口形状信息603a或同步的窗口形状信息604a, 并且根据该信息,提供自适应窗口形状信息605a。例如,完整的重构实施 器605可确保与输入信号的前面部分相关的窗口的右侧转换斜面(也称为 窗口斜面)是与输入信号的后面部分相关的窗口的窗口斜面的镜像版本。 例如,可确保,与输入信号的后面部分相关的窗口的那些窗口斜面由相同 的窗口形状参数限定。信号路径1012a还包括窗口计算器606,被配置为 将信号处理窗口值w1(n)提供给窗口化器1014。窗口化器1014被配置为将 输入信号s1(n)的采样乘以相应的信号处理窗口值w1(n),以便获得窗口化 的信号值s1’(n),将这些值输入到改进的离散余弦变换器607内,以便获 得MDCT系数S1(k)。

此处应注意,窗口计算器606可具有窗口提供器130或窗口提供器 180的功能,从而信号处理窗口值w1(n)等于信号处理窗口值w(n)或者等 于信号处理窗口值w(t)。而且,窗口化器1014可采用窗口化器120的功 能。

因此,编码器1010被配置为根据自适应窗口形状信息605a,使用多 个不同的窗口,从而将输入信号s1(n)窗口化,其中,窗口计算器606提供 信号处理窗口值。

编码器1010可选地包括其他编码级,用于有效地编码MDCT变换器 607所提供的频谱值S1(k)到SM(k)。

信号解码器1020被配置为接收解码的频谱值Q1(k)到QM(k)。从比特 流中可获取解码的频谱值Q1(k)到QM(k),通过编码频谱值S1(k)到SM(k), 编码器1010可提供该比特流。换言之,频谱系数Q1(k)到QM(k)可与频谱 值S1(k)到SM(k)相同,除了具有量子化误差以外。此处,k为频率指数, 并且M≥1表示信道数量(其中,每个信道具有一个分支)。

解码器1020还被配置为接收窗口长度值N1到NM(采用上述变量N 的函数)以及一个或多个窗口形状参数a1到aM(例如,每个分支或信道 具有一个参数)。解码器1020包括反向的改进离散余弦变换器608,被配 置为接收频谱系数Q1(k)到QM(k),并且根据这些系数,提供反向变换的信 号q1(n)到qM(n)。解码器1020还包括窗口选择器609,该选择器与完整的 重构实施器605一起进行操作,以便从输入窗口形状参数a1到aM获得自 适应窗口形状参数605a,其中,可从表示媒体内容的比特流中,提取或获 得输入窗口形状参数a1到aM。例如,在编码的媒体信号内可表示输入窗 口形状参数a1到aM和频谱值Q1(k)到QM(k)。

解码器1020还包括窗口计算器606,该计算器接收自适应窗口形状 参数605a(或者,可替代地,输入窗口形状参数a1到aM),并且根据这些 参数,提供信号处理窗口值w1(n)到wM(n)。窗口计算器606可执行窗口提 供器130或窗口提供器180的功能,其中,自适应窗口形状参数605a可 对应于一个或多个窗口形状参数132或对应于一个或多个窗口形状参数 182。同样,信号处理窗口值w1(n)到wM(n)可等同于信号处理窗口值w(n) 或等于信号处理窗口值w(t)。

因此,窗口计算器606可根据自适应窗口形状参数605a或输入窗口 形状参数a1到aM,提供形状不同的窗口。

例如,通过乘法运算1024可将解码器1020的窗口计算器606所提供 的信号处理窗口值w1(n)到wM(n)用于反向的改进离散余弦变换器608所提 供的反向变换的信号q1(n)到qM(n),从而获得值q1(n)到qM(n)的窗口化版 本q1’(n)到qM’(n)。

解码器1020进一步包括重叠相加器610,被配置为接收反向变换信 号q1(n)到qM(n)的后面窗口部分q1’(n)到qM’(n)以及所述后面部分的重叠相 加,从而获得重构的信号y1(n)到yM(n)。重叠相加器610优选地与窗口化 1024相协调,从而使用“互补”窗口,将由重叠相加器610重叠的窗口化 信号部分q1’(n)到qM’(n)窗口化,使得第一窗口的右侧窗口斜面与后面窗 口的左侧窗口化斜面重叠,其中,重叠的窗口斜面包括上述节能和/或完整 的重构特性。

因此,编码器1010和解码器1020能够将媒体信号编码和解码,例如, 音频信号、语音信号、视频信号、图像信号等等。

总之,根据本发明的上述实施方式可用于软件和硬件芯片内以及数字 信号处理器(DSP)内,用于各种系统和信号的模拟或数字储存或传输。

总之,图10阐述了所提出的窗口化技术可如何用于类似于信号自适 应AAC的音频编解码器或一种不同类型的信号编码器或信号解码器内。 将用于构造c'(n)的窗口核心功能601储存在存储器内,同时在存储器内存 储可用的参数配置的定义。这些数据由编码器和解码器共享。在窗口检测 器和选择器603内分析图10a)内所示的参考数字为1010的编码器、用于 M输入信道的每个帧的区段、以及用于M区段s(n)中的每个的频谱时间 心理声学模型602的数据,以便确定合适的窗口形状,并且如果适用,确 定长度和数量。根据频率选择性(能量压缩)或低帧重叠(使用TNS或 子带(SB)增益补偿时减少混淆)等标准,选择适当的窗口。

换言之,编码器1010(或者任何其他的信号处理器)可被配置为用 信号自适应的方式,确定、改变或调节一个或多个窗口形状参数af,从而 优化或提高信号处理器的客观性能或主观性能。因此,可用输入信号自适 应的方式,确定、改变或调节一个或多个窗口形状参数,从而优化或提高 信号处理器(例如,音频编码器1010)的客观(即,数字)或主观(即, 感知)性能。

通过同步单元604可选地匹配信道的窗口形状参数之后,通过调节现 有和先前帧的重叠窗口两等份的参数,在PR实施单元605内,确保了使 用所选的窗口参数执行这些变换的完整重构(PR)。根据改进的窗口形状 参数,使用等式(8)和(9),计算(606)实际的窗口系数,并且将这些 系数乘以各个音频区段,形成窗口化的区段s'(n),通过MDCT 607将该区 段最终变换成频域,以便随后进行量子化、编码以及传输。在图10b)内 所示的参考数字为1020的解码器内,将用于每个帧和信道的所接收的窗 口形状参数解码并且转发给窗口选择器609,在去量子化的频谱Q(k)的反 向MDCT 608之后,该选择器将这些参数映射到相应的窗口配置中,以供 使用。执行窗口序列的完整重构并且计算与编码器相似的窗口系数之后, 将反向MDCT所产生的输出区段q(n)窗口化,并且通过重叠相加器610, 重构各信道波形y(n)。

10.可替换的窗口计算

10.1关于可替换的窗口类别的窗口函数的计算的概述

下面描述窗口函数的替换类别,窗口提供器(例如,窗口提供器180 或窗口提供器300或窗口计算器606)可使用这种类型,提供信号处理窗 口值。

换言之,下面通过大幅修改以上某些等式,描述有关窗口的替换类别 的定义的细节。

在以上部分之一中,要注意的是,a=2时的等式(12)(即w2(t))等 同于K=1、b0=0.5、b1=0.5时的等式(15)。而且,建立了w4(t)和(15) (K=2)以及(16)的bk之间的等效性。已经调查出,bk产生w1(t)、w3(t) 或者一般而言产生任何具有奇数a的wa(t)。观察等式(12)和(15),已 经发现,不能构成余弦总和窗口,该窗口等同于奇数取幂正弦窗口。然而, 在某些应用中,需要奇数a的wa(t),期望使用与等式(15)相似的公式, 以允许如由Hamming、Blackman以及Nuttall进行的频谱泄漏优化。

幸运的是,已发现正弦总和函数

wc(t)=Σk=0K(-1)kcksin((2k+1)π·tL)---(19)

提供了进行优化所需要的方式。可见,通过形成正弦型整形函数 sin((2k+1)π·t/L)的加权和,可获得信号处理窗口值wc(t)。可获得信号窗口 斜面,用于0和L/2之间的值t。

还应注意的是,优选地,将正弦函数求和,这些函数的频率为基本频 率的奇数倍。例如,可将归一化的角频率限定为(2k+1)π/L。可见,更高 的归一化频率为基本的归一化频率π/L的奇数倍。

还应注意的是,利用增大的频率指数k(k在零和最大的频率指数值 K之间),交替地使用正和负加权(-1)kck将整形函数加权。

通过适当地选择常数ck,可获得两个特征。

首先,可构建与(2)的奇数次幂正弦窗口对应的窗口。此处应规定 三个最低阶奇数a的wa(t)的ck。通过设置K=0和c0=1,使用(19)构 建时,经典正弦窗口w1(t)并不重要。对于w3(t)而言,K增大为K=1,并 且

c0=0.75,c1=0.25,(20)

使用K=2以及

c0=0.625,c1=0.3125,c2=0.0625,(21)

最终获得第五阶w5(t)。

其次,与(15)内的bk一样,可确定ck,从而获得与Blackman、Hamming 以及Nuttall窗口的频谱性能相似的频谱性能。然而,在获得用于K=1和 K=2的各个ck之前,重要的是,确切地确定应优化窗口频谱响应的哪个方 面。为此,需要客观地测量窗口的频谱性能。在下一个部分内,通过某些 普遍的措施,分析迄今提及的所有窗口函数。

10.2估算和优化

下面使用具有参考文献[2]内描述的优点的某些图,估算该窗口类别 的2项和3项变量的性能,并且将其与其他窗口进行对比。受该结果推动, 描述具体优化的实现方式。

下面讨论几组不同的窗口形状参数ck。将展示根据等式(19)的信号 处理窗口值的组合允许产生具有不同特性的各种不同的窗口。因此,可总 结出,被配置为根据等式(19)提供信号处理窗口wc(t)的窗口提供器具有 非常灵活的配置,并且产生非常低的计算复杂性,这是因为可预先计算出 整形函数sin((2k+1)π·t/L),而加权的总和产生较小的计算复杂性。

已建立,时间信号与另一个信号的乘积对应于这两个信号的频率变换 的卷积。因此,通过将加权函数用于信号,该信号的频谱与加权的频谱卷 积。因此,为了估算窗口函数的作用,研究其频谱即可,例如使用傅里叶 变换。

图11和12阐述了以上窗口的功率频谱的大小,如在参考文献[4]中 将其频率和幅度归一化。由于再现频谱零,所以所有的窗口以零频率显示 主瓣,并且随着频率的增大,其旁瓣的幅度衰减。旁瓣的衰减率由窗口函 数的边缘的不连续性及其微分的不连续性表示;越多低阶导数连续,那么 对于大f而言,窗口就越快地衰减为零。也见参考文献[2]和[4]。

对于图11的取幂正弦函数wa(t)而言,可规定,以每倍频程的渐近衰 减(以dB为单位)与a成比例(例如,见参考文献[6]):

falloff(wa)=-6.02(a+1)dBoct---(22)

这表明不仅为整数,而且为所有的非负实数a保持。对于图12的优 化的窗口而言,可观察到一个不同的旁瓣性能。Hamming窗口的主瓣宽度 等于w2(t)=wHann(t)的主瓣宽度,该窗口以每倍频程仅仅-6dB的速度衰减, 这是因为加权函数不连续。同样,Blackman和Nuttall窗口具有与w4(t)相 同的主瓣,这些窗口显示了以每倍频程仅仅-18dB的速度衰减;其加权的 一阶导数具有连续性,但是其三阶导数没有连续性。然而,这些窗口具有 比其wa(t)对等物更低的最大旁瓣等级。这可造成在某些应用中,明显减少 频谱偏置,并且这就是研发优化的窗口的原因。

由于已经发现,用于图12中的余弦总和的窗口的优化过程也可用于 (19)的正弦总和函数,所以能够使用(20)修改2项窗口以及使用(21) 修改3项窗口,用于最低的最大旁瓣等级(不能这样优化c0=1的一项正 弦窗口)。已经发现,由于使用正弦曲线,(15)的任何实现方式在其端点 处接近零幅度;因此,保证旁瓣以每倍频程-12dB的速率进行衰减(1/f2, 见参考文献[2])。如果允许导数具有非连续性,那么获得额外的自由度, 以便确定ck,可用于将峰值旁瓣幅度最小化(例如,见参考文献[4])。

对于2项正弦总和窗口(K=1),提供非连续的一阶导数,在选择c0 和c1时,产生一个额外的自由度。发现

c0=0.79445,c1=0.20555(23)

产生最低的可能旁瓣最大值-54.3dB(第一和第三旁瓣)。在选择ck时,3 项窗口(K=2)提供两个额外的自由度。使用

c0=0.69295,c1=0.2758,c2=0.03125(24)

达到最小的峰值旁瓣等级-82.8dB。

图13示出了窗口(23)和(24)的功率频谱。对于所示出的所有10 个窗口而言,在表1中列出最大的旁瓣等级、渐近衰减、主瓣宽度(由第 一零的位置表示)、以及6-dB的带宽(测量窗口的分辨率,见参考文献[2])。 注意,在整体频谱性能方面,窗口(23)位于2项Hamming和3项Nuttall 窗口之间的右边。而且,实现与Blackman窗口的峰值相似的旁瓣峰值时, 窗口(23)具有更窄的主瓣。在该讨论中,窗口(24)具有所有窗口最低 的旁瓣最大值,但是与w5(t)一起,也显示了最宽的主瓣。

总之,根据等式(19)计算信号处理窗口值,通过仅仅改变参数ck, 而不改变基本的计算规则,能够获得具有迥然不同的特性的窗口。这就减 少了计算上的工作量以及实施上的工作量。而且,在某些实施方式中,可 使用一个或多个不同的参数组(20)、(21)、(23)或(24)。可计算信号 处理窗口值,并且将其储存在查找表内,或者根据实际的实施方式,(必 要时)可在线计算该值。

10.3正弦总和窗口和离散傅里叶变换(DFT)或MDCT

下面描述用于离散傅里叶变换中时,所提出的窗口类别的关注特征。

细心的读者会注意到正弦总和以及余弦总和窗口的频谱之间的零位 置的差异。图中显然可看出,对于余弦总和窗口而言,大部分或所有的零 值为Lf的整数倍,而对于正弦总和窗口而言,零值位于整数Lf之间的半 途。下面通过使用DFT分析窗口化的谐波信号,阐明该特征。

如上所述,由w(t)加权的信号间隔s(t)的傅里叶变换(FT)等同于s(t) 和w(t)的各FT的卷积。正弦窗口w1(t)和Hann窗口w2(t)的FT分别表示 为

W1(f)=2cos(πf)π(1-4f2)---(25)

以及

W2(f)=sin(πf)2πf(1-f2),---(26)

(例如,见参考文献[3])。因此,对于f=n+0.5,|n|≥1而言,W1(f)=0, 并且对于f=n,|n|≥2而言,W2(f)=0,n为整数。具有更高阶的FT和 表1的优化窗口与(25)和(26)不同,但是分子中的各个三角项(用于 正弦总和的cos(),用于余弦总和窗口的sin())通用。在DFT的背景下, 表示具有余弦总和窗口的最大频谱泄漏与具有正弦总和窗口的最小泄漏 一致,反之亦然。图14给出一个实例,用于所提出的2项窗口(23)以 及256点DFT内使用的Nuttall的3项窗口(18)。

在当代音频或视频编码器内,将信号波形分成区段,并且将每个区段 量化为更粗糙的形式,以便获得较高的数据压缩,即,储存或发送信号所 需要的较低的比特率。试图通过能量压缩从而获得编码增益(或者换言之, 提高指定比特率的编码信号的感知质量)时,量子化之前的区段的滤波器 组变换(例如,MDCT变换607)已经变得普遍。近年来研发的系统使用 改进的离散余弦变换(MDCT)形式的时间频率转换,滤波器组允许相邻 的区段重叠,同时依然提供临界抽样。

为了获得更好的性能,正向和反向MDCT操作(例如,MDCT变换 607和反向MDCT变换608)与每个区段的加权结合:在编码器侧,在 MDCT之前应用分析窗口(例如,窗口w1(n)),并且在解码器侧,在反向 MDCT之后使用合成窗口(例如,合成窗口w1(n))。

遗憾的是,并非所有的加权函数都适用MDCT。假设具有相同的对 称分析和合成窗口函数,

w(L-1-t)=w(t),t=0,1,...,T-1,(27)

如果

w2(t)+w2(T+t)=1,t=0,1,...,T-1,(28)

其中T=L/2,那么没有量子化或传输误差时,整个系统可仅仅产生 完整的输入重构。这就是[7]中报告的所谓的Princen-Bradley或功率互补型 (PC)条件。共同的PC窗口为MPEG-2/-4AAC标准内使用的正弦和KBD 窗口(例如,见参考文献[6]和[8]),PC窗口表示为

wsine(t)=sin(π·t+0.5L),---(29)

以及Vorbis编解码器规范的窗口(例如,见参考文献[9])表示为

wvorbis(t)=sin(π2·sin2(π·t+0.5L)).---(30)

为了调查等式(19)是否可用于产生满足(28)的正弦总和窗口,要 注意的是,考虑(27)时,wsine(t)可视为三角函数的正弦:

τ(L-1-t)=τ(t)=t+0.5T,---(31)

wsine(t)=sin(π2·τ(t)).---(32)

同样,wvorbis(t)可写为(32),由

τ(t)=sin2(π2·τ(t)).---(33)

代替τ(t)。

有关(31)和(33)(或31')的T=L/4的幅度互补性

τ(t)+τ(T-1-t)=1,t=0,1,...,L/4-1,(34)

表明这些函数的替换物可设计成优化窗口函数的频率响应,而不损害 PC特性。实际上,支持(27)

τd(t)=τ(t)+Σk=1Kdksin(2·τ(t))---(27)

为符合(34)的(31)的扩展,使用(19)的正弦总和函数的修改; 省略交错的符号项,并且不考虑奇数倍的π,而是考虑偶数倍。该作者进 行的非正式的实验表明,虽然获得PC,甚至对于某些t而言,dk产生τd(t) <0,但是对于所有的t而言,仅仅具有非负数τd(t)的实现方式同时产生符 合要求的通带选择性和阻带抑制度。

而且,在题为“Evaluation and Optimization”的部分内,选择(19) 的ck系数,使得将所产生的窗口的最大的旁瓣等级最小化。在本文中可遵 循相似的过程。然而,由于(28)的PC约束条件,从而更多地限制频谱 设计的可能性,尤其在最初的两个或三个旁瓣方面。通常,必须规定更低 的频率界限Lf0>1.5(或者,开始的旁瓣),在该界限上,旁瓣最大值可 被最小化一合理的量。举例而言,非正式的穷举搜索(Lf0=4.5)产生2 项参数化,

d1=0.12241,d2=0.00523(36)

该参数化产生一个窗口,其位于Lf0之上的最初三个旁瓣均具有– 66.8dB的等级。较高频率的旁瓣以每倍频程-12dB的速率从该值衰减, 与先前部分的优化的窗口(23)和(24)的旁瓣一样。图15示出使用(27)、 (32)、(35)以及(36)构造的加权函数的频率响应,以及wsine(t)和wvorbis(t) 的频率响应。显然,与正弦窗口相比,在所提出的窗口内旁瓣抑制度大幅 增大。由于约束条件(28),所以具有这种优点,代价是具有略宽的主瓣 和略高的第一旁瓣。与Vorbis窗口相比,表现了最初的两个旁瓣具有基本 上相同的主瓣宽度和最大值。对于4.5<Lf0<11.5而言,在旁瓣衰减方面, 所提出的窗口超过wvorbis(t)。还要注意的是,Vorbis窗口频谱以每倍频程–18 dB的速率衰减,并且处于(或者接近)Lf的整数倍时,其大小为零。因 此,其频谱行为与余弦总和窗口的频谱行为相似。实际上,可认为PC等 同于Hann窗口。同样,所提出的PC窗口似乎为题为“Evaluation and optimization”的部分的优化正弦总和窗口的对等物。未来研究的主题在于 进行更透彻的调查,包括在进行音频编码时进行性能估算。

11.实施方式替换物

虽然已经描述了设备的某些方面,但是显然,这些方面也表示描述相 应的方法,其中,模块或装置与方法步骤或方法步骤的特征对应。类似地, 所描述的方法步骤的各方面也表示描述相应设备的相应模块或物品或特 征。

由(或使用)硬件设备可执行某些或所有的方法步骤,例如,微处理 器、可编程计算机或电子电路。在某些实施方式中,一个或多个最重要的 方法步骤可由这种设备执行。

本发明的编码媒体信号可为编码的音频或视频信号,或者窗口函数序 列可储存在数字储存介质上或者可在传输介质上传输,例如,无线传输介 质或有线传输介质,例如因特网。

根据某些实施方式的要求,本发明的实施方式可用于硬件或软件内。 使用数字储存介质可执行该实施方式,例如,软盘、DVD、蓝光光盘、 CD、ROM、PROM、EPROM、EEPROM或者FLASH存储器,将电子可 读控制信号储存在其上,这些信号与可编程的计算机系统合作(或者能够 与其合作),从而执行各个方法。因此,数字储存介质可为计算机可读介 质。

根据本发明的某些实施方式包括数据载体,具有电子可读控制信号, 这些信号能够与可编程的计算机系统合作,从而执行本文中所述的一种方 法。

通常,本发明的实施方式可被实施为具有编程代码的计算机程序产 品,计算机程序产品在计算机上运行时,该程序代码可操作,以便执行一 种方法。程序代码例如可储存在机器可读载体上。

其他实施方式包括储存在机器可读载体上的计算机程序,用于执行本 文中所述的一种方法。

换言之,因此,本发明的方法的实施方式为具有程序代码的计算机程 序,用于计算机程序在计算机上运行时,执行本文中所述的一种方法。

因此,本发明的方法的另一个实施方式为数据载体(或者数字存储介 质或计算机可读介质),包括记录在其上的计算机程序,用于执行本文中 所述的一种方法。数据载体、数字储存介质或记录的介质通常为有形的和 /或永久性的。

因此,本发明的方法的另一个实施方式为数据流或一系列信号,表示 用于执行本文中所述的一种方法的计算机程序。该数据流或该系列信号例 如可被配置为通过数据通信连接进行传递,例如通过因特网。

另一个实施方式包括处理装置,例如,计算机或可编程逻辑装置,被 配置为或用于执行本文中所述的一种方法。

另一个实施方式包括计算机,其上安装了计算机程序,用于执行本文 中所述的一种方法。

根据本发明的另一个实施方式包括一种设备或系统,被配置为将计算 机程序(例如,电子地或光学地)传递给接收器,该程序用于执行本文中 所述的一种方法。接收器例如可为计算机、移动装置、存储器装置等等。 该设备或系统例如可包括文件服务器,用于将计算机程序传递给接收器。

在某些实施方式中,可编程的逻辑装置(例如,现场可编程门阵列) 可用于执行本文中所述的方法的某些或所有功能。在某些实施方式中,现 场可编程门阵列可与微处理器合作,以便执行本文中所述的一种方法。通 常,这些方法优选地由任何一种硬件设备执行。

上述实施方式仅仅用于阐述本发明的原理。要理解的是,对于本领域 的技术人员而言,本文中所述的这些设置和细节显然可进行修改和变化。 因此,其目的在于仅仅由以下专利权利要求书的范围限制,而不由通过描 述和解释本文中所述的实施方式而显示的具体细节限制。

12.总结

综上所述,可得出以下结论:计算等式(6)、(8)和(9)所阐明的 窗口函数,产生了具有特别好的特性的窗口函数。

此外,可得出以下结论:计算等式(19)所阐明的窗口函数,产生了 具有良好的特性的窗口函数。

综上所述,根据本发明的实施方式大致涉及信号分析和处理方法,例 如可用于音频或视频编码系统内的那些方法。根据本发明的某些实施方式 属于如下应用:这些应用需要通过源的不变的或信号自适应的变化的滤波 器组变换,进行信号能量压缩。这些实施方式可用于提高能量压缩性能, 同时能够完整地反转所述变换。因此,根据本发明的实施方式形成了需要 替换的窗口函数的解决方法,该窗口函数具有中等的计算复杂性,但是提 供了良好的设计灵活性。

通过揭示到等式(4)的正弦窗口函数的扩展,所附权利要求书或该 说明书所限定的根据本发明的一些实施方式解决了MDCT应用缺少灵活 的以及计算上有效的窗口函数这一问题。

然而,根据本发明的其他实施方式产生了改进的窗口函数,这些函数 增大了灵活性,但是不能完整地重构MDCT应用。然而,这种窗口函数 在多种应用中有用。

还应指出的是,为了便于理解本发明,参看附图,已经通过阐述性实 例描述了本发明,而不限制本发明的范围或精神。换言之,本文中所述的 实施方式仅仅用于阐述本发明的原理,以便在过滤应用中更灵活地进行窗 口化和/或提高信号能量压缩。要理解的是,对于本领域的技术人员而言, 本文中所述的设置和细节显然可进行变化和修改。因此,其目的在于仅仅 由以下专利权利要求书的范围限制,而不由通过描述和解释本文中所述的 实施方式而公开的特定细节限制。

一般而言,通过时间上进行加权,从而将离散信号窗口化,这为用于 在处理过程中进行频谱分析必不可少的工具,以便减少偏置效应。多种流 行的加权函数(例如,Hann、Hamming、Blackman)基于缩放余弦的总和。

根据本发明的实施方式呈现了一种替换的窗口,使用正弦总和构成这 些窗口,并且由于保证加权具有连续性,所以相对于零位置,频谱特性改 进(乃至独特),并且旁瓣以每倍频程至少-12dB的速度进行衰减。提供 了用于2项和3项实现方式的参数,具有最小的峰值旁瓣等级。根据本发 明的某些实施方式涉及通过离散傅里叶变换使用正弦总和窗口以及将其 用于重叠的变换中,例如,改进的离散余弦变换(MDCT)。

换言之,根据本发明的实施方式提出了传统窗口函数(例如,Hann、 Hamming、Blackman)的替换物,同样容易计算并且在减少泄漏方面,具 有相似的乃至独特的性能。

简言之,根据本发明的实施方式提供了一种设备、方法或计算机程序, 以便使用可变窗口函数,编码或解码或处理音频或视频信号。

根据本发明的某些实施方式提供了一种设备、方法或计算机程序,以 便计算用于音频或视频信号的一系列不同的窗口函数。

根据本发明的其他实施方式提供了包括编码的音频或视频内容以及 参数窗口信息的编码音频或视频信号,该信息涉及可变的窗口,用于将音 频或视频信号进行编码,从而获得编码的音频或视频信号。

根据本发明的其他实施方式提供了以信号自适应方式确定的一系列 可变窗口函数。

根据本发明的某些实施方式提供了该设备、方法、计算机程序、编码 信号以及一系列可变窗口函数,其中,根据

c(n)=(n+1/2)·2/N

wsin(n)=sin(π/2·c(n))n=0,1,...,N/2-1

获得窗口(wnew),其中,c(n)表示窗口核心函数,由于预先确定该函数,所 以可提前计算该函数。所提出的扩展是在等式(7)中的c(n)上添加加权 的正弦曲线,该正弦曲线具有角频率,角频率为2π的整数倍:

c′(n)=c(n)-∑af·sin(2π·f·c(n)),f=1,2,...,

wncw(n)=sin(π/2·c′(n)),n=0,1,...,N/2-1,

而且,总之,已经示出了Hamming、Blackman以及相似的窗口在数 学上简单的替换物,使用加权正弦总和生成这些替换物。正弦总和方法产 生了独特的特性,例如,保证窗口函数具有连续性,并且该方法也可用于 构成功率互补性窗口,用于例如进行音频编码。

参考文献

[1]R.B.Blackman和J.W.Tukey,从通信工程的角度测量功率谱(The Measurement of Power Spectra from the Point of View of Communications Engineering),纽约,NY,USA:Dover出版物,1958。

[2]F.J.Harris,窗口在利用离散傅立叶变换进行谐波分析中的使用 (On the Use of Windows for Harmonic Analysis with the Discrete Fourier Transform),Proc.IEEE,第66卷,第1号,第51-83页,1978年1月。

[3]N.C.和D.Yavuz,一些新颖窗口和窗口族比较的简要指 南(Some Novel Windows and a Concise Tutorial Comparison of Window Families),IEEE Trans.,声学、语音和信号处理,第ASSP-26卷,第6号, 第501-507页,1978年12月。

[4]A.H.Nuttall,一些具有非常好的旁瓣行为的窗口(Some Windows with Very Good Sidelobe Behavior),IEEE Trans.,声学、语音和信号处理, 第ASSP-29卷,第1号,第84-91页,1981年2月。

[5]S.W.A.Bergen和A.Antoniou,具有指定频谱特性的超球窗口函 数的设计(Design of Ultraspherical Window Functions with Prescribed Spectral Characteristics),应用信号处理EURASIP学报,第2004卷,第 13号,第2053–2065页,2004。可从以下地址获得: http://www.hindawi.com/GetArticle.aspx?doi=10.1155/S1110865704403114

[6]J.O.Smith III,频谱音频信号处理(Spectral Audio Signal Processing),2009年3月起草,音乐和声音计算机研究中心(CCRMA), 斯坦福大学,CA,USA。可从以下地址获得: http://ccrma.stanford.edu/~jos/sasp/(2010年3月访问)

[7]J.P.Princen、A.W.Johnson和A.B.Bradley,使用基于时域偏移 消除的滤波器组设计的子带/变换编码(Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation)Proc. IEEE,1987,ICASSP-12,第2161–2164页,1987年5月。

[8]ISO/IEC 14496-3:2009,信息技术—音频-视频对象的编码—第三 部分:音频(Information technology–Coding of audio-visual objects–Part 3: Audio),Geneva,2009年8月。

[9]Xiph.org基金,Vorbis规范(Vorbis I specification),2010年2月。 在线http://www.xiph.org/vorbis/doc/Vorbis_I_spec.html。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号