首页> 中国专利> 用于获得提取环境信号的加权系数的装置和方法中的用于提取环境信号的装置和方法以及计算机程序

用于获得提取环境信号的加权系数的装置和方法中的用于提取环境信号的装置和方法以及计算机程序

摘要

一种用于从输入音频信号中提取环境信号的装置,包括增益值确定器,所述增益值确定器被配置为根据输入音频信号,针对输入音频信号的时频分布的给定频带,确定时变环境信号增益值序列。所述装置包括加权器,所述加权器被配置为使用所述时变增益值对表示所述时频域表示的给定频带的一个或更多子带信号进行加权,以获得加权子带信号。所述增益值确定器被配置为获得描述输入音频信号的一个或更多特征或特性的一个或更多量化特征值,并根据所述一个或更多量化特征值来提供增益值,使得所述增益值在数量上取决于所述量化特征值。所述增益值确定器被配置为确定增益值,使得在加权子带信号中,与非环境分量相比,强调环境分量。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-09-17

    授权

    授权

  • 2010-10-13

    实质审查的生效 IPC(主分类):H04S5/00 申请日:20080326

    实质审查的生效

  • 2010-08-25

    公开

    公开

说明书

技术领域

根据本发明的实施例涉及用于提取环境信号的装置,并涉及用于获得提取环境信号的加权系数的装置。

根据本发明的一些实施例涉及用于提取环境信号的方法,并涉及用于获得加权系数的方法。

根据本发明的一些实施例的目的是从音频信号中以低复杂度提取前置信号(front signal)和环境信号(ambient signal)用于上混音(upmix)。

背景技术

以下给出介绍。

1.介绍

在消费者的家庭娱乐中,多声道音频素材正变得越来越流行。这主要是由于这样一个事实,即DVD上的电影提供了5.1多声道声音,因此,即使是通常安装音频回放系统的家庭用户,也能够重现多声道音频。

例如,这样的设置可以由3个前置扬声器(L、C、R)、两个后部的扬声器(Ls、Rs)以及一个低频音效声道(LFE)组成。为了方便,所给出的解释涉及5.1系统。该解释通过很小的修改就可以适用于任何其他多声道系统。

相比双声道立体声重现,多声道系统提供了多个众所周知的优点,例如:

●优点1:即使偏离最优(中心)收听位置,也能改进前置图像的稳定性。由于中心声道,“甜点(sweet-spot)”被扩大了。术语“甜点”表示感知到最优声音印象的收听位置的区域。

●优点2:后置声道扬声器创建了增大的“包围”和空间体验。

然而,存在大量遗留的具有两个声道(“立体声”)或甚至只有一个声道(“单声道”)的音频内容,例如老电影和电视系列片。

进来,开发出了各种用于从具有较少声道的音频信号产生多声道信号的方法(见第2部分的相关传统概念概述)。从具有较少声道的音频信号产生多声道信号的过程被称为“上混音”。

上混音的两个概念广为人知。

1.使用引导上混音过程的附加信息的上混音。该附加信息或者以指定的方式“编码”在输入信号中,或者可以另外存储。这个概念通常称为“引导的上混音”。

2.“盲上混音”,其中,完全从音频信号中获得多声道信号,而不需要任何附加信息。

根据本发明的实施例涉及后者,即盲上混音过程。

在文献中,公开了用于上混音的备选分类法。上混音过程可以遵循直射/环境(Direct/Ambient)概念或“在乐队中(in-the-band)”概念或两者的混合。以下描述这两种概念。

A直射/环境概念

“直射声源”是通过3个前置声道以这样一种方式来重现的,即在与原始的双声道版本相同的位置来感知。术语“直射声源”用于描述一种完全并直接来自一个分立声源(例如一个乐器)的声音,它只带有很小或不带有任何另外的声音,例如由于墙壁的反射。

后置扬声器被提供以环境声音(似环境声音)。环境声音是形成一种(虚拟的)收听环境印象的声音,包括房间的混响、听众的声音(例如欢呼),环境声音(例如雨)、旨在提供艺术效果的声音(例如乙烯的噼啪声)和背景噪声。

图23示意了原始的双声道版本的声音图像,图24示出了遵循直射/环境概念进行上混音的版本的声音图像。

B“在乐队中(In-the-band)”概念

遵循“在乐队中”概念,每个声音,或至少某些声音(直射声音以及环境声音)被环绕收听者而放置。声音的位置独立于其特征(例如,无论它是直射声音还是环境声音),而仅取决于算法的特定设计及其参数设置。图25示意了“在乐队中”概念的声音图像。

根据本发明的装置和方法涉及直射/环境概念。以下部分在将具有m声道的音频信号上混音为具有n声道的音频信号(其中m<n)的上下文中给出传统概念的概述。

2.盲上混音的传统概念

2.1单声道录音的上混音

2.1.1伪立体声处理

大多数产生所谓“伪立体声”信号的技术不是信号自适应的。这意味着,它以相同的方式处理任何单声道信号,不论其内容为何。这样的系统通常使用简单的滤波器结构和/或时间延迟来工作,以解相关输出信号,例如,通过一对互补梳状滤波器来处理单声道输入信号的两个拷贝[Sch57]。这样的系统的全面的概述可以在[Fal05]中找到。

2.1.2使用声源形成的半自动单声道至立体声上混音

该作者提出了一种算法,用于识别属于相同声源的并从而应当被组合在一起的信号分量(例如声谱图的时频点(time-frequency bin))[LMT07]。声源形成算法考虑了流分离原理(由Gestalt原理导出):在时间上连续性、在频率上谐和相关性以及幅度相似性。使用聚簇方法(无监督学习)来识别声源。使用(a)对象的频率范围的信息和(b)音质相似性,将导出的“时频簇(time-frequency-cluster)”进一步组合为更大的声音流。作者公开了使用正弦建模算法(即识别信号的正弦分量)作为前端。

在声源形成后,用户选择声源并对其应用全景化权重(panningweight)。应注意(根据一些传统概念),在处理一般复杂度的真实世界的信号时,许多已提出的方法(正弦建模、流分离)不能可靠地执行。

2.1.3使用非负矩阵分解的环境信号提取

例如通过短期傅立叶变换,计算输入信号的时频分布(TFD)。通过非负矩阵分解的数值优化方法,导出直射信号分量的TFD的估计。通过计算输入信号的TFD与直射信号的TFD的估计的差,获得环境信号的TFD的估计(即近似残差)。

使用输入信号的相位声谱图来实施环境信号的时间信号的重新合成。可选地,应用附加的后处理以改进所导出的多声道信号的收听体验[UWHH07]。

2.1.4自适应频谱全景化(panoramization)(ASP)

[VZA06]描述了全景化单声道信号以使用立体声系统回放的方法。该处理结合了STFT、用于重新合成左右声道信号的频率点(frequency bin)的加权以及逆STFT。从由子带中的输入信号的声谱图计算出的低级特征中导出时变加权因子。

2.2立体声录音的上混音

2.2.1矩阵解码器

无源矩阵解码器使用输入声道信号的时不变线性组合来计算多声道信号。

有源矩阵解码器(例如Dolby Pro Logic II[Dre00]、DTS NEO:6[DTS]或HarmanKardon/Lexicon Logic 7[Kar])应用了输入信号的分解,并进行矩阵元素(即线性组合的权重)的基于信号的自适应调整。这些解码器使用声道间差与信号自适应调整机制来产生多声道输出信号。矩阵调整方法的目的是检测主要的源(例如对话)。该处理在时间域进行。

2.2.2将立体声转换为多声道声音的方法

Irwan和Aarts提出了一种将信号从立体声转换为多声道的方法[IA01]。使用互相关技术(提出了一种相关系数的迭代估计以减小计算负荷)来计算环绕声道的信号。

使用主要分量分析(PCA)来获得中心声道的混音系数。PCA适于计算指示主要信号方向的向量。一次只能检测出一个主要信号。使用迭代梯度下降方法执行PCA(与使用观测的协方差矩阵的特征值分解的标准PCA相比,该方法需要较低的计算负荷)。若忽略所有解相关信号分量,则计算出的方向向量与测角器的输出近似。接着,该方向从双声道表示被映射到三声道表示,以创建3个前置声道。

2.2.32至5声道上混音的无监管自适应滤波方法

该作者提出了一种与Irwan和Aarts的方法相比得到改进的算法。原先提出的方法被应用于每个子带[LD05]。该作者假定主要信号间的w不相交(w-disjoint)的正交性。使用伪积分镜像滤波器组或基于小波的倍频滤波器组来实施频率分解。对Irwan和Aarts的方法的进一步扩展是使用自适应步长大小用于(第一)主要分量的迭代计算。

2.2.4用于多声道音频上混音的从立体声信号的环境信号提取和合成

Avendano和Jot提出了一种频域技术,用于识别和提取立体声视频信号中的环境信息。

该方法基于声道间相干系数和非线性映射函数的计算,所述非线性映射函数允许确定基本上由环境分量组成的时频区域。随后,环境信号被合成并用于供给多声道回放系统的环绕声道。

2.2.5基于描述符的空间化

该作者描述了一种用于1至n上混音的方法,该方法可以由信号的自动分类来控制[MPA+05]。该论文存在一些错误;因此,可能该作者的目的不同于在该论文中描述的目的。

上混音处理使用3个处理模块:“上混音工具”、人工混响以及均衡。“上混音工具”由各种处理模块组成,包括提取环境信号。用于提取环境信号的方法(“空间鉴别器”)是基于对记录在空间域的立体声的左右信号的比较。为了上混音单声道信号,使用人工混响。

该作者描述了3个应用:1至2上混音、2至5上混音和1至5上混音。

音频信号的分类

分类过程使用无监管的学习方法:从音频信号中提取低级特征,应用分类符将音频信号分类为三类中的一类:音乐、语音或任何其他声音。

该分类过程的特殊性在于使用遗传编程方法以找到:

●最优特征(作为不同操作的组成)

●所获得的低级特征的最优组合

●可用分类符集合中的最佳分类符

●对所选的分类符的最佳参数设置

1至2上混音

该上混音是使用混响和均衡来完成的。若信号包含语音,则使用均衡而不使用混响。否则,不使用均衡而使用混响。不使用任何旨在抑制后置声道中的语音的专门处理。

2至5上混音

该作者的目的是建立多声道音轨,通过使中心声道不发声来减弱检测到的语音。

1至5上混音

使用混响、均衡和“上混音工具”(它由立体声信号产生5.1信号。该立体声信号是混响的输出以及对“上混音工具”的输入)来产生多声道信号。对音乐、语音和所有其他声音使用不同的预设置。通过控制混响和均衡,建立了多声道音轨,该多声道音轨将语音保持在中心声道,而将音乐和其他声音保持在全部声道中。

若信号包含语音,则不使用混响。否则使用混响。由于后置声道的提取依赖于立体声信号,当不使用混响时(这是针对语音的情况),不产生后置声道的信号。

2.2.6基于环境信号的上混音

Soulodre提出了一种从立体声信号创建多声道信号的系统[Sou04]。信号被分解为所谓的“单源流”和“环境流”。基于这些流,所谓的“美学引擎”合成多声道输出。没有给出该分解和合成步骤的进一步的技术细节。

2.3具有任意数目声道的音频信号的上混音

2.3.1多声道环绕形式转换和一般化的上混音

该作者描述了一种基于使用中间单声道下混音(downmix)的空间音频编码的方法,并介绍了一种不需要中间下混音的改进的方法。该改进的方法包括无源矩阵上混音以及从空间音频编码中已知的原理。这种改进的取得付出了增加中间音频的数据速率的代价[GJ07a]。

2.3.2用于空间音频编码和增强的主要环境信号分解和基于向量的定位

该作者提出,使用主要分量分解(PCA)将输入信号分离为主要(直射)信号和环境信号。

输入信号被建模为主要(直射)信号和环境信号之和。假定直射信号本质上具有的能量比环境信号更大,而且两种信号不相关。

该处理在频域进行。通过将输入信号的STFT系数投影到第一主要分量上,获得直射信号的STFT系数。环境信号的STFT系数是由输入信号和直射信号的STFT信号的差别计算得到。

由于只需要(第一)主要分量(即与最大特征值相对应的协方差矩阵的特征向量),应用用于标准PCA的特征值分解的具有计算效率的选择性方法(是一种迭代近似)。同样,迭代地估计PCA分解所需的互相关。该直射和环境信号加起来是原始信号,即分解中没有损失信息。

发明内容

考虑到以上描述,需要一种低复杂度的从输入音频信号中提取环境信号的方案。

根据本发明的一些实施例创建了一种装置,该装置基于输入音频信号的时频域(time-frequency-domain)表示来提取环境信号,所述时频域表示以描述多个频带的多个子带信号的形式表示输入音频信号。所述装置包括增益值确定器,所述增益值确定器被配置为根据输入音频信号,确定针对输入音频信号的时频域表示的给定频带的时变环境信号增益值序列。所述装置包括加权器,所述加权器被配置为使用所述时变增益值来加权表示所述时频域表示的给定频带的一个子带信号,以获得加权的子带信号。所述增益值确定器被配置为获得描述输入音频信号的一个或更多特征或特性的一个或更多量化特征值(quantitative feature value),并根据所述一个或更多量化特征值来提供增益值,使得所述增益值在数量上取决于所述量化特征值。所述增益值确定器被配置为提供增益值,使得在加权子带信号中,与非环境分量相比,强调环境分量。

根据本发明的一些实施例提供了一种装置,所述装置获得用于从输入音频信号中提取环境信号的加权系数。所述装置包括加权系数确定器,所述加权系数确定器被配置为确定加权系数,使得使用该加权系数来加权的(或由该加权系数定义的)描述系数确定输入音频信号的多个特征的多个量化特征值的加权组合,近似于与所述系数确定输入音频信号相关联的期望增益值。

根据本发明的一些实施例提供了用于提取环境信号和用于获得加权系数的方法。

根据本发明的一些实施例是基于这样的发现,即通过确定量化特征值,例如描述输入音频信号的一个或更多特征的量化特征值序列,由于可以通过有限的计算努力来提供这样的量化特征值,并且这样的量化特征值可以被有效而灵活地转换为增益值,因此,通过确定量化特征值可以以特别有效而灵活的方式从输入音频信号中提取环境信号。通过以一个或更多量化特征值序列的形式来描述一个或更多特征,可以容易地获得增益值,所述增益值在数量上取决于所述量化特征值。例如,可以使用简单的数学映射来从特征值导出增益值。此外,通过提供增益值使得所述增益值在数量上取决于所述特征值,可以获得从输入信号中经微调提取的环境分量。不是进行硬判决来判决输入信号的那些分量是环境分量而输入信号的哪些分量是非环境分量,而是可以执行环境分量的逐步提取。

此外,量化特征值的使用允许描述不同特征的特征值的特别有效而精确的组合。例如,可以根据数学处理规则,以线性或非线性的方式对量化特征值进行缩放或处理。

在组合多个特征值以获得增益值的实施例中,例如通过调整各自的系数,可以容易地调整关于所述组合的细节(例如关于不同特征值的缩放的细节)。

以上概括为,包括确定量化特征值也包括基于所述量化特征值确定增益值的用于提取环境信号的概念,这个概念可以构成用于从输入音频信号中提取环境信号的有效而低复杂度的概念。

在根据本发明的一些实施例中,本发明的实施例显示出特别有效地对输入音频信号的时频域表示的一个或更多子带信号进行加权。通过对所述时频域表示的一个或更多子带信号进行加权,可以实现从输入音频信号中频率选择性地或指定地提取环境信号分量。

根据本发明的一些实施例创建了一种装置,所述装置获得用于从输入音频信号中提取环境信号的加权系数。

一些实施例是基于这样的发现,即可以基于系数确定输入音频信号来获得用于提取环境信号的系数,在一些实施例中,所述系数确定输入音频信号可以被看作是“校准信号”或“参考信号”。通过使用这样的系数确定输入音频信号,其中例如可以通过适当的努力知晓或获得该信号的期望增益值,可以获得定义量化特征值的组合的系数,使得量化特征值的组合产生近似于期望增益值的增益值。

根据所述概念,可以获得合适的加权系数的集合,使得使用这些系数配置的环境信号提取器可以充分好地执行从与所述系数确定输入音频信号类似的输入音频信号中提取环境信号(或环境分量)。

在根据本发明的一些实施例中,用于获得加权系数的装置允许用于提取环境信号的装置有效地自适应于不同类型的输入音频信号。例如,基于“训练信号”,即用作系数确定输入音频信号并可以自适应于环境信号提取器的用户的收听偏好的给定的音频信号,可以获得合适的加权系数的集合。此外,通过提供所述加权系数,可以对描述不同特征的可用量化特征值进行最佳利用。

随后将描述根据本发明的实施例的进一步的细节、效果和优点。

附图说明

随后将参照附图描述根据本发明的实施例,其中:

图1示出了根据本发明的实施例的用于提取环境信号的装置的示意框图;

图2示出了根据本发明的实施例的用于从输入音频信号中提取环境信号的装置的详细示意框图;

图3示出了根据本发明的实施例的用于从输入音频信号中提取环境信号的装置的详细示意框图;

图4示出了根据本发明的实施例的用于从输入音频信号中提取环境信号的装置的示意框图;

图5示出了根据本发明的实施例的增益值确定器的示意框图;

图6示出了根据本发明的实施例的加权器的示意框图;

图7示出了根据本发明的实施例的后处理器的示意框图;

图8a和8b示出了从根据本发明的实施例的用于提取环境信号的示意框图中摘出的图;

图9示出了从时频域表示中提取特征值的概念的图形表示;

图10示出了根据本发明的实施例的用于进行1至5上混音的装置或方法的框图;

图11示出了根据本发明的实施例的用于提取环境信号的装置或方法的框图;

图12示出了根据本发明的实施例的用于进行增益计算的装置或方法的框图;

图13示出了根据本发明的实施例的用于获得加权系数的装置的示意框图;

图14示出了根据本发明的实施例的用于获得加权系数的另一装置的示意框图;

图15a和15b示出了根据本发明的实施例的用于获得加权系数的装置的示意框图;

图16示出了根据本发明的实施例的用于获得加权系数的装置的示意框图;

图17示出了从根据本发明的实施例的用于获得加权系数的装置的示意框图中摘出的图;

图18a和18b示出了根据本发明的实施例的系数确定信号产生器的示意框图;

图19示出了根据本发明的实施例的系数确定信号产生器的示意框图;

图20示出了根据本发明的实施例的系数确定信号产生器的示意框图;

图21示出了根据本发明的实施例的用于从输入音频信号中提取环境信号的方法的流程图;

图22示出了根据本发明的实施例的用于确定加权系数的方法的流程图;

图23示出了示意立体声回放的图形表示;

图24示出了示意直射/环境概念的图形表示;以及

图25示出了示意在乐队中的概念的图形表示。

具体实施方式

用于提取环境信号的装置——第一实施例

图1示出了用于从输入音频信号中提取环境信号的装置的示意框图。图1所示的装置其整体被标记为100。装置100被配置为接收输入音频信号110,并基于该输入音频信号提供至少一个加权的子带信号,使得在加权的子带信号中,与非环境分量相比,强调环境分量。装置100包括增益值确定器120。该增益值确定器120被配置为接收输入音频信号110,并根据输入音频信号110提供时变环境信号增益值(也被简要标记为增益值)序列122。增益值确定器120包括加权器130。加权器130被配置为接收输入音频信号的时频域表示或其至少一个子带信号。所述子带信号可以描述输入音频信号的一个频带或一个子频带。加权器130还被配置为根据子带信号132,并根据时变环境信号增益值序列122来提供加权的子带信号112。

基于上述结构描述,以下将描述装置100的功能。增益值确定器120被配置为接收输入音频信号110并获得一个或更多量化特征值,所述量化特征值描述该输入音频信号的一个或更多特征或特性。换言之,例如,增益值确定器120可以被配置为获得表征输入音频信号的一个特征或特性的量化信息。备选地,增益值确定器120可以被配置为获得描述输入音频信号的多个特征的多个量化特征值(或其序列)。因此,可以计算输入音频信号的某些特性,也称为特征(或在一些实施例中称为“低级特征”),以提供增益值序列。增益值确定器120还被配置为:根据一个或更多量化特征值(或其序列),来提供时变环境信号增益值序列122。

以下,“特征”一词有时被用于表示特征或特性,以便使描述简略。

在一些实施例中,增益值确定器120被配置为提供时变环境信号增益值,该增益值在数量上取决于该量化特征值。换言之,在一些实施例中,特征值可以采取多个值(在一些情况下多于两个值,在一些情况下甚至多于10个值,在一些情况下甚至是准连续数目的值),对应的环境信号增益值可以以线性或非线性的方式遵循(至少在特征值的特定范围内)这些特征值。因此,在一些实施例中,增益值可以随着一个或更多对应的量化特征值之一的增大而单调地增大。在另一实施例中,增益值可以随着一个或更多对应值之一的增大而单调地减小。

在一些实施例中,增益值确定器可以被配置为产生描述第一特征的时间演进的量化特征值序列。相应地,例如,增益值确定器可以被配置为将描述第一特征的特征值序列映射到增益值序列。

在其他一些实施例中,增益值确定器可以被配置为提供或计算多个特征值序列,所述多个特征值序列描述了输入音频信号110的多个不同特征的时间演进。相应地,可以将多个量化特征值序列映射到增益值序列。

以上概括为,增益值确定器可以以量化方式计算输入音频信号的一个或更多特征,并提供基于该特征的增益值。

加权器130被配置为根据时变环境信号增益值序列122,对输入音频信号110的频谱的一部分(或完整的频谱)进行加权。为了这个目的,加权器接收输入音频信号的时频域表示的至少一个子带信号132(或多个子带信号)。

增益值确定器120可以被配置为以时域表示或以时频域表示来接收输入音频信号。然而,已经发现,若输入信号的加权是通过使用输入音频信号110的时频域的加权器来进行的,则可以以特别高效的方式进行环境信号的提取过程。加权器130被配置为根据增益值122对输入音频信号的至少一个子带信号132进行加权。加权器130被配置为对一个或更多子带信号132应用增益值序列的增益值以缩放子带信号,以获得一个或更多加权的子带信号112。

在一些实施例中,增益值确定器120被配置为计算输入音频信号的特征,所述特征表征了(或至少提供了一种指示)输入音频信号110或其子带(由子带信号132表示)可能表示音频信号的环境分量还是非环境分量。然而,可以选择由增益值确定器处理的特征值,以提供关于输入音频信号110内的环境分量和非环境分量之间的关系的量化信息。例如,特征值可以携带关于输入音频信号110中的环境分量和非环境分量之间的关系的信息(或至少一种指示),或至少描述其估计的信息。

相应地,增益值确定器130可以被配置为产生增益值序列,使得在根据增益值122加权的加权子带信号112中,与非环境分量相比,强调环境分量。

以上概括为,装置100的功能是基于描述输入音频信号110的特征的一个或更多量化特征值序列来确定增益值序列。产生增益值序列,使得若特征值指示各个时频点的相对大的“环境相似度”,则使用大的增益值来缩放表示输入音频信号110的频带的子带信号132,若由增益值确定器认定的一个或更多特征指示各个时频点的相对低的“环境相似度”,则使用相对小的增益值来缩放输入音频信号110的频带。

用于提取环境信号的装置——第二实施例

现在参照图2,来描述图1所述的装置100的可选扩展。图2示出了用于从输入音频信号中提取环境信号的装置的详细示意框图。图2所示的装置其整体被标记为200。

装置200被配置为接收输入音频信号210,并提供多个输出子带信号212a至212d,多个输出子带信号212a至212d中的一些可以被加权。

例如,装置200可以包括分析滤波器组216,分析滤波器组216可以被认为是可选的。例如分析滤波器组216可以被配置为接收时域表示的输入音频信号内容210,并提供该输入音频信号的时频域表示。例如,该输入音频信号的时频域表示可以以多个子带信号218a至218d的方式描述输入音频信号。例如,子带信号218a至218d可以表示在输入音频信号210的不同子频带或频带中存在的能量的时间演进。例如,子带信号218a至218d可以表示用于输入音频信号210的后续(时间上)部分的快速傅立叶变换系数的序列。例如,第一子带信号218a可以描述在后续时间段中输入音频信号的给定子频带中存在的能量的时间演进,所述后续时间段可以重叠或不重叠。类似地,其他子带信号218b至218d可以描述其他子带中存在的能量的时间演进。

增益值确定器可以(可选地)包括多个量化特征值确定器250、252、254。在一些实施例中,量化特征值确定器250、252、254可以是增益值确定器220的一部分。然而,在其他实施例中,量化特征值确定器250、252、254可以在增益值确定器220的外部。在这种情况下,增益值确定器220可以被配置为从外部量化特征值确定器接收量化特征值。接收外部产生的量化特征值和内部产生的量化特征值均被认为是“获得”量化特征值。

例如,量化特征值确定器250、252、254可以被配置为接收关于输入音频信号的信息,并提供以量化方式描述输入音频信号的不同特征的量化特征值250a、252a、254a。

在一些实施例中,量化特征值确定器250、252、254被选择为,以对应的量化特征值250a、252a、254a的形式描述输入音频信号210的特征,这些特征提供了关于输入音频信号210的环境分量内容的指示,或关于输入音频信号210的环境分量内容与非环境分量内容之间的关系的指示。

增益值确定器220还包括加权组合器260。加权组合器260可以被配置为接收量化特征值250a、252a、254a,并基于此提供增益值222(或增益值序列)。加权器单元可以使用该增益值222(或增益值序列)来加权一个或更多子带信号218a、218b、218c、218d。例如,加权器单元(有时也简称为“加权器”)可以包括,多个单个的缩放器或单个的加权器270a、270b、270c。例如,第一单个加权器270a可以被配置为根据增益值(或增益值序列)222加权第一子带信号218a。从而获得第一加权子带信号212a。在一些实施例中,增益值(或增益值序列)222可以用于加权附加子带信号。在一个实施例中,可选的第二单个加权器270b可以被配置为加权第二子带信号218b以获得第二加权子带信号212b。此外,第三单个加权器270c可以被配置为加权第三子带信号218c以获得第三加权子带信号212c。从以上的讨论中可以看出,可以使用增益值(或增益值序列)222来加权以时频域表示的形式表示输入音频信号的一个或更多子带信号218a、218b、218c、218d。

量化特征信确定器

以下,描述关于量化特征值确定器250、252、254的各种细节。

量化特征值确定器250、252、254可以被配置为使用不同类型的输入信息。例如,如图2所示,第一量化特征值确定器250可以被配置为接收输入音频信号的时域表示作为输入信息。备选地,第一量化特征值确定器250可以被配置为接收描述输入音频信号的整个频谱的输入信息。因此,在一些实施例中,可以(可选地)基于输入音频信号的时域表示或基于描述输入音频信号的整体(至少在给定的时间段内)的其他表示,计算至少一个量化特征值250a。

第二量化特征值确定器252被配置为接收单个子带信号,例如第一子带信号218a作为输入信息。因此,例如,第二量化特征值确定器可以被配置为基于单个子带信号提供对应的量化特征值252a。在只对单个子带信号应用增益值222(或其序列)的实施例中,对其应用增益值222的子带信号可以与第二量化特征值确定器222所使用的子带信号相同。

例如,第三量化特征值确定器254可以被配置为接收多个子带信号作为输入信息。例如,第三量化特征值确定器254被配置为接收第一子带信号218a、第二子带信号218b和第三子带信号218c作为输入信息。因此,第三量化特征值确定器254被配置为基于多个子带信号提供量化特征值254a。在应用增益值222(或其序列)以加权多个子带信号(例如子带信号218a、218b、218c)的实施例中,对其应用增益值222的子带信号可以与第三量化特征值确定器254所计算的子带信号相同。

以上概括为,在一些实施例中,增益值确定器222可以包括多个不同的量化特征值确定器,所述量化特征值确定器被配置为计算不同的输入信息,以获得多个不同的特征值250a、252a、254a。在一些实施例中,一个或更多特征值确定器可以被配置为基于输入音频信号的宽带表示(例如,基于输入音频信号的时域表示)来计算特征,而其他特征值确定器可以被配置为只计算输入音频信号210的频谱的一部分,或甚至只计算单个频带或子频带。

加权

下文描述关于量化特征值的加权的细节,所述加权是由例如加权组合器260执行的。

加权组合器260被配置为,基于由量化特征值确定器250、252、254所提供的量化特征值250a、252a、254a,获得增益值222。例如,该加权组合器可以被配置为线性缩放由量化特征值确定器所提供的量化特征值。在一些实施例中,加权组合器可以被考虑为形成量化特征值的线性组合,其中不同的权重(例如,所述权重可以由各自加权系数来描述)可以与量化特征值相关联。在一些实施例中,加权组合器也可以被配置为以非线性的方式处理由量化特征值确定器所提供的特征值。例如,非线性处理可以先于组合而执行,或作为组合的一个整体部分。

在一些实施例中,加权组合器260可以被配置为可调整的。换言之,在一些实施例中,加权组合器可以被配置为使得与不同量化特征值确定器的量化特征值相关联的权重是可调整的。例如,加权组合器260可以被配置为接收加权系数的集合,例如,该加权系数的集合将影响到量化特征值250a、252a、254a的非线性处理和/或影响到量化特征值250a、252a、254a的线性缩放。随后将描述关于加权过程的细节。

在一些实施例中,增益值确定器220可以包括可选的加权调整器270。该可选的加权调整器270可以被配置为调整由加权组合器260进行的对量化特征值250a、252a、254a的加权。例如参照图14至20,随后将描述关于用于量化特征值的加权的加权系数的确定的细节。例如,所述加权系数的确定可以由分离的装置来执行或由加权调整器270来执行。

用于提取环境信号的装置——第三实施例

以下描述根据本发明的另一个实施例。图3示出了用于从输入音频信号中提取环境信号的装置的详细示意框图。图3所示的装置其整体被标记为300。

然而,应注意,贯穿本说明书的始终,选择相同的附图标记来标记相同的装置、信号或功能。

装置300与装置200非常类似。然而,装置300包括特别高效的一组特征值确定器。

如从图3中可以看到的,取代图2中所示的增益值确定器220的增益值确定器320包括音调特征值确定器350作为第一量化特征值确定器。例如,音调特征值确定器350可以被配置为提供量化音调特征值350a作为第一量化特征值。

此外,增益值确定器320包括能量特征值确定器352作为第二量化特征值确定器,能量特征值确定器352被配置为提供能量特征值352a作为第二量化特征值。

此外,增益值确定器320可以包括频谱质心(spectral centroid)特征值确定器354作为第三量化特征值确定器。该频谱质心特征值确定器可以被配置为提供描述输入音频信号的频谱或输入音频信号210的频谱的一部分的质心的频谱质心特征值作为第三量化特征值。

相应地,加权组合器260可以被配置为,以线性和/或非线性加权的方式,组合音调特征值350a(或其序列)、能量特征值352a(或其序列)和频谱质心特征值354a(或其序列),以获得用于加权子带信号218a、218b、218c、218d(或至少一个子带信号)的增益值222。

用于提取环境信号的装置——第四实施例

以下,参照图4,讨论装置300的可能的扩展。然而,参照图4所描述的概念也可以独立于图3所示的配置而使用。

图4示出了用于提取环境信号的装置的示意框图。图4所示的装置其整体被标记为400。装置400被配置为接收多声道输入音频信号410作为输入信号。此外,装置400被配置为基于多声道输入音频信号410提供至少一个加权子带信号412。

装置400包括增益值确定器420。增益值确定器420被配置为接收描述多声道输入音频信号中的第一声道410a和第二声道410b的信息。此外,增益值确定器420被配置为基于描述多声道输入音频信号中的第一声道410a和第二声道410b的信息,提供时变环境信号增益值序列422的序列。例如,时变环境信号增益值422可等同于时变增益值222。

此外,装置400包括加权器430,加权器430被配置为根据时变环境信号增益值422对描述多声道输入音频信号410的至少一个子带信号进行加权。

例如,加权器430可以包括加权器130的功能,或各个加权器270a、270b、270c的功能。

现在参照增益值确定器420,例如,可以参照增益值确定器120、增益值确定器220或增益值确定器320来扩展增益值确定器420,即增益值确定器420被配置为获得一个或更多量化声道关系特征值。换言之,增益值确定器420可以被配置为获得描述多声道输入信号410的两个或更多声道之间的关系的一个或更多量化特征值。

例如,增益值确定器420可以被配置为获得描述多声道输入音频信号410的两个声道之间的相关性的信息。备选地,或附加地,增益值确定器420可以被配置为获得描述多声道输入音频信号410的第一声道的信号强度与输入音频信号410的第二声道的信号强度之间的关系的量化特征值。

在一些实施例中,增益值确定器420可以包括一个或更多声道关系增益值确定器,这些声道关系增益值确定器被配置为提供描述一个或更多声道关系特征的一个或更多特征值(或特征值序列)。在其他一些实施例中,声道关系特征值确定器可以在增益值确定器420之外。

在一些实施例中,增益值确定器可以被配置为,例如以加权的方式,通过组合描述不同声道关系的一个或更多量化声道关系特征值来确定增益值。在一些实施例中,增益值确定器420可以被配置为仅基于一个或更多量化声道关系特征值来确定时变环境信号增益值422的序列,例如不考虑量化单声道特征值。然而,在其他一些实施例中,增益值确定器420被配置为,例如以加权的方式,将一个或更多量化声道关系特征值(描述一个或更多不同声道关系特征)与一个或更多量化单声道特征值(描述一个或更多单声道特征)组合。因此,在一些实施例中,可以同时考虑基于多声道输入音频信号410的单个声道的单声道特征以及描述多声道输入音频信号410的两个或更多声道的关系的声道关系特征,来确定时变环境信号增益值。

因此,在根据本发明的一些实施例中,通过同时考虑单声道特征和声道关系特征,来获得特别有意义的时变环境信号增益值序列。相应地,时变环境信号增益值可以适应于要使用所述增益值来加权的音频信号声道,仍考虑先前的信息,可以通过计算多声道之间的关系来获得所述增益值。

增益值确定器的细节

以下参照图5,描述关于增益值确定器的细节。图5示出了增益值确定器的详细示意框图。图5所示的增益值确定器其整体被标记为500。例如,该增益值确定器500可以取代此处描述的增益值确定器120、220、320、420的功能。

非线性预处理器

增益值确定器500包括(可选的)非线性预处理器510。该非线性预处理器510可以被配置为接收一个或更多输入音频信号的表示。例如,非线性预处理器510可以被配置为接收输入音频信号的时频域表示。然而,在一些实施例中,选择性地或附加地,非线性预处理器510可以被配置为接收输入音频信号的时域表示。在另一些实施例中,非线性预处理器可以被配置为接收输入音频信号的第一声道的表示(例如时域表示或时频域表示)以及输入音频信号的第二声道的表示。非线性预处理器可以进一步被配置为向第一量化特征值确定器520提供输入音频信号的一个或更多声道的经预处理的表示,或至少一部分(例如频谱部分)经预处理的表示。此外,非线性预处理器可以被配置为向第二量化特征值确定器522提供输入音频信号的另一个经预处理的表示(或其部分)。提供给第一量化特征值确定器520的输入音频信号的表示可以与提供给第二量化特征值确定器522的输入音频信号的表示相同或不同。

然而,应注意,第一量化特征值确定器520和第二量化特征值确定器可以被认为是表示两个或更多特征值确定器,例如K个特征值确定器,其中K>=1或K>=2。换言之,如此处所需并描述的,可以使用另外的量化特征值确定器来扩展图5所示的增益值确定器500。

以下描述关于非线性预处理器的功能的细节。然而,应注意,所述预处理可以包括确定输入音频信号或其频谱表示的幅度值、能量值、对数幅度值、对数能量值,或者输入音频信号或其频谱表示的其他非线性预处理。

特征值后处理器

增益值确定器500包括第一特征值后处理器530,第一特征值后处理器530被配置为从第一量化特征值确定器520接收第一特征值(或第一特征值序列)。此外,第二特征值后处理器532可以与第二量化特征值确定器522连接,以从第二量化特征值确定器522接收第二量化特征值(或第二量化特征值序列)。例如,第一特征值后处理器530和第二特征值确定器522可以被配置为提供各自的经后处理的量化特征值。

例如,特征值后处理器可以被配置为处理各自的量化特征值,以限制经后处理的特征值的数值范围。

加权组合器

增益值确定器500还包括加权组合器540。加权组合器540被配置为从特征值后处理器530、532接收经后处理的特征值,并基于此提供增益值560(或增益值序列)。增益值560可以等同于增益值122、增益值222、增益值322或增益值422。

以下讨论关于加权组合器540的一些细节。在一些实施例中,例如,加权组合器540可以包括第一非线性处理器542。例如,第一非线性处理器542可以被配置为接收第一经后处理的量化特征值并对该经后处理的第一特征值实施非线性映射,以提供经非线性处理的特征值542a。此外,加权组合器540可以包括第二非线性处理器544,第二非线性处理器544可以被配置为与第一非线性处理器542类似。第二非线性处理器544可以被配置为将经后处理的第二特征值非线性映射至经非线性处理的特征值544a。在一些实施例中,由非线性处理器542、544执行的非线性映射的参数可以根据各自的系数来调整。例如,可以使用第一非线性加权系数来确定第一非线性处理器542的映射,可以使用第二非线性加权系数来确定第二非线性处理器544所执行的映射。

在一些实施例中,可以省略一个或更多特征值后处理器530、532。在其他实施例中,可以省略一个或全部非线性处理器542、544。此外,在一些实施例中,对应的特征值后处理器530、532和非线性处理器542、544的功能可以被融合到一个单元中。

加权组合器540还包括第一加权器或缩放器550。第一加权器550被配置为接收第一经非线性处理的量化特征值542a(或在省略非线性处理的情况下是第一量化特征值),并根据第一线性加权系数来缩放第一经非线性处理的量化特征值,以获得第一经线性缩放的量化特征值550a。加权组合器540还包括第二加权器或缩放器552。第二加权器552被配置为接收第二经非线性处理的量化特征值544a(或在省略非线性处理的情况下是第二量化特征值),并根据第二线性加权系数来缩放所述值,以获得第二经线性缩放的量化特征值552a。

加权组合器540还包括组合器556。该组合器556被配置为接收第一经线性缩放的量化特征值550a和第二经线性缩放的量化特征值552a。组合器556被配置为,基于所述值来提供增益值560。例如,组合器556可以被配置为执行第一经线性缩放的量化特征值550a和第二经线性缩放的量化特征值552a的线性组合(例如求和或平均运算)。

以上概括为,增益值确定器500可以被配置为提供由多个量化特征值确定器520、522确定的量化特征值的线性组合。在产生加权的线性组合之前,可以对量化特征值执行一个或更多非线性后处理步骤,例如限制值的范围和/或修改小值和大值的相对加权。

应注意,图5中所示的增益值确定器500的结构应视为仅为便于理解而作为示范。然而,增益值确定器500的任何模块的功能可以在不同的电路结构中实现。例如,所述功能中的一些可以被组合到单个单元中。此外,参照图5所描述的功能可以在共享的单元中执行。例如,可以使用单个特征值后处理器,例如以时间共享的方式来执行由多个量化特征值确定器所提供的特征值的后处理。类似地,可以以时间共享的方式,由单个非线性处理器来执行非线性处理器542、544的功能。此外,可以使用单个加权器来完成加权器550、552的功能。

在一些实施例中,参照图5所描述的功能可以由单任务或多任务计算机程序来执行。换言之,在一些实施例中,只要能够获得所需的功能,可以选择完全不同的电路布置来实现所述增益值确定器。

直射信号的提取

以下将描述关于从输入音频信号中有效提取环境信号和前置信号(也称为“直射信号”)的一些进一步的细节。为了这个目的,图6示出了根据本发明的实施例的加权器或加权器单元的示意框图。图6所示的加权器或加权器单元其整体被标记为600。

例如,加权器或加权器单元600可以取代加权器130,以及各个加权器270a、270、270c或加权器430。

加权器600被配置为接收输入音频信号610的表示,并提供环境信号620的表示和前置信号或非环境信号或“直射信号”630的表示。应注意,在一些实施例中,加权器600可以被配置为接收输入音频信号610的时频域表示,并提供环境信号620和前置信号或非环境信号630的时频域表示。

然而,自然地,若需要的话,加权器600也可以包括用于将时域输入音频信号转换为时频域表示的时域至时频域转换器,和/或用于提供时域输出信号的一个或更多时频域至时域转换器。

例如,加权器600可以包括环境信号加权器640,环境信号加权器640被配置为基于输入音频信号610的表示来提供环境信号620的表示。此外,加权器600可以包括前置信号加权器650,前置信号加权器650被配置为基于输入音频信号610的表示来提供前置信号630的表示。

加权器600被配置为接收环境信号增益值660的序列。可选地,加权器600可以被配置为也接收前置信号增益值序列。然而,在一些实施例中,加权器600可以被配置为从环境信号增益值序列中导出前置信号增益值序列,这将在以下讨论。

环境信号加权器640被配置为根据环境信号增益值来加权输入音频信号的一个或更多频带(例如,该频带可以由一个或更多子带信号表示),以获得例如具有一个或更多加权子带信号的形式的环境信号620的表示。类似地,前置信号加权器650被配置为对例如以一个或更多子带信号的形式表示的输入音频信号610的一个或更多频带或子频带进行加权,以获得例如具有一个或更多加权子带信号的形式的前置信号630的表示。

然而,在一些实施例中,环境信号加权器640和前置信号加权器650可以被配置为以互补的方式来加权给定的频带或子频带(例如由子带信号表示),以产生环境信号620的表示和前置信号630的表示。例如,若针对特定频带的环境信号增益值指示应在环境信号中对该特定频带给出相对高的权重,则在从输入音频信号610的表示导出环境信号620的表示时,以相对高的权重对该特定频带加权,而在从输入音频信号610的表示导出前置信号630的表示时,以相对低的权重对该特定频带加权。类似地,若环境信号增益值指示应在环境信号中对该特定频带给出相对低的权重,则在从输入音频信号610的表示导出环境信号620的表示时,以相对低的权重对该特定频带加权,而在从输入音频信号610的表示导出前置信号630的表示时,以相对高的权重对该特定频带加权。

因此,在一些实施例中,加权器600可以被配置为,基于环境信号增益值660来获得用于前置信号加权器650的前置信号增益值652,使得前置信号增益值652随着环境信号增益值660的减小而增大,反之亦然。

相应地,在一些实施例中,可以产生环境信号620和前置信号630,使得环境信号620和前置信号630的能量之和等于(或正比于)输入音频信号610的能量。

后处理

现在参照图7描述后处理,例如,后处理可以被应用于一个或更多加权子带信号112、212a至212b、414。

为了这个目的,图7示出了根据本发明的实施例的后处理器的示意框图。图7所示的后处理器其整体被标记为700。

后处理器700被配置为接收一个或更多加权子带信号710或基于其的信号(例如,基于一个或更多加权子带信号的时域信号)作为输入信号。后处理器700被进一步配置为提供经后处理的信号720作为输出信号。此处应注意,后处理器700应被认为是可选的。

在一些实施例中,后处理器可以包括一个或更多以下功能单元,例如,这些功能单元可以是级联的:

●选择性衰减器730;

●非线性压缩器732;

●延迟器734;

●音色赋色补偿器736;

●瞬变抑制器738;以及

●信号解相关器740。

以下描述关于后处理器700的可能组件的功能的细节。

然而,应注意,可以在软件中实现该后处理器的一个或更多功能。此外,后处理器700的一些功能可以以组合的方式来实现。

现在参照图8a和8b,描述不同的后处理概念。

图8示出了用于执行时域后处理的电路部分的示意框图。图8a所示的电路部分其整体被标记为800。电路部分800包括例如具有合成滤波器组810的形式的时频域至时域转换器。合成滤波器组810被配置为接收多个加权子带信号812,例如,所述多个加权子带信号812可以基于或等同于加权子带信号112、212a至212d、412。合成滤波器组810被配置为提供时域环境信号814作为环境信号的表示。此外,电路部分800可以包括时域后处理器820,时域后处理器820被配置为从合成滤波器组810接收时域环境信号814。此外,例如,时域后处理器820可以被配置为执行图7所示的后处理器700的一个或更多功能。由此,后处理器820可以被配置为提供经后处理的时域环境信号822作为输出信号,该信号可以被视为经后处理的环境信号的表示。

以上概括为,在一些实施例中,若合适的话,可以在时域执行后处理。

图8b示出了根据本发明的另一个实施例的电路部分的示意框图。图8b所示的电路部分其整体被标记为850。电路部分850包括频域后处理器860,频域后处理器860被配置为接收一个或更多加权子带信号862。例如,频域后处理器860可以被配置为接收一个或更多加权子带信号112、212a至212d、412。此外,频域后处理器816可以被配置为执行后处理器700的一个或更多功能。频域后处理器860可以被配置为提供一个或更多经后处理的加权子带信号864。频域后处理器860可以被配置为逐个处理一个或更多加权子带信号862。选择性地,频域后处理器860可以被配置为对多个加权子带信号862一起进行后处理。电路部分850还包括合成滤波器组870,合成滤波器组870被配置为接收多个经后处理的加权子带信号864,并基于此提供经后处理的时域环境信号872。

以上概括为,根据需要,可以如图8a所示在时域执行后处理,或如图8b所示在频域执行后处理。

特征值的确定

图9示出了用于获得特征值的不同概念的示意表示。图9所示的示意表示其整体被标记为900。

示意表示900示出了输入音频信号的时频域表示。时频域表示910以在时间索引和τ频率索引ω上的二维表示的形式示出了多个时频点,其中的两个被标记为912a、912b。

可以以任何合适的形式,例如以多个子带信号(每个频带一个)或以用于在计算机系统中处理的数据结构的形式来表示时频域表示910。此处应注意,表示这样的时频分布的任何数据结构应被视为一个或更多子带信号的表示。换言之,表示输入音频信号的子频带的强度(例如幅值或能量)的时间演进的任何数据结构应被视为子带信号。

因此,接收表示音频信号的子频带的强度的时间演进的数据结构应被视为接收子带信号。

参照图9,可以看出,可以计算与不同时频点相关联的特征值。例如,在一些实施例中,可以计算并组合与不同时频点相关联的不同特征值。例如,可以计算频率特征值,所述频率特征值与不同频率的同时的时频点914a、914b、914c相关联。在一些实施例中,例如在组合器930中可以组合描述不同频带的相同特征的这些(不同的)特征值。相应地,可以获得组合特征值932,可以在加权组合器中对组合特征值932进行进一步处理(例如,与其他单个或组合特征值组合)。在一些实施例中,可以计算多个特征值,所述多个特征值与相同频带(或子频带)的连续的时频点916a、916b、916c相关联。例如,可以在组合器940中组合这些描述连续时频点的相同特征的特征值。相应地,可以获得组合特征值942。

以上概括为,在一些实施例中,可能期望对与不同时频点相关联的描述相同特征的多个单个特征值进行组合。例如,可以组合与同时的时频点相关联的单个特征值和/或与连续的时频点相关联的单个特征值。

用于提取环境信号的装置——第五实施例

以下参照图10、11和12,描述根据本发明的另一个实施例的环境信号提取器。

上混音概述

图10示出了上混音过程的框图。例如,图10可以被理解为环境信号提取器的示意框图。选择性地,图10可以被理解为用于从输入音频信号中提取环境信号的方法的流程图。

如从图10中可以看到的,从输入信号“x”计算出环境信号“a”(或甚至多个环境信号)和前置信号“d”(或多个前置信号),并将其路由至环绕声音信号的合适的输出声道。标记了输出声道以示意上混音至5.0环绕声音格式的示例:SL标记左环绕声道,SR标记右环绕声道、FL标记左前置声道、C标记中心声道以及FR标记右前置声道。

换言之,图10描述了基于例如只包括一个或两个声道的输入信号产生例如包括5个声道的环绕信号。对输入信号x应用环境信号提取1010。由环境信号提取1010提供的信号(其中,例如,可以相对于输入信号x的非似环境分量,强调输入信号x的似环境分量)被送至后处理1020。获得一个或更多环境信号作为后处理1020的结果。由此,可以提供一个或更多环境信号作为左环绕声道信号SL和作为右环绕声道信号SR。

也可以将输入信号x送至前置信号提取1030,以获得一个或更多前置信号d。例如,可以提供一个或更多前置信号d作为左前置声道信号FL、作为中心声道信号C和作为右前置声道信号FR。

然而,应注意,例如,可以使用参照图6所描述的概念,结合环境信号提取和前置信号提取。

此外,应注意,可以选择不同的上混音配置。例如,输入信号x可以是单声道信号或多声道信号。此外,可以提供可变数目的输出信号。例如,在一个非常简单的实施例中,可以省略前置信号提取1030,从而只能产生一个或更多环境信号。例如,在一些实施例中,提供单个环境信号就足够了。然而,在一些实施例中,可以提供两个或甚至更多环境信号,例如,这些信号可以被至少部分地解相关。

此外,从输入信号x中提取的前置信号的数目可以取决于应用。在一些实施例中,甚至可以省略前置信号的提取,而在其他一些实施例中,可以提取多个前置信号。例如,可以提取3个前置信号。在其他一些实施例中,甚至可以提取5个或更多前置信号。

环境信号的提取

以下,参照图11描述关于环境信号提取的细节。图11示出了提取环境信号和提取前置信号的过程的框图。图11所示的框图可以被视为用于提取环境信号的装置的示意框图,或用于提取环境信号的方法的流程图表示。

图11所示的框图示出了输入信号x的时频域表示的产生1110。例如,输入输出信号x的第一频带或子频带可以由子带数据结构或子带信号X1来表示。输入输出信号x的第N频带或子频带可以由子带数据结构或子带信号XN来表示。

时域至时频域转换1110提供了描述输入音频信号的不同频带中的强度的多个信号。例如信号X1可以表示输入音频信号的第一频带或子频带的强度的时间演进(以及,可选地,附加相位信息)。例如信号X1可以被表示为模拟信号或表示为值序列(例如,所述值序列可以被存储在数据载体中)。类似地,第N信号XN描述了输入音频信号的第N频带或子频带中的强度。信号X1也可以被标记为第一子带信号,信号XN可以被标记为第N子带信号。

图11所示的过程还包括第一增益计算1120和第二增益计算1122。例如,如此处所描述的,可以使用各自的增益值确定器来实现增益计算1120、1122。例如,如图11所示,可以针对子频带单独执行增益计算。然而,在其他一些实施例中,可以针对一组子带信号执行增益计算。此外,可以基于单个子带或基于一组子带来执行增益计算1120、1122。如从图11可以看到的,第一增益计算1120接收第一子带信号X1,并被配置或执行为提供第一增益值g1。第二增益计算1122被配置或执行为,例如基于第N子带信号XN来提供第N增益值gN。图11所示的过程也包括第一乘法或缩放1130以及第二乘法或缩放1132。在第一乘法1130中,第一子带信号X1被乘以由第一增益计算1120提供的第一增益值g1,以产生加权的第一子带信号。此外,在第二乘法1032中,第N子带信号XN被乘以第N增益值gN,以获得第N加权子带信号。

可选地,过程1100还包括加权子带信号的后处理1400,以获得经后处理的子带信号Y1至YN。此外,可选地,图1所示的过程包括时频域至时域转换1150,例如,时频域至时域转换1150可以使用合成滤波器组来实现。因此,基于输入音频信号的环境分量的时频域表示Y1至YN,获得输入音频信号x的环境分量的时域表示y。

然而,应注意,由乘法1130、1132提供的加权子带信号也可以用作图11所示的过程的输出信号。

增益值的确定

以下参照图12描述增益计算过程。图12示出了使用低级特征提取的针对环境信号提取过程和前置信号提取过程的一个子带的增益计算过程的框图。从输入信号x中计算不同的低级特征(例如标记为LL1至LLFn)。根据低级特征来计算增益因子(例如标记为g)(例如使用组合器)。

参照图12,示出了多个低级特征计算。例如,在图12所示的实施例中,使用第一低级特征计算1210和第n低级特征计算1212。基于输入信号x来执行低级特征计算1210、1212。例如,可以基于时域输入音频信号来执行低级特征的计算或确定。然而,选择性地,可以基于一个或更多子带信号X1至XN来执行低级特征的计算或确定。此外,例如使用组合器1220(例如可以是加权组合器)来组合从低级特征的计算或确定1210、1212所获得的特征值(例如量化特征值)。因此,可以基于低级特征确定或低级特征计算1210、1212的结果的组合来获得增益值g。

用于确定加权系数的概念

以下,描述用于获得加权系数的概念,所述加权系数用于加权多个特征值以获得作为特征值的加权组合的增益值。

用于确定加权系数的装置——第一实施例

图13示出了用于获得加权系数的装置的示意框图。图13所示的装置其整体被标记为1300。

装置1300包括系数确定信号产生器1310,系数确定信号产生器1310被配置为接收基础信号1312,并基于此提供系数确定信号1314。系数确定信号产生器1310被配置为提供系数确定信号1314,从而知道系数确定信号1314的特性,所述特性是关于环境分量和/或关于非环境分量和/或环境分量和非环境分量之间的关系。在一些实施例中,如果知道这样的关于环境分量或非环境分量的信息的估计就足够了。

例如,系数确定信号产生器1310可以被配置为,在提供系数确定信号1314之外,提供期望增益值信息1316。例如,期望增益值信息1316直接地或间接地描述了系数确定信号1314的环境分量和非环境分量之间的关系。换言之,期望增益值信息1316可以被视为一种描述系数确定信号的与环境分量相关的特性的辅助信息。例如,期望增益值信息可以描述系数确定音频信号中(例如针对系数确定音频信号的多个时频点)的环境分量的强度。选择性地,期望增益值信息可以描述音频信号中的非环境分量的强度。在一些实施例中,期望增益值信息可以描述环境分量和非环境分量的强度之比。在一些实施例中,期望增益值信息可以描述环境分量的强度与总的信号强度(环境和非环境分量)之间的关系或非环境分量的强度与总的信号强度之间的关系。然而,可以提供从上述信息中导出的其他信息作为期望增益值信息。例如,可获得以下定义的RAD(m,k)的估计或G(m,k)的估计作为期望增益值信息。

装置1300还包括量化特征值确定器1320,量化特征值确定器1320被配置为提供以量化的方式描述系数确定信号1314的特征的多个量化特征值1322、1324。

装置1300还包括加权系数确定器1330,例如,加权系数确定器1330可以被配置为接收期望增益值信息1316和由量化特征值确定器1320提供的多个量化特征值1322、1324。

如以下详细描述的,加权系数确定器1320被配置为基于期望增益值信息1316和量化特征值1322、1324来提供加权系数1332的集合。

加权系数确定器,第一实施例

图14示出了根据本发明的实施例的加权系数确定器的示意框图。

加权系数确定器1330被配置为接收期望增益值信息1316和多个量化特征值1322、1324。然而,在一些实施例中,量化特征值确定器1320可以是加权系数确定器1330的一部分。此外,加权系数确定器1330被配置为提供加权系数1332。

关于加权系数确定器1330的功能,一般而言,加权系数确定器1330被配置为确定加权系数1332,使得基于多个量化特征值1322、1324(描述可以被视为输入音频信号的系数确定信号1314的多个特征)的加权组合,使用加权系数1332所获得的增益值近似于与系数确定音频信号相关联的增益值。例如,期望增益值可以从期望增益值信息1316导出。

换言之,例如,加权系数确定器可以被配置为确定需要哪个加权系数来加权量化特征值1322、1324,使得加权的结果近似于由期望增益值信息1316描述的期望增益值。

换言之,例如,加权系数确定器可以被配置为确定加权系数1332,使得根据该加权系数1332来配置的增益值确定器提供增益值,所述增益值与由期望增益值信息1316描述的期望增益值的偏差不多于预定最大容许偏差。

加权系数确定器,第二实施例

以下描述用于实现加权系数确定器1330的一些具体的可能性。

图15a示出了根据本发明的加权系数确定器的示意框图。图15a所示的加权系数确定器其整体被标记为1500。

例如,加权系数确定器1500包括加权组合器1510。例如,加权组合器1510可以被配置为接收多个量化特征值1322、1324和加权系数1332的集合。此外,例如,加权组合器1510可以被配置为,根据加权系数1332,通过组合量化特征值1322、1324来提供增益值1512(或其序列)。例如,加权组合器1510可以被配置为执行与加权组合器260类似或相同的加权。在一些实施例中,甚至可以使用加权组合器260来实现加权组合器1510。因此,加权组合器1510被配置为提供增益值1512(或其序列)。

加权系数确定器1500还包括相似性确定器或差别确定器1520。例如,相似性确定器或差别确定器1520可以被配置为接收描述期望增益值的期望增益值信息1316以及由加权组合器1510提供的增益值1512。例如,相似性确定器/差别确定器1520可以被配置为确定相似性度量1522,相似性度量1522例如以定性或定量的方式描述由信息1316所描述的期望增益值与由加权组合器1510提供的增益值1512之间的相似性。选择性地,相似性确定器/差别确定器1520可以被配置为提供描述其间的偏差的偏差度量。

加权系数确定器1500包括加权系数调整器1530,加权系数调整器1530被配置为接收相似性信息1522,并基于此确定是否需要改变加权系数1332或加权系数1332是否应保持恒定。例如,若由相似性确定器/差别确定器1520提供的相似性信息1522指示了增益值1512与期望增益值1316之间的差别或偏差低于预定偏差阈值,则加权系数调整器1530可以认可加权系数1332是被合适地选择的并且应当维持。然而,若相似性信息1522指示增益值1512与期望增益值1316之间的差别或偏差大于预定偏差阈值,则加权系数调整器1530可以改变加权系数1332,所述改变的目的是减小增益值1512与期望增益值1316之间的差别。

此处应注意,针对加权系数1332的调整的不同概念是可能的。例如,梯度下降概念可以用于这个目的。选择性地,也可以进行加权系数的随机改变。在一些实施例中,加权系数调整器1530可以被配置为执行优化功能。例如,所述优化可以基于迭代算法。

以上概括为,在一些实施例中,可以使用反馈环或反馈概念来确定加权系数1332,以产生由加权组合器1510获得的增益值1512与期望增益值1316之间足够小的差别。

加权系数确定器,第三实施例

图15b示出了加权系数确定器的另一个实施例的示意框图。图15b所示的加权系数确定器其整体被标记为1550。

加权系数确定器1550包括方程系统解算器1560或优化问题解算器1560。方程系统解算器或优化问题解算器1560被配置为接收描述期望增益值的信息1316,所述期望增益值可以标记为gexpected。方程系统解算器/优化问题解算器1560可以进一步被配置为接收多个量化特征值1322、1324。方程系统解算器/优化问题解算器1560可以被配置为提供加权系数1332的集合。

假定由方程系统解算器1560接收的量化特征值被标记为mi,并进一步假定加权系数被标记为例如αi和βi,例如,该方程系统解算器可以被配置为解算以下形式的方程的非线性系统:

gexpected,l=Σi=lKαiml,iβi,其中l=1,...,L。

gexpected,l可以表示具有索引1的时频点的期望增益值。ml,i表示具有索引1的时频点的第i个特征值。可以考虑L个多个时频点用于解算该方程系统。

相应地,通过解算方程系统,可以确定线性加权系数αi和非线性加权系数(或指数加权系数)βi

在选择性的实施例中,可以执行优化。例如,可以通过确定一组合适的加权系数αi、βi来最小化由

||gexpected,1-Σi=1Kαim1,iβi···gexpected,L-Σi=1KαimL,iβi||

所确定的值。此处,(·)表示期望增益值与通过加权特征值ml,i获得的增益值之间的差向量。差向量的项目可以与不同的时频点相关,使用索引l=1,...,L来标记。||·||表示数学上的距离度量,例如数学上的向量范数。

换言之,可以这样确定加权系数,即使得期望增益值与由量化特征值1322、1324的加权组合获得的增益值之间的差别最小化。然而,应理解,术语“最小化”此处不应被认为是以非常严格的方式。更合理地,术语最小化表示将所述差别降至特定阈值以下。

加权系数确定器,第四实施例

图16示出了根据本发明的实施例的另一个加权系数确定器的示意框图。图16所示的加权系数确定器其整体被标记为1600。

加权系数确定器1600包括神经网1610。例如,该神经网1610可以被配置为接收描述期望增益值的信息1316,以及多个量化特征值1322、1324。此外,例如,神经网1610可以被配置为提供加权系数1332。例如,神经网1610可以被配置为学习加权系数,当所述加权系数应用于加权量化特征值1322、1324时产生增益值,所述增益值与由期望增益值信息1316所描述的期望增益值充分近似。

随后描述进一步的细节。

用于确定加权系数的装置——第二实施例

图17示出了根据本发明的实施例的用于确定加权系数的装置的示意框图。图17所示的装置与图13所示的装置类似。相应地,使用相同的附图标记来标记相同的装置和信号。

图17所示的装置1700包括包括系数确定信号产生器1310,系数确定信号产生器1310可以被配置为接收基础信号1312。在一个实施例中,系数确定信号产生器1310可以被配置为把基础信号1312与环境信号相加,以获得系数确定信号1314。例如,系数确定信号1314可以以时域表示或以时频域表示而提供。

系数确定信号产生器可以进一步被配置为提供描述期望增益值的期望增益值信息1316。例如,系数确定信号产生器1310可以被配置为基于关于把基础信号与环境信号相加的内部知识来提供期望增益值信息。

可选地,装置1700可以进一步包括时域至时频域转换器1316,时域至时频域转换器1316可以被配置为提供时频域表示的系数确定信号1318。此外,装置1700包括量化特征值确定器1320,例如,量化特征值确定器1320可以包括第一量化特征值确定器1320a和第二量化特征值确定器1320b。因此,量化特征值确定器1320可以被配置为提供多个量化特征值1322、1324。

系数确定信号产生器——第一实施例

以下描述提供系数确定信号1314的不同的概念。参照图18a、18b、19和20所描述的概念同时适用于信号的时域表示和时频域表示。

图18a示出了系数确定信号产生器的示意框图。图18a所示的系数确定信号产生器其整体被标记为1800。系数确定信号产生器1800被配置为接收带有可忽略的环境信号分量的音频信号作为输入信号1810。

此外,系数确定信号产生器1800可以包括人工环境信号产生器1820,人工环境信号产生器1820被配置为基于音频信号1810提供人工环境信号。系数确定信号产生器1800也包括环境信号相加器1830,环境信号相加器1830被配置为接收音频信号1810和人工环境信号1822,并把音频信号1810与人工环境信号1822相加,以获得系数确定信号1832。

此外,例如,系数确定信号产生器1800可以被配置为,基于用于产生人工环境信号1822的参数或用于将音频信号1810与人工环境信号1822进行组合的参数来提供关于期望增益值的信息。换言之,使用关于人工环境信号的产生的模态的知识和/或人工环境信号与音频信号1810的组合的知识来获得期望增益值信息1834。

例如,人工环境信号产生器1820可以被配置为提供基于音频信号1810的混响信号作为人工环境信号1822。

系数确定信号产生器——第二实施例

图18b示出了根据本发明的另一个实施例的系数确定信号产生器的示意框图。图18b所示的系数确定信号产生器其整体被标记为1850。

系数确定信号产生器1850被配置为接收带有可忽略的环境信号分量的音频信号1860,此外还有环境信号1862。系数确定信号产生器1850也可以包括环境信号相加器1870,环境信号相加器1870被配置为将音频信号1860(具有可忽略的环境信号分量)与环境信号1862组合。环境信号相加器1870被配置为提供系数确定信号1872。

此外,由于在系数确定信号产生器1850中带有可忽略的环境信号分量的音频信号与环境信号是以隔离的形式存在的,因此,可以由它们导出期望增益值信息1874。

例如,可以这样导出期望增益值信息1874,即使得期望增益值信息描述该音频信号和环境信号的幅度之比。例如,期望增益值信息可以描述针对系数确定信号1872(或音频信号1860)的时频域表示的多个时频点的强度的比值。选择性地,期望增益值信息1874可以包括关于多个时频点的环境信号1862的强度的信息。

系数确定信号产生器——第三实施例

参照图19和20,描述了用于确定期望增益值信息的另一种途径。图19示出了根据本发明的实施例的系数确定信号产生器的示意框图。图19所示的系数确定信号产生器其整体被标记为1900。

系数确定信号产生器1900被配置为接收多声道音频信号。例如,系数确定信号产生器1900可以被配置为接收多声道音频信号的第一声道1910和第二声道1912。此外,系数确定信号产生器1910可以包括基于声道关系的特征值确定器,例如,基于相关性的特征值确定器1920。基于声道关系的特征值确定器1920可以被配置为提供特征值,所述特征值是基于多声道音频信号的两个或更多声道之间的关系。

在一些实施例中,这样的基于声道关系的特征值可以提供关于多声道音频信号的环境分量内容的充分可靠的信息而无需另外的预先知识。因此,由基于声道关系的特征值确定器1920获得的描述多声道音频信号的两个或更多声道之间的关系的信息可以用作期望增益值信息1922。此外,在一些实施例中,可以使用多声道音频信号的单音频声道作为系数确定信号1924。

系数确定信号产生器——第四实施例

随后参照图20描述类似的概念。图20示出了根据本发明的实施例的系数确定信号产生器的示意框图。图20所示的系数确定信号产生器其整体被标记为2000。

系数确定信号产生器2000与系数确定信号产生器1900类似,因此,相同的信号使用相同的附图标记来表示。

然而,系数确定信号产生器2000包括多声道至单声道组合器2010,多声道至单声道组合器2010被配置为组合第一声道1910和第二声道1912(基于声道关系的特征值确定器1920使用第一声道1910和第二声道1912来确定基于声道关系的特征值)来获得系数确定信号1924。换言之,不是使用多声道音频信号的单声道信号,而是使用声道信号的组合来获得系数确定信号1924。

参照图19和20所描述的概念,可以注意到,可以使用多声道音频信号来获得系数确定信号。在典型的多声道音频信号中,各个声道之间的关系提供了关于多声道音频信号的环境分量内容的信息。相应地,可以使用多声道音频信号来获得系数确定信号,并提供表征该系数确定信号的期望增益值信息。因此,利用立体声信号或不同类型的多声道音频信号,可以校准(例如通过确定各个系数)增益值确定器,所述增益值确定器基于音频信号的单声道来操作。因此,通过使用立体声信号或不同类型的多声道音频信号,可以获得用于环境信号提取器的系数,该系数可以用于(例如在获得该系数之后)处理单声道音频信号。

用于提取环境信号的方法

图21示出了用于基于输入音频信号的时频域表示来提取环境信号的方法的流程图,所述表示以描述多个频带的多个子带信号的形式表示输入音频信号。图21所示的方法其整体被标记为2100。

方法2100包括获得2110描述输入音频信号的一个或更多特征的一个或更多量化特征值。

方法2100还包括针对输入音频信号的时频域表示的给定频带,确定2120时变环境信号增益值序列作为一个或更多量化特征值的函数,使得该增益值在数量上取决于该量化特征值。

方法2100还包括使用所述时变增益值来加权2130表示该时频域表示的给定频带的子带信号。

在一些实施例中,方法2100可以被操作为执行此处描述的装置的功能。

用于获得加权系数的方法

图22示出了用于获得加权系数的方法的流程图,所述加权系数用于参数化用于从输入音频信号中提取环境信号的增益值确定器。图22所示的方法其整体被标记为2200。

方法2200包括获得2210系数确定输入音频信号,从而知晓关于输入音频信号中出现的环境分量的信息,或描述环境分量和非环境分量之间的关系的信息。

方法2200还包括确定2220加权系数,使得基于根据该加权系数对描述系数确定输入音频信号的多个特征的多个量化特征值的加权组合而获得的增益值,近似于与系数确定输入音频信号相关联的期望增益值。

此处描述的方法可以由关于本发明的装置来描述的任何特征和功能来补充。

计算机程序

根据本发明方法的特定实现要求,可以在硬件或软件中实现本发明的方法。可以使用具有电子可读控制信号存储在其上的数字存储介质,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器来进行该实现,所述数字存储介质与可编程计算机系统合作来执行本发明的方法。一般地,因此,本发明是带有存储在机器可读载体上的程序代码的计算机程序产品,当所述计算机程序产品在计算机上运行时,所述程序代码可操作用于执行本发明的方法。换言之,因此,本发明是具有程序代码的计算机程序,当所述计算机程序在计算机上运行时,所述代码用于执行本发明的方法。

3.根据另一个实施例的方法的描述

3.1问题的描述

根据另一个实施例的方法的目的是提取适于音频信号的盲上混音的前置信号和环境信号。可以通过为前置声道提供前置信号以及为后置声道提供环境信号来获得多声道环绕声音信号。

已经存在用于环境信号的提取的多种方法:

1.使用NMF(见2.1.3部分)

2.使用根据左和右输入信号的相关性的时频掩码(见2.2.4部分)

3.使用PCA和多声道输入信号(见2.3.2部分)

方法1依赖于迭代数值优化技术,一次处理几秒长度(例如2...4秒)的一段。因此,该方法具有高计算复杂度,并具有至少上述段长度的算法延迟。相反,本发明的方法具有低计算复杂度,并具有与方法1相比较低的算法延迟。

方法2和3依赖于输入声道信号之间的显著差别,即如果所有输入声道信号都相同或几乎相同,则该方法不产生合适的环境信号。相反,本发明的方法能够处理相同或几乎相同的单声道信号或者多声道信号。

概括而言,所提出的方法的优点如下:

●低复杂度

●低延迟

●对于单声道或几乎单声道的输入信号以及立体声输入信号都适用

3.2方法描述

通过从输入信号中提取环境信号和前置信号,获得多声道环绕信号(例如具有5.1或7.1格式)。环境信号被送入后置声道。使用中心声道来扩大甜点并回放前置信号或原始输入信号。其他前置声道回放前置信号或原始输入信号(即,左前置声道回放原始左前置信号或原始左前置信号的经处理的版本)。图10示出了该上混音过程的框图。

环境信号的提取在时频域实施。本发明的方法使用度量每个子带信号的“环境相似度”的低级特征(也被称为量化特征值)来计算每个子带信号的时变权重(也被称为增益值)。在重新合成之前应用该权重来计算环境信号。对前置信号计算互补权重。

环境声音的典型特性的示例是:

●与直射声音相比,环境声音是相当安静的声音。

●环境声音的音调少于直射声音。

用于检测这样的特性的合适的低级特征在3.3部分中描述:

●度量信号分量的安静度的能量特征

●度量信号分量的吵闹度的音调特征

使用例如方程1,从计算出的特征mi(ω,τ)中导出带有子带索引ω和时间索引τ的时变增益因子g(ω,τ)

g(ω,τ)=Σi=1Kαimi(ω,τ)βi---(1)

其中K是特征的数目,参数αi和βi用于不同特征的加权。

图11示出了使用低级特征提取的环境信号提取过程的框图。输入信号x是单声道音频信号。为了处理具有更多声道的信号,可以对每个声道分别应用该处理。分析滤波器组使用例如STFT(短期傅立叶变换)或数字滤波器,将该输入信号分离为N个频带(N>1)。该分析滤波器组的输出是N个子带信号Xi,1≤i≤N。如图11所示,通过从自子带信号Xi计算一个或更多低级特征并组合这些特征值来获得增益因子gi,1≤i≤N。接着,使用增益因子gi来加权每个子带信号Xi

对所描述的过程的一个优选扩展是使用子带信号组代替单个子带信号:可以组合子带信号以形成子带信号组。此处所描述的处理可以使用子带信号组来执行,即从一个或更多子带信号组(其中每个组包含一个或更多子带信号)计算出低级特征,并对相应的子带信号(即对属于特定组的所有子带信号)应用所导出的加权因子。

通过使用对应的权重gi来加权一个或更多子带信号,获得环境信号的频谱表示的估计。使用与用于环境信号的权重互补的权重,以类似的方式处理将要送至多声道环绕信号的前置声道的信号。

环境信号的附加回放产生了更多的环境信号分量(与原始输入信号相比)。计算用于前置信号的计算的权重,这些权重与用于计算环境信号的权重成反比。由此,与对应的原始输入信号相比,每个产生的前置信号包含较少的环境信号分量和较多的直射信号分量。

如图11所示,使用频域中的附加后处理并使用分析滤波器组的逆过程(即合成滤波器组)进行重新合成,从而进一步(可选地)增强环境信号(关于所产生的环绕声音信号的感知质量)。

第7部分详细描述了后处理。应注意,一些后处理算法可以在频域或时域中实施。

图12示出了基于低级特征提取的针对一个子带(或一组子带信号)的增益计算过程的框图。计算并组合各种低级特征,以产生增益因子。

可以使用动态压缩和低通滤波(同时在时间上和频率上)进一步对所产生的增益进行后处理。

3.3特征

以下部分描述适于表征似环境信号质量的特征。一般地,所述特征表征音频信号(宽带)或音频信号的特定频率区域(即子带)或子带组。计算子带中的特征需要使用滤波器组或时频变换。

此处使用音频信号x[k]的频谱表示X(ω,τ)来解释该计算,其中ω是子带索引,τ是时间索引。频谱(或频谱范围)由Sk表示,其中k是频率索引。

使用信号频谱的特征计算可以处理不同的频谱表示,即幅度、能量、对数幅度或能量或任何其他经非线性处理的频谱(例如X0.23)。如果没有另外注释,假定所述频谱表示为实数。

可以将相邻子带中计算的特征归为一类,以表征子带组,例如通过对这些子带的特征值求平均。由此,可以从针对频谱的每个谱系数的音调值计算出(例如通过计算其均值)频谱的音调。

希望所计算的特征的值范围是[0,1]或不同的预定区间。以下描述的一些特征值计算不产生该范围内的值。在这些情况下,应用合适的映射函数,例如将描述特征的值映射到预定区间。用于映射函数的一个简单的示例在方程2中给出

y=0,x<0x,0x11,x>1---(2)

例如,可以使用后处理器530、532来执行所述映射。

3.3.1音调特征

此处,术语音调(Tonality)用于描述“将噪声与声音的音质区分开的特征”。

音调信号由非平坦信号频谱来表征,而噪声信号具有平坦的频谱。由此,音调信号比噪声信号更具周期性,而噪声比音调信号更随机。因此,可以以较小的预测误差,从在先信号值中预测出音调信号,而不能很好地预测噪声信号。

以下描述可以用于定量地描述音调的多个特征。换言之,此处描述的特征可以用于确定量化特征值,或可以用作量化特征值。

频谱平坦性度量:

频谱平坦性度量(SFM)被计算为频谱S的几何均值与算术均值之比。

SFM(S)=Πi=1NSiN1NΣi=1NSi---(3)

选择性地,可以使用方程4来产生相同的结果。

SFM(S)=e(Σi=1NlogSi)/N1NΣi=1NSi---(4)

可以从SFM(S)导出特征值。

频谱峰值因子

频谱峰值因子(Spectral Crest Factor)被计算为频谱X(或S)的最大值与均值之比。

SCF(S)=max(S)1NΣi=1NSi---(5)

可以从SCF(S)导出量化特征值。

使用峰值检测的音调计算:

在ISO/IEC 11172-3MPEG-1心理声学模型1(针对层1和2而建议)[ISO93]中描述了一种方法,用于在音调和非音调分量之间进行区分,该方法用于确定感知音频编码的掩码阈值。通过检查与频谱系数Si对应的频率周围的频率范围Δf内的频谱值的水平,确定频谱系数Si的音调。若Xi的能量超过其周围值Si+k的能量,例如k∈[-4,-3,-2,2,3,4],则检测到峰值(即局部最大值)。若局部最大值超过其周围的值7dB或更多,则它被归类为是音调的。否则,该局部最大值被归类为非音调的。

可以导出描述最大值是否为音调的特征值。同样,可以导出描述例如在给定的相邻区域内存在多少音调时频点的特征值。

使用经非线性处理的副本之间的比值的音调计算

如方程6所示,向量的非平坦性被度量为频谱S的经非线性处理的两个副本之间的比值,其中α>β。

F(S)=Σi=1N|Si|ααΣi=1N|Si|ββ---(6)

方程7和8示出了两个具体的实现。

F(S)=Σi=1N|Si|Σi=1N|Si|ββ,0<β<1---(7)

F(S)=Σi=1N|Si|ααΣi=1N|Si|,α>1---(8)

可以从F(S)导出量化特征值。

使用经不同滤波的频谱的比值的音调计算

以下音调度量在美国专利5,918,203[HEG+99]中描述。

针对频率线k的谱系数Sk的音调由频谱S的两个经滤波的副本的比值Θ计算得到,其中,第一滤波器函数H具有微分特性而第二滤波器函数G具有积分特性或比第一滤波器差的微分特性,c和d是根据滤波器参数而选择的整数常数,使得在每种情况下补偿滤波器的延迟。

Θk=H(Sk+c)G(Sk+d)---(9)

方程10示出了一种具体的实现,其中H是微分滤波器的传递函数。

Θ(k)=H(Sk+c)    (10)

可以从Θk或Θ(k)中导出量化特征值。

使用周期函数的音调计算

上述音调度量使用输入信号的频谱,并从频谱的非平坦性导出音调的度量。音调度量(从中可以导出特征值)也可以使用输入时间信号的周期函数而不是其频谱来计算。周期函数是通过信号与其延迟副本之间的比较而导出的。

两者的相似性或差别可以根据滞后(即两个信号之间的延迟)而给出。信号及其延迟(滞后τ)的副本之间的高度相似性(或低差别)指示该信号具有周期τ的强烈的周期性。

周期函数的示例是自相关函数和平均幅度差函数[dCK03]。方程11示出了信号x的自相关函数rxx(τ),其中积分窗口大小为W。

rxx(τ)=Σj=t+1t+Wxjxj+r---(11)

使用频谱系数预测的音调计算

在ISO/IEC 11172-3MPEG-1心理声学模型2(针对层3而建议)中描述了使用根据在先系数点Xi-1和Xi-2来预测复频谱系数Xi的音调估计。

根据方程12和13,复频谱系数X(ω,τ)=X0(ω,τ)e-jφ(ω,τ)的幅度X0(ω,τ)和相位φ(ω,τ)的当前值可以从先前的值估计得到。

X^0(ω,τ)=X0(ω,τ-1)+(X0(ω,τ-1)-X0(ω,τ-2))---(12)

φ^(ω,τ)=φ(ω,τ-1)+(φ(ω,τ-1)-φ(ω,τ-2))---(13)

估计的和实际测量的值之间的归一化欧氏距离(如方程14所示)是音调的度量,并可以用于导出量化特征值。

c(ω,τ)=(X^0(ω,τ)-X0(ω,τ))2+(φ^(ω,τ)-φ(ω,τ))2X^0(ω,τ)+X0(ω,τ)---(14)

从预测误差P(ω)也可以计算出针对一个谱系数的音调(见方程15,其中X(ω,τ)是复数值),大的预测误差产生小的音调值。

P(ω)=X(ω,τ)-2X(ω,τ-1)+X(ω,τ-2)    (15)

使用时域预测的音调计算

使用线性预测,可以从先前的样本预测出时间索引为k的信号x[k],其中,对于周期信号预测误差较小,而对于随机信号预测误差较大。由此,预测误差与信号的音调成反比。

相应地,可以从预测误差中导出量化特征值。

3.3.2能量特征

能量特征度量子带内的瞬变能量。当频带的能量内容较高时,用于特定频带的环境信号提取的加权因子将会较低,即,该特定时频片(tile)非常可能是直射信号分量。

此外,能量特征也可以从同一子带的相邻(关于时间)子带样本中计算得到。若该子带信号在较近的过去和未来具有高能量的特征,则可以应用类似的加权。方程16示出了一个示例。根据区间τ-k<τ<τ+k内的相邻子带样本的最大值来计算特征M(ω,τ),其中τ确定了观察窗口的大小。

M(ω,τ)=max([X(ω,τ-k)X(ω,τ+k)])    (16)

在较近的过去或未来测量的瞬变子带能量和子带能量的最大值被视为分离的特征(即,使用用于方程1所述的组合的不同参数)。

以下描述对从用于上混音的音频信号中以低复杂度提取前置信号和环境信号的一些扩展。

所述扩展关系到特征的提取、特征的后处理以及从特征中导出频谱权重的方法。

3.3.3对特征集合的扩展

以下描述对上述特征集合的可选扩展。

以上的说明书描述了音调特征和能量特征的使用。这些特征是(例如)在短期傅立叶变化(STFT)域中计算的,而且是时间索引m和频率索引k的函数。信号x[n]的时频域表示(例如通过STFT获得)被写作X(m,k)。在处理立体声信号的情况下,左声道信号被写作x1[k],右声道信号被写作x2[k]。上标“*”表示复共轭。

可选地,可以使用一个或更多以下特征:

3.3.3.1估计声道间相干或相关性的特征

相干的定义

若两个信号相等,可能具有不同的缩放比例和延迟,即其相位差是常数,则两个信号相干。

相关性的定义

若两个信号相等,可能具有不同的缩放比例,则两个信号相关。

通常,通过归一化互相关系数r来度量每个长度为N的两个信号之间的相关性

r=Σk=1N(x1[k]-x1)(x2[k]-x2)Σk=1N(x1[k]-x1)Σk=1N(x2[k]-x2)---(20)

其中,x是x[k]的均值。为了跟踪信号特性随时间的改变,在实际中,通常使用一阶递归滤波器来代替求和操作,例如,的计算可以由

z~[k]=λz~[k-1]+(1-λ)x[k]---(21)

来代替,其中λ是“遗忘因子”。在下文中,该计算被称为“移动平均估计(MAE)”,fmae(z)。

一般而言,立体声录音的左和右声道中的环境信号分量是弱相关的。当在混响室中使用立体声麦克风技术对声源进行录音时,两个麦克风信号是不同的,这是因为从声源到麦克风的路径是不同的(主要因为反射模式的不同)。在人工录音中,通过人工立体声混响引入解相关。由此,用于环境信号提取的合适特征度量左和右声道信号之间的相关性或相干。

在[AJ02]中描述的声道间短时相干(ICSTC)函数是一个合适的特征。ICSTCΦ是由左和右声道信号之间的互相关Φ12的MAE以及左声道能量Φ11和右声道能量Φ22的MAE计算得到的。

Φ(m,k)=Φ12(m,k)Φ11(m,k)Φ22(m,k)---(22)

其中

Φij(m,k)=fMAE(X1(m,k)X2*(m,k))---(23)

事实上,[AJ02]中描述的ICSTC的方程几乎与归一化互相关系数相同,其中唯一的区别在于没有应用数据的中心调整(centering)(中心调整是指移除均值,如方程20所示:xcentered=x-x)。

在[AJ02]中,环境索引(这是“环境相似”程度的特征指示)是由非线性映射从ICSTC计算得到的,例如使用双曲线切线(hyperbolictangent)。

3.3.3.2声道间水平差

基于声道间水平差(ICLD)的特征用于确定声源在立体声图像(全景)内的突出位置。通过应用全景化(panning)系数α,根据

x1[k]=(1-α)s[k]    (24)

x2[k]=αs[k]        (25)

来加权x1[k]和x2[k]中s[k]的幅度,从而将源s[k]向特定的方向进行幅度全景化(amplitude-panned)。

在针对时频点进行计算时,基于ICLD的特征传递了一种提示,该提示用于确定在特定时频点中占优的声源位置(以及全景化系数α)。

一个基于ICLD的特征是如[AJ04]所描述的全景化索引Ψ(m,k)。

Ψ(m,k)=(1-2X1(m,k)X2*(m,k)X1(m,k)X1*(m,k)+X2(m,k)X2*(m,k))---(26)

·sign(X1(m,k)X1*(m,k)-X2(m,k)X2*(m,k))

一种在计算上更有效率的用于计算上述全景化索引的备选方法是使用

Ξ(m,k)=12(|X1(m,k)|-|X2(m,k)||X1(m,k)|+|X2(m,k)|+1)---(27)

与Ψ(m,k)相比,Ξ(m,k)的附加优点在于,它完全等于全景化系数α,而Ψ(m,k)只是近似于α。方程27中的公式是通过离散变量x∈{-1,1}的函数f(x)的质心(重力中心)的计算以及f(-1)=|X1(m,k)|和f(1)=|X2(m,k)|而产生。

3.3.3.3频谱质心

幅度频谱或长度为N的幅度频谱|sk|的范围的频谱质心ΥI根据下式来计算:

频谱质心是一种与声音的感知亮度相关(当在频谱的整个频率范围上计算时)的低级特征。频谱质心以Hz度量,或在对频率范围的最大值归一化时是无量纲的。

4.特征组合

特征组合是由要减小特征的进一步处理的计算负荷和/或评估特征在时间上的行进的要求而推动的。

所描述的特征是针对每个数据块(从其中计算离散傅立叶变换)和针对每个频率点或相邻频率点的集合来计算的。从相邻块(通常是重叠的)计算出的特征值可以被组合在一起,并由下列函数f(x)中的一个或更多来表示,其中,在一组相邻帧(“超帧”)上计算出的特征值作为自变量x:

●方差或标准差

●滤波(例如,一阶或更高阶微分、加权均值或其他低通滤波)

●傅立叶变换系数

例如,特征组合可以由合并器930、940之一来执行。

5.使用监督衰退或分类的频谱权重的计算

以下,我们假定音频信号x[n]是由直射信号分量d[n]和环境信号分量a[n]加性地组成

x[n]=d[n]+a[n]    (29)

本申请将频谱权重的计算描述为特征值与参数的组合,例如,所述参数可以是启发式确定的参数(例如参照3.2部分)。

备选地,可以根据环境信号分量的幅度与直射信号分量的幅度之比的估计来确定频谱权重。我们定义环境信号与直射信号的幅度之比RAD(m,k)

RAD(m,k)=|A(m,k)||D(m,k)|---(30)

使用环境信号与直射信号的幅度之比的估计来计算环境信号。使用

G(m,k)=R^AD(m,k)1+R^AD(m,k)---(31)

来计算用于环境信号提取的频谱权重G(m,k),并通过频谱加权

|A(m,k)|=G(m,k)|X(m,k)|    (32)

来导出环境信号的幅度声谱图。

这种方法类似于用于减少语音信号的噪声的频谱加权(或短期频谱衰减),但是,频谱权重是根据子带中的时变SNR的估计而计算出来的,例如参见[Sch04]。

主要的问题是的估计。以下描述了两种可能的方法:(1)监督回归,以及(2)监督分类。

应注意,这些方法能够一起处理从频率点和从子带(即包括频率点的组)计算出的特征。

例如:环境信号索引和全景化索引是针对每个频率点而计算的。频谱质心、频谱平坦性和能量是针对巴克频带(bark band)而计算的。虽然这些特征是使用不同的频率分辨率来计算的,但是,它们都是使用相同的分类器/回归方法的过程。

5.1回归

应用神经网(多层感知器)对进行估计。有两个选项:使用一个神经网来估计针对所有频率点的或使用更多的神经网但是每个神经网估计针对一个或更多频率点的

每个特征被送入一个输入神经元。在第6部分描述该网的训练。每个输出神经元被分配给一个频率点的

5.2分类

与回归方法类似,通过神经网来完成使用分类方法的的估计。用于训练的参考值被量化到任意大小的区间中,其中每个区间表示一类(例如,一类可以包括区间[0.2,0.3)中的所有)。输出神经元的数量相比于回归方法来说要大n倍,其中n是区间的数量。

6.训练

对于训练,主要问题是正确选择参考值RAD(m,k)。我们提出了两个选项(然而,第一选项是优选的):

1.使用从信号测量的参考值,在所述信号中,直射信号和环境信号分离地可用

2.使用从立体声信号计算出的基于相关性的特征,作为用于处理单声道信号的参考值

6.1选项1

该选项需要带有突出的直射信号分量和可忽略的环境信号分量的音频信号(x[n]≈d[n]),例如在干燥环境中录音的信号。

例如,音频信号1810、1860可以被认为是这样的带有统治性的折射分量的信号。

通过混响处理器或通过与房间冲击响应(RIR)卷积,产生人工混响信号a[n],所述房间冲击响应可以在真实的房间中采样。选择性地,可以使用其他环境信号,例如欢呼、风、雨或其他环境噪声的录音。

接着,使用方程30,从d[n]和a[n]的STFT表示获得用于训练的参考值。

在一些实施例中,基于直射信号分量和环境信号分量的知识,可以根据方程30来确定幅度比。随后,例如使用方程31,可以基于幅度比来获得期望增益值。这个期望增益值可以用作期望增益值信息1316、1834。

6.2选项2

基于立体声录音的左和右声道之间的相关性的特征传递了用于环境信号提取处理的强大提示。然而,在处理单声道信号时,这些提示都不可用。本方法能够处理单声道信号。

选择用于训练的参考值的有效选项是使用立体声信号,从中计算基于相关性的特征,并使用该特征作为参考值(例如用于获得期望增益值)。

例如,可以由期望增益值信息1920来描述该参考值,或可以从该参考值中导出期望增益值信息1920。

然后,可以把立体声录音下混音至单声道,以提取其他的低级特征,或可以从左和右声道信号中分别计算低级特征。

图19和20示出了应用本部分描述的概念的一些实施例。

一种备选解决方案是根据方程31从参考值RAD(m,k)计算权重G(m,k),并使用G(m,k)作为用于训练的参考值。在这种情况下,分类器/回归方法输出频谱权值的估计

7.环境信号的后处理

以下部分描述用于增强环境信号的感知质量的合适的后处理方法。

在一些实施例中,可以由后处理器700来执行后处理。

7.1子带信号的非线性处理

导出的环境信号(例如由加权子带信号表示)不仅包含环境分量,也包含直射信号分量(即环境信号和直射信号的分离并不完美)。对环境信号进行后处理,以增强其环境对直射比,即环境分量对直射分量的数量比。注意到,与直射声音相比,环境声音相当安静,由此激发(motivate)所应用的后处理。用于在保持安静声音的同时衰减大的声音的方法是应用声谱图系数(例如加权子带信号)的非线性压缩曲线。

方程17给出了一种合适的压缩曲线的示例,其中c是阈值,参数p决定压缩度,其中0<p<1。

y=x,x<cp(x-c)+c,xc---(17)

另一个用于非线性修改的示例是y=xp,其中0<p<1,然而相对于较大的值,较小的值增加得更多。一个针对该函数的示例是例如,其中x可以表示加权子带信号的值,而y可以表示经后处理的加权子带信号的值。

在一些实施例中,本部分描述的子带信号的非线性处理可以由非线性压缩器732来执行。

7.2延迟的引入

对环境信号引入几毫秒(例如14ms)的延迟(例如与前置信号或直射信号相比)以改进前置图像的稳定性。这是优先效应的结果,如果这样呈现两个相同的声音,即一个声音A的开始相对应另一个声音B的开始有所延迟,而且两个声音在不同的方向呈现(相对于收听者),则发生所述优先效应。只要该延迟在合适的范围内,所感知的声音就如同来自呈现声音B的方向[LCYG99]。

通过对环境信号引入延迟,即使在环境信号中包含一些直射信号分量,也能够更好地将直射声源定位在收听者的前方。

在一些实施例中,本部分描述的延迟的引入可以在延迟器734中执行。

7.3信号自适应均衡

为了最小化环绕声音信号的音色赋色,对环境信号(例如以加权子带信号的形式表示)进行均衡,以使其长期功率谱密度(PSD)适应于输入信号。这是在两级过程中实施的。

使用Welch方法,估计输入信号x[k]和环境信号a[k]两者的PSD。分别产生Ixxw(ω)和Iaaw(ω)。在重新合成之前,使用因子

H(ω)=Ixxw(ω)Iaaw(ω)---(18)

来加权的频率点。

信号自适应均衡是由这样的观察而激发的,即所提取的环境信号趋于具有比输入信号更小的频谱倾斜的特征,即环境信号可能比输入信号发声更响亮。在许多录音中,环境声音主要是由房间混响产生的。由于许多用于录音的房间对较高频率相对于较低频率而言具有更短的混响时间,因此,相应地对环境信号进行均衡是合理的。然而,非正式收听测试已经表明,对输入信号的长期PSD的均衡是一种有效的方法。

在一些实施例中,本部分描述的信号自适应均衡可以由音色赋色补偿器736来执行。

7.4瞬变抑制

在后置声道信号中引入延迟(见7.2部分),如果出现瞬变信号分量[WNR73]并且该延迟超过了信号相关(signal-dependent)值(回声阈值[LCYG99]),则引入延迟将引起对两个分离的声音的感知(类似于回声)。通过抑制环绕声音信号或环境信号中的瞬变信号分量,可以衰减该回声。由于显著减少了后置声道中的可定位点源的表现(appearance),通过瞬变抑制实现了前置图像的额外的稳定性。

考虑到理想的包络环境声音在时间上平滑地变化,合适的瞬变抑制方法减少了瞬变分量,而不影响环境信号的连续特性。满足这个要求的一种方法在[WUD07]中提出并在此描述。

首先,检测出现瞬变分量的时刻(例如,在以加权子带信号的形式表示的环境信号中)。随后,属于该检测到的瞬变区域的幅度谱被该瞬变分量的出现之前的信号部分的外插所取代。

因此,超过运行均值μ(ω)多于定义的最大偏差的所有值|X(ω,τt)|被定义的变化区间内的μ(ω)的随机变化所取代。此处,下标t表示属于瞬变区域的帧。

为了确保修改和未修改部分之间的平滑过渡,外插值与原始值交叉渐变。

[WUD07]中描述了其他瞬变抑制方法。

在一些实施例中,本部分描述的瞬变抑制可以由瞬变抑制器738来执行。

7.5解相关

到达左耳和右耳的两个信号之间的相关性影响可感知的声源宽度和环境印象。为了改进印象的空间感,应当减小前置声道信号之间和/或后置声道信号之间(例如在基于所提取的环境信号的两个后置声道信号之间)的声道间相关性。

以下描述各种合适的用于对两个信号进行解相关的方法。

梳状滤波:

通过使用一对互补梳状滤波器[Sch57]处理单声道输入信号的两个副本,以获得两个解相关的信号。

全通滤波:

通过使用一对不同的全通滤波器处理单声道输入信号的两个副本,以获得两个解相关的信号。

带有平坦传递函数的滤波:

通过使用具有平坦传递函数(例如冲击响应具有白频谱)的两个不同的滤波器来处理单声道输入信号的两个副本,以获得两个解相关的信号。

平坦传递函数确保了输入信号的音色赋色较小。可以使用白随机数产生器并对每个滤波器系数应用衰减增益因子来构造合适的FIR滤波器。

图19示出了一个示例,其中hk,k<N是滤波器系数,rk是白随机过程的输出,a和b是确定hk包络的常数参数,使得b≥aN

hk=rk(b-ak)    (19)

自适应频谱全景化:

通过使用ASP[VZA06](见2.1.4部分)处理单声道输入信号的两个副本来获得两个解相关的信号。[UWI07]中描述了将ASP应用于后置声道信号和前置声道信号的解相关。

延迟子带信号:

通过将单声道输入信号的两个副本分解为子带(例如使用STFT滤波器组),向子带信号引入不同的延迟并从经处理的子带信号中重新合成时间信号,以获得两个解相关的信号。

在一些实施例中,本部分描述的解相关可以由信号解相关器740来执行。

以下,简要概括根据本发明的实施例的一些方面。

根据本发明的实施例创建了一种新的方法,用于提取适于音频信号的盲上混音的前置信号和环境信号。根据本发明的方法的一些实施例的优点是多方面的:与之前的用于1至n上混音的方法相比,根据本发明的一些方法具有低计算复杂度。与之前的用于2至n上混音的方法相比,本根据本发明的一些方法即使在两个输入声道信号相同(单声道)或几乎相同时也能成功执行。根据本发明的一些方法不依赖于输入声道的数目,因此可以很好地适合输入声道的任何配置。在收听测试中,许多收听者在收听所产生的环绕声音信号时,更偏爱根据本发明的一些方法。

以上概括为,一些实施例涉及从音频信号中以低复杂度提取前置信号和环境信号用于上混音。

8.术语表

ASP自适应频谱全景化

NMF非负矩阵分解

PCA主要分量分解

PSD功率谱密度

STFT短期傅立叶变换

TFD时频分布

参考文献

[AJ02]Carlos Avendano and Jean-Marc Jot.Ambience extraction andsynthesis from stereo signals for multi-channel audio upmix.InProc.of the ICASSP,2002.

[AJ04]Carlos Avendano and Jean-Marc Jot.A frequency-domainapproaoch to multi-channel upmix.J. Audio Eng.Soc.,52,2004.

[dCK03]Alain de Cheveignéand Hideki Kawahara.Yin,a fundamentalfrequency estimator for speech and music.Journal of theAcoustical Society of America,111(4):1917-1930,2003.

[Der00]R.Dressler.Dolby Surroud Pro Logic 2 Decoder;principles ofoperation.Dolby Laboratories Information,2000.

[DTS]DTS.An overview of DTS NEo:6 multichannel.http://www.dts.com/media/uploads/pdfs/DTS%20Neo6%20Overview.pdf.

[Fal05]C.Faller.Pseudostereophony revisited.In Proc.of the AES188nd Convention,2005.

[GJ07a]M.Goodwin and Jean-Marc Jot.Multichannel surround formatconversion and generalized upmix.In Proc.of the AES 30thconference,2007.

[GJ07b]M.Goodwin and Jean-Marc Jot.Primary-ambient signaldecomposition and vector-based localization for spatial audiocoding and enhancement.In Proc.of the ICASSP,2007.

[HEG+99]J.Herre,E.Eberlein,B.Grill,K.Brandenburg,and H.Gerhauser.US-Patent 5,918,203,1999.

[IA01]R.Irwan and R.M.Aarts.A method to convert stereo tomultichannel sound.In Porc.of the AES 19th Conference,2001.

[ISO93]ISO/MPEG.ISO/IEC 11172-3 MPEG-1.International Standard,1993.

[Kar]Harman Kardon.Logic 7 explained.Technical report.

[LCYG99]R.Y.Litovsky,H.S.Colburn,W.A.Yost,and S.J.Guzman.The precedence effect.JAES,1999.

[LD05]Y.Li and P.F.Driessen.An unsupervised adptive filteringapproach of 2-to-5 channel upmix.In Proc.of the AES 119thConvention,2005.

[LMT07]M.Lagrange,L.G.Martins,and G.Tzanetakis.Semi-automaticmono to stereo upmixing using sound source formation.In Proc.of the AES 122th Convention,2007.

[MPA+05]J.Monceaux,F.Pachet,F.Armadu,P.Roy,and A.Zils.Descriptor based spatialization.In Proc.of the AES 118thConvention,2005.

[Sch04]G.Schmidt.Single-channel noise suppression based on spectralweighting.Eurasip Newsletter,2004.

[Sch57]M.Schroeder.An artificial stereophonic effect obtained fromusing a single signal.JAES,1957.

[Sou04]G.Soulodre.Ambience-based upmixing.In Workshop at the AES117th Convention,2004.

[UWHH07]C.Uhle,A.Walther,O.hellmuth,and J.Herre.Ambienceseparation from mono recordings using Non-negative MatrixFactorization.In Proc.of the AES 30th Conference,2007.

[UWI07]C.Uhle,A.walther,and M.Ivertowski.Blind one-to-nupmixing.In AudioMostly,2007.

[VZA06]V.Verfaille,U.Zolzer,and D.Arfib.Adaptive digital audioeffects(A-DAFx):A new class of sound transformations.IEEETransactions on Audio,Speech,and Language Prosssing,2006.

[WNR73]H.Wallach,E.B.Newman,and M.R.Rsenzweig.Theprecedence effect in sound localization.J.Audio Eng.Soc.,21:817-826,1973.

[WUD07]A.Walther,C.Uhle,and S.Disch.Using transient suppressionin blind multi-channel upmix algorithms.In Proc.of the AES122nd Convention,2007.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号