首页> 中国专利> 用于调整多通道音频信号的空间线索信息的设备和方法

用于调整多通道音频信号的空间线索信息的设备和方法

摘要

一种用于增强包括至少两个通道的多通道音频信号的设备,其被配置用于:估计表示与来自于多通道音频信号中至少两个通道的至少第一通道的第一音频信号和来自于至少第二通道的第二音频信号相关联的到达方向的值;根据与第一音频信号和第二音频信号相关联的到达方向来确定缩放因子;以及将缩放因子应用于与第一音频信号和第二音频信号之间的音频信号电平差相关联的参数。

著录项

  • 公开/公告号CN102084418A

    专利类型发明专利

  • 公开/公告日2011-06-01

    原文格式PDF

  • 申请/专利权人 诺基亚公司;

    申请/专利号CN200880130197.3

  • 发明设计人 P·奥雅拉;

    申请日2008-07-01

  • 分类号G10L19/00(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人酆迅

  • 地址 芬兰埃斯波

  • 入库时间 2023-12-18 02:26:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-17

    未缴年费专利权终止 IPC(主分类):G10L19/008 授权公告日:20130306 终止日期:20170701 申请日:20080701

    专利权的终止

  • 2016-03-02

    专利权的转移 IPC(主分类):G10L19/008 登记生效日:20160215 变更前: 变更后: 申请日:20080701

    专利申请权、专利权的转移

  • 2013-03-06

    授权

    授权

  • 2011-07-20

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20080701

    实质审查的生效

  • 2011-06-01

    公开

    公开

说明书

技术领域

本发明涉及被配置用于执行音频和语音信号编码的设备。

背景技术

空间音频处理是从音频源发出的音频信号经由不同传播路径到达收听者左耳和右耳的效果。作为该效果的结果,左耳处的信号通常将具有与到达右耳的相应信号不同的到达时间和信号电平。时间和信号电平之间的差是音频信号经其传播而分别到达左耳和右耳的路径中差的函数。收听者的大脑继而解释这些差,从而给出以下感知:接收的音频信号是由相对于收听者而位于特定距离和方向处的音频源产生的。

因此,可以将听觉场景视为同时听到由相对于收听者而位于各个位置处的一个或多个音频源所生成音频信号的净效果。

人类大脑可以处理双耳输入信号从而断定声音源位置和方向的起码事实可以用于对听觉场景进行编码和合成。因此,空间听觉编码的典型方法将寻求对音频场景的突出特征进行建模。这通常需要有意地修改来自于一个或多个源的音频信号,从而生成左音频信号和右音频信号。在本领域中,这些信号可以统称为双耳信号。然后,可以生成最终的双耳信号,使得它们给出相对于收听者位于不同位置处的变化音频源的感知。

最近,已经结合多通道音频重现来使用空间音频技术。多通道音频重现的目的在于提供对包括五个或更多(多个)独立音频通道或声音源的多通道音频信号的有效编码。最近对多通道音频信号的编码方法已经集中于参数立体声(PS)和双耳线索编码(BCC)方法。BCC通常通过将各种输入音频信号下混频为单个(“和”)通道或传递“和”信号的较少量通道来对多通道音频信号进行编码。并行地,从输入通道提取最突出的通道间线索(也称作空间线索,其描述多通道声像或音频场景)并将其编码为边信息。和信号和边信息两者形成编码的参数集,其继而可以作为通信链的部分传输或存储在存储和转发类型设备中。BCC技术的大部分实现通常采用低比特率音频编码方案来对和信号进行进一步编码。最终,BCC解码器根据传输或存储的和信号和空间线索信息来生成多通道输出信号。关于BCC技术的其他信息可以在以下IEEE出版物中找到:IEEE Transactions on Speech and Audio Processing,Vol.11,No 6,2003年11月中Baumgarte,F和Faller,C的Binaural Cue Coding-Part II Schemes and Applications。通常,在空间音频编码系统中采用的下混频信号附加地使用低比特率感知音频编码技术来编码,从而进一步降低所需的比特率,其中低比特率感知音频编码技术诸如ISO/IEC移动图片专家组高级音频编码标准。

在空间音频多通道编码的典型实现中,空间线索的集合包括:对两个通道间的音频电平中的相对差建模的通道间电平差参数(ICLD),以及表示两个通道间信号的时差或相移的通道间时延值(ICTD)。通常关于参考通道针对每个通道确定音频电平差和时差。备选地,某些系统可以利用头部相关传递函数(HRTF)的辅助生成空间音频线索。关于此类技术的其他信息可以在MIT Press在1983年出版的、J.Blaubert的Psychoacoustics of Human Sound Localization中找到。

尽管ICLD和ICTD参数表示最重要的空间音频线索,但是使用这些参数的空间表示可以利用通道间一致性(ICC)参数的合并来进一步增强。通过将此类参数合并到空间音频线索的集合中允许在重构信号中表示所感知空间“扩散(diffuseness)”或相反的空间“压缩(compactness)”。

对于BCC而言,待解决的一个主要问题是对与编码过程相关联的参数的表示和有效编码。如上所述,可以使用传统音频源编码技术(诸如AAC)对下混频信号进行有效编码,并且该有效编码原理也可以应用于空间线索参数。然而,编码通常将误差引入到空间线索参数中,并且一个挑战在于能够增加收听者的空间音频体验,而不必扩展绝对需要之外的任何其他编码带宽。在语音和音频编码中普遍使用的一个技术(其可以应用于BCC)是增强待编码信号的特定区域,从而遮掩编码过程引入的任何误差,并且改进总的所感知音频体验。

发明内容

本发明出自以下考虑:希望调整空间线索信息,从而增强收听者感知的总的空间音频体验。与此相关联的问题是如何调整空间线索,使得最终的增强取决于空间音频信号的特定特性。

本发明实施方式的目的在于解决上述问题。

根据本发明的第一方面提供一种方法,包括:估计表示与来自于多通道音频信号中至少两个通道的至少第一通道的第一音频信号和来自于至少第二通道的第二音频信号相关联的到达方向的值;根据与所述第一音频信号和所述第二音频信号相关联的到达方向来确定缩放因子;以及将所述缩放因子应用于与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数。

根据本发明的实施方式,该方法还包括:确定表示所述第一音频信号和所述第二音频信号的一致性的值。

该方法还可以包括:针对表示与所述第一音频信号和所述第二音频信号相关联的到达方向的值来确定可靠性估计值。

优选地根据以下至少一项将所述缩放因子应用于与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数:针对表示与所述第一音频信号和所述第二音频信号相关联的到达方向的值的所述可靠性估计值;以及表示所述第一音频信号和所述第二音频信号的一致性的值。

估计表示与第一音频信号和第二音频信号相关联的到达方向的值可以包括:使用基于虚拟音频信号的到达方向的第一模型,其中所述虚拟音频信号与音频信号相关联,所述音频信号从发自至少两个音频信号源的至少两个音频信号的合并导出。

针对表示与所述第一音频信号和所述第二音频信号相关联的到达方向的值来确定可靠性估计值可以包括:估计表示与所述第一音频信号和所述第二音频信号相关联的到达方向的至少一个其他值,其中估计表示与所述第一音频信号和所述第二音频信号相关联的到达方向的至少一个其他值还可以包括使用基于所述虚拟音频信号的到达方向的第二模型,其中所述虚拟音频信号优选地与音频信号相关联,所述音频信号从发自至少两个音频信号源的至少两个音频信号的合并导出;以及优选地确定表示与所述第一音频信号和所述第二音频信号相关联的到达方向的值和表示与所述第一音频信号和所述第二音频信号相关联的到达方向的所述至少一个其他值之间的差是否位于预定误差界限内。

基于所述虚拟音频信号的到达方向的所述第一模型优选地取决于两个音频信号之间的音频信号电平差。

基于所述虚拟音频信号的传播方向的所述第一模型可以包括头部的球模型。

基于所述虚拟音频信号的到达方向的所述第二模型优选地取决于两个音频信号之间的到达时差。

基于所述虚拟音频信号的传播方向的所述第二模型可以包括基于正弦波平移律的模型。

根据与所述第一音频信号和所述第二音频信号相关联的到达方向确定所述缩放因子可以包括:从至少一个预定的值范围中的第一预定的值范围为所述缩放因子指派值,其中可以根据表示与所述第一音频信号和所述第二音频信号相关联的虚拟音频信号的传播方向的值来选择所述第一预定的值范围。

将所述缩放因子应用于与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数可以包括:将所述缩放因子乘以与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数。

与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数优选地是对数参数。

所述多通道音频信号优选地是频域信号。

将所述多通道音频信号优选地划分为多个子带,并且将用于增强所述多通道音频信号的方法优选地应用于多个子带中的至少一个。

所述方法优选地用于增强包括至少两个通道的所述多通道音频信号。

根据本发明的第二方面,提供一种设备,所述设备被配置用于估计表示与来自于多通道音频信号中至少两个通道的至少第一通道的第一音频信号和来自于至少第二通道的第二音频信号相关联的到达方向的值;根据与所述第一音频信号和所述第二音频信号相关联的到达方向来确定缩放因子;以及将所述缩放因子应用于与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数。

根据本发明的一个实施方式,所述设备优选地还被配置用于确定表示所述第一音频信号和所述第二音频信号的一致性的值。

所述设备还可以被配置用于:针对表示与所述第一音频信号和所述第二音频信号相关联的到达方向的值来确定可靠性估计值。

所述设备被配置用于可以根据以下至少一项将所述缩放因子应用于与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数:针对表示与所述第一音频信号和所述第二音频信号相关联的到达方向的值的所述可靠性估计值;以及表示所述第一音频信号和所述第二音频信号的一致性的值。

被配置用于估计表示与第一音频信号和第二音频信号相关联的到达方向的值的所述设备还可以被配置用于:使用基于虚拟音频信号的到达方向的第一模型,其中所述虚拟音频信号优选地与音频信号相关联,所述音频信号从发自至少两个音频信号源的至少两个音频信号的合并导出。

被配置用于确定表示与所述第一音频信号和所述第二音频信号相关联的到达方向的值的可靠性估计值的设备还可以被配置用于:估计表示与所述第一音频信号和所述第二音频信号相关联的到达方向的至少一个其他值,其中估计表示与所述第一音频信号和所述第二音频信号相关联的到达方向的至少一个其他值还可以包括使用基于所述虚拟音频信号的到达方向的第二模型,其中所述虚拟音频信号优选地与音频信号相关联,所述音频信号从发自至少两个音频信号源的至少两个音频信号的合并导出;以及可以确定表示与所述第一音频信号和所述第二音频信号相关联的到达方向的值和可以表示与所述第一音频信号和所述第二音频信号相关联的到达方向的所述至少一个其他值之间的差是否可以位于预定误差界限内。

基于所述虚拟音频信号的到达方向的所述第一模型可以取决于两个音频信号之间的音频信号电平差。

基于所述虚拟音频信号的传播方向的所述第一模型可以包括头部的球模型。

基于所述虚拟音频信号的到达方向的所述第二模型可以取决于两个音频信号之间的到达时差。

基于所述虚拟音频信号的传播方向的所述第二模型可以包括基于正弦波平移律的模型。

被配置用于根据与所述第一音频信号和所述第二音频信号相关联的到达方向确定所述缩放因子的设备还可以被配置用于:从至少一个预定的值范围中的第一预定的值范围为所述缩放因子指派值,其中优选地根据表示与所述第一音频信号和所述第二音频信号相关联的虚拟音频信号的传播方向的值来选择所述第一预定的值范围。

被配置用于将所述缩放因子应用于与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数的设备还可以被配置用于:将所述缩放因子乘以与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数。

与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数优选地是对数参数。

所述多通道音频信号优选地是频域信号。

可以将所述多通道音频信号划分为多个子带,并且所述设备被配置用于优选地增强所述多通道音频信号的多个子带中的至少一个。

所述设备可以用于增强包括至少两个通道的所述多通道音频信号。

一种音频编码器可以包括上述设备。

一种音频解码器可以包括上述设备。

一种电子设备可以包括上述设备。

一种芯片组可以包括上述设备。

根据本发明的第三方面,提供一种被配置用于执行包括以下内容的方法的计算机程序产品:估计表示与来自于多通道音频信号中至少两个通道的至少第一通道的第一音频信号和来自于至少第二通道的第二音频信号相关联的到达方向的值;根据与所述第一音频信号和所述第二音频信号相关联的到达方向来确定缩放因子;以及将所述缩放因子应用于与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数。

根据本发明的第四方面,提供一种设备,包括:估计装置,用于估计表示与来自于多通道音频信号中至少两个通道的至少第一通道的第一音频信号和来自于至少第二通道的第二音频信号相关联的到达方向的值;处理装置,用于根据与所述第一音频信号和所述第二音频信号相关联的到达方向来确定缩放因子;以及其他处理装置,用于将所述缩放因子应用于与所述第一音频信号和所述第二音频信号之间的音频信号电平差相关联的参数。

附图说明

为了更好地理解本发明,现在将通过示例来参考附图,在附图中:

图1示意性地示出了采用本发明实施方式的电子设备;

图2示意性地示出了采用本发明实施方式的音频编解码系统;

图3示意性地示出了部署本发明第一实施方式的音频编码器;

图4示出了绘出根据本发明实施方式的编码器操作的流程图;

图5示意性地示出了根据本发明实施方式的下混频器;

图6示意性地示出了根据本发明实施方式的空间音频线索分析器;

图7示出了描绘针对包括M个输入通道的多通道音频信号系统中每个信道的ICTD和ICLD值的分布的图示;

图8示出了描绘使用两个声音源的虚拟声音源位置的示例的图示;

图9示出了进一步详细绘出根据本发明实施方式的操作的流程图;

图10示意性地示出了部署本发明第一实施方式的音频解码器;

图11示出了绘出根据本发明实施方式的解码器操作的流程图;以及

图12示意性地示出了根据本发明实施方式的双耳线索编码合成器。

具体实施方式

下面更详细地描述了用于为音频编解码器提供增强空间音频线索的可能机制。在这点上,首先参考图1,图1是示例性电子设备10的示意框图,其可以合并根据本发明实施方式的编解码器。

电子设备10例如可以是无线通信系统的移动终端或用户设备。

电子设备10包括经由模数转换器14链接到处理器21的麦克风11。处理器21还经由数模转换器32链接到扬声器33。处理器21还链接到收发机(TX/RX)13、用户接口(UI)15和存储器22。

处理器21可以被配置用于执行各种程序代码。实现的程序代码包括用于对音频信号的较低频带和音频信号的较高频带进行编码的音频编码代码。实现的程序代码23还包括音频解码代码。实现的程序代码23例如可以存储在存储器22中,以便在需要时由处理器21获取。存储器22还可以提供用于存储数据的段24,例如是根据本发明已经编码的数据。

编码和解码代码在本发明的实施方式中可以以硬件或固件实现。

用户接口15使用户能够例如经由小键盘向电子设备10输入命令和/或例如经由显示器从电子设备10获得信息。收发机13支持例如经由无线通信网络与其他电子设备的通信。

应该理解,电子设备10的结构可以以很多方式补充和改变。

电子设备10的用户可以使用麦克风11来输入将传输到某些其他电子设备的或存储在存储器22的数据段24中的语音。为此,相应应用已经由用户经由用户接口15激活。可以由处理器21运行的该应用使得处理器21执行存储在存储器22中的编码代码。

模数转换器14将输入模拟音频信号转换为数字音频信号并向处理器21提供该数字音频信号。

处理器21继而可以以与参考图2和图3描述的方式相同的方式来处理数字音频信号。

所得比特流被提供给收发机13用于向另一电子设备传输。备选地,编码的数据可以存储在存储器22的数据段24中,例如用于稍后由同一电子设备10来传输或呈现。

电子设备10还可以经由其收发机13从另一电子设备接收具有相应编码数据的比特流。在该情况中,处理器21可以执行存储在存储器22中的解码程序代码。

处理器21对接收的数据进行解码,并且向数模转换器32提供解码的数据。数模转换器32将数字解码数据转换为模拟音频数据并经由扬声器33输出它们。解码程序代码的执行也可以由用户经由用户接口15调用的应用触发。

接收的编码数据也可以存储在存储器22的数据段24中而不是经由扬声器33来立即呈现,从而例如支持向又一电子设备稍后呈现或转发。

应该理解,在图2、图3、图5、图6、图10和图12中描述的示意结构以及图4、图9和图11中的方法步骤仅表示包括本发明实施方式的完整音频编解码器的操作的一部分,如示例性地实现在图1所示的电子设备中。

如本发明实施方式采用的音频编解码器的一般操作在图2中示出。一般性音频编码/解码系统包括编码器和解码器,如图2示意性地示出。示出的是具有编码器104、存储或媒体通道106和解码器108的系统102。

编码器104压缩产生比特流112的输入音频信号110,其被存储或通过媒体通道106传输。比特流112可以在解码器108内接收。解码器108对比特流112解压缩并且产生输出音频信号114。比特流112的比特率和与输入信号110有关的输出音频信号114的质量是主要特征,其定义了编码系统102的性能。

图3示意性地示出了根据本发明第一实施方式的编码器104。编码器104示出为包括划分为M个通道的输入302。应该理解,输入302可以布置为接收M个通道的音频信号,或备选地来自于M个独立音频源的M个音频信号。输入302的M个通道中的每个可以连接至下混频器303和空间音频线索分析器305两者。

下混频器303可以布置用于将M个通道的每个合并为和信号304,该信号304包括独立音频输入信号的和的表示。在本发明的某些实施方式中,和信号304可以包括单个通道。在本发明的其他实施方式中,和信号304可以包括(多个)E个和信号通道。

来自于下混频器303的和信号输出可以连接至音频编码器307的输入。音频解码器307可以被配置用于编码音频和信号并且输出参数化的编码音频流306。

空间音频线索分析器305可以被配置用于从输入302接受M个通道音频输入信号并且生成作为输出的空间音频线索信号308。来自于空间线索分析器305的输出信号可以布置用于连接至比特流格式器309的输入(在本发明的某些实施方式中其也可以称为比特流复用器)。

在本发明某些实施方式中,可以存在从空间音频线索分析器305到下混频器303的附加输出连接,从而诸如ICTD空间音频线索的空间音频线索可以被顺序反馈到下混频器,从而移除通道之间的时差。

除了从空间线索分析器305接受空间线索信息,比特流格式器309可以进一步布置用于接收作为附加输入的来自于音频编码器307的输出。比特流格式器309继而可以被配置用于经由输出310来输出输出比特流112。

参考示出编码器操作的图4中的流程图更详细地描述这些组件的操作。

多通道音频信号经由输入302由编码器104接收。在本发明的第一实施方式中,来自于每个通道的音频信号是数字化采样信号。在本发明的其他实施方式中,音频输入可以包括多个模拟音频信号源,例如来自于分布在音频空间内的多个麦克风,其是经过模数(A/D)转换的。在本发明的其他实施方式中,多通道音频输入可以从脉冲码调制数字信号转换到幅度调制数字信号。

处理步骤401在图4中示出了音频信号的接收。

下混频器303接收多通道音频信号并且将M个输入通道合并为减少的通道数量E,其传递多通道输入信号的和。应该理解,M个输入通道可以下混频到的通道的数量E可以包括单个通道或多个通道。

在本发明的实施方式中,下混频可以采取将所有M个输入信号添加到包括和信号的单个信道中的形式。在本发明实施方式的该示例中,E可以等于1。

在本发明的其他实施方式中,可以通过使用合适的时频变换(诸如离散傅里叶变换(DFT))将每个输入通道变换为频域的第一变换来在频域中计算该和信号。

图5示出了描绘根据本发明实施方式的、出于下混频多通道输入音频信号的目的而可以使用的通用M到E下混频器的框图。图5中的下混频器303示出为具有针对每个时域输入通道xi(n)的滤波器组502,其中i是时刻n的输入通道号。除了下混频器303示出为具有下混频块504之外,最终可以用于针对每个输出下混频的通道yi(n)生成时域信号的逆滤波器组506。

在本发明的实施方式中,每个滤波器组502可以将特定通道xi(n)的时域输入转换为K个子带的集合。特定通道i的子带集合可以表示为其中表示独立子带k。总之,可以存在K个子带的M个集合,每个集合针对每个输入通道。K个子带的M个集合可以表示为

在本发明的实施方式中,下混频块504继而可以利用来自于频率系数的M个集合中每个的相同索引来对特定子带进行下混频,从而将子带集合的数量从M减少到E。这可以如下实现:通过将承载相同索引、来自于子带M个集合中每个的特定第k个子带乘以下混频矩阵,从而针对下混频信号的E个输出通道生成第k个子带。换言之,通道数量的减少可以通过使来自于通道的每个子带接受矩阵减少运算来实现。该运算的机制可以通过以下数学运算表示:

y~1(k)y~2(k)···y~E(k)=DEMx~1(k)x~2(k)···x~M(k)

其中DEM可以是实值的E乘M矩阵,表示每个输入子带通道的第k个子带,并且表示E个输出通道中每个的第k个子带。

在本发明的其他实施方式中,DEM可以是复值的E乘M矩阵,在诸如这些的实施方式中,矩阵运算可以附加地修改域变换域系数的相位,从而移除任何通道间时差。

来自于下混频矩阵DEM的输出因此可以包括E个通道,其中每个通道可以包括包含K个子带的子带信号,换言之,如果Yi表示在输入帧时刻处针对通道i的来自于下混频器的输出,则包括通道i的子带信号的子带可以表示为集合

一旦下混频器已经将通道的数量从M下混频到E,则与E个通道中每个相关联的K个频率系数可以使用图5中506所示的逆滤波器组而被转换回到时域输出通道信号yi(n),从而支持使用任何随后的音频编码处理级。

在本发明的又一实施方式中,频域方法可以通过将每个通道的频谱划分为多个分区来进一步得到增强。对于每个分区,可以计算加权因子,包括针对每个通道的每个分区内的频率分量的功率之和与每个分区内所有通道上频率分量的总功率的比。然后,可以将针对每个分区计算的加权因子应用于所有M个通道上相同分区内的频率系数。一旦每个通道的频率系数已经通过它们相应的分区加权因子而被适当地加权,则来自于每个信道的被加权的频率分量可以加到一起,从而生成和信号。该方法的应用可以实现为每个通道的加权因子的集合,并且可以示出为置于下混频级504和逆滤波器组506之间的可选缩放块。通过使用用于对各种通道进行合并和求和的该方法,制作用于在合并互相关通道组时可能出现的任何衰减和放大效应的公差。该方法的进一步细节可以在以下IEEE出版物中找到:Christof Faller和Frank Baumgate的、Transactions on Speech and Audio Processing,Vol.11,No 6 2003年11月,题目为Binaural Cue Coding-Part II:Scheme and Application。

输入音频通道被下混频并求和为和信号在图4的处理步骤402中示出。

空间线索分析器305可以接收作为输入的多通道音频信号。空间线索分析器继而可以使用这些输入,从而生成空间音频线索的集合,在本发明的实施方式中,其可以包括通道间时差(ICTD)、通道间电平差(ICLD)和通道间一致性(ICC)线索。

在本发明的实施方式中,立体声和多通道音频信号通常包含同时活跃的源信号的复杂混合体,其中同时活跃的源信号是由来自于封闭空间中记录的反射信号分量叠加的。不同源信号和它们的反射占据了时频平面中的不同区域。这可以由ICTD、ICLD和ICC值反映,其可以作为频率和时间的函数而改变。为了利用这些变化,在子带域中分析各种听觉线索之间的关系可能是有利的。

在本发明的实施方式中,多通道音频信号中出现的空间音频线索ICTD、ICLD和ICC的频率依赖性可以在子带域中并且定时进行估计。

对空间音频线索的估计可以通过使用基于傅里叶变换的滤波器组分析在空间线索分析器305中实现。在该实施方式中,针对每个通道的音频信号的分解可以通过使用具有50%重叠分析窗口结构的块短时快速傅里叶变换(FFT)来实现。FFT频谱继而可以被谱分析器305划分为非重叠频带。在本发明的此类实施方式中,可以根据心理声学关键频带结构将频率系数分布到每个频带,而可以为较低频率区域中的频带分配比位于较高频率区中的频带更少的频率系数。

在本发明的其他实施方式中,每个通道的频带可以根据线性比例进行分组,而每个通道的系数数量可以向每个子带相等地分配。

在本发明的其他实施方式中,每个通道音频信号的分解可以使用正交镜像滤波器(QMF)来实现,而子带域人类听觉系统的关键带宽成比例。

然后,空间线索分析器可以计算每个通道的子带内的频率分量的功率估计值。在本发明的实施方式中,这可以例如通过计算每个系数的模量并且继而针对子带内所有系数来对模量的平方求和,从而针对复傅立叶系数而实现。这些功率估计值可以用作空间分析器305计算音频空间线索的基础。

图6示出了可以用于从多通道输入信号生成空间音频线索的结构。在图6中,时域输入通道可以表示为xi(n),其中i是输入通道号并且n是时刻。针对每个通道,来自于滤波器组(FB)602的子带输出可以被描绘为集合其中表示通道i的独立子带k。

应该理解,以每个子带为基础在输入音频信号上执行所有后续处理步骤。

在部署了编码器104的立体声或两个通道输入的本发明实施方式中,每个子带的左通道和右通道之间的ICLD可以由各个功率估计值的比给出。例如,利用子带索引k而由索引1和2表示的、针对两个音频通道的相应子带信号和的第一通道和第二通道之间的可以以分贝为单位被给出为:

ΔL12(k)=10log10(px~2(k)px~1(k))

其中和是分别针对子带k的信号和的功率的短时估计值。

此外,在本发明的该实施方式中,针对每个子带,左通道和右通道之间的ICTD也可以根据每个子带的功率估计值确定。例如,第一通道和第二通道之间的可以如下确定:

τ12(k)=argmaxd{Φ12(d,k)}

其中Φ12是规范化互相关函数,其可以如下计算

Φ12(d,k)=px~1x~2(d,k)px~1(k-d1)px~2(k-d2)

其中

d1=max{-d,0}并且d2=max{d,0}以及是的平均的短时估计值。换言之,两个信号和之间的相对延迟d可以调整,直到获得规范化互相关的最大值。可以获得规范互相关函数最大值的d值可以视为子带k的两个信号和之间的ICTD。

仍旧是该实施方式中,两个信号之间的ICC也可以通过考虑规范化互相关函数Φ12来确定。例如,两个信号和之间的ICC c12可以根据以下表达式确定

c12=maxd|φ12(d,k)|

换言之,可以针对子带k的两个信号和之间的不同延迟值d,而将ICC确定为两个信号之间的规范化相关的最大值。

在本发明的实施方式中,ICC数据可以对应于双耳信号的一致性。换言之,ICC可以涉及音频源的感知宽度,从而如果在与被感知为窄的音频源比较时感知到音频源为宽,则左通道和右通道之间的相应一致性可能是较低的。例如,对应于管弦乐的双耳信号的一致性通常可以比对应于单个小提琴的双耳信号的一致性低。因此,通常,在听觉空间中,音频信号具有的一致性越低,其就可以被感知为越发散。

本发明的其他实施方式可以部署包括不止两个通道的多个输入音频信号到编码器104中。在这些实施方式中,依次定义参考通道(例如,通道1)和每个其他通道之间的ICTD和ICLD可能是足够的。

图7示出了针对时刻n并且针对子带k的、包括M个输入通道的多通道音频信号系统的示例。在该示例中,ICTD和ICLD值针对每个通道的分布是相对于通道1的,而针对特定子带k,τ1i(k)和ΔL1i(k)表示参考通道1和通道i之间的ICTD和ICLD值。

在部署包括不止两个输入通道的音频信号的本发明的实施方式中,可以使用每个子带k的单个ICC参数,从而针对子带k表示所有音频通道之间的总体一致性。这可以通过在以每个子带为基础估计具有最大能量的两个通道之间的ICC线索来实现。

估计空间音频线索的过程被描绘为图4中的处理步骤404。

空间音频线索分析器305可以使用从之前处理步骤计算的空间音频线索,从而增强被视为具有高一致度的声音的空间声像。空间声像增强可以采用调整通道间音频信号强度的相对差的形式,从而音频声音可以对收听者显现为从音频声像中心移动远离。调整音频信号强度的相对差的效果可以针对图8示出,在图8中,人类头部可以接收来自于两个独立源(源1和源2)的声音,而两个源相对于头部中心线的角度分别由θ0和-θ0给出。在该特定图示中,合并发自源1和源2的音频信号,以产生被感知的虚拟源或虚拟音频信号可以具有θ度的到头部的到达方向的效果。可以看到,到达方向θ可以取决于音频源1和源2的相对强度。此外,通过调整音频源1和源2的相对信号强度,虚拟音频信号的到达方向在听觉空间中显示出改变。

应该理解,虚拟音频信号的、到头部的到达方向θ可以从多个音频信号的组合效果方面考虑,而每个音频信号都发自位于音频空间的音频源。

还要理解,因此,虚拟音频信号可以被视为复合音频信号,其分量包括多个独立的音频信号。

在本发明的实施方式中,空间音频线索分析器305可以以每个子带为基础计算复合或虚拟音频信号到头部的到达方向。在本发明的这些实施方式中,复合音频信号到头部的头部到达方向可以针对特定子带表示为θk,其中k是特定子带。

为了进一步帮助理解本发明,参考图9的流程图更详细地描述了空间音频线索分析器305对空间音频线索的增强过程。

以每个子带为基础,将从图4所示的处理步骤404接收经计算的空间音频线索的步骤描绘为图9中的处理步骤901。

首先,在本发明的实施方式中,可以分析子带k的ICC参数,从而确定与子带k相关联的多通道音频信号是否可以分类为一致性信号。可以通过断定与ICC参数相关联的规范化相关系数的值是否只是在通道间存在强相关来确定该分类。通常,在本发明的实施方式中,这可以由具有相近值或近似值的规范化相关系数来指示。

针对特定子带来确定多通道音频信号的一致性程度的步骤示出为处理步骤902。

根据本发明的实施方式,如果一致性确定分类步骤的结果指示多通道音频信号对于特定子带而言不是一致的,那么针对该特定子带终止空间音频声像增强过程。然而,如果一致性确定分类步骤指示多通道音频信号对于特定子带而言是一致的,那么音频空间线索分析器305可以进一步分析空间音频线索参数。

针对视为不一致的音频信号的子带终止空间音频声像增强过程的处理在图9中示出位步骤903。

在本发明的实施方式中,可以使用头部球模型来确定到每个子带虚拟音频信号到头部的到达方向θk

通常,头部的球模型可以按照到达人类头部的左耳和右耳的音频信号的时差τ以及到达发自一个或多个音频源的音频信号(换言之,复合或虚拟音频信号)的到头部的到达方向θ之间的关系来表示。该关系可以确定为:

τ=D2c(θ+sin(θ)))

其中D是表示耳朵之间的距离的已知常数,并且c是音速。

应该理解,考虑到头部的球模型,虚拟音频信号到头部的到达方向θ可以从位于音频空间中的音频源对的观点来考虑,而发自音频源对的音频信号进行组合以形成对收听者可以表现为发自单个(虚拟)源的虚拟音频信号的音频信号。

还应该理解,参数τ可以表示为来自于各个源的信号之间的相对时差。

在本发明的实施方式中,虚拟音频信号到头部的到达方向可以以每个子带为基础确定。这可以通过使用特定子带的ICTD参数来实现,从而表示到达左耳和右耳的信号的时差值τ。虚拟音频信号的子带k的到达方向θk可以根据以下等式表示

τ12(k)=D2c(θk+sin(θk)))

在本发明的实施方式中,上述等式的实际实现可以涉及对映射表的公式化,而多个时差或ICLD参数值可以交叉匹配到到达方向θk的相应值。

在本发明的其他实施方式中,从大于两个的多个音频源导出的虚拟音频信号到头部的到达方向也可以使用头部的球模型来确定。在本发明的这些实施方式中,针对特定子带k的到头部的到达方向可以通过考虑一系列通道对之间的ICTD参数来确定。例如,到头部的到达方向可以针对参考通道和一般通道之间的每个子带来计算,换言之,时差τ可以从例如参考通道1和通道i之间的相对延迟导出;即τ1i(k)。

用于使用头部的球模型来确定从发自多个音频源的音频信号导出的虚拟音频信号到达方向的过程可以在图9中示出为处理步骤904。

在本发明的实施方式中,到达方向θ也可以通过考虑与两个声音源(诸如那些在图8中示出的)相关联的平移律来确定。该规律的一个此类形式可以通过考虑两个声音源的幅度和各个源相对于收听者的角度的正弦之间的关系来确定。规律的这个形式称作正弦波平移律并且可以列出方程为

sinθsinθ0=g1-g2g1+g2

其中g1和g2是两个声音源1和2(或分别是左通道和右通道)的幅度值(或信号强度值),θ0和-θ0是它们相对于头部或收听者的各自到达方向。声音源1和2的组合影响所形成的虚拟音频信号的到达方向可以在上述等式中表示为θ。

应该理解如果两个声音源1和2构成头戴式耳机对的左通道和右通道,那么正弦波平移律可以通过在该实例中指出sinθ0=1而得到进一步简化。

还应理解,在本发明实施方式中,正弦波平移律可以如前所述以每个子带为基础来使用。换言之,到达方向可以以每个子带为基础表示并且可以针对特定子带k由θk表示。

在本发明的此类实施方式中,幅度值g1和g2可以根据从针对每个子带k计算的ICLD参数导出:

其中ΔL12(k)针对子带k表示对应于音频源1和2的通道对之间的ICLD参数。

在本发明的实施方式中,针对子带k的虚拟音频信号的到达方向θk可以根据以下等式生成:

sinθk=g1(k)-g2(k)g1(k)+g2(k)·sinθ0.

应该理解,参数θ0涉及声音源相对于收听者的定位,并且在音频空间中,声音源的定位可以是预定的并且恒定的,例如,房间中扬声器对的相对位置。

使用正弦波平移律模型确定虚拟音频信号的到达方向的过程可以被描绘为图9中的处理步骤905。

然后,空间分析器305可以针对每个子带k估计到达方向θk的可靠性。在本发明的实施方式中,这可以通过形成可靠性估计值来实现。可靠性估计值可通过比较从基于ICTD的头部球模型获得的到达方向与基于从ICLD正弦波平移律模型获得的到达方向来形成。如果针对特定子带的、两个独立导出的到达方向的估计值处于预定误差界限内,则所得的可靠性估计值可以指示到达方向是可靠的并且两个值之一可以在后续处理步骤中使用。

应该理解,可以针对可靠性独立地评估针对每个子带k的到达方向。

针对每个子带确定从虚拟音频源的传播方向的可靠性的过程可以描绘为图9中的处理步骤906。

然后,空间线索分析器305可以确定是否进行空间声像担保增强。

在本发明的实施方式中,这可以根据以下标准完成:可以确定多通道音频信号是一致的并且可以将虚拟音频源的到达估计值视为是可靠的。

应该理解,在本发明的实施方式中,确定空间声像担保增强是否可以以每个子带为基础执行,并且在这些实施方式中,每个子带可以具有到达方向估计值的不同值。

在本发明的实施方式中,如果到达方向估计值被视为不可靠,那么可以终止空间音频线索增强过程。

应该理解,在本发明的实施方式中,可以以每个子带为基础将到达方向估计值视为是不可靠的,并且因而可以以每个子带为基础终止空间音频线索增强过程。

由于以每个子带为基础的传播方向估计值的不可靠,音频空间线索增强过程的终止示出为图9中的步骤907。

对ICLD的加权通过幅度平移对音频声像的中心移动具有影响。换言之,对于特定子带而言,音频信号的到达方向可以改变,从而其显示出已经更多地朝向音频空间的外围移动。

在本发明的实施方式中,该加权可以根据以下关系通过对特定子带k的ICLD进行缩放来实现:

log10ΔL~12(k)=λlog10ΔL12(k)

其中λ是可以用于缩放特定子带k的两个音频源之间的ICLD参数ΔL12(k)的期望缩放因子,并且表示相应的经缩放ICLD。

在本发明的典型实施方式中,缩放因子λ可以采用范围λ=[1.0,....,2.0]中的值。而缩放因子越大,则声音可以远离音频声像中心平移得更远。

在本发明的其他实施方式中,缩放因子的量值可以由基于ICTD的传播方向估计值控制,该传播方向估计值来自于针对每个子带的虚拟源。换言之,导出的传播方向估计值可以从头部的球模型导出。此类实施方式的示例可以包括如果到达方向的ICTD估计值处于±[30°,....,60°]范围中,则应用范围[1.0,....,2.0]中的缩放因子λ,以及如果到达方向的ICTD估计值处于±[60°,....,90°]范围中,则应用其他范围[2.0,....,4.0]中的缩放因子λ。

针对每个子带和通道对对ICLD加权的过程示出为图9中的处理步骤908。

应该理解,处理步骤901到908可以针对多通道音频信号的每个子带来重复。因而,与每个子带相关联的ICLD参数可以根据以下标准来独立地增强,该标准为:特定多通道子带信号是一致的并且与子带相关联的等同虚拟音频信号的到达方向被估计为可靠的。

增强空间音频线索的过程被描绘为图4中的处理步骤406。

在完成对空间音频线索的任何加权之后,空间线索分析器305继而可以被布置为对听觉线索信息进行量化和编码,从而形成边信息,以便存储在存储和转发类型设备中或向相应的解码系统传输。

在本发明的实施方式中,针对每个子带的ICLD和ICTD可以根据音频信号的动态来自然地限制。例如,ICLD可以限制为±ΔLmax的范围,其中ΔLmax可以是18dB,并且ICTD可以限制为±τmax的范围,其中τmax可以对应于800μs。此外,ICC可以不需要任何限制,因为参数可以形成于具有介于0和1之间的规范化相关。

在限制了空间听觉线索之后,空间分析器305可以进一步被布置为使用统一量化器来量化估计的通道间线索。估计的通道间线索的量化值继而可以表示为量化索引,从而促进通道间线索信息的传输和存储。

在本发明的某些实施方式中,表示通道间线索边信息的量化索引可以使用游程编码技术(诸如Huffman编码)进行进一步地编码,从而改进总编码效率。

对空间音频线索的量化和编码的过程被描绘为图4中的处理步骤408。

空间线索分析器305继而可以将表示通道间线索的量化索引作为边信息向比特流格式器309传递。这被描绘为图4中的处理步骤410。

在本发明的实施方式中,可以将从下混频器303输出的和信号连接至音频编码器307的输入。音频编码器307可以被配置用于通过使用适当部署的、基于正交的时频变换(诸如改进离散余弦变换(MDCT)或离散傅里叶变换(DFT))来变换信号,从而在频域中对和信号进行编码。然后,将最终经频域变换的信号划分为多个子带,而对每个子带的频率系数分配可以根据心理声学原理来分配。然后可以以每个子带为基础对频率系数进行量化。在本发明的某些实施方式中,可以使用心理声学噪音相关量化水平来量化每个子带的频率系数,从而确定将分配给所述频率系数的最佳比特数量。这些技术通常需要针对每个子带计算心理声学噪音阈值,并且继而为子带内的每个频率系数分配足够的比特,从而量化噪声保持在预先计算的心理声学噪声阈值之下。为了获得对音频信号的进一步压缩,诸如由307表示的那些音频编码器可以在所得比特流上部署游程编码。本领域中已知的由307表示的音频编码器的示例可以包括移动图片专家组高级音频编码(AAC)或MPEG 1层III(MP3)编码器。

和信号音频编码的过程被描绘为图4中的处理步骤403。

然后,音频编码器307可以将与已编码和信号相关联的量化索引向比特流格式器309传递。这被描绘为图4中的处理步骤405。

比特流格式器309可以被布置为从音频编码器307接收已编码和信号输出并且从空间线索分析器305接收已编码通道间线索边信息。比特流格式器309继而可以进一步被布置为对接收的比特流进行格式化以产生比特流输出112。

在本发明的某些实施方式中,比特流格式器234可以对接收的输入进行交织并且可以生成将插入到比特流输出112中的检错码和纠错码。

对比特流进行复用和格式化以便传输或存储的过程被示出为图4中的处理步骤412。

为了进一步帮助理解本发明,在图10中示出了实现本发明实施方式的解码器108的操作。解码器108接收包括已编码和信号和已编码听觉线索信息的已编码信号流112,并且输出重构的音频信号114。

在本发明的实施方式中,重构的音频信号114可以包括多个输出通道N。而输出通道的数量N可以等于或小于到编码器104中的输入通道M的数量。

解码器包括可以接收已编码比特流112的输入1002。输入1002可以连接至比特流解包器或解复用器1001,其可以接收已编码信号并且输出已编码和信号和已编码听觉线索信息作为两个独立的流。比特流解包器可以连接至空间音频线索处理器1003,以便传递已编码听觉线索信息。比特流解包器也可以连接至音频解码器1005以便传递已编码和信号。来自于音频解码器1005的输出可以连接至双耳线索编码合成器1007,此外双耳线索合成器可以从空间音频线索处理器1003接收附加的输入。最终,来自于双耳线索编码(BCC)合成器1007的N个通道输出1010可以连接至解码器的输出。

参考图11中流程图更详细地描述这些组件的操作,图11示出了解码器的操作。

对接收的比特流解包的过程被描绘为图11中的处理步骤1101。

音频解码器1005可以从比特流解包器1001接收音频已编码和信号比特流,并且然后前进到对已编码和信号进行解码,从而获得和信号的时域表示。解码过程通常可以涉及用于音频编码级307的过程的逆,其中音频编码级307作为编码器104的部分。

在本发明的实施方式中,音频解码器1005可以涉及解量化过程,而对与每个子带相关联的量化频率和能量系数重新公式化。音频解码器继而可以寻求重缩放和重排序解量化频率系数,从而重构音频信号的频谱。此外,音频解码级可以合并其他信号处理工具,诸如时间噪声成形,或感知噪声成形,从而改进输出音频信号的感知质量。最终,音频解码过程可以通过采用在编码器处应用的正交单位变换的逆将信号变换回时域,典型示例可以包括改进离散逆变换(IMDCT)和离散傅里叶逆变换(IDFT)。

应该理解,在本发明的实施方式中,音频解码级的输出可以包括解码的和信号,该解码的和信号包括一个或多个通道,其中通道数量E由解码器104处的下混频器303的输出处的(下混频音频)通道数量确定。

使用音频解码器1005的和信号的解码过程示出为图11中的处理步骤1103。

空间音频线索处理器1003可以从比特流解包器1001接收已编码的空间音频线索信息。开始,空间音频线索处理器1003可以执行在编码器处执行的量化和编索引操作的逆,从而获得量化的空间音频线索。逆量化和编索引操作的输出可以提供用于ICTD、ICLD和ICC空间音频线索。

在空间音频线索处理器内对量化的空间音频线索进行解码的过程示出为图11中的处理步骤1102。

空间线索处理器1003继而可以对量化的空间音频线索应用相同的加权技术(如部署在编码器处),从而针对在本质上是一致的声音增强空间声像。可以在将空间音频线索传递到后续处理级之前执行该增强。

如在本发明实施方式中之前所述的,增强可以采取调整ICLD值的形式,从而感知的音频声音远离音频声像的中心而移动,并且调整的水平可以根据从发自多个音频源的音频信号导出的虚拟音频信号的到达方向。

如上所述,应该理解以每个子带为基础产生空间音频线索,并且因此空间线索处理器也可以以每个子带为基础来计算到达方向。

如上所述,对于本发明的实施方式而言,可以以每个子带为基础使用头部的球模型来确定虚拟音频信号的到达方向。

在本发明的其他实施方式中,也可以以每个子带为基础根据正弦波平移律来确定虚拟音频信号的到达方向。

空间处理器1003继而可以针对每个子带评估虚拟声音到达方向可靠性估计值。

在本发明的实施方式中,这可以通过比较从使用头部的球模型内的ICTD值获得到达方向估计值与通过使用正弦平移律内的ICLD值获得的那些结果来完成。如果对虚拟音频信号的到达方向的两个估计值彼此处于预定的误差界限内,那么可以认为估计值是可靠的。

在本发明的实施方式中,两个独立获得的到达方向估计值之间的比较可以以每个子带为基础执行,而每个子带k可以具有对到达方向可靠性的估计值。

如上所述,空间线索处理器1003继而可以确定是否进行空间声像担保增强。在本发明的实施方式中,这可以根据以下标准实现:多通道音频信号可以被确定为是一致的并且可以将虚拟音频信号的到达方向估计值视为是可靠的。

在本发明的实施方式中,音频信号的一致性程度可以根据ICC参数确定。换言之,如果ICC参数的值指示音频信号是相关的,那么信号可以被确定为是一致的。

如果空间线索分析器1003确定进行空间声像担保增强,则加权因子λ可以应用于每个子带k内的ICLD。

如上所述,在本发明的实施方式中,可以通过根据之前公开的以下关系缩放特定子带k的ICLD来实现加权:

log10ΔL~12(k)=λlog10ΔL12(k)

其中λ是可以用于针对特定子带来缩放ICLD参数ΔL12(k)的期望缩放因子,并且表示缩放的ICLD。

如上所述,在本发明的实施方式中,缩放因子λ可以采用上面针对编码器描述的值的范围,而缩放因子越大,则声音可以远离音频声像中心平移得越远。

在本发明的其他实施方式中,缩放因子的量值也可以由基于ICTD的传播方向估计值控制,该传播方向估计值来自于虚拟源,如之前针对编码器公开的那样。

如上所述,对每个子带ICLD的加权通过幅度平移对移动音频声像的中心具有影响。换言之,针对特定子带,虚拟音频源的传播方向可能改变,从而其显示出更多地朝向音频空间的外围移动。

应该理解,在本发明的实施方式中,在解码器处的空间音频线索处理器内针对每个子带应用ICLD参数的缩放技术可以不依赖于在相应编码结构中发生的等同缩放技术。

此外,应该理解,在本发明的实施方式中,对ICLD参数进行缩放从而实现空间音频声像的增强可以在编码器或解码器中独立发生。

根据本发明实施方式的、在解码器处增强空间音频线索的过程被示出为图11中的处理步骤1104。

然后,空间线索处理器1005可以向BCC合成器1007传递解码的和可选地增强的空间音频线索参数的集合。

除了从空间线索处理器1005接收解码的空间音频线索参数之外,BCC合成器1007也可以从音频解码器1003接收时域和信号。BCC合成器1007继而可以前进以通过使用来自于音频解码器1003的和信号和来自于空间音频线索处理器1005的空间音频线索集合来合成多通道输出1010。

图12示出了根据本发明实施方式的BCC合成器1007的框图。输入和信号s(n)可以由滤波器组(FB)1002分解为多个K子带,其中独立子带可以被表示为并且K个子带的集合可以由表示。BCC合成器生成的多输出通道可以通过针对每个输出通道生成K个子带的集合来形成。输出通道子带的每个集合的生成可以采取这样的形式:和信号的每个子带受到与正在针对其生成信号的特定输出通道相关联的ICTD、ICLD和ICC参数的限制。

在本发明的实施方式中,ICTD参数表示通道相对于参考通道的延迟。例如,对应于输出通道i的子带k的延迟di(k)可以根据表示参考通道1和每个子带k的通道i之间延迟的ICTD τ1i(k)来确定。针对子带k的延迟di(k)和输出通道i可以表示为图12中的延迟块1203。

在本发明的实施方式中,ICLD参数表示通道i和其参考通道之间的量值差。例如,对应于输出通道c的子带k的增益ai(k)可以根据表示参考通道1与子带k的通道i之间的量值差的ICLD Δ1c(k)来确定。子带k的增益ai(k)和输出通道i可以表示为图12中的乘法器1204。

在本发明的某些实施方式中,ICC合成的目的在于:在将延迟和缩放因子应用于对应于所讨论通道的特定子带之后降低子带之间的相关性。这可以通过针对每个输出通道i在每个子带k中采用滤波器1205来实现,而滤波器可以被设计具有系数hi(k),从而ICTD和ICLD作为频率的函数而变化,进而每个子带中的平均变化是零。在本发明的这些实施方式中,可以从高斯白噪声源提取此类滤波器的冲激响应,从而确保在子带之间存在尽可能小的相关性。

在本发明的其他实施方式中,当从编码器传输时,输出子带信号展现通道间一致性程度是有优势的。在此类实施方式中,可以调整本地生成的增益,从而在每个子带之间本地生成的通道信号的功率的规范化相关性估计值对应于接收的ICC值。该方法在IEEE出版物Transactions on Speech and audio processing,C.Faller的名称为“Parametric multi-channel audio coding:Synthesis of coherence cues”中得到进一步描述。

最终,针对输出通道(1到C)中的每个生成的K个子带可以通过使用逆滤波器组(如图12中的1206所示)而转换回时域输出通道信号

在本发明的某些实施方式中,输出通道的数量C可以等于到编码器的输入通道数量M,这可以通过部署与每个输入通道相关联的空间音频线索来实现。在本发明的其他实施方式中,输出通道数量C可以小于到编码器104的输入通道数量m。在这些实施方式中,来自于解码器108的输出通道可以使用在编码器处针对每个通道确定的空间音频线索的子集来生成。

在本发明的某些实施方式中,从编码器传输的和信号可以包括多个通道E,其可以是在编码器104处M到E下混频的产品。在本发明的这些实施方式中,比特流解包器1001可以输出E个独立比特流,而每个比特流可以向音频解码器1005的实例呈现以便解码。作为该操作的结果,可以生成包括E个解码时域信号的已解码和信号。然后,将每个已解码时域信号向滤波器组传递,从而将该信号转换为包括多个子带的信号。可以将来自于E经转换时域信号的子带传递到上混频块。上混频块继而可以采用E个子带的分组,每个子带对应于来自于每个输入通道的相同子带索引,并且继而将这E个子带中的每个上混频为C个子带,其中每个被分布到特定输入通道的子带。上混频块通常将针对所有子带重复该过程。上混频过程的机制可以实现为E乘C矩阵,其中矩阵中的数确定了每个输入通道对每个输出通道的相对贡献。来自于上混频块的每个输出通道继而可以受到与特定通道相关的空间音频线索限制。

经由BCC合成器1007生成多通道输出的过程被示出为图11中的处理步骤1106。

然后,来自于BCC合成器1007的多通道输出1010可以形成来自于解码器108的输出音频信号114。

应该理解,在本发明的实施方式中,可以将多通道音频信号变换为多个子带多通道信号,以便应用空间音频线索增强过程,其中每个子带可以包括至少一个频率系数的粒度。

还要理解,在本发明的其他实施方式中,可以将多通道音频信号变换为两个或更多子带多通道信号,以便应用空间音频线索增强过程,其中每个子带可以包括多个频率系数。

上述本发明的实施方式按照独立编码器104和解码器108装置描述了编解码器,从而有助于对所涉及过程的理解,应该理解,可以将装置、结构和操作实现为单个编码器-解码器装置/结构/操作。此外,在本发明的某些实施方式中,编码器和解码器可以共享一些/或所有公共元件。

尽管上面的示例描述了本发明在电子设备610中的编解码器内操作的本发明的实施方式,但是应该理解如下所述本发明可以实现为任何可变速率/自适应速率音频(或语音)编解码器的部分。因此,例如,本发明的实施方式可以在音频编解码器中实现,音频编解码器可以实现固定或有线通信路径上的音频编码。

因此,用户设备可以包括音频编解码器,诸如在上述本发明实施方式中描述的那些。

应该理解,术语“用户设备”旨在涵盖无线用户设备的任何合适类型,诸如移动电话、便携式数据处理设备或便携式web浏览器。

公共陆地移动网络(PLMN)的其他元素也可以包括如上所述的音频编解码器。

通常,本发明的各种实施方式可以以硬件或专用电路、软件、逻辑及其任意组合实现。例如,一些方面可以以硬件实现,而其他方面可以以能够由控制器、微处理器或其他计算设备执行的固件或软件来实现,然而本发明并不限制于此。尽管本发明的不同方面可以被示出和描述为框图、流程图,或使用一些其他图形表示,但是可以理解的是,作为非限制性例子,此处描述的这些框、设备、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其组合来实现。

本发明的实施方式可以由计算机软件、或硬件或软件和硬件的组合来实现,其中计算机软件可由移动设备的数据处理器执行,诸如在处理器实体中。就这一点而言,应该指出,如附图中的逻辑流程的任何框可以表示程序步骤、或互连的逻辑电路、框和功能、或程序步骤和逻辑电路、框和功能的组合。

存储器可以是适于本地技术环境的任何类型并且可以使用任何合适的数据存储技术实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适于本地技术环境的任何类型,并且作为非限制性示例,可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器架构的处理器中的一个或多个。

本发明的实施方式可以实现于各种部件如集成电路模块中。集成电路的设计基本上为高度自动化过程。复杂而强大的软件工具可用于将逻辑级设计转换成准备好在半导体衬底上蚀刻和形成的半导体电路设计。

诸如由加利福尼亚州山景城的Synopsys有限公司、加利福尼亚州圣何塞的Cadence Design公司提供的程序这样的程序使用完善的设计规则以及预存设计模块库在半导体芯片上自动对导体进行布线和对部件进行定位。一旦已经完成用于半导体电路的设计,标准化电子格式(例如Opus、GDSII等)可以发往半导体制作设施或者“fab”进行制作。

前述描述已经通过示例性和非限制性示例的方式提供了对本发明示例性实施方式的全面和信息性描述。然而,在结合附图和所附权利要求书进行阅读时,根据前述描述,对于相关领域的技术人员而言,各种修改和适应变得明显。然而,对本发明教导的所有这些修改和类似修改仍将落入如所附权利要求书限定的本发明的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号