首页> 中国专利> 用于加强可懂度的系统、方法、设备和计算机程序产品

用于加强可懂度的系统、方法、设备和计算机程序产品

摘要

本文中描述的技术包括使用均衡技术来改进再生音频信号(例如,远端语音信号)的可懂度。

著录项

  • 公开/公告号CN102057427A

    专利类型发明专利

  • 公开/公告日2011-05-11

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN200980121001.9

  • 发明设计人 埃里克·维瑟;杰里米·托曼;

    申请日2009-07-17

  • 分类号G10L21/02;

  • 代理机构北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 02:17:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-07-10

    未缴年费专利权终止 IPC(主分类):G10L21/0208 授权公告日:20131016 终止日期:20190717 申请日:20090717

    专利权的终止

  • 2013-10-16

    授权

    授权

  • 2011-06-29

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20090717

    实质审查的生效

  • 2011-05-11

    公开

    公开

说明书

根据35 U.S.C.§119主张优先权

本专利申请案主张2008年7月18日申请的题为“用于实现加强可懂度的系统、方法、设备和计算机程序产品(SYSTEMS,METHODS,APPARATUS,AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY)”的第61/081,987号临时申请案(代理人案号081737P1)和2008年9月3日申请的题为“用于实现加强可懂度的系统、方法、设备和计算机程序产品(SYSTEMS,METHODS,APPARATUS,AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY)”的第61/093,969号临时申请案(代理人案号081737P2)的优先权,所述申请案已转让给本发明的受让人,且在此以引用的方式明确地并入本文中。

技术领域

本发明涉及语音处理。

背景技术

声环境常为有噪声的,使得难以听到所要信息信号。可将噪声定义为干扰所关注的信号或使所关注的信号降级的所有信号的组合。此噪声倾向于屏蔽所要的再生音频信号,例如电话会谈中的远端信号。举例来说,某人可能希望使用话音通信信道与另一人通信。所述信道可(例如)由移动无线手持机或头戴式耳机、对讲机、双向无线电、车载设备或另一通信装置提供。声环境可具有与正由通信装置再生的远端信号竞争的许多不可控制的噪声源。此噪声可造成令人不满意的通信体验。除非可将远端信号与背景噪声区分开,否则可能难以对其进行可靠且有效率的使用。

发明内容

一种根据通用配置的处理再生音频信号的方法包括:对所述再生音频信号进行滤波以获得第一多个时域子带信号;和基于来自所述第一多个时域子带信号的信息计算多个第一子带功率估计。此方法包括:对多通道所感测音频信号执行空间选择性处理操作以产生源信号和噪声参考;对所述噪声参考进行滤波以获得第二多个时域子带信号;和基于来自所述第二多个时域子带信号的信息计算多个第二子带功率估计。此方法包括基于来自所述多个第一子带功率估计的信息且基于来自所述多个第二子带功率估计的信息使所述再生音频信号的至少一个频率子带相对于所述再生音频信号的至少一个其它频率子带提升。

一种根据通用配置的处理再生音频信号的方法包括:对多通道所感测音频信号执行空间选择性处理操作以产生源信号和噪声参考;和计算对所述再生音频信号的多个子带中的每一者的第一子带功率估计。此方法包括:计算对所述噪声参考的多个子带中的每一者的第一噪声子带功率估计;和计算对基于来自所述多通道所感测音频信号的信息的第二噪声参考的多个子带中的每一者的第二噪声子带功率估计。此方法包括针对所述再生音频信号的所述多个子带中的每一者计算基于所述对应的第一和第二噪声子带功率估计中的最大者的第二子带功率估计。此方法包括基于来自所述多个第一子带功率估计的信息且基于来自所述多个第二子带功率估计的信息使所述再生音频信号的至少一个频率子带相对于所述再生音频信号的至少一个其它频率子带提升。

一种根据通用配置的用于处理再生音频信号的设备包括:第一子带信号产生器,其经配置以对所述再生音频信号进行滤波以获得第一多个时域子带信号;和第一子带功率估计计算器,其经配置以基于来自所述第一多个时域子带信号的信息计算多个第一子带功率估计。此设备包括:空间选择性处理滤波器,其经配置以对多通道所感测音频信号执行空间选择性处理操作以产生源信号和噪声参考;和第二子带信号产生器,其经配置以对噪声参考进行滤波以获得第二多个时域子带信号。此设备包括:第二子带功率估计计算器,其经配置以基于来自所述第二多个时域子带信号的信息计算多个第二子带功率估计;和子带滤波器阵列,其经配置以基于来自所述多个第一子带功率估计的信息且基于来自所述多个第二子带功率估计的信息使所述再生音频信号的至少一个频率子带相对于所述再生音频信号的至少一个其它频率子带提升。

一种根据通用配置的计算机可读媒体,其包括在由处理器执行时使所述处理器执行处理再生音频信号的方法的指令。这些指令包括在由处理器执行时使所述处理器进行以下操作的指令:对所述再生音频信号进行滤波以获得第一多个时域子带信号;和基于来自所述第一多个时域子带信号的信息计算多个第一子带功率估计。所述指令还包括在由处理器执行时使所述处理器进行以下操作的指令:对多通道所感测音频信号执行空间选择性处理操作以产生源信号和噪声参考;和对所述噪声参考进行滤波以获得第二多个时域子带信号。所述指令还包括在由处理器执行时使所述处理器进行以下操作的指令:基于来自所述第二多个时域子带信号的信息计算多个第二子带功率估计;和基于来自所述多个第一子带功率估计的信息且基于来自所述多个第二子带功率估计的信息使所述再生音频信号的至少一个频率子带相对于所述再生音频信号的至少一个其它频率子带提升。

一种根据通用配置的用于处理再生音频信号的设备,其包括用于对多通道所感测音频信号执行方向性处理操作以产生源信号和噪声参考的装置。此设备还包括用于均衡所述再生音频信号以产生经均衡的音频信号的装置。在此设备中,所述用于均衡的装置经配置以基于来自所述噪声参考的信息使所述再生音频信号的至少一个频率子带相对于所述再生音频信号的至少一个其它频率子带提升。

附图说明

图1展示清晰度指数曲线。

图2展示在典型窄带电话应用中的再生语音信号的功率谱。

图3展示典型语音功率谱和典型噪声功率谱的实例。

图4A说明自动音量控制对图3的实例的应用。

图4B说明子带均衡对图3的实例的应用。

图5展示根据通用配置的设备A100的框图。

图6A展示在第一操作配置中的双麦克风手持机H100的图。

图6B展示手持机H100的第二操作配置。

图7A展示手持机H100的包括三个麦克风的实施方案H110的图。

图7B展示手持机H110的两个其它视图。

图8展示头戴式耳机的不同操作配置的范围的图。

图9展示免提车载设备的图。

图10A到图10C展示媒体播放装置的实例。

图11展示空间选择性性处理(SSP)滤波器SS10的一个实例的波束图。

图12A展示SSP滤波器SS10的实施方案SS20的框图。

图12B展示设备A100的实施方案A105的框图。

图12C展示SSP滤波器SS10的实施方案SS110的框图。

图12D展示SSP滤波器SS20和SS110的实施方案SS120的框图。

图13展示设备A100的实施方案A110的框图。

图14展示音频预处理器AP10的实施方案AP20的框图。

图15A展示回音消除器EC10的实施方案EC12的框图。

图15B展示回音消除器EC20a的实施方案EC22a的框图。

图16A展示包括设备A110的例子的通信装置D100的框图。

图16B展示通信装置D100的实施方案D200的框图。

图17展示均衡器EQ10的实施方案EQ20的框图。

图18A展示子带信号产生器SG200的框图。

图18B展示子带信号产生器SG300的框图。

图18C展示子带功率估计计算器EC110的框图。

图18D展示子带功率估计计算器EC120的框图。

图19包括指示一组七个巴克标度子带的边缘的一行点。

图20展示子带滤波器阵列SG30的实施方案SG32的框图。

图21A说明通用无限脉冲响应(IIR)滤波器实施方案的转置直接形式II。

图21B说明IIR滤波器的双二阶实施方案的转置直接形式II结构。

图22展示IIR滤波器的双二阶实施方案的一个实例的幅度和相位响应曲线。

图23展示一连串七个双二阶滤波器的幅度和相位响应。

图24A展示子带增益因子计算器GC100的实施方案GC200的框图。

图24B展示子带增益因子计算器GC100的实施方案GC300的框图。

图25A展示伪码列表。

图25B展示图25A的伪码列表的修改。

图26A和图26B分别展示图25A和图25B的伪码列表的修改。

图27展示子带滤波器阵列FA100的包括并联布置的一组带通滤波器的实施方案FA110的框图。

图28A展示子带滤波器阵列FA100的其中带通滤波器串联布置的实施方案FA120的框图。

图28B展示IIR滤波器的双二阶实施方案的另一实例。

图29展示设备A100的实施方案A120的框图。

图30A和图30B分别展示图26A和图26B的伪码列表的修改。

图31A和图31B分别展示图26A和图26B的伪码列表的其它修改。

图32展示设备A100的实施方案A130的框图。

图33展示均衡器EQ20的包括峰值限制器L10的实施方案EQ40的框图。

图34展示设备A100的实施方案A140的框图。

图35A展示描述峰值限制操作的一个实例的伪码列表。

图35B展示图35A的伪码列表的另一型式。

图36展示设备A100的包括分离评估器EV10的实施方案A200的框图。

图37展示设备A200的实施方案A210的框图。

图38展示均衡器EQ100(和均衡器EQ20)的实施方案EQ110的框图。

图39展示均衡器EQ100(和均衡器EQ20)的实施方案EQ120的框图。

图40展示均衡器EQ100(和均衡器EQ20)的实施方案EQ130的框图。

图41A展示子带信号产生器EC210的框图。

图41B展示子带信号产生器EC220的框图。

图42展示均衡器EQ130的实施方案EQ140的框图。

图43A展示均衡器EQ20的实施方案EQ50的框图。

图43B展示均衡器EQ20的实施方案EQ240的框图。

图43C展示设备A100的实施方案A250的框图。

图43D展示均衡器EQ240的实施方案EQ250的框图。

图44展示包括话音活动检测器V20的设备A200的实施方案A220。

图45展示设备A100的实施方案A300的框图。

图46展示设备A300的实施方案A310的框图。

图47展示设备A310的实施方案A320的框图。

图48展示设备A310的实施方案A330的框图。

图49展示设备A100的实施方案A400的框图。

图50展示设计方法M10的流程图。

图51展示经配置用于记录训练数据的消声腔室的实例。

图52A展示自适应滤波器结构FS10的双通道实例的框图。

图52B展示滤波器结构FS10的实施方案FS20的框图。

图53说明无线电话系统。

图54说明经配置以支持包交换数据通信的无线电话系统。

图55展示根据一配置的方法M110的流程图。

图56展示根据一配置的方法M120的流程图。

图57展示根据一配置的方法M210的流程图。

图58展示根据一配置的方法M220的流程图。

图59A展示根据通用配置的方法M300的流程图。

图59B展示任务T820的实施方案T822的流程图。

图60A展示任务T840的实施方案T842的流程图。

图60B展示任务T840的实施方案T844的流程图。

图60C展示任务T820的实施方案T824的流程图。

图60D展示方法M300的实施方案M310的流程图。

图61展示根据一配置的方法M400的流程图。

图62A展示根据通用配置的设备F100的框图。

图62B展示装置F120的实施方案F122的框图。

图63A展示根据通用配置的方法V100的流程图。

图63B展示根据通用配置的设备W100的框图。

图64A展示根据通用配置的方法V200的流程图。

图64B展示根据通用配置的设备W200的框图。

在这些图式中,除非上下文另有规定,否则使用相同标记指示相同结构的例子。

具体实施方式

如PDA和电话等手持机正作为特别好的移动语音通信装置而快速涌现,从而充当对蜂窝式网络和因特网的移动接入的平台。先前在安静的办公室或家庭环境中在桌上型计算机、膝上型计算机和办公室电话上执行的越来越多的功能正在如汽车、街道、咖啡馆或机场等日常情形下执行。此趋势意味着大量的话音通信正发生于用户被其它人包围的环境中,在所述环境中伴随有通常在人群倾向于聚集处所遇到的种类的噪声内容。可用于在这些环境中的话音通信和/或音频再生的其它装置包括有线和/或无线头戴式耳机、音频或视听媒体播放装置(例如,MP3或MP4播放器)和类似便携式或移动器具。

如本文中描述的系统、方法和设备可用以支持所接收的或以其它方式再生的音频信号的增加的可懂度,尤其在有噪声环境中。这些技术可大体应用于任何收发和/或音频再生应用中,尤其是这些应用中的移动例子或其它便携式例子。举例来说,本文中揭示的配置的范围包括驻留于经配置以使用码分多址(CDMA)无线接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员应理解,具有如本文中所描述的特征的方法和设备可驻留于使用由所属领域的技术人员已知的各种各样的技术的各种通信系统中的任一者中,所述通信系统例如是经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)发射信道使用IP话音(VoIP)的系统。

明确期望且于此揭示本文中所揭示的通信装置可适于在为包交换(例如,经布置以根据例如VoIP的协议载运音频发射的有线和/或无线网络)和/或电路交换的网络中使用。还明确期望且于此揭示本文中所揭示的通信装置可适于在窄带编码系统(例如,对约为四或五千赫的音频频率范围进行编码的系统)中使用,和/或在宽带编码系统(例如,对大于五千赫的音频频率进行编码的系统)中使用,宽带编码系统包括完整带宽带编码系统和分割带宽带编码系统。

除非明确受其上下文限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括如在电线、总线或其它传输媒体上表示的存储器位置(或存储器位置的集合)的状态。除非明确受其上下文限制,否则术语“产生”在本文中用以指示其普通意义中的任一者,例如计算或以其它方式产生。除非明确受其上下文限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如计算、评估、平滑和/或从多个值中选择。除非明确受其上下文限制,否则术语“获得”用以指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件的阵列)。在术语“包含”用于本描述和权利要求书中时,其并不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通意义中的任一者,包括以下情况:(i)“至少基于”(例如,“A是至少基于B”),和在特定情况下适当时,(ii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包括“至少响应于”。

除非另有指示,否则对具有特定特征的设备的操作的任何揭示还明确地希望揭示具有相似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示还明确地希望揭示根据相似配置的方法(且反之亦然)。如由其特定上下文所指示,术语“配置”可参考方法、设备和/或系统来使用。除非特定上下文另有指示,否则一般地且可互换地使用术语“方法”、“过程”、“程序”和“技术”。除非特定上下文另有指示,否则还一般地且可互换地使用术语“设备”与“装置”。术语“元件”和“模块”通常用以指示较大配置的一部分。通过引用文档的一部分而进行的任何并入还应理解为并入有所述部分内所提及的术语或变量的定义(其中这些定义出现在文档中的别处)以及所述并入部分中所提及的任何图。

可互换地使用术语“编码器”、“编解码器”和“编码系统”以表示一系统,所述系统包括经配置以接收且编码音频信号的帧(可能在例如感知加权和/或其它滤波操作的一个或一个以上预处理操作后)的至少一个编码器和经配置以产生所述帧的解码表示的对应解码器。此编码器和解码器通常部署于通信链路的相对终端处。为了支持全双工通信,编码器和解码器两者的例子通常部署于此链路的每一端处。

在此描述中,术语“所感测音频信号”表示经由一个或一个以上麦克风接收的信号,且术语“再生音频信号”表示从从存储装置检索和/或经由到另一装置的有线或无线连接接收到的信息来再生的信号。例如通信或播放装置的音频再生装置可经配置以将再生音频信号输出到装置的一个或一个以上扬声器。或者,此装置可经配置以将再生音频信号输出到听筒、其它头戴式耳机或经由电线或无线地耦合到所述装置的外部扬声器。参考用于例如电话的话音通信的收发器应用,所感测音频信号为待由收发器发射的近端信号,且再生音频信号为由收发器接收到(例如,经由无线通信链路)的远端信号。参考例如所记录的音乐或语音(例如,MP3、音频图书、播客)的播放或此内容的流式传输(streaming)的移动音频再生应用,再生音频信号为正被播放或流式传输的音频信号。

再生语音信号的可懂度可相对于信号的频谱特性而变化。举例来说,图1的清晰度指数曲线展示对语音可懂度的相对贡献(relative contribution)随音频频率变化的方式。此曲线图说明在1kHz与4kHz之间的频率分量对于可懂度尤其重要,其中相对重要峰值为约2kHz。

图2展示在典型窄带电话应用中的再生语音信号的功率谱。此图说明此信号的能量随着频率增加超过500Hz而迅速减少。然而,如图1中所展示,高达4kHz的频率对于语音可懂度来说可为非常重要的。因此,可预期人工提升在500Hz与4000Hz之间的频带中的能量以改进此电话应用中的再生语音信号的可懂度。

因为高于4kHz的音频频率对可懂度来说通常不如1kHz到4kHz带来得重要,所以在典型带限通信信道上发射窄带信号通常足以具有可懂的会谈。然而,对于通信信道支持宽带信号的发射的情况,可预期个人语音特点的增加的清晰性和较好的传达。在话音电话情形中,术语“窄带”指从约0-500Hz(例如,0Hz、50Hz、100Hz或200Hz)到约3-5kHz(例如,3500Hz、4000Hz或4500Hz)的频率范围,且术语“宽带”指从约0-500Hz(例如,0Hz、50Hz、100Hz或200Hz)到约7-8kHz(例如,7000Hz、7500Hz或8000Hz)的频率范围。

可能需要通过提升语音信号的选定部分来增加语音可懂度。举例来说,在助听器应用中,可使用动态范围压缩技术,通过提升再生音频信号中的特定频率子带来补偿所述子带中的已知听力损失(hearing loss)。

真实世界充满着多种噪声源(包括单点噪声源),其常侵入到多个声音中造成回响。背景声噪声可包括由一般环境产生的众多噪声信号和由其它人的背景会谈产生的干扰信号,以及从所述信号中的每一者产生的反射和回响。

环境噪声可影响再生音频信号(例如,远端语音信号)的可懂度。对于通信发生于有噪声环境中的应用,可能希望使用语音处理方法来将语音信号与背景噪声区分开且加强其可懂度。此处理在日常通信的许多领域中可能是重要的,因为在真实世界条件下几乎总存在噪声。

自动增益控制(AGC,也被称作自动音量控制或AVC)为可用以增加在有噪声环境中再生的音频信号的可懂度的处理方法。自动增益控制技术可用以将信号的动态范围压缩到有限振幅带中,借此提升信号的具有低功率的区段,并减少具有高功率的区段中的能量。图3展示典型语音功率谱(其中自然语音功率滚降使功率随频率而减小)和典型噪声功率谱(其中功率大体上在至少语音频率范围上恒定)的实例。在此情况下,语音信号的高频分量可具有比噪声信号的对应分量少的能量,此导致对高频语音带的屏蔽。图4A说明AVC对此实例的应用。AVC模块通常经实施以无区别地提升语音信号的所有频带,如此图中所展示。此方法可能需要放大信号的大动态范围以实现高频功率中的适度提升。

通常,背景噪声淹没高频语音内容比淹没低频内容快得多,因为高频带中的语音功率通常远小于低频带中的语音功率。因此,简单地提升信号的总音量将不必要地提升低于1kHz的低频内容,这可能不会显著地有助于可懂度。可能需要替代地调整音频频率子带功率以补偿对再生音频信号的噪声屏蔽效应。举例来说,可能需要与噪声语音子带功率的比率成反比地提升语音功率且在高频子带中不相称地提升语音功率,以补偿语音功率朝着高频率的固有滚降。

可能需要补偿在由环境噪声占主导的频率子带中的低话音功率。举例来说,如图4B中所展示,可能需要对选定子带作用以通过将不同增益提升应用到语音信号的不同子带(例如,根据语音对噪声比)来提升可懂度。与图4A中所展示的AVC实例相比,可预期此均衡提供较清楚且较可懂的信号,同时避免低频分量的不必要的提升。

为了以此方式选择性地提升语音功率,可能需要获得对环境噪声电平的可靠和同时的估计。然而,在实际应用中,可能难以使用传统的单一麦克风或固定的波束成形类型的方法来根据所感测音频信号为环境噪声建模。虽然图3表明噪声电平随频率而恒定,但在通信装置或媒体播放装置的实际应用中,环境噪声电平通常随时间和频率两者显著且迅速地变化。

在典型环境中,声噪声可包括混串音噪声(babble noise)、机场噪声、街道噪声、竞争交谈者的话音和/或来自干扰源(例如,电视机或收音机)的声音。因此,此噪声通常为非固定的,且可具有接近用户自身话音的频谱的平均频谱。根据单一麦克风信号计算出的噪声功率参考信号通常仅为大致固定的噪声估计。此外,此计算通常必然伴有噪声功率估计延迟,使得可仅在显著延迟后执行对子带增益的对应调整。可能需要获得环境噪声的可靠且同时的估计。

图5展示根据通用配置的经配置以处理音频信号的设备A100的框图,所述设备包括空间选择性处理滤波器SS 10和均衡器EQ10。空间选择性处理(SSP)滤波器SS10经配置以对M通道所感测音频信号S10(其中M为大于一的整数)执行空间选择性处理操作以产生源信号S20和噪声参考S30。均衡器EQ10经配置以基于来自噪声参考S30的信息动态地更改再生音频信号S40的频谱特性以产生经均衡的音频信号S50。举例来说,均衡器EQ10可经配置以使用来自噪声参考S30的信息使再生音频信号S40的至少一个频率子带相对于再生音频信号S40的至少一个其它频率子带提升以产生经均衡的音频信号S50。

在设备A100的典型应用中,所感测音频信号S10的每一通道基于来自M个麦克风的阵列中的对应一者的信号。可经实施以包括设备A100的具有此麦克风阵列的实施方案的音频再生装置的实例包括通信装置和音频或视听播放装置。这些通信装置的实例包括(但不限于)电话手持机(例如,蜂窝式电话手持机)、有线和/或无线头戴式耳机(例如,蓝牙头戴式耳机)和免提车载设备。这些音频或视听播放装置的实例包括(但不限于)经配置以再生流式传输或预记录的音频或视听内容的媒体播放器。

所述M个麦克风的阵列可经实施以具有两个麦克风MC10和MC20(例如,立体声阵列)或两个以上麦克风。所述阵列的每一麦克风可具有全向、双向或单向(例如,心形线)的响应。可使用的各种类型的麦克风包括(但不限于)压电式麦克风、动圈式麦克风和驻极体麦克风。

可经建构以包括设备A100的实施方案的音频再生装置的一些实例说明于图6A到图10C中。图6A展示在第一操作配置中的双麦克风手持机H100(例如,翻盖型(clamshell-type)蜂窝式电话手持机)的图。手持机H100包括主要麦克风MC10和次要麦克风MC20。在此实例中,手持机H100还包括主要扬声器SP10和次要扬声器SP20。当手持机H100处于第一操作配置中时,主要扬声器SP10是活动的,且次要扬声器SP20可停用或否则静音。在此配置中可能需要主要麦克风MC10和次要麦克风MC20两者均保持活动以支持用于语音加强和/或噪声减少的空间选择性处理技术。

图6B展示手持机H100的第二操作配置。在此配置中,主要麦克风MC10为关闭的,次要扬声器SP20是活动的,且主要扬声器SP10可停用或否则静音。同样,在此配置中可能需要主要麦克风MC10和次要麦克风MC20两者均保持活动(例如,以支持空间选择性处理技术)。手持机H100可包括一个或一个以上开关或类似致动器,其状态指示装置的当前操作配置。

设备A100可经配置以接收具有两个以上通道的所感测音频信号S10的例子。举例来说,图7A展示手持机H100的包括第三麦克风MC30的实施方案H110的图。图7B展示手持机H110的两个其它视图,其展示各种转换器沿着装置的轴的放置。

具有M个麦克风的听筒或其它头戴式耳机为可包括设备A100的实施方案的另一种类的便携式通信装置。此头戴式耳机可为有线或无线的。举例来说,无线头戴式耳机可经配置以经由与例如蜂窝式电话手持机的电话装置的通信(例如,使用如由蓝牙技术联盟(Bluetooth Special Interest Group)公司,华盛顿州贝尔维尤市)发布的BluetoothTM协议的版本)来支持半双工或全双工电话。图8展示如经安装用于在用户的耳朵65上使用的此头戴式耳机63的不同操作配置的范围66的图。头戴式耳机63包括在使用期间可以不同方式相对于用户的嘴巴64定向的主要(例如,端射式)和次要(例如,侧向式)麦克风的阵列67。此头戴式耳机还通常包括用于再生远端信号的扬声器(未图示),其可设置于头戴式耳机的耳塞处。在另一实例中,包括设备A100的实施方案的手持机经配置以经由有线和/或无线通信链路(例如,使用BluetoothTM协议的版本)从具有M个麦克风的头戴式耳机接收所感测音频信号S10且将经均衡的音频信号S50输出到手持机。

具有M个麦克风的免提车载设备为可包括设备A100的实施方案的另一种类的移动通信装置。图9展示此装置83的其中M个麦克风84布置成线性阵列(在此特定实例中,M等于四)的实例的图。此装置的声环境可包括风噪声、滚动噪声和/或引擎噪声。可包括设备A100的实施方案的通信装置的其它实例包括用于音频或视听会议的通信装置。此会议装置的典型用途可涉及多个所要声源(例如,各参与者的嘴巴)。在此情况下,可能需要麦克风的阵列包括两个以上麦克风。

具有M个麦克风的媒体播放装置为可包括设备A100的实施方案的一种音频或视听播放装置。此装置可经配置用于播放经压缩的音频或视听信息,例如根据标准压缩格式(例如,移动图片专家组(MPEG)-1音频层3(MP3)、MPEG-4第14部分(MP4)、视窗媒体音频/视频(WMA/WMV)(微软公司,华盛顿州雷蒙德市)的版本、高级音频编码(AAC)、国际电信联盟(ITU)-T H.264,或其类似者)编码的文件或流。图10A展示包括设置于装置的正面处的显示屏幕SC10和扬声器SP10的此装置的实例。在此实例中,麦克风MC10和MC20设置于装置的相同面处(例如,在顶面的相对侧上)。图10B展示此装置的其中麦克风设置于装置的相对面处的实例。图10C展示此装置的其中麦克风设置于装置的相邻面处的实例。如图10A到图10C中展示的媒体播放装置还可经设计,使得较长的轴在所希望的使用期间为水平的。

空间选择性处理滤波器SS10经配置以对所感测音频信号S10执行空间选择性处理操作以产生源信号S20和噪声参考S30。举例来说,SSP滤波器SS10可经配置以将所感测音频信号S10的方向性所要分量(例如,用户的话音)与所述信号的一个或一个以上其它分量(例如,方向性干扰分量和/或漫射噪声分量)分离开。在此情况下,SSP滤波器SS10可经配置以集中方向性所要分量的能量,使得源信号S20包括比所感测音频通道S10的每一通道包括的方向性所要分量的能量多的方向性所要分量的能量(也就是说,使得源信号S20包括比所感测音频通道S10的任一个别通道包括的方向性所要分量的能量多的方向性所要分量的能量)。图11展示SSP滤波器SS10的此实例的波束图,其表明滤波器响应相对于麦克风阵列的轴的方向性。空间选择性处理滤波器SS10可用以提供对环境噪声的可靠且同时的估计(归因于与单一麦克风噪声减少系统相比的减少的延迟,也被称作“瞬时”噪声估计)。

空间选择性处理滤波器SS10通常经实施以包括由滤波器系数值的一个或一个以上矩阵表征的固定滤波器FF10。可使用如以下更详细描述的波束成形、盲源分离(BSS)或组合的BSS/波束成形方法来获得这些滤波器系数值。空间选择性处理滤波器SS10还可经实施以包括一个以上的级。图12A展示SSP滤波器SS10的此实施方案SS20的框图,实施方案SS20包括固定滤波器级FF10和自适应滤波器级AF10。在此实例中,固定滤波器级FF10经布置以对所感测音频信号S10的通道S10-1和S10-2进行滤波以产生经滤波的通道S15-1和S15-2,且自适应滤波器级AF10经布置以对通道S15-1和S15-2进行滤波以产生源信号S20和噪声参考S30。在此情况下,可能需要使用固定滤波器级FF10产生用于自适应滤波器级AF10的初始条件,如下更详细地描述。还可能需要对到SSP滤波器SS10的输入执行自适应缩放(例如,以确保IIR固定或自适应滤波器组的稳定性)。

可能需要实施SSP滤波器SS10以包括多个固定滤波器级,其经布置使得可在操作期间选择所述固定滤波器级中的适当一者(例如,根据各种固定滤波器级的相对分离性能)。此结构揭示于(例如)2008年XXX月XX日所申请的题为“用于实现基于多麦克风的语音加强的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT)”的第12/XXX,XXX号美国专利申请案(代理人案号080426)中。

可能需要在SSP滤波器SS10或SS20后跟有噪声减少级,所述噪声减少级经配置以应用噪声参考S30以进一步减少源信号S20中的噪声。图12B展示设备A100的包括此噪声减少级NR10的实施方案A105的框图。噪声减少级NR10可实施为维纳滤波器(Wiener filter),其滤波器系数值基于来自源信号S20和噪声参考S30的信号和噪声功率信息。在此情况下,噪声减少级NR10可经配置以基于来自噪声参考S30的信息估计噪声频谱。或者,噪声减少级NR10可经实施以基于来自噪声参考S30的频谱对源信号S20执行频谱相减操作。或者,可将噪声减少级NR10实施为卡尔曼滤波器(Kalman filter),其中噪声协方差基于来自噪声参考S30的信息。

在经配置以执行方向性处理操作的替代方案或除了经配置以执行方向性处理操作外,SSP滤波器SS10可经配置以执行距离处理操作。图12C和图12D分别展示SSP滤波器SS10的实施方案SS110和SS120的框图,所述实施方案包括经配置以执行此操作的距离处理模块DS10。距离处理模块DS10经配置以产生距离指示信号DI10(作为距离处理操作的结果),所述信号指示多通道所感测音频信号S10的分量的源相对于麦克风阵列的距离。距离处理模块DS10通常经配置以产生距离指示信号DI10作为两个状态分别指示近场源和远场源的二元值指示信号,但产生连续和/或多值信号的配置也是可能的。

在一个实例中,距离处理模块DS10经配置使得距离指示信号DI10的状态基于麦克风信号的功率梯度之间的类似程度。距离处理模块DS10的此实施方案可经配置以根据(A)麦克风信号的功率梯度之间的差与(B)阈值之间的关系来产生距离指示信号DI10。可将一个此关系表达为

其中θ表示距离指示信号DI10的当前状态,▽p表示主要麦克风信号(例如,麦克风信号DM10-1)的功率梯度的当前值,▽s表示次要麦克风信号(例如,麦克风信号DM10-2)的功率梯度的当前值,且Td表示阈值,其可为固定的或自适应的(例如,基于所述麦克风信号中的一者或一者以上的当前电平)。在此特定实例中,距离指示信号DI10的状态1指示远场源且状态0指示近场源,但当然,在需要时可使用相反实施方案(即,使得状态1指示近场源且状态0指示远场源)。

可能需要实施距离处理模块DS10以将功率梯度的值计算为在连续帧上的对应麦克风信号的能量之间的差。在一个此实例中,距离处理模块DS10经配置以将功率梯度▽p和▽s中的每一者的当前值计算为对应麦克风信号的当前帧的值的平方的和与麦克风信号的先前帧的值的平方的和之间的差。在另一此实例中,距离处理模块DS10经配置以将功率梯度▽p和▽s中的每一者的当前值计算为对应麦克风信号的当前帧的值的量值的和与麦克风信号的先前帧的值的量值的和之间的差。

另外或在替代方案中,距离处理模块DS10可经配置使得距离指示信号DI10的状态基于在一系列频率上主要麦克风信号的相位与次要麦克风信号的相位之间的相关程度。距离处理模块DS10的此实施方案可经配置以根据(A)麦克风信号的相位向量之间的相关性与(B)阈值之间的关系产生距离指示信号DI10。可将一个此关系表达为

其中μ表示距离指示信号DI10的当前状态,表示主要麦克风信号(例如,麦克风信号DM10-1)的当前相位向量,表示次要麦克风信号(例如,麦克风信号DM10-2)的当前相位向量,且Tc表示阈值,其可为固定的或自适应的(例如,基于麦克风信号中的一者或一者以上的当前电平)。可能需要实施距离处理模块DS10以计算相位向量,使得相位向量中的每一元素表示在对应频率下或在对应频率子带上对应麦克风信号的当前相位。在此特定实例中,距离指示信号DI10的状态1指示远场源且状态0指示近场源,但当然,在需要时可使用相反实施方案。

可能需要配置距离处理模块DS10,使得距离指示信号DI10的状态基于如上揭示的功率梯度和相位相关性准则两者。在此情况下,距离处理模块DS10可经配置以将距离指示信号DI10的状态计算为θ与μ的当前值的组合(例如,逻辑OR或逻辑AND)。或者,距离处理模块DS10可经配置以根据这些准则中的一者(即,功率梯度类似性或相位相关性)计算距离指示信号DI10的状态,使得对应阈值的值基于另一准则的当前值。

如上所指出,可能需要通过对两个或两个以上麦克风信号执行一个或一个以上预处理操作来获得所感测音频信号S10。所述麦克风信号通常经取样,可经预处理(例如,经滤波用于回音消除、噪声减少、频谱整形等),且可甚至经预分离(例如,通过如本文中描述的另一SSP滤波器或自适应滤波器)以获得所感测音频信号S10。对于例如语音的声应用,典型的取样速率的范围为从8kHz到16kHz。

图13展示设备A100的实施方案A110的框图,实施方案A110包括音频预处理器AP10,音频预处理器AP10经配置以使M个模拟麦克风信号SM10-1到SM10-M数字化以产生所感测音频信号S10的M个通道S10-1到S10-M。在此特定实例中,音频预处理器AP10经配置以使一对模拟麦克风信号SM10-1、SM10-2数字化以产生所感测音频信号S10的一对通道S10-1、S10-2。音频预处理器AP10还可经配置以在模拟和/或数字域中对麦克风信号执行其它预处理操作,例如频谱整形和/或回音消除。举例来说,音频预处理器AP10可经配置以在模拟和数字域中的任一者中将一个或一个以上增益因子应用于麦克风信号中的一者或一者以上中的每一者。这些增益因子的值可经选择或另以其它方式计算,使得在频率响应和/或增益方面使麦克风彼此匹配。以下更详细地描述可经执行以评估这些增益因子的校准程序。

图14展示音频预处理器AP10的实施方案AP20的框图,实施方案AP20包括第一模—数转换器(ADC)C10a和第二ADC C10b。第一ADC C10a经配置以使麦克风信号SM10-1数字化以获得麦克风信号DM10-1,且第二ADC C10b经配置以使麦克风信号SM10-2数字化以获得麦克风信号DM10-2。可由ADC C10a和ADC C10b应用的典型取样速率包括8kHz和16kHz。在此实例中,音频预处理器AP20还包括一对高通滤波器F10a和F10b,其经配置以分别对麦克风信号SM10-1和SM10-2执行模拟频谱整形操作。

音频预处理器AP20还包括回音消除器EC10,回音消除器EC10经配置以基于来自经均衡的音频信号S50的信息从麦克风信号消除回音。回音消除器EC10可经布置以从时域缓冲器接收经均衡的音频信号S50。在一个此实例中,时域缓冲器具有十毫秒的长度(例如,在八kHz的取样速率下八十个样本,或在十六kHz的取样速率下160个样本)。在包括设备A110的通信装置在某些模式(例如,扬声器电话模式和/或即按即说(PTT)模式)中的操作期间,可能需要暂停回音消除操作(例如,配置回音消除器EC10以使麦克风信号未改变地通过)。

图15A展示回音消除器EC10的实施方案EC12的框图,实施方案EC12包括单通道回音消除器的两个例子EC20a和EC20b。在此实例中,单通道回音消除器的每一例子经配置以处理麦克风信号DM10-1、DM10-2中的对应一者以产生所感测音频信号S10的对应通道S10-1、S10-2。单通道回音消除器的各种例子可各自经根据当前已知或仍待开发的任一回音消除技术(例如,最小均方技术和/或自适应相关技术)来配置。举例来说,回音消除论述于以上引用的第12/197,924号美国专利申请案的段落[00139]-[00141](开始于“设备(An apparatus)”且结束于“B500”)处,为了限于回音消除问题(包括(但不限于)设计、实施方案和/或与设备的其它元件的集成)的揭示的目的,所述段落在此以引用的方式并入。

图15B展示回音消除器EC20a的实施方案EC22a的框图,实施方案EC22a包括经布置以对经均衡的音频信号S50进行滤波的滤波器CE10和经布置以将经滤波信号与正被处理的麦克风信号组合的加法器CE20。滤波器CE10的滤波器系数值可为固定的。或者,在设备A110的操作期间可调适滤波器CE10的滤波器系数值中的至少一者(且可能所有)。如以下更详细地描述,可能需要使用由通信装置的参考例子在其再生音频信号时记录的一组多通道信号来训练滤波器CE10的参考例子。

回音消除器EC20b可经实施为回音消除器EC22a的另一例子,其经配置以处理麦克风信号DM10-2以产生所感测音频通道S40-2。或者,回音消除器EC20a和EC20b可经实施为单通道回音消除器的相同例子(例如,回音消除器EC22a),其经配置以在不同时间处理相应麦克风信号中的每一者。

设备A100的实施方案可包括于收发器(例如,蜂窝式电话或无线头戴式耳机)内。图16A展示包括设备A110的例子的此通信装置D100的框图。装置D100包括耦合到设备A110的接收器R10,接收器R10经配置以接收射频(RF)通信信号且解码和再生在RF信号内经编码的音频信号作为音频输入信号S100,音频输入信号S100在此实例中由设备A110接收作为再生音频信号S40。装置D100还包括耦合到设备A110的发射器X10,发射器X10经配置以对源信号S20进行编码且发射描述所述经编码音频信号的RF通信信号。装置D110还包括音频输出级O10,音频输出级O10经配置以处理经均衡的音频信号S50(例如,将经均衡的音频信号S50转换成模拟信号)且将经处理音频信号输出到扬声器SP10。在此实例中,音频输出级O10经配置以根据音量控制信号VS10的电平(所述电平在用户控制下可变化)控制经处理音频信号的音量。

可能需要设备A110的实施方案驻留于通信装置内,使得装置的其它元件(例如,移动台调制解调器(MSM)芯片或芯片组的基带部分)经布置以对所感测音频信号S10执行其它音频处理操作。在设计待包括于设备A110的实施方案中的回音消除器(例如,回音消除器EC10)的过程中,可能需要考虑此回音消除器与通信装置的任一其它回音消除器(例如,MSM芯片或芯片组的回音消除模块)之间的可能协同效应。

图16B展示通信装置D100的实施方案D200的框图。装置D200包括芯片或芯片组CS10(例如,MSM芯片组),芯片或芯片组CS10包括接收器R10和发射器X10的元件且可包括一个或一个以上处理器。装置D200经配置以经由天线C30接收和发射RF通信信号。在到天线C30的路径中,装置D200还可包括双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入且经由显示器C20显示信息。在此实例中,装置D200还包括一个或一个以上天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如,BluetoothTM)头戴式耳机的外部装置的短程通信。在另一实例中,此通信装置自身为蓝牙头戴式耳机且缺少小键盘C10、显示器C20和天线C30。

均衡器EQ10可经布置以从时域缓冲器接收噪声参考S30。或者或另外,均衡器EQ10可经布置以从时域缓冲器接收再生音频信号S40。在一个实例中,每一时域缓冲器具有十毫秒的长度(例如,在八kHz的取样速率下八十个样本,或在十六kHz的取样速率下160个样本)。

图17展示均衡器EQ10的实施方案EQ20的框图,实施方案EQ20包括第一子带信号产生器SG100a和第二子带信号产生器SG100b。第一子带信号产生器SG100a经配置以基于来自再生音频信号S40的信息产生一组第一子带信号,且第二子带信号产生器SG100b经配置以基于来自噪声参考S30的信息产生一组第二子带信号。均衡器EQ20还包括第一子带功率估计计算器EC100a和第二子带功率估计计算器EC100a。第一子带功率估计计算器EC100a经配置以产生一组第一子带功率估计(每一者基于来自所述第一子带信号中的对应一者的信息),且第二子带功率估计计算器EC100b经配置以产生一组第二子带功率估计(每一者基于来自所述第二子带信号中的对应一者的信息)。均衡器EQ20还包括:子带增益因子计算器GC100,其经配置以基于对应第一子带功率估计与对应第二子带功率估计之间的关系计算用于所述子带中的每一者的增益因子;和子带滤波器阵列FA100,其经配置以根据所述子带增益因子对再生音频信号S40进行滤波以产生经均衡的音频信号S50。

明确地重申,在应用均衡器EQ20(和如本文中揭示的均衡器EQ10或EQ20的其它实施方案中的任一者)的过程中,可能需要从已经历回音消除操作(例如,如上参考音频预处理器AP20和回音消除器EC10描述)的麦克风信号获得噪声参考S30。如果声回音保持于噪声参考S30中(或保持于可由如下揭示的均衡器EQ10的其它实施方案使用的其它噪声参考中的任一者中),则可在经均衡的音频信号S50与子带增益因子计算路径之间建立正反馈环路,使得经均衡的音频信号S50将远端扬声器驱动地越大声,则均衡器EQ10将越倾向于增加子带增益因子。

第一子带信号产生器SG100a和第二子带信号产生器SG100b中的任一者或两者可经实施为如图18A中展示的子带信号产生器SG200的例子。子带信号产生器SG200经配置以基于来自音频信号A(即,在适当时再生音频信号S40或噪声参考S30)的信息产生一组q个子带信号S(i),其中1≤i≤q且q为子带的所要数目。子带信号产生器SG200包括变换模块SG10,变换模块SG10经配置以对时域音频信号A执行变换操作以产生经变换的信号T。变换模块SG10可经配置以对音频信号A执行频域变换操作(例如,经由快速傅立叶(Fourier)变换或FFT)以产生经频域变换的信号。变换模块SG10的其它实施方案可经配置以对音频信号A执行不同变换操作,例如小波变换运算或离散余弦变换(DCT)运算。可根据所要均一分辨率来执行变换操作(例如,32点、64点、128点、256点或512点FFT运算)。

子带信号产生器SG200还包括频段化模块SG20,频段化模块SG20经配置以通过根据所要子带划分方案将经变换的信号T分成一组q个频段来将所述组子带信号S(i)产生为所述组频段。频段化模块SG20可经配置以应用均一子带划分方案。在均一子带划分方案中,每一频段具有大体上相同宽度(例如,在约百分之十内)。或者,可能需要频段化模块SG20应用非均一的子带划分方案,因为心理声学研究已表明人类听力在频域中对非均一分辨率起作用。非均一子带划分方案的实例包括先验方案(例如,基于巴克标度的方案)或对数方案(例如,基于梅尔(Mel)标度的方案)。图19中的点的行指示对应于频率20Hz、300Hz、630Hz、1080Hz、1720Hz、2700Hz、4400Hz和7700Hz的一组七个巴克标度子带的边缘。子带的此布置可用于具有16kHz的取样速率的宽带语音处理系统中。在此划分方案的其它实例中,省略较低子带以获得六子带布置和/或使高频限制从7700Hz增加到8000Hz。频段化模块SG20通常经实施以将经变换的信号T划分成一组非重叠频段,但频段化模块SG20也可经实施使得所述频段中的一者或一者以上(可能所有)与至少一个相邻频段重叠。

或者或另外,第一子带信号产生器SG100a和第二子带信号产生器SG100b中的任一者或两者可经实施为如图18B中展示的子带信号产生器SG300的例子。子带信号产生器SG300经配置以基于来自音频信号A(即,在适当时再生音频信号S40或噪声参考S30)的信息产生一组q个子带信号S(i),其中1≤i≤q且q为子带的所要数目。在此情况下,子带信号产生器SG300包括子带滤波器阵列SG30,子带滤波器阵列SG30经配置以通过使音频信号A的对应子带的增益相对于音频信号A的其它子带改变(即,通过提升通带和/或使阻带衰减)来产生子带信号S(1)到S(q)中的每一者。

子带滤波器阵列SG30可经实施以包括经配置以并行地产生不同子带信号的两个或两个以上分量滤波器。图20展示子带滤波器阵列SG30的此实施方案SG32的框图,实施方案SG32包括并联布置以执行音频信号A的子带分解的q个带通滤波器F10-1到F10-q的阵列。滤波器F10-1到F10-q中的每一者经配置以对音频信号A进行滤波以产生q个子带信号S(1)到S(q)中的对应一者。

滤波器F10-1到F10-q中的每一者可经实施以具有有限脉冲响应(FIR)或无限脉冲响应(IIR)。举例来说,滤波器F10-1到F10-q中的一者或一者以上(可能所有)中的每一者可经实施为二阶IIR区段或“双二阶滤波器”。可将双二阶滤波器的转移函数表达为

>H(z)=b0+b1z-1+b2z-21+a1z-1+a2z-2.---(1)>

可能需要使用转置直接形式II来实施每一双二阶滤波器,尤其对于均衡器EQ10的浮点实施方案来说。图21A说明用于滤波器F10-1到F10-q中的一者的通用IIR滤波器实施方案的转置直接形式II,且图21B说明用于滤波器F10-1到F10-q中的一者F10-i的双二阶实施方案的转置直接形式II结构。图22展示滤波器F10-1到F10-q中的一者的双二阶实施方案的一个实例的幅度和相位响应曲线。

可能需要滤波器F10-1到F10-q执行音频信号A的非均一子带分解(例如,使得滤波器通带中的两者或两者以上具有不同宽度)而非均一子带分解(例如,使得滤波器通带具有相等宽度)。如上所指出,非均一子带划分方案的实例包括先验方案(例如,基于巴克标度的方案)或对数方案(例如,基于梅尔标度的方案)。一个此划分方案由图19中的点说明,所述点对应于频率20Hz、300Hz、630Hz、1080Hz、1720Hz、2700Hz、4400Hz和7700Hz,且指示宽度随频率增加的一组七个巴克标度子带的边缘。子带的此布置可用于宽带语音处理系统(例如,具有16kHz的取样速率的装置)中。在此划分方案的其它实例中,省略最低子带以获得六子带方案和/或使最高子带的上限从7700Hz增加到8000Hz。

在窄带语音处理系统(例如,具有8kHz的取样速率的装置)中,可能需要使用较少子带的布置。此子带划分方案的一个实例为四带准巴克方案300-510Hz、510-920Hz、920-1480Hz和1480-4000Hz。因为低子带能量估计和/或为了处理用双二阶滤波器为最高子带建模的过程中的困难,所以使用宽的高频带(例如,如在此实例中)可能合乎需要。

滤波器F10-1到F10-q中的每一者经配置以在对应子带上提供增益提升(即,信号幅度的增加)和/或在其它子带上提供衰减(即,信号幅度的减小)。所述滤波器中的每一者可经配置以将其相应通带提升约相同的量(例如,提升三dB或提升六dB)。或者,所述滤波器中的每一者可经配置以将其相应阻带衰减约相同的量(例如,衰减三dB或衰减六dB)。图23展示可用以实施一组滤波器F10-1到F10-q(其中q等于七)的一连串七个双二阶滤波器的幅度和相位响应。在此实例中,每一滤波器经配置以将其相应子带提升约相同的量。或者,可能需要配置滤波器F10-1到F10-q中的一者或一者以上以提供比所述滤波器中的另一者多的提升(或衰减)。举例来说,可能需要配置第一子带信号产生器SG100a和第二子带信号产生器SG100b中的一者中的子带滤波器阵列SG30的滤波器F10-1到F10-q中的每一者以将相同增益提升提供到其相应子带(或将衰减提供到其它子带),且配置第一子带信号产生器SG100a和第二子带信号产生器SG100b中的另一者中的子带滤波器阵列SG30的滤波器F10-1到F10-q中的至少一些以根据(例如)所要心理声学加权函数提供彼此不同的增益提升(或衰减)。

图20展示滤波器F10-1到F10-q并行地产生子带信号S(1)到S(q)的布置。所属领域的技术人员应理解,这些滤波器中的一者或一者以上中的每一者还可经实施以连续地产生子带信号中的两者或两者以上。举例来说,子带滤波器阵列SG30可经实施以包括滤波器结构(例如,双二阶滤波器),所述滤波器结构在一个时间用第一组滤波器系数值配置以对音频信号A进行滤波从而产生子带信号S(1)到S(q)中的一者,且在随后时间用第二组滤波器系数值配置以对音频信号A进行滤波从而产生子带信号S(1)到S(q)中的不同一者。在此种情况下,可使用少于q个带通滤波器来实施子带滤波器阵列SG30。举例来说,可能用单一滤波器结构来实施子带滤波器阵列SG30,所述单一滤波器结构以使得根据q组滤波器系数值中的相应一者产生q个子带信号S(1)到S(q)中的每一者的方式来连续地重新配置。

可将第一子带功率估计计算器EC100a和第二子带功率估计计算器EC100b中的每一者实施为如图18C中展示的子带功率估计计算器EC110的例子。子带功率估计计算器EC110包括求和器EC10,求和器EC10经配置以接收所述组子带信号S(i),且产生一组对应的q个子带功率估计E(i),其中1≤i≤q。求和器EC10通常经配置以计算音频信号A的连续样本的每一块(也被称作“帧”)的一组q个子带功率估计。典型的帧长度范围为从约五或十毫秒到约四十或五十毫秒,且帧可为重叠或非重叠的。由一个操作处理的帧还可为由不同操作处理的较大帧的区段(即,“子帧”)。在一个特定实例中,将音频信号A划分为10毫秒非重叠帧的序列,且求和器EC10经配置以计算音频信号A的每一帧的一组q个子带功率估计。

在一个实例中,求和器EC10经配置以将所述子带功率估计E(i)中的每一者计算为子带信号S(i)中的对应一者的值的平方的和。求和器EC10的此实施方案可经配置以根据例如以下的表达式来计算音频信号A的每一帧的一组q个子带功率估计:

E(i,k)=∑j∈kS(i,j)2,1≤i≤q,(2)

其中E(i,k)表示子带i和帧k的子带功率估计,且S(i,j)表示第i个子带信号的第j个样本。

在另一实例中,求和器EC10经配置以将所述子带功率估计E(i)中的每一者计算为子带信号S(i)中的对应一者的值的量值的和。求和器EC10的此实施方案可经配置以根据例如以下的表达式来计算音频信号的每一帧的一组q个子带功率估计:

E(i,k)=∑j∈k|S(i,j)|,1≤i≤q。 (3)

可能需要实施求和器EC10以通过音频信号A的对应和来使每一子带和正规化。在一个此实例中,求和器EC10经配置以将所述子带功率估计E(i)中的每一者计算为被音频信号A的值的平方的和除的子带信号S(i)中的对应一者的值的平方的和。求和器EC10的此实施方案可经配置以根据例如以下的表达式来计算音频信号的每一帧的一组q个子带功率估计:

>E(i,k)=ΣjkS(i,j)2ΣjkA(j)2,1iq,---(4a)>

其中A(j)表示音频信号A的第j个样本。在另一此实例中,求和器EC10经配置以将每一子带功率估计计算为子带信号S(i)中的对应一者的值的量值的和除以音频信号A的值的量值的和。求和器EC10的此实施方案可经配置以根据例如以下的表达式来计算音频信号的每一帧的一组q个子带功率估计:

>E(i,k)=Σjk|S(i,j)|Σjk|A(j)|,1iq.--(4b)>

或者,对于所述组子带信号S(i)是由频段化模块SG20的实施方案产生的情况,可能需要求和器EC10通过子带信号S(i)中的对应一者中的样本的总数来使每一子带和正规化。对于使用除法运算来使每一子带和正规化的情况(例如,如在以上表达式(4a)和(4b)中),可能需要将小的正值ρ添加到分母以避免被零除的可能性。对于所有子带,值ρ可相同,或可将不同的ρ值用于子带中的两者或两者以上(可能所有)中的每一者(例如,用于调谐和/或加权目的)。ρ的值可为固定的或可随时间(例如,从一个帧到下一个帧)而调适。

或者,可能需要实施求和器EC10以通过减掉音频信号A的对应和来使每一子带和正规化。在一个此实例中,求和器EC10经配置以将子带功率估计E(i)中的每一者计算为子带信号S(i)中的对应一者的值的平方的和与音频信号A的值的平方的和之间的差。求和器EC10的此实施方案可经配置以根据例如以下的表达式来计算音频信号的每一帧的一组q个子带功率估计:

E(i,k)=∑j∈kS(i,j)2-∑j∈kA(j)2,1≤i≤q。(5a)

在另一此实例中,求和器EC10经配置以将子带功率估计E(i)中的每一者计算为子带信号S(i)中的对应一者的值的量值的和与音频信号A的值的量值的和之间的差。求和器EC10的此实施方案可经配置以根据例如以下的表达式来计算音频信号的每一帧的一组q个子带功率估计:

E(i,k)=∑j∈k|S(i,j)|-∑j∈k|A(j)|,1≤i≤q。(5b)

可能需要(例如)均衡器EQ20的实施方案包括子带滤波器阵列SG30的提升实施方案和求和器EC10的经配置以根据表达式(5b)来计算一组q个子带功率估计的实施方案。

第一子带功率估计计算器EC100a和第二子带功率估计计算器EC100b中的任一者或两者可经配置以对子带功率估计执行时间平滑操作。举例来说,可将第一子带功率估计计算器EC100a和第二子带功率估计计算器EC100b中的任一者或两者实施为如图18D中展示的子带功率估计计算器EC120的例子。子带功率估计计算器EC120包括平滑器EC20,平滑器EC20经配置以使由求和器EC10计算的和随时间而平滑以产生子带功率估计E(i)。平滑器EC20可经配置以将子带功率估计E(i)计算为和的移动平均值。平滑器EC20的此实施方案可经配置以根据例如以下中的一者的线性平滑表达式来计算音频信号A的每一帧的一组q个子带功率估计E(i):

E(i,k)←αE(i,k-1)+(1-α)E(i,k),    (6)

E(i,k)←αE(i,k-1)+(1-α)|E(i,k)|,  (7)

>E(i,k)αE(i,k-1)+(1-α)E(i,k)2,---(8)>

其中1≤i≤q,其中平滑因子α为零(无平滑)与0.9(最大平滑)之间的值(例如,0.3、0.5或0.7)。可能需要平滑器EC20针对所有q个子带使用平滑因子α的相同值。或者,可能需要平滑器EC20针对q个子带中的两者或两者以上(可能所有)中的每一者使用平滑因子α的不同值。平滑因子α的值可为固定的或可随时间(例如,从一个帧到下一个帧)而调适。

子带功率估计计算器EC120的一个特定实例经配置以根据以上表达式(3)来计算q个子带和且根据以上表达式(7)来计算q个对应子带功率估计。子带功率估计计算器EC120的另一特定实例经配置以根据以上表达式(5b)来计算q个子带和且根据以上表达式(7)来计算q个对应子带功率估计。然而,应注意,在此个别明确地揭示表达式(2)到(5b)中的一者与表达式(6)到(8)中的一者的所有十八个可能组合。平滑器EC20的替代实施方案可经配置以对由求和器EC10计算的和执行非线性平滑操作。

子带增益因子计算器GC100经配置以基于对应第一子带功率估计和对应第二子带功率估计来针对q个子带中的每一者计算一组增益因子G(i)中的对应一者,其中1≤i≤q。图24A展示子带增益因子计算器GC100的实施方案GC200的框图,实施方案GC200经配置以将每一增益因子G(i)计算为对应信号子带功率估计与噪声子带功率估计的比率。子带增益因子计算器GC200包括比率计算器GC10,比率计算器GC10可经配置以根据例如以下的表达式来计算音频信号的每一帧的一组q个功率比率中的每一者:

>G(i,k)=EN(i,k)EA(i,k),1iq,---(9)>

其中EN(i,k)表示子带i和帧k的如由第二子带功率估计计算器EC100b产生的子带功率估计(即,基于噪声参考S20),且EA(i,k)表示子带i和帧k的如由第一子带功率估计计算器EC100a产生的子带功率估计(即,基于再生音频信号S10)。

在另一实例中,比率计算器GC10经配置以根据例如以下的表达式来计算音频信号的每一帧的所述组q个子带功率估计比率中的至少一者(且可能所有):

>G(i,k)=EN(i,k)EA(i,k)+ϵ,1iq,---(10)>

其中ε为具有小的正值(即,小于EA(i,k)的预期值的值)的调谐参数。可能需要比率计算器GC10的此实施方案针对所有子带使用调谐参数ε的相同值。或者,可能需要比率计算器GC10的此实施方案针对所述子带中的两者或两者以上(可能所有)中的每一者使用调谐参数ε的不同值。调谐参数ε的值可为固定的或可随时间(例如,从一个帧到下一个帧)而调适。

子带增益因子计算器GC100还可经配置以对q个功率比率中的一者或一者以上(可能所有)中的每一者执行平滑操作。图24B展示子带增益因子计算器GC100的此实施方案GC300的框图,实施方案GC300包括经配置以对由比率计算器GC10产生的q个功率比率中的一者或一者以上(可能所有)中的每一者执行时间平滑操作的平滑器GC20。在一个此实例中,平滑器GC20经配置以根据例如以下的表达式对q个功率比率中的每一者执行线性平滑操作:

G(i,k)←βG(i,k-1)+(1-β)G(i,k),1≤i≤q,(11)

其中β为平滑因子。

可能需要平滑器GC20取决于子带增益因子的当前值与先前值之间的关系来在平滑因子β的两个或两个以上值中选择一个值。举例来说,可能需要平滑器GC20通过在噪声的程度正增加时允许增益因子值较快速地改变和/或通过在噪声的程度正减小时抑制增益因子值的迅速改变来执行差分时间平滑操作。此配置可有助于抵制高声噪声甚至在噪声已结束后仍继续屏蔽所要声音的心理声学时间屏蔽效应。因此,与在增益因子的当前值大于先前值时的平滑因子β的值相比,可能需要平滑因子β的值在增益因子的当前值小于先前值时较大。在一个此实例中,平滑器GC20经配置以根据例如以下的表达式对q个功率比率中的每一者执行线性平滑操作:

其中1≤i≤q,其中βatt表示平滑因子β的起始值(attack value),βdec表示平滑因子β的衰减值(decay value),且βatt<βdec。平滑器EC20的另一实施方案经配置以根据例如下列中的一者的线性平滑表达式来对q个功率比率中的每一者执行线性平滑操作:

图25A展示描述根据以上表达式(10)和(13)的此平滑的一个实例的伪码列表,可针对在帧k处的每一子带i执行此平滑。在此列表中,将子带增益因子的当前值初始化为噪声功率对音频功率的比率。如果此比率小于子带增益因子的先前值,则通过按具有小于一的值的比例因子beta_dec按比例减小先前值来计算子带增益因子的当前值。否则,使用具有在零(无平滑)与一(最大平滑,无更新)之间的值的平均因子beta_att,将子带增益因子的当前值计算为比率与子带增益因子的先前值的平均值。

平滑器GC20的另一实施方案可经配置以在噪声程度正减小时延迟对q个增益因子中的一者或一者以上(可能所有)的更新。图25B展示图25A的伪码列表的修改,其可用以实施此差分时间平滑操作。此列表包括释放延迟逻辑(hangover logic),其根据由值hangover_max(i)指定的时间间隔在比率衰减分布期间延迟更新。可针对每一子带使用hangover_max的相同值,或可针对不同子带使用hangover_max的不同值。

如上所述的子带增益因子计算器GC100的实施方案可经进一步配置以将上界和/或下界应用到子带增益因子中的一者或一者以上(可能所有)。图26A和图26B分别展示图25A和图25B的伪码列表的修改,其可用以将此上界UB和下界LB应用到子带增益因子值中的每一者。这些界限中的每一者的值可为固定的。或者,可根据(例如)用于均衡器EQ10的所要余量(headroom)和/或经均衡的音频信号S50的当前音量(例如,音量控制信号VS10的当前值)来调适这些界限中的任一者或两者的值。或者或另外,这些界限中的任一者或两者的值可基于来自再生音频信号S40的信息(例如,再生音频信号S40的当前电平)。

可能需要配置均衡器EQ10以补偿可由子带的重叠引起的过度提升。举例来说,子带增益因子计算器GC100可经配置以减小中频子带增益因子中的一者或一者以上的值(例如,包括频率fs/4的子带,其中fs表示再生音频信号S40的取样频率)。子带增益因子计算器GC100的此实施方案可经配置以通过使子带增益因子的当前值乘以具有小于一的值的比例因子来执行减小。子带增益因子计算器GC100的此实施方案可经配置以针对待按比例减小的每一子带增益因子使用相同比例因子,或替代地,针对待按比例减小的每一子带增益因子使用不同比例因子(例如,基于对应子带与一个或一个以上相邻子带的重叠的程度)。

另外或在替代方案中,可能需要配置均衡器EQ10以增加高频子带中的一者或一者以上的提升的程度。举例来说,可能需要配置子带增益因子计算器GC100以确保再生音频信号S40的一个或一个以上高频子带(例如,最高子带)的放大不低于中频子带(例如,包括频率fs/4的子带,其中fs表示再生音频信号S40的取样频率)的放大。在一个此实例中,子带增益因子计算器GC100经配置以通过使中频子带的子带增益因子的当前值乘以大于一的比例因子来计算高频子带的子带增益因子的当前值。在另一此实例中,子带增益因子计算器GC100经配置以将高频子带的子带增益因子的当前值计算为以下各者中的最大者:(A)根据以上揭示的技术中的任一者根据所述子带的功率比率计算的当前增益因子值和(B)通过使中频子带的子带增益因子的当前值乘以大于一的比例因子而获得的值。

子带滤波器阵列FA100经配置以将子带增益因子中的每一者应用到再生音频信号S40的对应子带以产生经均衡的音频信号S50。子带滤波器阵列FA100可经实施以包括带通滤波器阵列,所述带通滤波器各自经配置以将子带增益因子中的相应一者应用到再生音频信号S40的对应子带。此阵列的滤波器可经并联和/或串联布置。图27展示子带滤波器阵列FA100的实施方案FA110的框图,实施方案FA110包括并联地布置的一组q个带通滤波器F20-1到F20-q。在此情况下,滤波器F20-1到F20-q中的每一者经布置以通过根据q个子带增益因子G(1)到G(q)(例如,如由子带增益因子计算器GC100计算)中的对应一者对再生音频信号S40进行滤波而将所述增益因子应用于再生音频信号S40的对应子带以产生对应带通信号。子带滤波器阵列FA110还包括组合器MX10,组合器MX10经配置以混合q个带通信号以产生经均衡的音频信号S50。图28A展示子带滤波器阵列FA100的另一实施方案FA120的框图,其中带通滤波器F20-1到F20-q经布置以通过根据子带增益因子G(1)到G(q)中的每一者串行地(即,在级联中,使得每一滤波器F20-k经布置以对滤波器F20-(k-1)的输出进行滤波,其中2≤k≤q)对再生音频信号S40进行滤波来将所述子带增益因子应用于再生音频信号S40的对应子带。

滤波器F20-1到F20-q中的每一者可经实施以具有有限脉冲响应(FIR)或无限脉冲响应(IIR)。举例来说,滤波器F20-1到F20-q中的一者或一者以上(可能所有)中的每一者可经实施为双二阶滤波器。举例来说,子带滤波器阵列FA120可经实施为双二阶滤波器的级联。此实施方案也可被称作双二阶IIR滤波器级联、二阶IIR区段或滤波器的级联或级联式的一连串子带IIR双二阶滤波器。可能需要使用转置直接形式II来实施每一双二阶滤波器,尤其对于均衡器EQ10的浮点实施方案来说。

可能需要滤波器F20-1到F20-q的通带表示将再生音频信号S40的带宽划分成一组非均一子带(例如,使得滤波器通带中的两者或两者以上具有不同宽度)而非一组均一子带(例如,使得滤波器通带具有相等宽度)。如上所指出,非均一子带划分方案的实例包括先验方案(例如,基于巴克标度的方案)或对数方案(例如,基于梅尔标度的方案)。举例来说,滤波器F20-1到F20-q可如由图19中的点说明根据巴克标度划分方案配置。子带的此布置可用于宽带语音处理系统(例如,具有16kHz的取样速率的装置)中。在此划分方案的其它实例中,省略最低子带以获得六子带方案和/或使最高子带的上限从7700Hz增加到8000Hz。

在窄带语音处理系统(例如,具有8kHz的取样速率的装置)中,可能需要根据具有少于六个或七个子带的划分方案设计滤波器F20-1到F20-q的通带。此子带划分方案的一个实例为四带准巴克方案300-510Hz、510-920Hz、920-1480Hz和1480-4000Hz。使用宽的高频带(例如,如在此实例中)可能合乎需要,这是因为低子带能量估计和/或为了处理用双二阶滤波器为最高子带建模的过程中的困难。

子带增益因子G(1)到G(q)中的每一者可用以更新滤波器F20-1到F20-q中的对应一者的一个或一个以上滤波器系数值。在此情况下,可能需要配置滤波器F20-1到F20-q中的一者或一者以上(可能所有)中的每一者,使得其频率特性(例如,中心频率和其通带的宽度)是固定的且其增益可变。可通过仅用公因子(例如,子带增益因子G(1)到G(q)中的对应一者的当前值)变化前馈系数的值(例如,以上双二阶表达式(1)中的系数b0、b1和b2)来对FIR或IIR滤波器实施此技术。举例来说,可根据子带增益因子G(1)到G(q)中的对应一者G(i)的当前值变化滤波器F20-1到F20-q中的一者F20-i的双二阶实施方案中的前馈系数中的每一者的值来获得以下转移函数:

>Hi(z)=G(i)b0(i)+G(i)b1(i)z-1+G(i)b2(i)z-21+a1(i)z-1+a2(i)z-2.---(15)>

图28B展示滤波器F20-1到F20-q中的一者F20-i的双二阶实施方案的另一实例,其中根据对应子带增益因子G(i)的当前值变化滤波器增益。

可能需要子带滤波器阵列FA100应用与第一子带信号产生器SG100a的子带滤波器阵列SG30的实施方案和/或第二子带信号产生器SG100b的子带滤波器阵列SG30的实施方案相同的子带划分方案。举例来说,可能需要子带滤波器阵列FA100使用具有与所述滤波器的设计(例如,一组双二阶滤波器)相同的设计的一组滤波器,其中针对所述子带滤波器阵列的增益因子使用固定值。甚至可使用与所述子带滤波器阵列相同的分量滤波器来实施子带滤波器阵列FA100(例如,在不同时间,用不同增益因子值,且可能用不同方式布置的分量滤波器,如在阵列FA120的级联中)。

可能需要配置均衡器EQ10以使再生音频信号S40的一个或一个以上子带在无提升的情况下通过。举例来说,低频子带的提升可导致其它子带的抑制,且可能需要均衡器EQ10使再生音频信号S40的一个或一个以上低频子带(例如,包括小于300Hz的频率的子带)在无提升的情况下通过。

可能需要根据稳定性和/或量化噪声考虑因素来设计子带滤波器阵列FA100。举例来说,如上文所指出,子带滤波器阵列FA120可被实施为二阶区段的级联。使用转置直接形式II双二阶滤波器结构来实施此区段可有助于使舍入噪声最小化和/或在所述区段内获得稳健系数/频率敏感性。均衡器EQ10可经配置以执行对滤波器输入和/或系数值的缩放,这可有助于避免溢出状况。均衡器EQ10可经配置以执行在滤波器输入与输出之间存在大的差异的情况下使子带滤波器阵列FA100的一个或一个以上IIR滤波器的历史复位的健全性检查(sanity check)操作。数值实验和在线测试已得出以下结论:可在无用于量化噪声补偿的任何模块的情况下实施均衡器EQ10,但也可包括一个或一个以上所述模块(例如,经配置以对子带滤波器阵列FA100的一个或一个以上滤波器中的每一者的输出执行抖动操作的模块)。

在其中再生音频信号S40不活动的时间间隔期间,可能需要配置设备A100以绕过均衡器EQ10,或以其它方式暂停或抑制再生音频信号S40的均衡。设备A100的此实施方案可包括话音活动检测器(VAD),话音活动检测器经配置以基于例如帧能量、信噪比、周期性、语音和/或残余(例如,线性预测编码残余)的自相关、过零率和/或第一反射系数等一个或一个以上因子将再生音频信号S40的帧分类为活动(例如,语音)或不活动(例如,噪声)。此分类可包括将此因子的值或量值与阈值比较和/或将此因子的改变的量值与阈值比较。

图29展示设备A100的包括此VAD V10的实施方案A120的框图。话音活动检测器V10经配置以产生更新控制信号S70,更新控制信号的状态指示是否在再生音频信号S40上检测到语音活动。设备A120还包括均衡器EQ10(例如,均衡器EQ20)的实施方案EQ30,可根据更新控制信号S70的状态对其进行控制。举例来说,均衡器EQ30可经配置使得当未检测到语音时在再生音频信号S40的时间间隔(例如,帧)期间抑制子带增益因子值的更新。均衡器EQ30的此实施方案可包括子带增益因子计算器GC100的实施方案,其经配置以在VAD V10指示再生音频信号S40的当前帧不活动时暂停子带增益因子的更新(例如,将子带增益因子的值设定成下界值,或允许子带增益因子的值衰减成下界值)。

话音活动检测器V10可经配置以基于例如帧能量、信噪比(SNR)、周期性、过零率、语音和/或残余的自相关和/或第一反射系数的一个或一个以上因子将再生音频信号S40的帧分类为活动或不活动(例如,控制更新控制信号S70的二元状态)。此分类可包括将此因子的值或量值与阈值比较和/或将此因子的改变的量值与阈值比较。或者或另外,此分类可包括将在一个频带中此因子(例如,能量)的值或量值或此因子的改变的量值与另一频带中的类似值比较。可能需要实施VAD V10以基于多个准则(例如,能量、过零率等)和/或近来VAD决策的记忆来执行话音活动检测。可由VAD V10执行的话音活动检测操作的一个实例包括将再生音频信号S40的高带和低带能量与相应阈值比较,如(例如)在2007年1月的题为“宽带扩频数字系统的加强可变速率编解码器,语音服务选项3、68及70(Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum Digital Systems)”(可在www-dot-3gpp-dot-org在线获得)的3GPP2文档C.S0014-C,v1.0的4.7章节(第4-49到4-57页)中所描述。话音活动检测器V10通常经配置以将更新控制信号S70产生为二元值话音检测指示信号,但产生连续和/或多值信号的配置也是可能的。

图30A和图30B分别展示图26A和图26B的伪码列表的修改,其中当再生音频信号S40的当前帧活动时,可变VAD(例如,更新控制信号S70)的状态为1,且否则为0。在可由子带增益因子计算器GC100的对应实施方案执行的这些实例中,将子带i和帧k的子带增益因子的当前值初始化为最近的值。图31A和图31B分别展示图26A和图26B的伪码列表的其它修改,其中当未检测到话音活动(即,对于不活动的帧)时,允许子带增益因子的值衰减成下界值。

可能需要配置设备A100以控制再生音频信号S40的电平。举例来说,可能需要配置设备A100以控制再生音频信号S40的电平以提供足够的余量来容纳由均衡器EQ10进行的子带提升。另外或在替代方案中,可能需要配置设备A100以基于关于再生音频信号S40的信息(例如,再生音频信号S40的当前电平)来确定上界UB和下界LB中的任一者或两者的值,如上参考子带增益因子计算器GC100所揭示。

图32展示设备A100的实施方案A130的框图,其中均衡器EQ10经配置以经由自动增益控制(AGC)模块G10接收再生音频信号S40。自动增益控制模块G10可经配置以根据已知或待开发的任一AGC技术将音频输入信号S100的动态范围压缩到有限的振幅带中,以获得再生音频信号S40。自动增益控制模块G10可经配置以通过(例如)提升输入信号的具有低功率的区段(例如,帧)和减少输入信号的具有高功率的区段中的能量来执行此动态压缩。设备A130可经布置以从解码级接收音频输入信号S100。举例来说,如上所述的通信装置D100可经建构以包括设备A110的实施方案,其也是设备A130的实施方案(即,包括AGC模块G10)。

自动增益控制模块G10可经配置以提供余量定义和/或主音量设定。举例来说,AGC模块G10可经配置以将如上揭示的上界UB和/或下界LB的值提供到均衡器EQ10。AGC模块G10的操作参数(例如,压缩阈值和/或音量设定)可限制均衡器EQ10的有效余量。可能需要调谐设备A100(例如,如果存在,则调谐均衡器EQ10和/或AGC模块G10)使得在于所感测音频信号S10上无噪声的情况下,设备A100的净效应大体上非增益放大(例如,其中再生音频信号S40与经均衡的音频信号S50之间的电平差小于约正或负百分之五、百分之十或百分之二十)。

通过(例如)增加对信号随时间的改变的可感知性,时域动态压缩可增加信号可懂度。此信号改变的一个特定实例涉及随时间的清楚定义的共振峰轨迹的存在,其可显著地促成信号的可懂度。共振峰轨迹的开始点和结束点通常由辅音,尤其闭塞辅音(例如,[k]、[t]、[p]等)来标记。与元音内容和语音的其它有声部分相比,这些标记辅音通常具有低能量。通过允许收听者更清楚地跟随语音开始和结束(offset),提升标记辅音的能量可增加可懂度。可懂度的此增加与可经由频率子带功率调整获取的可懂度增加(如本文中参考均衡器EQ10所描述)不同。因此,利用这两个效应之间的协作(例如,在设备A130的实施方案中)可使得整体语音可懂度能有相当大的增加。

可能需要配置设备A100以进一步控制经均衡的音频信号S50的电平。举例来说,设备A100可经配置以包括AGC模块(除了AGC模块G10之外,或替代AGC模块G10),所述AGC模块经布置以控制经均衡的音频信号S50的电平。图33展示均衡器EQ20的实施方案EQ40的框图,实施方案EQ40包括经布置以限制均衡器的声输出电平的峰值限制器L10。峰值限制器L10可经实施为可变增益音频电平压缩器。举例来说,峰值限制器L10可经配置以将高峰值压缩成阈值,使得均衡器EQ40实现组合的均衡/压缩效应。图34展示设备A100的实施方案A140的框图,实施方案A140包括均衡器EQ40以及AGC模块G10。

图35A的伪码列表描述可由峰值限制器L10执行的峰值限制操作的一个实例。对于输入信号sig的每一样本k(例如,对于经均衡的音频信号S50的每一样本k),此操作计算样本幅度与软峰值限制peak_lim之间的差pkdiff。peak_lim的值可为固定的或可随时间而调适。举例来说,peak_lim的值可基于来自AGC模块G10的信息,例如上界UB和/或下界LB的值、关于再生音频信号S40的当前电平的信息等。

如果pkdiff的值至少为零,则样本幅度不超过峰值限制peak_lim。在此情况下,将差分增益值diffgain设定为一。否则,样本幅度大于峰值限制peak_lim,且将diffgain设定为小于一的与超过幅度成比例的值。

峰值限制操作还可包括增益值的平滑。此平滑可根据增益是随时间增加还是减少而不同。举例来说,如图35A中所展示,如果diffgain的值超过峰值增益参数g_pk的先前值,则使用g_pk的先前值、diffgain的当前值和起始增益平滑参数gamma_att来更新g_pk的值。否则,使用g_pk的先前值、diffgain的当前值和衰减增益平滑参数gamma_dec来更新g_pk的值。gamma_att和gamma_dec的值是选自约零(无平滑)到约0.999(最大平滑)的范围。接着使输入信号sig的对应样本k乘以g_pk的经平滑的值以获得峰值受限样本。

图35B展示图35A的伪码列表的修改,其使用不同表达式计算差分增益值diffgain。作为这些实例的替代方案,峰值限制器L10可经配置以执行如图35A或图35B中描述的峰值限制操作的另一实例,其中较不频繁地更新pkdiff的值(例如,其中将pkdiff的值计算为peak_lim与信号sig的若干样本的绝对值的平均值之间的差)。

如本文中指出,通信装置可经建构以包括设备A100的实施方案。在此装置的操作期间的一些时间,可能需要设备A100根据来自不同于噪声参考S30的参考的信息来均衡再生音频信号S40。举例来说,在一些环境或定向中,SSP滤波器SS10的方向性处理操作可能会产生不可靠的结果。在装置的一些操作模式(例如,即按即说(PTT)模式或扬声器电话模式)中,所感测音频通道的空间选择性处理可为不必要或不合需要的。在这些情况下,可能需要设备A100在非空间(或“单通道”)模式而非空间选择性(或“多通道”)模式中操作。

设备A100的实施方案可经配置以根据模式选择信号的当前状态在单通道模式或多通道模式中操作。设备A100的此实施方案可包括分离评估器,所述分离评估器经配置以基于所感测音频信号S10、源信号S20和噪声参考S30中的至少一者的质量产生模式选择信号(例如,二元旗标)。由此分离评估器用以确定模式选择信号的状态的准则可包括下列参数中的一者或一者以上的当前值与对应阈值之间的关系:源信号S20的能量与噪声参考S30的能量之间的差或比率;噪声参考S20的能量与所感测音频信号S10的一个或一个以上通道的能量之间的差或比率;源信号S20与噪声参考S30之间的相关性;源信号S20载运语音的可能性,如由源信号S20的一个或一个以上统计度量(例如,峰态、自相关)指示。在这些情况下,可将信号的能量的当前值计算为信号的连续样本的一块(例如,当前帧)的平方样本值的和。

图36展示设备A100的此实施方案A200的框图,实施方案A200包括分离评估器EV10,分离评估器EV10经配置以基于来自源信号S20和噪声参考S30的信息(例如,基于源信号S20的能量与噪声参考S30的能量之间的差或比率)产生模式选择信号S80。此分离评估器可经配置以产生模式选择信号S80从而在其确定SSP滤波器SS10已将所要声音分量(例如,用户的话音)充分地分离到源信号S20中时具有指示多通道模式的第一状态,且否则具有指示单通道模式的第二状态。在一个此实例中,分离评估器EV10经配置以在其确定源信号S20的当前能量与噪声参考S30的当前能量之间的差超过(或者,不小于)对应阈值时指示充分分离。在另一此实例中,分离评估器EV10经配置以在其确定源信号S20的当前帧与噪声参考S30的当前帧之间的相关性小于(或者,不超过)对应阈值时指示充分分离。

设备A200还包括均衡器EQ10的实施方案EQ100。均衡器EQ100经配置以在模式选择信号S80具有第一状态时在多通道模式中操作(例如,根据以上揭示的均衡器EQ10的实施方案中的任一者)且在模式选择信号S80具有第二状态时在单通道模式中操作。在单通道模式中,均衡器EQ100经配置以基于来自未经分离的所感测音频信号S90的一组子带功率估计计算子带增益因子值G(1)到G(q)。均衡器EQ100可经布置以从时域缓冲器接收未经分离的所感测音频信号S90。在一个此实例中,时域缓冲器具有十毫秒的长度(例如,在八kHz的取样速率下八十个样本,或在十六kHz的取样速率下160个样本)。

设备A200可经实施使得未经分离的所感测音频信号S90为所感测音频通道S10-1和S10-2中的一者。图37展示设备A200的此实施方案A210的框图,其中未经分离的所感测音频信号S90为所感测音频通道S10-1。在这些情况下,可能需要设备A200经由回音消除器或经配置以对麦克风信号执行回音消除操作的其它音频预处理级(例如,音频预处理器AP20的例子)接收所感测音频通道S10。在设备A200的更通用的实施方案中,未经分离的所感测音频信号S90为未经分离的麦克风信号,例如麦克风信号SM10-1和SM10-2中的任一者或麦克风信号DM10-1和DM10-2中的任一者(如上所述)。

设备A200可经实施使得未经分离的所感测音频信号S90为所感测音频通道S10-1和S10-2中的对应于通信装置的主要麦克风(例如,通常最直接地接收用户的话音的麦克风)的特定一者。或者,设备A200可经实施使得未经分离的所感测音频信号S90为所感测音频通道S10-1和S10-2中的对应于通信装置的次要麦克风(例如,通常仅间接地接收用户的话音的麦克风)的特定一者。或者,设备A200可经实施以通过将所感测音频通道S10-1和S10-2混合成单一通道来获得未经分离的所感测音频信号S90。在另一替代方案中,设备A200可经实施以根据例如最高信噪比、最大语音可能性(例如,如由一个或一个以上统计度量所指示)、通信装置的当前操作配置和/或确定所要源信号所源自的方向的一个或一个以上准则从所感测音频通道S10-1和S10-2中选择未经分离的所感测音频信号S90。(在设备A200的更通用的实施方案中,此段落中描述的原理可用以从例如如上所述的麦克风信号SM10-1和SM10-2或麦克风信号DM10-1和DM10-2的一组两个或两个以上麦克风信号来获得未经分离的所感测音频信号S90。)如上所论述,可能需要从已经历回音消除操作(例如,如上参考音频预处理器AP20和回音消除器EC10描述)的一个或一个以上麦克风信号获得未经分离的所感测音频信号S90。

均衡器EQ100可经配置以根据模式选择信号S80的状态基于噪声参考S30和未经分离的所感测音频信号S90中的一者产生所述组第二子带信号。图38展示均衡器EQ100的(和均衡器EQ20的)此实施方案EQ110的框图,实施方案EQ110包括选择器SL10(例如,多路分用器),选择器SL10经配置以根据模式选择信号S80的当前状态选择噪声参考S30和未经分离的所感测音频信号S90中的一者。

或者,均衡器EQ100可经配置以根据模式选择信号S80的状态在不同组的子带信号中选择以产生所述组第二子带功率估计。图39展示均衡器EQ100的(和均衡器EQ20的)此实施方案EQ120的框图,实施方案EQ120包括第三子带信号产生器SG100c和选择器SL20。可经实施为子带信号产生器SG200的例子或子带信号产生器SG300的例子的第三子带信号产生器SG100c经配置以产生基于未经分离的所感测音频信号S90的一组子带信号。选择器SL20(例如,多路分用器)经配置以根据模式选择信号S80的当前状态在由第二子带信号产生器SG100b和第三子带信号产生器SG100c产生的多组子带信号中选择一者,且将所述选定组的子带信号提供到第二子带功率估计计算器EC100b作为第二组子带信号。

在另一替代方案中,均衡器EQ100经配置以根据模式选择信号S80的状态在不同组的噪声子带功率估计中选择以产生所述组子带增益因子。图40展示均衡器EQ100的(和均衡器EQ20的)此实施方案EQ130的框图,实施方案EQ130包括第三子带信号产生器SG100c和第二子带功率估计计算器NP100。计算器NP100包括第一噪声子带功率估计计算器NC100b、第二噪声子带功率估计计算器NC100c和选择器SL30。第一噪声子带功率估计计算器NC100b经配置以产生基于由如上所述的第二子带信号产生器SG100b产生的所述组子带信号的第一组噪声子带功率估计。第二噪声子带功率估计计算器NC100c经配置以产生基于由如上所述的第三子带信号产生器SG100c产生的所述组子带信号的第二组噪声子带功率估计。举例来说,均衡器EQ130可经配置以并行地评估噪声参考中的每一者的子带功率估计。选择器SL30(例如,多路分用器)经配置以根据模式选择信号S80的当前状态在由第一噪声子带功率估计计算器NC100b和第二噪声子带功率估计计算器NC100c产生的多组噪声子带功率估计中选择一者,且将所述选定组的噪声子带功率估计提供到子带增益因子计算器GC100作为第二组子带功率估计。

第一噪声子带功率估计计算器NC100b可经实施为子带功率估计计算器EC110的例子或实施为子带功率估计计算器EC120的例子。第二噪声子带功率估计计算器NC100c还可经实施为子带功率估计计算器EC110的例子或实施为子带功率估计计算器EC120的例子。第二噪声子带功率估计计算器NC100c还可进一步经配置以识别未经分离的所感测音频信号S90的当前子带功率估计中的最小者且用此最小者替换未经分离的所感测音频信号S90的其它当前子带功率估计。举例来说,第二噪声子带功率估计计算器NC100c可经实施为如图41A中所展示的子带信号产生器EC210的例子。子带信号产生器EC210为如上所述的子带信号产生器EC110的实施方案,其包括根据例如以下的表达式来识别和应用最小子带功率估计的最小化器MZ10:

>E(i,k)min1iqE(i,k)>

其中1≤i≤q。或者,第二噪声子带功率估计计算器NC100c可经实施为如图41B中所展示的子带信号产生器EC220的例子。子带信号产生器EC220为如上所述的子带信号产生器EC120的实施方案,所述实施方案包括最小化器MZ10的例子。

可能需要配置均衡器EQ130以基于来自未经分离的所感测音频信号S90的子带功率估计以及基于来自噪声参考S30的子带功率估计(当在多通道模式中操作时)计算子带增益因子值。图42展示均衡器EQ130的此实施方案EQ140的框图。均衡器EQ140包括第二子带功率估计计算器NP10的实施方案NP110,实施方案NP110包括最大化器MAX10。最大化器MAX10经配置以根据例如以下的表达式来计算一组子带功率估计:

E(i,k)←max(Eb(i,k),Ec(i,k))

其中1≤i≤q,其中Eb(i,k)表示子带i和帧k的由第一噪声子带功率估计计算器EC100b计算的子带功率估计,且Ec(i,k)表示子带i和帧k的由第二噪声子带功率估计计算器EC100c计算的子带功率估计。

可能需要设备A100的实施方案在组合来自单通道和多通道噪声参考的噪声子带功率信息的模式中操作。虽然多通道噪声参考可支持对非稳定噪声的动态响应,但设备的所得操作可对(例如)用户的位置的改变反应过度。单通道噪声参考可提供较稳定但缺乏补偿非稳定噪声的能力的响应。图43A展示均衡器EQ20的实施方案EQ50的框图,实施方案EQ50经配置以基于来自噪声参考S30的信息和基于来自未经分离的所感测音频信号S90的信息来均衡再生音频信号S40。均衡器EQ50包括第二子带功率估计计算器NP100的实施方案NP200,实施方案NP200包括如上所揭示般配置的最大化器MAX10的例子。

计算器NP200还可经实施以允许对单通道和多通道噪声子带功率估计的增益的独立操纵。举例来说,可能需要实施计算器NP200以应用增益因子(或一组增益因子中的对应一者)以缩放由第一子带功率估计计算器NC100b或第二子带功率估计计算器NC100c产生的噪声子带功率估计中的一者或一者以上(可能所有)中的每一者,以便将所述经缩放的子带功率估计值用于由最大化器MAX10执行的最大化操作中。

在包括设备A100的实施方案的装置的操作期间的一些时间,可能需要所述设备根据来自不同于噪声参考S30的参考的信息来均衡再生音频信号S40。举例来说,对于所要声音分量(例如,用户的话音)和方向性噪声分量(例如,来自干扰扬声器、播音系统、电视或收音机)从相同方向到达麦克风阵列的情形,方向性处理操作可能会提供对这些分量的不充分分离。举例来说,方向性处理操作可将方向性噪声分量分离到源信号中,使得所得噪声参考可能不足以支持再生音频信号的所要均衡。

可能需要实施设备A100以应用如本文中揭示的方向性处理操作和距离处理操作两者的结果。举例来说,对于近场所要声音分量(例如,用户的话音)和远场方向性噪声分量(例如,来自干扰性扬声器、播音系统、电视或收音机)从相同方向到达麦克风阵列的情况,此实施方案可提供改进的均衡性能。

可能需要实施设备A100以根据基于来自噪声参考S30的信息和基于来自源信号S20的信息的噪声子带功率估计使再生音频信号S40的至少一个子带相对于再生音频信号S40的另一子带提升。图43B展示均衡器EQ20的此实施方案EQ240的框图,实施方案EQ240经配置以将源信号S20作为第二噪声参考来处理。均衡器EQ240包括第二子带功率估计计算器NP100的实施方案NP120,实施方案NP120包括如本文中所揭示般配置的最大化器MAX10的例子。在此实施方案中,选择器SL30经布置以接收如由如本文中揭示的SSP滤波器SS10的实施方案产生的距离指示信号DI10。选择器SL30经布置以在距离指示信号DI10的当前状态指示远场信号时选择最大化器MAX10的输出,且否则选择第一噪声子带功率估计计算器EC100b的输出。

(明确地揭示,设备A100还可经实施以包括如本文中揭示的均衡器EQ100的实施方案的例子,使得所述均衡器经配置以接收源信号S20作为第二噪声参考,而非未经分离的所感测音频信号S90。)

图43C展示设备A100的实施方案A250的框图,实施方案A250包括如本文中揭示的SSP滤波器SS110和均衡器EQ240。图43D展示均衡器EQ240的实施方案EQ250的框图,实施方案EQ250组合对远场非稳定噪声的补偿的支持(例如,如本文中参考均衡器EQ240所揭示)与来自单通道和多通道噪声参考两者的噪声子带功率信息(例如,如本文中参考均衡器EQ50所揭示)。在此实例中,第二子带功率估计基于三个不同噪声估计:来自未经分离的所感测音频信号S90的稳定噪声的估计(其可经重度平滑和/或长期(例如,大于五个帧)平滑)、来自源信号S20的远场非稳定噪声的估计(其可未经平滑或仅经最低限度地平滑)和可基于方向的噪声参考S30。重申,在未经分离的所感测音频信号S90作为本文中揭示的噪声参考的任何应用(例如,如在图43D中所说明)中,可替代地使用来自源信号S20的经平滑的噪声估计(例如,经重度平滑的估计和/或在若干帧上平滑的长期估计)。

可能需要配置均衡器EQ100(或均衡器EQ50或均衡器EQ240)以仅在未经分离的所感测音频信号S90(或者,所感测音频信号S10)不活动的时间间隔期间更新单通道子带噪声功率估计。设备A100的此实施方案可包括话音活动检测器(VAD),话音活动检测器经配置以基于例如帧能量、信噪比、周期性、语音和/或残余(例如,线性预测编码残余)的自相关、过零率和/或第一反射系数的一个或一个以上因子将未经分离的所感测音频信号S90的(或所感测音频信号S10的)帧分类为活动(例如,语音)或不活动(例如,噪声)。此分类可包括将此因子的值或量值与阈值比较和/或将此因子的改变的量值与阈值比较。可能需要实施此VAD以基于多个准则(例如,能量、过零率等)和/或近来VAD决策的记忆执行话音活动检测。

图44展示包括此话音活动检测器(或“VAD”)V20的设备A200的此实施方案A220。可经实施为如上所述的VAD V10的例子的话音活动检测器V20经配置以产生更新控制信号UC10,更新控制信号UC10的状态指示在所感测音频通道S10-1上是否检测到语音活动。对于设备A220包括如图38中所展示的均衡器EQ100的实施方案EQ110的情况,可应用更新控制信号UC10以防止第二子带信号产生器SG100b在于所感测音频通道S10-1上检测到语音且选择单通道模式的时间间隔(例如,多个帧)期间更新其输出。对于设备A220包括如图38中所展示的均衡器EQ100的实施方案EQ110或如图39中所展示的均衡器EQ100的实施方案EQ120的情况,可应用更新控制信号UC10以防止第二子带功率估计产生器EC100b在于所感测音频通道S10-1上检测到语音且选择单通道模式的时间间隔(例如,多个帧)期间更新其输出。

对于设备A220包括如图39中所展示的均衡器EQ100的实施方案EQ120的情况,可应用更新控制信号UC10以防止第三子带信号产生器SG100c在于所感测音频通道S10-1上检测到语音的时间间隔(例如,多个帧)期间更新其输出。对于设备A220包括如图40中所展示的均衡器EQ100的实施方案EQ130或如图41中所展示的均衡器EQ100的实施方案EQ140的情况,或对于设备A100包括如图43中所展示的均衡器EQ100的实施方案EQ40的情况,可应用更新控制信号UC10以防止第三子带信号产生器SG100c在于所感测音频通道S10-1上检测到语音的时间间隔(例如,多个帧)期间更新其输出和/或防止第三子带功率估计产生器EC100c在此期间更新其输出。

图45展示设备A100的替代实施方案A300的框图,所述实施方案A300经配置以根据模式选择信号的当前状态在单通道模式或多通道模式中操作。如同设备A200,设备A100的设备A300包括分离评估器(例如,分离评估器EV10),所述分离评估器经配置以产生模式选择信号S80。在此情况下,设备A300还包括自动音量控制(AVC)模块VC10,自动音量控制(AVC)模块VC10经配置以对再生音频信号S40执行AGC或AVC操作,且将模式选择信号S80应用到控制选择器SL40(例如,多路复用器)和SL50(例如,多路分用器)以根据模式选择信号S80的对应状态针对每一帧选择AVC模块VC10和均衡器EQ10中的一者。图46展示设备A300的实施方案A310的框图,所述实施方案A310还包括均衡器EQ30的实施方案EQ60和如本文中描述的AGC模块G10和VAD V10的例子。在此实例中,均衡器EQ60还为如上所述的均衡器EQ40的实施方案,其包括经布置以限制所述均衡器的声输出电平的峰值限制器L10的例子。(所属领域的技术人员应理解,也可使用如本文中揭示的均衡器EQ10的替代实施方案(例如,均衡器EQ50或EQ240)来实施设备A300的此和其它所揭示的配置。)

AGC或AVC操作基于稳定噪声估计(其通常是从单一麦克风获得)来控制音频信号的电平。可根据如本文中描述的未经分离的所感测音频信号S90(或者,所感测音频信号S10)的例子计算此估计。举例来说,可能需要配置AVC模块VC10以根据例如未经分离的所感测音频信号的功率估计等参数(例如,当前帧的能量或绝对值的和)的值来控制再生音频信号S40的电平。如上参考其它功率估计所描述,可能需要配置AVC模块VC10以对此参数值执行时间平滑操作和/或仅在未经分离的所感测音频信号当前不含有话音活动时更新所述参数值。图47展示设备A310的实施方案A320的框图,其中AVC模块VC10的实施方案VC20经配置以根据来自所感测音频通道S10-1的信息(例如,信号S10-1的当前功率估计)控制再生音频信号S40的音量。图48展示设备A310的实施方案A330的框图,其中AVC模块VC10的实施方案VC30经配置以根据来自麦克风信号SM10-1的信息(例如,信号SM10-1的当前功率估计)控制再生音频信号S40的音量。

图49展示设备A100的另一实施方案A400的框图。设备A400包括如本文中描述的均衡器EQ100的实施方案且类似于设备A200。然而,在此情况下,模式选择信号S80由非相关噪声检测器UC10产生。非相关噪声(为影响阵列中的一个麦克风且不影响另一麦克风的噪声)可包括风噪声、呼吸声、劈拍声和其类似者。非相关噪声可在例如SSP滤波器SS10的多麦克风信号分离系统中造成不合需要的结果,因为所述系统可能会实际上放大此噪声(如果准许)。用于检测非相关噪声的技术包括估计麦克风信号(或其部分,例如每一麦克风信号中的从约200Hz到约800Hz或1000Hz的带)的交叉相关。此交叉相关估计可包括对次要麦克风信号的通带进行增益调整以均衡麦克风之间的远场响应,从主要麦克风信号的通带减掉经增益调整的信号,和将差信号的能量与阈值(其可基于差信号和/或主要麦克风通带的随时间而变的能量而为自适应的)比较。可根据此技术和/或任一其它合适技术实施非相关噪声检测器UC10。多麦克风装置中的非相关噪声的检测还论述于2008年8月29日所申请的题为“用于检测非相关分量的系统、方法及设备(SYSTEMS,METHODS,AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT)”的第12/201,528号美国专利申请案中,出于限于对非相关噪声检测器UC10的设计、实施方案和/或集成的揭示,所述文档在此以引用的方式并入。

图50展示可用以获得表征SSP滤波器SS10的一个或一个以上方向性处理级的系数值的设计方法M10的流程图。方法M10包括记录一组多通道训练信号的任务T10、训练SSP滤波器SS10的结构以收敛的任务T20和评估经训练的滤波器的分离性能的任务T30。通常使用个人计算机或工作站在音频再生装置外部执行任务T20和T30。可重复方法M10的任务中的一者或一者以上,直到在任务T30中获得可接受的结果。以下更详细地论述方法M10的各种任务,且这些任务的额外描述见于2008年8月25日所申请的题为“用于信号分离的系统、方法及设备(SYSTEMS,METHODS,AND APPARATUS FOR SIGNAL SEPARATION)”的第12/197,924号美国专利申请案中,出于限于SSP滤波器SS10的一个或一个以上方向性处理级的设计、实施方案、训练和/或评估的目的,所述文档在此以引用的方式并入。

任务T10使用至少M个麦克风的阵列记录一组M通道训练信号,使得所述M个通道中的每一者基于所述M个麦克风中的对应一者的输出。所述训练信号中的每一者基于由此阵列响应于至少一个信息源和至少一个干扰源产生的信号,使得每一训练信号包括语音分量和噪声分量两者。举例来说,可能需要训练信号中的每一者为在有噪声环境中的语音的记录。麦克风信号通常经取样,可经预处理(例如,经滤波用于回音消除、噪声减少、频谱整形等),且可甚至经预分离(例如,通过如本文中描述的另一空间分离滤波器或自适应滤波器)。对于例如语音的声应用,典型的取样速率的范围为从8kHz到16kHz。

在P个情境中的一者下记录所述组M通道训练信号中的每一者,其中P可等于二,但通常为大于一的任何整数。如下所描述,P个情境中的每一者可包含不同空间特征(例如,不同的手持机或头戴式耳机定向)和/或不同频谱特征(例如,对可具有不同性质的声音源的捕获)。所述训练信号组包括各自在P个情境中的不同一者下所记录的至少P个训练信号,但此组将通常包括用于每一情境的多个训练信号。

可能使用含有如本文中描述的设备A100的其它元件的相同音频再生装置执行任务T10。然而,更通常地,将使用音频再生装置的参考例子(例如,手持机或头戴式耳机)执行任务T10。接着将在制造期间将由方法M10产生的收敛滤波器解的所得集合复制到相同或类似音频再生装置的其它例子中(例如,加载到每一此制造例子的快闪存储器中)。

在此情况下,音频再生装置的参考例子(“参考装置”)包括M个麦克风的阵列。可能需要所述参考装置的麦克风具有与音频再生装置的制造例子(“制造装置”)的声响应相同的声响应。举例来说,可能需要参考装置的麦克风为与制造装置的模型相同的模型,且以与制造装置的方式相同的方式安装在与制造装置的位置相同的位置中。此外,可能需要参考装置以其它方式具有与制造装置相同的声特性。甚至可能需要参考装置与制造装置彼此间在声学上相同。举例来说,可能需要参考装置为与制造装置相同的装置模型。然而,在实际制造环境中,参考装置可为预制造型式,其在一个或一个以上次要(即,声学上不重要的)方面与制造装置不同。在典型情况下,参考装置仅用于记录训练信号,使得参考装置自身可能不必要包括设备A100的所述元件。

可使用相同的M个麦克风记录所有训练信号。或者,可能需要用以记录训练信号中的一者的所述组M个麦克风与用以记录训练信号中的另一者的所述组M个麦克风不同(麦克风中的一者或一者以上)。举例来说,可能需要使用麦克风阵列的不同例子以便产生对麦克风间某种程度的变化为稳健的多个滤波器系数值。在一个此情况下,M通道训练信号组包括使用参考装置的至少两个不同例子所记录的信号。

P个情境中的每一者包括至少一个信息源和至少一个干扰源。通常,每一信息源为再生语音信号或音乐信号的扬声器,且每一干扰源为再生干扰声信号(例如,另一语音信号或来自典型的预期环境的环境背景声音)或噪声信号的扬声器。可使用的各种类型的扬声器包括电动(例如,音圈)扬声器、压电扬声器、静电扬声器、带式扬声器、平面磁性扬声器等。在一个情境或应用中充当信息源的源可在不同情境或应用中充当干扰源。可使用M通道磁带记录器、具有M通道声音记录或捕获能力的计算机或能够同时捕获或以其它方式记录M个麦克风的输出(例如,在取样分辨率等级内)的另一装置执行在P个情境中的每一者下对来自M个麦克风的输入数据的记录。

消声腔室(acoustic anechoic chamber)可用于记录所述组M通道训练信号。图51展示经配置用于记录训练数据的消声腔室的实例。在此实例中,将头部及躯干仿真器(HATS,如由Bruel & Kjaer(丹麦奈如姆)制造)定位于干扰源(即,四个扬声器)的向内聚集阵列内。HATS头部在声学上类似于代表性的人类头部,且在嘴巴中包括扬声器用于再生语音信号。干扰源的所述阵列可经驱动以产生包围HATS(如所展示)的漫射噪声场。在一个此实例中,扬声器的阵列经配置以在75dB到78dB的声压电平下在HATS耳朵参考点或嘴巴参考点处播放噪声信号。在其它情况下,可驱动一个或一个以上这些干扰源以产生具有不同空间分布的噪声场(例如,方向性噪声场)。

可使用的噪声信号的类型包括白噪声、粉红噪声、灰噪声和豪瑟(Hoth)噪声(例如,如在由电气与电子工程师学会(IEEE)(新泽西州皮斯卡塔韦市)发布的题为“用于测量模拟及数字电话机、手持机及头戴式耳机的发射性能的初步标准方法(Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets,Handsets and Headsets)”的IEEE标准269-2001中描述)。可使用的噪声信号的其它类型包括褐噪声、蓝噪声和紫噪声。

P个情境在至少一个空间和/或频谱特征方面彼此不同。源和麦克风的空间配置可以至少下列方式中的任何一者或一者以上在情境间变化:一源相对于其它源的放置和/或定向、一麦克风相对于其它麦克风的放置和/或定向、源相对于麦克风的放置和/或定向和麦克风相对于源的放置和/或定向。P个情境间的至少两者可对应于以不同空间配置布置的一组麦克风和源,使得所述组中的麦克风或源中的至少一者在一情境中的位置或定向与在另一情境中的其位置或定向不同。举例来说,P个情境中的至少两者可与便携式通信装置(例如,具有M个麦克风的阵列的手持机或头戴式耳机)相对于例如用户的嘴巴的信息源的不同定向有关。在情境间不同的空间特征可包括硬件约束(例如,麦克风在装置上的位置)、装置的计划使用模式(例如,典型的预期用户固持姿势)和/或不同的麦克风位置和/或激活(例如,激活三个或三个以上麦克风中的不同麦克风对)。

可在情境间变化的频谱特征包括至少下列各者:至少一个源信号(例如,来自不同话音的语音、不同颜色的噪声)的频谱内容,和麦克风中的一者或一者以上的频率响应。在如上提及的一个特定实例中,所述情境中的至少两者关于麦克风中的至少一者而不同(换句话说,在一个情境中使用的麦克风中的至少一者在另一情境中由另一麦克风替换或根本不使用)。可能需要此变化以支持在麦克风的频率和/或相位响应的预期变化范围上为稳健和/或对麦克风的故障为稳健的解。

在另一特定实例中,所述情境中的至少两者包括背景噪声且相对于背景噪声的特性(即,在频率和/或时间上的噪声的统计数据)而不同。在此情况下,干扰源可经配置以在P个情境中的一者下发出一种颜色(例如,白、粉红或豪瑟)或类型(例如,街道噪声、混串音噪声或汽车噪声的再生)的噪声,且在P个情境中的另一者下发出另一种颜色或类型的噪声(例如,在一个情境下为混串音噪声,且在另一情境下为街道和/或汽车噪声)。

P个情境中的至少两者可包括产生具有大体上不同的频谱内容的信号的信息源。举例来说,在语音应用中,在两个不同情境中的信息信号可为不同话音,例如具有平均音调(即,在情境的长度上)的两个话音,所述平均音调彼此间相差不小于百分之十、百分之二十、百分之三十或甚至百分之五十。可在情境间变化的另一特征为一源相对于其它源的输出振幅的输出振幅。可在情境间变化的另一特征为一麦克风相对于所述阵列的其它麦克风的增益敏感性的增益敏感性。

如下所述,M通道训练信号组用以在任务T20中获得收敛的一组滤波器系数值。可基于训练操作的预期收敛速率选择训练信号中的每一者的持续时间。举例来说,可能需要为每一训练信号选择一持续时间,所述持续时间足够长以准许朝向收敛的显著前进,但足够短以允许其它训练信号也大体上促成收敛解。在典型应用中,训练信号中的每一者持续从约二分之一或一秒到约五或十秒。对于典型的训练操作,以随机次序连接训练信号的复本以获得待用于训练的声音文件。训练文件的典型的长度包括10秒、30秒、45秒、60秒、75秒、90秒、100秒和120秒。

在近场情境(例如,当靠近用户的嘴巴固持通信装置时)下,麦克风输出之间可存在与远场情境(例如,当较远离用户的嘴巴固持装置时)下的振幅和延迟关系不同的振幅和延迟关系。可能需要P个情境的范围包括近场和远场情境两者。或者,可能需要P个情境的范围包括仅近场情境。在此情况下,对应制造装置可经配置以当在操作期间检测到所感测音频信号S10的不充分分离时暂停均衡或使用如本文中参考均衡器EQ100描述的单通道均衡模式。

对于P个声情境中的每一者,通过从HATS的嘴巴再生人工语音(如描述于1993年3月的国际电信联盟(瑞士,日内瓦)的ITU-T建议P.50中)和/或发出例如哈佛句子(Harvard Sentences)(如描述于1969年的《IEEE音频及电声学通讯》(IEEE Transactions on Audio and Electroacoustics)(第17卷第227-46页)中的“IEEE语音质量测量推荐做法”(IEEE Recommended Practices for Speech Quality Measurements)中)的一者或一者以上的标准词汇的话音,可将信息信号提供到M个麦克风。在一个此种实例中,在89dB的声压电平下从HATS的嘴巴扬声器再生语音。P个情境中的至少两者可关于此信息信号而彼此不同。举例来说,不同情境可使用具有大体上不同音调的话音。另外或在替代方案中,P个情境中的至少两者可使用参考装置的不同例子(例如,以支持对不同麦克风的响应的变化稳健的收敛解)。

在一组特定应用中,M个麦克风为例如蜂窝式电话手持机的用于无线通信的便携式装置的麦克风。图6A和图6B展示此装置的两个不同操作配置,且可针对所述装置的每一操作配置执行方法M10的不同例子(例如,针对每一配置获得不同的收敛滤波器状态)。在此情况下,设备A100可经配置以在运行时间在各种收敛的滤波器状态间(即,在用于SSP滤波器SS10的方向性处理级的不同组的滤波器系数值间,或在SSP滤波器SS10的方向性处理级的不同例子间)选择。举例来说,设备A100可经配置以选择滤波器或对应于指示装置是打开还是关闭的开关状态的滤波器状态。

在另一组特定应用中,M个麦克风为有线或无线听筒或其它头戴式耳机的麦克风。图8展示如本文中所描述的此头戴式耳机的一个实例63。此头戴式耳机的训练情境可包括如参考以上手持机应用描述的信息和/或干扰源的任何组合。可由P个训练情境的不同者建模的另一差别为转换器轴关于耳朵的变化角度,如在图8中通过头戴式耳机安装可变性66指示。实践中,此变化可在用户间发生。此变化可甚至在戴有所述装置的单一周期上关于同一用户。应理解,此变化可通过改变从转换器阵列到用户的嘴巴的方向和距离而不利地影响信号分离性能。在此情况下,可能需要多个M通道训练信号中的一者基于头戴式耳机以在安装角度的预期范围的一个极端处或其附近的角度安装在耳朵65中的情境,且需要M通道训练信号中的另一者基于头戴式耳机以在安装角度的预期范围的另一极端处或其附近的角度安装在耳朵65中的情境。P个情境中的其它情境可包括对应于在这些极端之间的中间的角度的一个或一个以上定向。

在另一组应用中,M个麦克风为提供于免提车载设备中的麦克风。图9展示扬声器85设置于麦克风阵列84侧面的此通信装置83的一个实例。此装置的P个声情境可包括如参考以上的手持机应用描述的信息和/或干扰源的任何组合。举例来说,P个情境中的两者或两者以上可在所要声音源相对于麦克风阵列的位置方面不同。P个情境中的一者或一者以上还可包括从扬声器85再生干扰信号。不同情境可包括从扬声器85再生的干扰信号,例如在时间和/或频率方面具有不同特性(例如,大体上不同的音调频率)的音乐和/或话音。在此情况下,可能需要方法M10产生将干扰信号与所要语音信号分离的滤波器状态。P个情境中的一者或一者以上还可包括例如如上所述的漫射或方向性噪声场的干扰。

由方法M10产生的收敛滤波器解的空间分离特性(例如,对应波束图的形状和定向)有可能对在任务T10中用以获取训练信号的麦克风的相对特性敏感。在使用装置记录所述组训练信号前,可能需要相对于彼此至少校准参考装置的M个麦克风的增益。此校准可包括计算或选择待应用到麦克风中的一者或一者以上的输出的加权因子,使得麦克风的增益的所得比率处于所要范围内。还可能需要在制造期间和/或制造后相对于彼此至少校准每一制造装置的麦克风的增益。

即使个别麦克风元件在声学上经良好地表征,例如将元件安装到音频再生装置的方式和声端口的质量的因素的差别仍可使类似麦克风元件在实际使用中具有显著不同的频率和增益响应模式。因此,可能需要在已将麦克风阵列装设于音频再生装置中后执行对麦克风阵列的此校准。

可在特殊噪声场内执行对麦克风的阵列的校准,其中音频再生装置以特定方式在所述噪声场内定向。举例来说,可将例如手持机的双麦克风音频再生装置放置到双点源噪声场内,使得两个麦克风(其中的每一者可为全向或单向)同等地暴露于相同SPL电平。可用以执行制造装置(例如,手持机)的工厂校准的其它校准附件和程序的实例描述于2008年6月30日所申请的题为“用于校准多麦克风装置的系统、方法及设备(SYSTEMS,METHODS,AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES)”的第61/077,144号美国专利申请案中。使参考装置的麦克风的频率响应与增益匹配可有助于校正制造期间的声腔和/或麦克风敏感性的波动,且还可能需要校准每一制造装置的麦克风。

可能需要确保使用相同程序适当地校准制造装置的麦克风和参考装置的麦克风。或者,在制造期间可使用不同的声学校准程序。举例来说,可能需要使用实验室程序在房间大小的消声腔室中校准参考装置,和在车间里在便携式腔室(例如,如在第61/077,144号美国专利申请案中所描述)中校准每一制造装置。对于在制造期间执行声学校准程序不可行的情况,可能需要配置制造装置以执行自动增益匹配程序。此程序的实例描述于2008年6月2日所申请的题为“用于一对麦克风的自动增益匹配的系统及方法(SYSTEM AND METHOD FOR AUTOMATIC GAIN MATCHING OF APAIR OF MICROPHONES)”的第61/058,132号美国临时专利申请案中。

制造装置的麦克风的特性可随时间而漂移。或者或另外,此装置的阵列配置可随时间而在机械方面改变。因此,可能需要在音频再生装置内包括校准例程,所述校准例程经配置以在服务期间在周期性基础上或在某其它事件(例如,在加电时、在用户选择后等)后匹配一个或一个以上麦克风频率性质和/或敏感性(例如,麦克风增益之间的比率)。此程序的实例描述于第61/058,132号美国临时专利申请案中。

P个情境中的一者或一者以上可包括驱动音频再生装置的一个或一个以上扬声器(例如,通过人工语音和/或发出标准词汇的话音)以提供方向性干扰源。包括一个或一个以上这些情境可有助于支持所得收敛滤波器解对来自再生音频信号的干扰的稳健性。在此情况下,可能需要参考装置的扬声器为与制造装置的模型相同的模型,且以与制造装置的方式相同的方式且在与制造装置的位置相同的位置中安装。对于如图6A中展示的操作配置,此情境可包括驱动主要扬声器SP10,而对于如图6B中展示的操作配置,此情境可包括驱动次要扬声器SP20。除了(例如)由如图51中展示的干扰源的阵列产生的漫射噪声场之外,或替代所述漫射噪声场,情境可包括此干扰源。

或者或另外,可执行方法M10的例子以获得如上所述的回音消除器EC10的一个或一个以上收敛滤波器组。回音消除器的经训练的滤波器可接着用以在为SSP滤波器SS10记录训练信号期间对麦克风信号执行回音消除。

虽然将位于消声腔室中的HATS描述为用于在任务T10中记录训练信号的合适测试装置,但可用任一其它具有人类特点的仿真器(humanoid simulator)或人类说话者(human speaker)来取代所要语音产生源。在此情况下,可能需要使用至少某一量的背景噪声(例如,以在所要音频频率范围上较好地调节经训练的滤波器系数值的所得矩阵)。还可在制造装置的使用前和/或在使用期间,对所述装置执行测试。举例来说,可基于音频再生装置的用户的特征(例如,麦克风到嘴巴的典型距离)和/或基于预期使用环境而使测试个性化。可针对用户响应设计一系列预设“问题”,例如,其可有助于将系统调节到特定特征、特点、环境、使用等。

任务T20使用所述组训练信号以根据源分离算法训练SSP滤波器SS10的结构(即,计算对应收敛滤波器解)。可使用个人计算机或工作站在参考装置内执行(但通常在音频再生装置外部执行)任务T20。可能需要任务T20产生收敛滤波器结构,所述结构经配置以对具有方向性分量的多通道输入信号(例如,所感测音频信号S10)进行滤波,使得在所得输出信号中,方向性分量的能量被集中到输出通道中的一者(例如,源信号S20)中。与多通道输入信号的通道中的任一者相比,此输出通道可具有增加的信噪比(SNR)。

术语“源分离算法”包括盲源分离(BSS)算法,其为仅基于源信号的混合来分离个别源信号(其可包括来自一个或一个以上信息源和一个或一个以上干扰源的信号)的方法。盲源分离算法可用以分离来自多个独立源的混合信号。由于这些技术不需要关于每一信号的源的信息,所以其被称为“盲源分离”方法。术语“盲”指代参考信号或所关注信号不可获得的事实,且这些方法通常包括关于信息和/或干扰信号中的一者或一者以上的统计数据的假定。举例来说,在语音应用中,通常将所关注语音信号假定为具有超高斯分布(supergaussian distribution)(例如,高峰态)。BSS算法的类别还包括多变量盲解卷积算法。

BSS方法可包括独立分量分析的实施方案。独立分量分析(ICA)为用于分离大概彼此独立的混合源信号(分量)的技术。在其简化形式中,独立分量分析将权重的“未混合”矩阵应用于混合信号(例如,通过将所述矩阵与混合信号相乘)以产生经分离的信号。可为所述权重指派初始值,初始值接着经调整以使信号的联合熵最大化以使信息冗余最小化。重复此权重调整和熵增加过程,直到将信号的信息冗余减小到最小值。例如ICA的方法提供用于将语音信号与噪声源分离的相对准确且灵活的手段。独立向量分析(“IVA”)为源信号是向量源信号而非单一可变源信号的相关的BSS技术。

源分离算法的类别还包括BSS算法的变型,例如受约束ICA和受约束IVA,其是根据其它先验信息(例如,源信号中的一者或一者以上中的每一者相对于(例如)麦克风阵列的轴的已知方向)而受到约束。可仅基于方向性信息且不基于所观测的信号来区分这些算法与应用固定、非自适应解的波束成形器。

如上参看图11B论述,SSP滤波器SS10可包括一个或一个以上级(例如,固定滤波器级FF10、自适应滤波器级AF10)。这些级中的每一者可基于对应自适应滤波器结构,所述自适应滤波器结构的系数值是由任务T20使用从源分离算法导出的学习规则计算。滤波器结构可包括前馈和/或反馈系数,且可为有限脉冲响应(FIR)或无限脉冲响应(IIR)设计。这些滤波器结构的实例描述于如上并入的第12/197,924号美国专利申请案中。

图52A展示自适应滤波器结构FS10的包括两个反馈滤波器C110和C120的双通道实例的框图,且图52B展示滤波器结构FS10的还包括两个直接型滤波器D110和D120的实施方案FS20的框图。空间选择性处理滤波器SS10可经实施以包括此结构,使得(例如)输入通道I1、I2分别对应于所感测音频通道S10-1、S10-2,且输出通道O1、O2分别对应于源信号S20和噪声参考S30。由任务T20用以训练此结构的学习规则可经设计以使滤波器的输出通道之间的信息最大化(例如,使由滤波器的输出通道中的至少一者含有的信息的量最大化)。也可将此准则重新陈述为使输出通道的统计独立性最大化,或使输出通道间的相互信息最小化,或使输出处的熵最大化。可使用的不同学习规则的特定实例包括最大信息(也被称为infomax)、最大可能性和最大非高斯性(例如,最大峰态)。这些自适应结构和基于ICA或IVA自适应反馈和前馈方案的学习规则的其它实例描述于以下各者中:于2006年3月9日公布的题为“用于在稳定性约束下使用独立分量分析进行语音处理的系统及方法(System and Method for Speech Processing using Independent Component Analysis under Stability Constraints)”的第2006/0053002 A1号美国公开专利申请案、于2006年3月1日所申请的题为“用于使用盲信号源过程实现改进的信号分离的系统及方法(System and Method for Improved Signal Separation using a Blind Signal Source Process)”的第60/777,920号美国临时申请案、于2006年3月1日所申请的题为“用于产生分离信号的系统及方法(System and Method for Generating a Separated Signal)”的第60/777,900号美国临时申请案和题为“用于盲源信号分离的系统及方法(Systems and Methods for Blind Source Signal Separation)”的国际专利公开案WO 2007/100330 A1(金(Kim)等人)。自适应滤波器结构的额外描述和可在任务T20中用以训练这些滤波器结构的学习规则可见于如上以引用的方式并入的第12/197,924号美国专利申请案中。

可将可用以训练如图52A中所展示的反馈结构FS10的学习规则的一个实例表达如下:

>y1(t)=x1(t)+(h12(t)y2(t))---(A)>

>y2(t)=x2(t)+(h21(t)y1(t))---(B)>

Δh12k=-f(y1(t))×y2(t-k)       (C)

Δh21k=-f(y2(t))×y1(t-k)       (D)

其中t表示时间样本索引,h12(t)表示滤波器C110在时间t时的系数值,h21(t)表示滤波器C120在时间t时的系数值,符号表示时域卷积运算,Δh12k表示在输出值y1(t)和y2(t)的计算后滤波器C110的第k个系数值的改变且Δh21k表示在输出值y1(t)和y2(t)的计算后滤波器C120的第k个系数值的改变。可能需要将激活函数f实施为近似所要信号的累积密度函数的非线性有界函数。可用于语音应用的激活信号f的非线性有界函数的实例包括双曲线切线函数、S形函数和符号函数(sign function)。

如本文中指出,可使用BSS、波束成形或组合BSS/波束成形方法计算SSP滤波器SS10的方向性处理级的滤波器系数值。虽然ICA和IVA技术允许滤波器的调适以解决非常复杂的情境,但并不始终可能或需要实施这些技术以用于经配置以实时调适的信号分离过程。第一,调适所需的收敛时间和指令数目对于一些应用可为抑制性的。虽然呈良好初始条件的形式的先验训练知识的并入可加速收敛,但在一些应用中,调适并非必要或仅对于声情境的一部分为必要的。第二,如果输入通道的数目较大,则IVA学习规则可收敛地慢得多且在局部最小值上被卡住。第三,IVA的在线调适的计算成本可为抑制性的。最后,自适应滤波可与瞬态和自适应增益调制相关联,瞬态和自适应增益调制可作为额外回响由用户感知或对安装于处理方案下游的语音辨识系统有害。

可用于对从线性麦克风阵列接收的信号进行方向性处理的另一类技术常被称作“波束成形”。波束成形技术使用从麦克风的空间分集产生的通道之间的时间差来加强从特定方向到达的信号的分量。更确切地说,很可能麦克风中的一者更直接地定向在所要源(例如,用户的嘴巴)处,而其它麦克风可产生来自此源的相对衰减的信号。这些波束成形技术为操纵波束朝向声音源(在其它方向上放置空值)的用于空间滤波的方法。波束成形技术不对声音源进行假定,但为了将信号去回响或定位声音源的目的,假定源与传感器之间的几何形状或声音信号自身为已知的。可根据数据相关或数据独立波束成形器设计(例如,超方向性波束成形器、最小平方波束成形器或统计上最佳的波束成形器设计)来计算SSP滤波器SS10的结构的滤波器系数值。在数据独立波束成形器设计的情况下,可能需要对波束图进行整形以覆盖所要空间区域(例如,通过调谐噪声相关矩阵)。

稳健自适应波束成形中被称作“广义旁瓣消除”(Generalized Sidelobe Canceling,GSC)的经充分研究的技术论述于1999年10月的《IEEE信号处理通讯》(IEEE Transactions on SignalProcessing)第47卷第10期第2677-2684页的宝珠山·O(Hoshuyama,O.)、杉山·A(Sugiyama,A.)、平野·A(Hirano,A.)的“用于麦克风阵列的具有使用受约束自适应滤波器的闭锁矩阵的稳健的自适应滤波器(A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters)”中。广义旁瓣消除旨在从一组测量结果中过滤出单一所要源信号。GSC原理的更完整的解释可见于1982年1月的《IEEE天线与传播通讯》(IEEE Transactions on Antennas and Propagation)第30卷第1期第27-34页的格雷福斯·L.J.(Griffiths,L.J.)、金·C.W.(Jim,C.W.)的“线性受约束自适应波束成形的自适应方法(An alternative approach to linear constrained adaptive beamforming)”中。

任务T20根据学习规则训练自适应滤波器结构以收敛。滤波器系数值响应于所述组训练信号的更新可继续,直到获得收敛解。在此操作期间,可不止一次地将训练信号中的至少一些作为输入提交到滤波器结构(可能以不同次序)。举例来说,可在一循环中重复所述组训练信号,直到获得收敛解。可基于滤波器系数值确定收敛。举例来说,当滤波器系数值不再改变时或当滤波器系数值在某一时间间隔内的总体改变小于(或者,不大于)阈值时可决定滤波器已收敛。还可通过评估相关测度(correlation measure)来监视收敛。对于包括交叉滤波器的滤波器结构,可针对每一交叉滤波器独立地确定收敛,使得在一交叉滤波器的更新操作继续的同时另一交叉滤波器的更新操作可终止。或者,每一交叉滤波器的更新可继续,直到所有交叉滤波器已收敛。

任务T30通过评估任务T20中产生的经训练的滤波器的分离性能来评估所述滤波器。举例来说,任务T30可经配置以评估经训练的滤波器对一组评估信号的响应。此组评估信号可与在任务T20中使用的训练组相同。或者,所述组评估信号可为与所述训练组的信号不同但类似(例如,使用相同麦克风阵列的至少部分和相同P个情境中的至少一些来记录)的一组M通道信号。可自动地和/或通过人监督来执行此评估。通常使用个人计算机或工作站在音频再生装置外部执行任务T30。

任务T30可经配置以根据一个或一个以上度量的值评估滤波器响应。举例来说,任务T30可经配置以计算一个或一个以上度量中的每一者的值且将所计算的值与相应阈值比较。可用以评估滤波器响应的度量的一个实例为以下两者之间的相关性:(A)评估信号(例如,在评估信号的记录期间从HATS的嘴巴扬声器再生的语音信号)的原始信息分量,与(B)滤波器对所述评估信号的响应的至少一个通道。此度量可指示收敛滤波器结构将信息与干扰分离的良好程度。在此情况下,当信息分量大体上与滤波器响应的M个通道中的一者相关且与其它通道具有很少相关性时指示分离。

可用以评估滤波器响应(例如,指示滤波器将信息与干扰分离的良好程度)的度量的其它实例包括统计性质,例如方差、高斯性和/或较高阶统计矩(例如,峰态)。可用于语音信号的度量的额外实例包括过零率和时间突发(也被称为时间稀疏性)。一般来说,语音信号展现比噪声信号低的过零率和低的时间稀疏性。可用以评估滤波器响应的度量的另一实例为在评估信号的记录期间信息或干扰源相对于麦克风阵列的实际位置与如由滤波器对所述评估信号的响应指示的波束图(或空值波束图)一致的程度。可能需要在任务T30中使用的度量包括或限于在设备A200的对应实施方案中使用的分离测度(例如,如上参考例如分离评估器EV10的分离评估器论述)。

任务T30可经配置以将每一所计算的度量值与对应阈值比较。在此情况下,如果每一度量的所计算的值超过相应阈值(或者,至少等于相应阈值),则可称滤波器产生信号的充分分离结果。所属领域的技术人员应认识到,在用于多个度量的此比较方案中,一个度量的阈值可在一个或一个以上其它度量的所计算的值为高时减小。

还可能需要任务T30验证收敛滤波器解的集合遵守其它性能准则,例如在例如TIA-810-B(例如,2006年11月的版本,如由电信工业协会(弗吉尼亚州,阿灵顿市)发布)的标准文档中指定的发送响应标称响度曲线(send response nominal loudness curve)。

即使滤波器未能充分地分离评估信号中的一者或一者以上,也可能需要配置任务T30以使收敛滤波器解通过。举例来说,在如上所述的设备A200的实施方案中,可将单通道模式用于未实现所感测音频信号S10的充分分离的情形,使得在任务T30中不能分离小百分比(例如,高达百分之二、百分之五、百分之十或百分之二十)的所述组评估信号为可接受的。

有可能经训练的滤波器将在任务T20中收敛到局部最小值,从而导致评估任务T30的失败。在此情况下,可使用不同训练参数(例如,不同学习速率、不同几何约束等)重复任务T20。方法M10通常为反复的设计过程,且可能需要改变和重复任务T10和T20中的一者或一者以上,直到在任务T30中获得所要评估结果。举例来说,方法M10的反复可包括在任务T20中使用新训练参数值(例如,初始权重值、收敛速率等)和/或在任务T10中记录新训练数据。

一旦在任务T30中已获得SSP滤波器SS10的固定滤波器级(例如,固定滤波器级FF10)的所要评估结果,则可将对应滤波器状态加载到制造装置中作为SSP滤波器SS10的固定状态(即,固定的一组滤波器系数值)。如上所述,还可能需要执行用以校准每一制造装置中的麦克风的增益和/或频率响应的程序,例如实验室、工厂或自动(例如,自动增益匹配)校准程序。

在方法M10的一个例子中产生的经训练的固定滤波器可用于方法M10的另一例子中以对也可使用参考装置记录的另一组训练信号进行滤波,以便计算用于自适应滤波器级(例如,用于SSP滤波器SS10的自适应滤波器级AF10)的初始条件。用于自适应滤波器的初始条件的此计算的实例描述于2008年8月25日所申请的题为“用于信号分离的系统、方法及设备(SYSTEMS,METHODS,AND APPARATUS FOR SIGNAL SEPARATION)”的第12/197,924号美国专利申请案中,例如,在段落[00129]-[00135]处(开始于“可能需要(It may be desirable)”且结束于“并列消除(cancellation in parallel)”),为了限于描述自适应滤波器级的设计、训练和/或实施的目的,所述段落在此以引用的方式并入。在制造期间,还可将这些初始条件加载到相同或类似装置的其它例子中(例如,关于经训练的固定滤波器级)。

如图53中所说明,无线电话系统(例如,CDMA、TDMA、FDMA和/或TD-SCDMA系统)通常包括经配置以与无线电接入网络以无线方式通信的多个移动用户单元10,所述无线电接入网络包括多个基站12和一个或一个以上基站控制器(BSC)14。此系统还通常包括耦合到BSC 14的移动交换中心(MSC)16,其经配置以使无线电接入网络与常规公共交换电话网络(PSTN)18介接。为了支持此介接,MSC可包括媒体网关或以其它方式与媒体网关通信,所述媒体网关充当网络之间的翻译单元。媒体网关经配置以在不同格式(例如,不同发射和/或编码技术)之间转换(例如,在时分多路复用(TDM)话音与VoIP之间转换),且还可经配置以执行媒体流式传输功能(例如,回音消除、双时多频(DTMF)和频调发送)。BSC 14经由回程线路耦合到基站12。回程线路可经配置以支持若干已知接口中的任一者,包括(例如)E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL。基站12、BSC 14、MSC 16和媒体网关(如果有)的集合也被称作“基础结构”。

每一基站12有利地包括至少一个扇区(未图示),每一扇区包含全向天线或远离基站12放射状地指向特定方向的天线。或者,每一扇区可包含用于分集接收的两个或两个以上天线。每一基站12可经有利地设计以支持多个频率指派。扇区与频率指派的相交可被称为CDMA信道。基站12也可被称为基站收发器子系统(BTS)12。或者,“基站”在行业中可用以共同指代BSC 14和一个或一个以上BTS 12。BTS 12也可被表示为“小区基站”(cell site)12。或者,给定BTS 12的个别扇区可被称作小区基站。移动用户单元10的类别通常包括如本文中描述的通信装置,例如蜂窝式和/或PCS(个人通信服务)电话、个人数字助理(PDA)和/或具有移动电话能力的其它通信装置。此单元10可包括内部扬声器和麦克风阵列、包括扬声器和麦克风阵列的系留式手持机或头戴式耳机(例如,USB手持机)或包括扬声器和麦克风阵列的无线头戴式耳机(例如,使用由蓝牙技术联盟公司,华盛顿州贝尔维尤市)发布的蓝牙协议的版本将音频信息传达到所述单元的头戴式耳机)。此系统可经配置以根据IS-95标准的一个或一个以上版本(如由电信工业协会(弗吉尼亚州,阿灵顿市)公布的IS-95、IS-95A、IS-95B、cdma2000)使用。

现在描述蜂窝式电话系统的典型操作。基站12从多组移动用户单元10接收多组反向链路信号。移动用户单元10正进行电话呼叫或其它通信。由给定基站12接收的每一反向链路信号在所述基站12内加以处理,且所得数据经转发到BSC 14。BSC 14提供呼叫资源分配和移动性管理功能性,包括对基站12之间的软越区切换的安排。BSC 14还将所接收的数据路由到MSC 16,其为与PSTN 18的介接提供额外路由服务。类似地,PSTN 18与MSC 16介接,且MSC 16与BSC 14介接,BSC 14又控制基站12以将多组前向链路信号发射到多组移动用户单元10。

图53中所展示的蜂窝式电话系统的元件还可经配置以支持包交换数据通信。如图54中所展示,通常使用耦合到一连接到外部包数据网络24(例如,例如因特网的公共网络)的网关路由器的包数据服务节点(PDSN)22在移动用户单元10与所述包数据网络之间路由包数据业务。PDSN 22又将数据路由到一个或一个以上包控制功能(PCF)20,其各自服务于一个或一个以上BSC 14且充当包数据网络与无线电接入网络之间的链路。包数据网络24还可经实施以包括局域网(LAN)、校园网络(CAN)、都会网络(MAN)、广域网(WAN)、环状网络、星状网络、令牌环状网络等。连接到网络24的用户终端可为如本文中描述的音频再生装置的类别内的装置,例如PDA、膝上型计算机、个人计算机、游戏装置(此装置的实例包括XBOX及XBOX 360(微软公司,华盛顿州雷蒙德市)、游戏站3(Playstation 3)及便携式游戏站(Playstation Portable)(索尼公司,日本东京)及Wii及DS(任天堂,日本京都)),和/或具有音频处理能力且可经配置以支持电话呼叫或使用例如VoIP的一个或一个以上协议的其它通信的任何装置。此终端可包括内部扬声器和麦克风阵列、包括扬声器和麦克风阵列的系留式手持机(例如,USB手持机)或包括扬声器和麦克风阵列的无线头戴式耳机(例如,使用如由蓝牙技术联盟公司(华盛顿州贝尔维尤市)发布的蓝牙协议的版本将音频信息传达到所述终端的头戴式耳机)。此系统可经配置以在始终不进入PSTN的情况下在不同无线电接入网络上的移动用户单元之间(例如,经由例如VoIP的一个或一个以上协议)、在移动用户单元与非移动用户终端之间或在两个非移动用户终端之间将电话呼叫或其它通信作为包数据业务来载运。移动用户单元10或其它用户终端也可被称作“接入终端”。

图55展示根据一配置处理再生音频信号的方法M110的流程图,方法M110包括任务T100、T110、T120、T130、T140、T150、T160、T170、T180、T210、T220和T230。任务T100从多通道所感测音频信号获得噪声参考(例如,如本文中参考SSP滤波器SS10描述)。任务T110对噪声参考执行频率变换(例如,如本文中参考变换模块SG10描述)。任务T120将由任务T110产生的经均一分辨率变换的信号的值分组到非均一子带中(例如,如上参考频段化模块SG20描述)。对于噪声参考的子带中的每一者,任务T130更新时间中经平滑的功率估计(例如,如上参考子带功率估计计算器EC120描述)。

任务T210对再生音频信号S40执行频率变换(例如,如本文中参考变换模块SG10描述)。任务T220将由任务T210产生的经均一分辨率变换的信号的值分组到非均一子带中(例如,如上参考频段化模块SG20描述)。对于再生音频信号的子带中的每一者,任务T230更新时间中经平滑的功率估计(例如,如上参考子带功率估计计算器EC120描述)。

对于再生音频信号的子带中的每一者,任务T140计算子带功率比(例如,如上参考比率计算器GC10描述)。任务T150根据时间中经平滑的功率比和释放延迟逻辑来更新子带增益因子,且任务T160对照由余量和音量定义的下限和上限检查子带增益(例如,如上参考平滑器GC20描述)。任务T170更新子带双二阶滤波器系数,且任务T180使用经更新的双二阶滤波器级联对再生音频信号S40进行滤波(例如,如上参考子带滤波器阵列FA100描述)。可能需要响应于再生音频信号当前含有话音活动的指示执行方法M110。

图56展示根据一配置处理再生音频信号的方法M120的流程图,方法M120包括任务T140、T150、T160、T170、T180、T210、T220、T230、T310、T320和T330。任务T310对未经分离的所感测音频信号执行频率变换(例如,如本文中参考变换模块SG10、均衡器EQ100和未经分离的所感测音频信号S90描述)。任务T320将由任务T310产生的经均一分辨率变换的信号的值分组到非均一子带中(例如,如上参考频段化模块SG20描述)。对于未经分离的所感测音频信号的子带中的每一者,如果未经分离的所感测音频信号当前不含有话音活动,则任务T330更新时间中经平滑的功率估计(例如,如上参考子带功率估计计算器EC120描述)。可能需要响应于再生音频信号当前含有话音活动的指示执行方法M120。

图57展示根据一配置处理再生音频信号的方法M210的流程图,方法M210包括任务T140、T150、T160、T170、T180、T410、T420、T430、T510和T530。任务T410经由双二阶子带滤波器处理未经分离的所感测音频信号以获得当前帧子带功率估计(例如,如本文中参考子带滤波器阵列SG30、均衡器EQ100和未经分离的所感测音频信号S90描述)。任务T420识别最小当前帧子带功率估计且用所述值替换所有其它当前帧子带功率估计(例如,如本文中参考最小化器MZ10描述)。对于未经分离的所感测音频信号的子带中的每一者,任务T430更新时间中经平滑的功率估计(例如,如上参考子带功率估计计算器EC120描述)。任务T510经由双二阶子带滤波器处理再生音频信号以获得当前帧子带功率估计(例如,如本文中参考子带滤波器阵列SG30和均衡器EQ100描述)。对于再生音频信号的子带中的每一者,任务T530更新时间中经平滑的功率估计(例如,如上参考子带功率估计计算器EC120描述)。可能需要响应于再生音频信号当前含有话音活动的指示执行方法M210。

图58展示根据一配置处理再生音频信号的方法M220的流程图,方法M220包括任务T140、T150、T160、T170、T180、T410、T420、T430、T510、T530、T610、T630和T640。任务T610经由双二阶子带滤波器处理来自多通道所感测音频信号的噪声参考以获得当前帧子带功率估计(例如,如本文中参考噪声参考S30、子带滤波器阵列SG30和均衡器EQ100描述)。对于噪声参考的子带中的每一者,任务T630更新时间中经平滑的功率估计(例如,如上参考子带功率估计计算器EC120描述)。根据通过任务T430和T630产生的子带功率估计,任务T640在每一子带中选取最大功率估计(例如,如上参考最大化器MAX10描述)。可能需要响应于再生音频信号当前含有话音活动的指示执行方法M220。

图59A展示根据通用配置处理再生音频信号的方法M300的流程图,方法M300包括任务T810、T820和T830且可由经配置以处理音频信号的装置(例如,本文中揭示的通信和/或音频再生装置的众多实例中的一者)执行。任务T810对多通道所感测音频信号执行方向性处理操作以产生源信号和噪声参考(例如,如上参考SSP滤波器SS10描述)。任务T820均衡再生音频信号以产生经均衡的音频信号(例如,如上参考均衡器EQ10描述)。任务T820包括任务T830,任务T830基于来自噪声参考的信息使再生音频信号的至少一个频率子带相对于再生音频信号的至少一个其它频率子带提升。

图59B展示任务T820的实施方案T822的流程图,实施方案T822包括任务T840、T850、T860和任务T830的实施方案T832。对于再生音频信号的多个子带中的每一者,任务T840计算第一子带功率估计(例如,如上参考第一子带功率估计产生器EC100a描述)。对于噪声参考的多个子带中的每一者,任务T850计算第二子带功率估计(例如,如上参考第二子带功率估计产生器EC100b描述)。对于再生音频信号的多个子带中的每一者,任务T860计算对应第一功率估计与第二功率估计的比率(例如,如上参考子带增益因子计算器GC100描述)。对于再生音频信号的多个子带中的每一者,任务T832将基于对应所计算的比率的增益因子应用到子带(例如,如上参考子带滤波器阵列FA100描述)。

图60A展示任务T840的实施方案T842的流程图,实施方案T842包括任务T870、T872和T874。任务T870对再生音频信号执行频率变换以获得经变换的信号(例如,如上参考变换模块SG10描述)。任务T872将子带划分方案应用到经变换的信号以获得多个频段(例如,如上参考频段化模块SG20描述)。对于多个频段中的每一者,任务T874在所述频段上计算和(例如,如上参考求和器EC10描述)。任务T842经配置使得多个第一子带功率估计中的每一者基于由任务T874计算的所述和中的对应一者。

图60B展示任务T840的实施方案T844的流程图,实施方案T844包括任务T880。对于再生音频信号的多个子带中的每一者,任务T880使所述子带的增益相对于再生音频信号的其它子带提升以获得经提升的子带信号(例如,如上参考子带滤波器阵列SG30描述)。任务T844经配置使得多个第一子带功率估计中的每一者基于来自经提升的子带信号中的对应一者的信息。

图60C展示任务T820的实施方案T824的流程图,实施方案T824使用滤波器级的级联对再生音频信号进行滤波。任务T824包括任务T830的实施方案T834。对于再生音频信号的多个子带中的每一者,任务T834通过将增益因子应用到所述级联的对应滤波器级来将增益因子应用到所述子带。

图60D展示根据通用配置处理再生音频信号的方法M310的流程图,方法M310包括任务T805、T810和T820。任务T805基于来自经均衡的音频信号的信息对多个麦克风信号执行回音消除操作以获得多通道所感测音频信号(例如,如上参考回音消除器EC10描述)。

图61展示根据一配置处理再生音频信号的方法M400的流程图,方法M400包括任务T810、T820和T910。基于来自源信号和噪声参考中的至少一者的信息,方法M400在第一模式或第二模式中操作(例如,如上参考设备A200描述)。在第一模式中的操作发生于第一时间周期期间,且在第二模式中的操作发生于与第一时间周期分开的第二时间周期期间。在第一模式中,执行任务T820。在第二模式中,执行任务T910。任务T910基于来自未经分离的所感测音频信号的信息来均衡再生音频信号(例如,如上参考均衡器EQ100描述)。任务T910包括任务T912、T914和T916。对于再生音频信号的多个子带中的每一者,任务T912计算第一子带功率估计。对于未经分离的所感测音频信号的多个子带中的每一者,任务T914计算第二子带功率估计。对于再生音频信号的多个子带中的每一者,任务T916将对应增益因子应用到所述子带,其中所述增益因子基于以下各者:(A)对应第一子带功率估计,和(B)多个第二子带功率估计中的最小者。

图62A展示用于根据通用配置处理再生音频信号的设备F100的框图。设备F100包括用于对多通道所感测音频信号执行方向性处理操作以产生源信号和噪声参考的装置F110(例如,如上参考SSP滤波器SS10描述)。设备F100还包括用于均衡再生音频信号以产生经均衡的音频信号的装置F120(例如,如上参考均衡器EQ10描述)。装置F120经配置以基于来自噪声参考的信息使再生音频信号的至少一个频率子带相对于再生音频信号的至少一个其它频率子带提升。本文中明确地揭示了设备F100、装置F110和装置F120的众多实施方案(例如,依靠本文中揭示的多种元件和操作)。

图62B展示用于均衡的装置F120的实施方案F122的框图。装置F122包括用于针对再生音频信号的多个子带中的每一者计算第一子带功率估计的装置F140(例如,如上参考第一子带功率估计产生器EC100a描述)和用于针对噪声参考的多个子带中的每一者计算第二子带功率估计的装置F150(例如,如上参考第二子带功率估计产生器EC100b描述)。装置F122还包括用于针对再生音频信号的多个子带中的每一者基于对应第一功率估计与第二功率估计的比率计算子带增益因子的装置F160(例如,如上参考子带增益因子计算器GC100描述),和用于将对应增益因子应用到再生音频信号的多个子带中的每一者的装置F130(例如,如上参考子带滤波器阵列FA100描述)。

图63A展示根据通用配置处理再生音频信号的方法V100的流程图,方法V100包括任务V110、V120、V140、V210、V220和V230,且可由经配置以处理音频信号的装置(例如,本文中揭示的通信和/或音频再生装置的众多实例中的一者)执行。任务V110对再生音频信号进行滤波以获得第一多个时域子带信号,且任务V120计算多个第一子带功率估计(例如,如上参考信号产生器SG100a和功率估计计算器EC100a描述)。任务V210对多通道所感测音频信号执行空间选择性处理操作以产生源信号和噪声参考(例如,如上参考SSP滤波器SS10描述)。任务V220对噪声参考进行滤波以获得第二多个时域子带信号,且任务V230计算多个第二子带功率估计(例如,如上参考信号产生器SG100b和功率估计计算器EC100b或NP100描述)。任务V140使再生音频信号的至少一个子带相对于至少一个其它子带提升(例如,如上参考子带滤波器阵列FA100描述)。

图63B展示用于根据通用配置处理再生音频信号的设备W100的框图,设备W100可包括于经配置以处理音频信号的装置(例如,本文中揭示的通信和/或音频再生装置的众多实例中的一者)内。设备W100包括用于对再生音频信号进行滤波以获得第一多个时域子带信号的装置V110和用于计算多个第一子带功率估计的装置V120(例如,如上参考信号产生器SG100a和功率估计计算器EC100a描述)。设备W100包括用于对多通道所感测音频信号执行空间选择性处理操作以产生源信号和噪声参考的装置W210(例如,如上参考SSP滤波器SS10描述)。设备W100包括用于对噪声参考进行滤波以获得第二多个时域子带信号的装置W220和用于计算多个第二子带功率估计的装置W230(例如,如上参考信号产生器SG100b和功率估计计算器EC100b或NP100描述)。设备W100包括用于使再生音频信号的至少一个子带相对于至少一个其它子带提升的装置W140(例如,如上参考子带滤波器阵列FA100描述)。

图64A展示根据通用配置处理再生音频信号的方法V200的流程图,方法V200包括任务V310、V320、V330、V340、V420和V520,且可由经配置以处理音频信号的装置(例如,本文中揭示的通信和/或音频再生装置的众多实例中的一者)执行。任务V310对多通道所感测音频信号执行空间选择性处理操作以产生源信号和噪声参考(例如,如上参考SSP滤波器SS10描述)。任务V320计算多个第一噪声子带功率估计(例如,如上参考功率估计计算器NC100b描述)。对于基于来自多通道所感测音频信号的信息的第二噪声参考的多个子带中的每一者,任务V320计算对应第二噪声子带功率估计(例如,如上参考功率估计计算器NC100c描述)。任务V520计算多个第一子带功率估计(例如,如上参考功率估计计算器EC100a描述)。任务V330基于第一和第二噪声子带功率估计中的最大者计算多个第二子带功率估计(例如,如上参考功率估计计算器NP100描述)。任务V340使再生音频信号的至少一个子带相对于至少一个其它子带提升(例如,如上参考子带滤波器阵列FA100描述)。

图64B展示用于根据通用配置处理再生音频信号的设备W100的框图,设备W100可包括于经配置以处理音频信号的装置(例如,本文中揭示的通信和/或音频再生装置的众多实例中的一者)内。设备W100包括用于对多通道所感测音频信号执行空间选择性处理操作以产生源信号和噪声参考的装置W310(例如,如上参考SSP滤波器SS10描述)和用于计算多个第一噪声子带功率估计的装置W320(例如,如上参考功率估计计算器NC100b描述)。设备W100包括用于针对基于来自多通道所感测音频信号的信息的第二噪声参考的多个子带中的每一者计算对应第二噪声子带功率估计的装置W320(例如,如上参考功率估计计算器NC100c描述)。设备W100包括用于计算多个第一子带功率估计的装置W520(例如,如上参考功率估计计算器EC100a描述)。设备W100包括用于基于第一和第二噪声子带功率估计中的最大者计算多个第二子带功率估计的装置W330(例如,如上参考功率估计计算器NP100描述)。设备W100包括用于使再生音频信号的至少一个子带相对于至少一个其它子带提升的装置W340(例如,如上参考子带滤波器阵列FA100描述)。

提供所述配置的前述呈现以使任何所属领域的技术人员能够制造或使用本文所揭示的方法及其它结构。本文所展示并描述的流程图、框图、状态图及其它结构仅为实例,且这些结构的其它变型也处于本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理也可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是符合与在本文中以任何方式揭示的原理及新颖特征一致的最广泛范围(包括于所申请的所附权利要求书中),所述权利要求书形成原始揭示内容的一部分。

可与如本文中描述的通信装置的发射器和/或接收器一起使用或适于供所述发射器和/或接收器使用的编解码器的实例包括:加强可变速率编解码器,如在2007年2月的题为“宽带扩频数字系统的加强可变速率编解码器,语音服务选项3、68及70(Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband Spread SpectrumDigital Systems)”的第三代合作伙伴计划2(3GPP2)文档C.S0014-C,v1.0(可在www-dot-3gpp-dot-org在线获得)中所描述;可选模式声码器语音编解码器,如在2004年1月的题为“宽带扩频通信系统的可选模式声码器(SMV)服务选项(Selectable Mode Vocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems)”的3GPP2文档C.S0030-0,v3.0(可在www-dot-3gpp-dot-org在线获得)中所描述;自适应多速率(AMR)语音编解码器,如在文档ETSI TS 126 092 V6.0.0(欧洲电信标准协会(ETSI),索菲亚-安提波利斯高等商学院,法国,2004年12月)中所描述;和AMR宽带语音编解码器,如在文档ETSI TS 126 192 V6.0.0(ETSI,2004年12月)中所描述。

所属领域的技术人员应理解,可使用多种不同技术及技艺中的任一者来表示信息及信号。举例来说,可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示可在整个上述描述中提及的数据、指令、命令、信息、信号、位及符号。

如本文所揭示的配置的实施方案的重要设计要求可包括使处理延迟和/或计算复杂性(通常以每秒百万个指令或MIPS来测量)最小化,尤其对于计算密集应用(例如,压缩音频或视听信息(例如,根据例如本文所识别的实例中的一者的压缩格式来编码的文件或流)的播放)或在较高取样速率下的话音通信(例如,对于宽带通信)的应用来说。

可以被认为适合于所希望的应用的硬件、软件和/或固件的任何组合来体现如本文所揭示的设备的实施方案的各种元件。举例来说,可将所述元件制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上所述阵列。这些元件中的任何两者或两者以上或甚至所有可实施于相同阵列内。所述阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。

本文所揭示的设备的各种实施方案的一个或一个以上元件还可整个或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)及ASIC(专用集成电路))上执行。如本文所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器,也被称为“处理器”),且这些元件中的任何两者或两者以上或甚至所有可实施于相同的所述计算机内。

所属领域的技术人员将了解,结合本文所揭示的配置而描述的各种说明性模块、逻辑块、电路及操作可实施为电子硬件、计算机软件或两者的组合。可用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文所揭示的配置的任何组合来实施或执行所述模块、逻辑块、电路及操作。举例来说,此配置可至少部分地实施为硬连线电路、制造于专用集成电路中的电路配置,或加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,此代码为可由逻辑元件阵列(例如,通用处理器或其它数字信号处理单元)执行的指令。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、一个或一个以上微处理器结合DSP核心,或任何其它此配置。软件模块可驻留于RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸盘、CD-ROM,或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器及存储媒体可作为离散组件而驻留于用户终端中。

请注意,可通过例如处理器的逻辑元件阵列来执行本文所揭示的各种方法(例如,方法M110、M120、M210、M220、M300及M400,以及所述方法及在本文中依靠对如本文所揭示的设备的各种实施方案的操作的描述来明确地揭示的额外方法的众多实施方案),且可将如本文所描述的设备的各种元件实施为设计成在此阵列上执行的模块。如本文所使用,术语“模块”或“子模块”可指代包括呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,可将多个模块或系统组合成一个模块或系统,且可将一个模块或系统分成多个模块或系统以执行相同功能。在以软件或其它计算机可执行指令来实施时,处理的元素基本上为用以执行相关任务的代码段,例如例程、程序、对象、组件、数据结构及其类似者。术语“软件”应被理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏代码、微代码、可由逻辑元件阵列执行的任何一个或一个以上指令集或指令序列,及所述实例的任何组合。程序或代码段可存储于处理器可读媒体中或可经由传输媒体或通信链路通过体现于载波中的计算机数据信号来传输。

本文所揭示的方法、方案及技术的实施方案还可有形地体现(例如,在本文所列出的一个或一个以上计算机可读媒体中)为可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一个或一个以上指令集。术语“计算机可读媒体”可包括可存储或传递信息的任何媒体,包括易失性、非易失性、可装卸及不可装卸媒体。计算机可读媒体的实例包括电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路,或可用以存储所要信息且可被存取的任何其它媒体。计算机数据信号可包括可经由传输媒体(例如,电子网络信道、光纤、空气、电磁、RF链路等等)来传播的任何信号。可经由例如因特网或企业内部网络的计算机网络来下载代码段。在任何情况下,本发明的范围不应被理解为受所述实施例的限制。

可以硬件、由处理器执行的软件模块或所述两者的组合来直接地体现本文所描述的方法的任务中的每一者。在如本文所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至所有。还可将任务中的一者或一者以上(可能所有)实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集),所述计算机程序产品可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。还可通过一个以上的此阵列或机器来执行如本文所揭示的方法的实施方案的任务。在这些或其它实施方案中,可在用于无线通信的装置(例如,蜂窝式电话或具有此通信能力的其它装置)内执行任务。此装置可经配置以与电路交换和/或包交换网络通信(例如,使用例如VoIP的一个或一个以上协议)。举例来说,此装置可包括经配置以接收和/或发射经编码帧的RF电路。

明确地揭示,可通过例如手持机、头戴式耳机或便携式数字助理(PDA)的便携式通信装置来执行本文所揭示的各种方法,且本文所描述的各种设备可包括于此装置内。典型实时(例如,在线)应用为使用此移动装置进行的电话会话。

在一个或一个以上示范性实施例中,可以硬件、软件、固件或其任何组合来实施本文所描述的操作。如果以软件来实施,则所述操作可作为一个或一个以上指令或代码而存储于计算机可读媒体上或经由计算机可读媒体来传输。术语“计算机可读媒体”包括计算机存储媒体及通信媒体两者,通信媒体包括促进将计算机程序从一处传递到另一处的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。举例来说且非限制,此计算机可读媒体可包含存储元件阵列,例如半导体存储器(其可包括(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于载运或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。又,将任何连接适当地称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或例如红外、无线电和/或微波的无线技术来从网站、服务器或其它远端源传输软件,则所述同轴电缆、光纤电缆、双绞线、DSL或例如红外、无线电和/或微波的无线技术包括于媒体的定义中。如本文中使用,磁盘及光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字通用光盘(DVD)、软性磁盘及Blu-ray DiscTM(蓝光光盘协会,加利福尼亚州环球影城),其中磁盘通常以磁性方式来再生数据,而光盘用激光以光学方式来再生数据。上述各者的组合也应包括于计算机可读媒体的范围内。

如本文所描述的声信号处理设备可并入于接受语音输入以便控制某些操作或可以其它方式受益于所要噪声与背景噪声的分离的电子装置(例如,通信装置)中。许多应用可受益于加强清楚的所要声音或将其与发自多个方向的背景声音分离。所述应用可包括在并入有例如话音辨识及检测、语音加强及分离、话音激活的控制及其类似者的能力的电子或计算装置中的人机界面。可能需要实施此声信号处理设备以使其在仅提供有限处理能力的装置中为适合的。

可将本文所描述的模块、元件及装置的各种实施方案的元件制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)阵列。本文所描述的设备的各种实施方案的一个或一个以上元件还可整个或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行。

如本文所描述的设备的实施方案的一个或一个以上元件可用以执行与所述设备的操作不直接相关的任务或执行与所述设备的操作不直接相关的其它指令集,例如与所述设备所嵌入于其中的装置或系统的另一操作有关的任务。此设备的实施方案的一个或一个以上元件也可具有共同结构(例如,用以在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子和/或光学装置的布置)。举例来说,可实施子带信号产生器SG100a、SG100b和SG100c中的多者中的两者以在不同时间包括相同结构。在另一实例中,可实施子带功率估计计算器EC100a、EC100b和EC100c中的多者中的两者以在不同时间包括相同结构。在另一实例中,可实施子带滤波器阵列FA100和子带滤波器阵列SG30的一个或一个以上实施方案以在不同时间包括相同结构(例如,在不同时间使用不同组的滤波器系数值)。

还明确地预期且借此揭示,在本文中参考设备A100和/或均衡器EQ10的特定实施方案描述的各种元件还可以所描述的方式与其它所揭示实施方案一起使用。举例来说,AGC模块G10(如参考设备A140所描述)、音频预处理器AP10(如参考设备A110所描述)、回音消除器EC10(如参考音频预处理器AP20所描述)、噪声减少级NR10(如参考设备A105所描述)和话音活动检测器V10(如参考设备A120所描述)中的一者或一者以上可包括于设备A100的其它所揭示实施方案中。同样,峰值限制器L10(如参考均衡器EQ40所描述)可包括于均衡器EQ10的其它所揭示实施方案中。尽管在上文主要描述对所感测音频信号S10的双通道(例如,立体声)例子的应用,但还在本文中明确地预期和揭示本文所揭示的原理对于所感测音频信号S10的具有三个或三个以上通道(例如,来自三个或三个以上麦克风的阵列)的例子的扩展。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号