首页> 中国专利> 用于使用可听声音和超声进行源定位的系统、方法、设备和计算机可读媒体

用于使用可听声音和超声进行源定位的系统、方法、设备和计算机可读媒体

摘要

信号处理方法包含基于来自所反射超声信号的信息而计算范围。基于所述计算的范围,选择多个到达方向DOA估计操作当中的一者。所述方法还包含执行所述选定操作以计算多通道信号的声频分量的估计到达方向DOA。DOA估计操作的实例包含基于所述多通道信号的通道之间的相位差的操作以及基于以所述多通道信号的通道为基础的信号之间的增益差的操作。

著录项

  • 公开/公告号CN103443649A

    专利类型发明专利

  • 公开/公告日2013-12-11

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201280014845.5

  • 发明设计人 埃里克·维瑟;布赖恩·莫迈尔;

    申请日2012-02-27

  • 分类号G01S7/521;G01S3/80;G01S15/02;G01S15/42;G01S15/87;

  • 代理机构北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2024-02-19 21:44:33

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-06-24

    授权

    授权

  • 2014-01-08

    实质审查的生效 IPC(主分类):G01S7/521 申请日:20120227

    实质审查的生效

  • 2013-12-11

    公开

    公开

说明书

依据35U.S.C.§119主张优先权

本专利申请案主张2011年3月3日申请且转让给本受让人的题目为“使用可听声音和超声的稳健多麦克风跟踪系统(ROBUST MULTIMICROPHONE TRACKING SYSTEM USING AUDIBLE SOUND AND ULTRASOUND)”的第61/448,950号临时申请案的优先权。 

技术领域

本发明涉及信号处理。 

背景技术

对于其中话音记录(例如,用于通信)在有噪声的环境中发生的应用,可能需要分离所要语音信号与背景噪声。噪声可定义为干扰所要信号或以另外方式使所要信号降级的所有信号的组合。背景噪声可包含在声环境内产生的许多噪声信号,例如其他人的背景对话,以及从所要信号和/或其它信号中的任一者产生的反射和混响。除非所要语音信号与背景噪声分离,否则可能难以可靠且有效地利用所要语音信号。 

在典型使用环境中遇到的声噪声可包含多种不同分量,例如音乐、来自干扰源(例如,电视机、收音机、竞争的讲话者)的声音、多路重合噪声、街道噪声和/或机场噪声。由于此类噪声通常是非静态的且可能具有接近于用户自身话音的频谱的平均频谱,因此可能难以使用传统的单麦克风或固定波束成形类型方法来建模。因此,可能需要使用基于多麦克风的信号处理技术,例如空间选择性处理,以支持在有噪声的环境中的语音分量的分离。 

在用于话音记录的一些应用中,用户的嘴相对于麦克风的位置可能在使用期间改变。举例来说,用于话音通信的应用正在演进超越传统的电话而包含其中在使用期间用户的嘴位于远离音频感测装置某一距离处的情形。此些情形的实例包含IP话音(VoIP)电话,其使用嵌入在膝上型计算机或平板计算机中的麦克风(且可能使用网络摄像机)。在 此些情况下,用户的嘴相对于装置的移动可显著影响空间选择性处理操作的性能。 

发明内容

根据一般配置的信号处理方法包含基于来自超声信号的反射的信息估计发声对象的范围。此方法包含基于估计的第一范围而选择多个到达方向估计操作当中的一者,以及执行所述选定到达方向估计操作以基于来自多通道信号的声频分量的信息而计算所述声频分量的到达方向的估计。还揭示具有有形特征的计算机可读存储媒体,所述有形特征致使读取所述特征的机器执行此方法。 

根据另一一般配置的用于信号处理的设备包含:用于基于来自超声信号的反射的信息估计发声对象的范围的装置;用于基于估计的第一范围而选择多个到达方向估计操作当中的一者的装置;以及用于执行所述选定到达方向估计操作以基于来自多通道信号的声频分量的信息而计算所述声频分量的到达方向的估计的装置。 

根据另一一般配置的用于信号处理的设备包含:范围估计器,其经配置以基于来自超声信号的反射的信息估计发声对象的范围;比较器,其经配置以基于估计的第一范围而选择多个到达方向估计操作当中的一者;以及方向计算器,其经配置以执行所述选定到达方向估计操作以基于来自多通道信号的声频分量的信息而计算所述声频分量的到达方向的估计。 

附图说明

图1A展示多麦克风音频感测装置D10的框图。 

图1B展示装置D10的应用的实例。 

图1C展示其中到达方向和范围与所要源AS1相关联的实例。 

图1D展示装置D10的实施方案D20的框图。 

图2A展示装置D10的四麦克风实施方案D12的应用的实例。 

图2B展示根据一般配置的方法M100的流程图。 

图3A和3B展示基于增益差的DOA估计方法的实例。 

图3C展示不对称阵列的波束模式的实例。 

图4和5展示波束成形器波束模式的实例。 

图6A和6B展示经布置以基于多通道信号而产生波束的固定滤波器的实例。 

图7展示装置D20的三麦克风实施方案D22的应用的俯视图。 

图8A到8D展示方向掩蔽函数的个别实例。 

图9展示两组三个方向掩蔽函数的实例。 

图10展示将如图9所示的一组三个方向掩蔽函数应用于同一多通道音频信号的结果。 

图11到14展示与装置D20的四麦克风实施方案D24一起使用的基于扇区的DOA估计方法的实例。 

图15A到15D说明方法M100的应用的实例。 

图16A展示具有不同上升和下降阈值的状态转变的绘图。 

图16B展示音频感测装置D20的实施方案的实例的一部分。 

图17展示音频感测装置D20的实施方案的实例的一部分。 

图18展示产生测距脉冲的多个回声的环境的实例。 

图19展示包含多个回声的检测到的信号的记录的绘图。 

图20展示图19的信号和对应谱图。 

图21A展示由超声检测器UD10产生的信号的绘图。 

图21B说明范围模糊性。 

图22A到22C展示使用来自多个超声检测器的测距结果的DOA估计的应用的实例。 

图23A和23B展示在两个不同时间A和B的典型使用情形。 

图24到26展示在不同连续时间的三通道超声记录的实例。 

图27A展示根据一般配置的设备A100的框图。 

图27B展示设备A100的实施方案A110的应用的框图。 

图28A展示设备A100的实施方案A120的框图。 

图28B展示设备A100的实施方案A130的应用的框图。 

图29A展示设备A100的实施方案A140的框图。 

图29B展示超声范围估计器100的实施方案120的框图。 

图30A展示设备A100的实施方案A150的框图。 

图30B展示根据一般配置的设备MF100的框图。 

图31展示设备A100的实施方案A160的框图。 

图32A展示麦克风阵列的实例R100的框图。 

图32B展示阵列R100的实施方案R110的框图。 

图33A展示音频感测装置D20的实施方案D100的框图。 

图33B展示通信装置D200的框图。 

图34A和34B展示装置D100的便携式计算实施方案D700的不同视图。 

图34C和34D展示装置D100的便携式计算实施方案D710的不同视图。 

图35展示多麦克风音频感测装置D100的便携式实施方案D800的图。 

图36A到36D展示会议装置的若干实例的俯视图。 

图37说明用于DOA估计的背投影技术。 

具体实施方式

本描述包含对使用超声测距来配置用于估计声频分量的到达方向的操作的系统、方法和设备的揭示。此操作可提供较准确的源定位以支持方向选择性音频处理操作的较好性能。 

除非通过上下文明确限制,否则本文使用术语“信号”来指示其任何普通意义,包含在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非通过上下文明确限制,否则本文使用术语“产生”来指示其任何普通意义,例如计算或以其它方式制作。除非通过上下文明确限制,否则本文使用术语“计算”来指示其任何普通意义,例如计算、评估、估计和/或从多个值进行选择。除非通过上下文明确限制,否则本文使用术语“获得”来指示其任何普通意义,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非通过上下文明确限制,否则本文使用术语“选择”来指示其任何普通意义,例如识别、指示、应用和/或使用两者或两者以上的集合中的至少一者且少于全部。当在本描述和权利要求书中使用术语“包括”的情况下,其并不排除其它元件或操作。术语“基于”(如“A基于B”中)用以指示其任何普通意义,包含以下情况:(i)“从...导出”(例如,“B是A的前体”),(ii)“至少基于”(例如,“A至少基于B”),且在特定上下文中适当的情况下,(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其任何普通意义,包含“至少响应于”。 

对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学敏感面的中心的位置,除非上下文另外指示。根据特定上下文,有时使用术语“通道”来指示信号路径且在其它时用以指示由此路径载运的信号。除非另外指示,否则使用术语“串联”来指示两个或两个以上项目的序列。术语“对数”用以指示以10为底的对数,但此运算向其它底数的扩展在本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带当中的一者,例如信号的频域表示的样本(例如,如通过快速傅立叶变换所产生)或信号的子带(例如,巴克(Bark)尺度或梅尔(mel)尺度子带)。 

除非另外指示,否则具有特定特征的设备的操作的任何揭示也明确地既定揭示具有类似特征的方法(且反之亦然),且根据特定配置的设备的操作的任何揭示也明确地既定 揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考如其特定上下文所指示的方法、设备和/或系统来使用。术语“方法”、“过程”、“程序”和“技术”一般地且可互换地使用,除非特定上下文另外指示。术语“设备”和“装置”也一般地且可互换地使用,除非特定上下文另外指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非通过上下文明确限制,否则本文使用术语“系统”来指示其任何普通意义,包含“进行交互以服务于共同目的的元件的群组”。以引用方式对文献的一部分的任何并入均应理解为将所述部分内提及的术语或变量的定义(其中此些定义出现在所述文献中的其它地方)并入,以及将所并入部分中提及的任何图式并入。 

近场可定义为距声音接收器(例如,麦克风阵列)小于一个波长的空间区。在此定义下,到所述区的边界的距离与频率成反比变化。在例如两百、七百和两千赫兹的频率下,到单波长边界的距离分别是约170、49和17厘米。改为考虑近场/远场边界处于距麦克风阵列的特定距离处(例如,距阵列的麦克风或距阵列的质心50厘米,或者距阵列的麦克风或距阵列的质心1米或1.5米)可为有用的。 

多麦克风装置可经配置以执行空间选择性处理操作以从空间中的一个或一个以上源接收声信号(例如,接收来自装置的用户的语音),同时抑制从其它方向到达的声音。图1A展示多麦克风装置D10的实例,其包含两个麦克风MC10和MC20的阵列。在装置D10的其它实例中,麦克风阵列可包含两个以上麦克风(例如,三个、四个或更多)。在此些情况下,麦克风可以线性或二维或三维模式安置,且阵列中的邻近麦克风之间的间距可为均匀的或不均匀的。 

图1B展示其中装置D10经配置以相对于从其它方向到达的声音增强从包含可听声音源AS1的方向的区(也称为“拾取区”)到达的声音的应用的实例。源AS1(例如,装置的用户)可能随着时间而从一个位置移动到另一位置,且可能需要基于源的当前位置来调适空间选择性处理操作。装置D10还可经实施以增强从多个所要源到达的声音,所述多个所要源可位于空间中的各种不同位置处。 

图1D展示装置D10的实施方案D20的实例,其可经配置以执行如本文描述的方法M100的实施方案。装置D20包含超声发射器UE10和超声检测器UD10。如下文描述,可能需要将检测器UD10实施为麦克风(例如,作为麦克风阵列中的另一麦克风)。可经配置以包含装置D10或D20的实例的音频感测装置的实例包含机顶盒、游戏控制台、智能电话以及膝上型计算机和平板计算机。 

图2A展示装置D10的四麦克风实施方案D12的应用的实例,其中空间选择性处理操作经配置以增强从多个不同拾取区1、2、3中在装置前方的一者到达的声音且抑制从 在当前选择的区之外的方向到达的声音。可能需要配置此装置以根据所要扬声器的估计的当前位置选择当前拾取区。在图2A中所示的实例中,空间选择性处理操作是响应于说话者的话音从区1到区2的估计到达方向的改变而进行调适。 

可能需要配置装置D10以估计由多麦克风阵列从方向声音源(例如,可听源AS1)接收的声音分量的到达方向。此DOA估计可例如有用于支持响应于所要源的移动对空间选择性处理操作的调适。装置D10可经配置以执行若干不同技术中的任一者或一者以上以估计到达方向(DOA)。可预期以相似空间分辨率产生源DOA的估计的用于DOA估计的技术包含基于增益差的方法和基于相位差的方法。基于交叉相关的方法(例如,计算多通道信号的通道之间的滞后,且使用所述滞后作为到达时间差来确定DOA)在一些情况下也可为有用的。 

DOA估计操作可经配置以针对多通道信号的一系列片段中的每一者产生DOA估计。典型的片段长度范围是从约5或10毫秒到约40或50毫秒,且片段可重叠(例如,与邻近片段重叠25%或50%)或不重叠。在一个特定实例中,将多通道信号划分为一系列不重叠片段或“帧”,其各自具有10毫秒的长度。在另一特定实例中,每一帧具有20毫秒的长度。通过DOA估计操作处理的片段也可为通过不同音频处理操作处理的较大片段的片段(即,“子帧”),或反之亦然。 

基于增益差的方法基于信号增益之间的差而估计DOA,所述信号增益是基于多通道信号的通道。举例来说,此方法可经实施以基于多通道信号的不同通道的增益之间的差(例如,量值或能量的差)而估计DOA。多通道信号的片段的增益的量度可在时域中或在频域(例如,变换域,例如FFT、DCT或MDCT域)中计算。此增益量度的实例包含(不限于)以下各项:总量值(例如,样本值的绝对值总和)、平均量值(例如,每样本)、RMS振幅、中值量值、峰值量值、峰值能量、总能量(例如,样本值的平方和),和平均能量(例如,每样本)。为了以增益差技术获得准确结果,可能需要相对于彼此来校准两个麦克风通道的响应。可能需要将低通滤波器应用于多通道信号以使得对增益量度的计算限于多通道信号的声频分量。 

增益之间的差可经计算为在对数域中每一通道的对应增益测量值(例如,以分贝为单位的值)之间的差,或等效地为在线性域中的增益测量值之间的比率。在一些情况下,针对一帧(例如,针对每一帧或针对偶然帧)计算单个差。在其它情况下,可针对帧的若干频率分量(例如,子带或FFT频率区间)中的每一者计算差。 

对于经校准麦克风对,可取为0的增益差来指示源与每一麦克风等距(即,位于所述对的边射方向),可取具有大的正值的增益差来指示源较靠近一个麦克风(即,位于所述 对的一个端射方向),且可取具有大的负值的增益差来指示源较靠近另一麦克风(即,位于所述对的另一端射方向)。图3A展示其中源相对于装置D10的DOA是通过根据片段n的增益差GD[n]与增益差阈值TL之间的关系状态选择端射区1、边射区2和端射区3当中的一者来估计的实例。图3B展示其中源相对于装置D10的DOA是通过根据增益差GD[n]与第一增益差阈值TL1之间的关系状态以及增益差GD[n]与第二增益差阈值TL2 之间的关系状态来选择5个区当中的一者来估计的实例。 

在另一实例中,基于增益差的方法基于从多通道信号(例如,从多通道信号的声频分量)产生的波束之间的增益差来估计DOA。此方法可经实施以使用一组固定滤波器产生一组对应波束,其跨越所要的方向范围(例如,180度,以10度为增量)。此方法将固定滤波器中的每一者应用于多通道信号且将DOA(例如,针对每一片段)估计为展现最高输出能量的波束的看视方向。图6A展示包含固定滤波器BF10a、BF10b和BF10n的此配置的实例,所述固定滤波器经布置以对多通道信号S10进行滤波以产生相应波束B10a、B10b和B10n。可用以产生固定滤波器的波束成形方法的实例包含一般化旁瓣消除(GSC)、最小方差无失真响应(MVDR)和线性约束最小方差(LCMV)波束成形器。可用以产生固定滤波器的波束产生方法的其它实例包含盲源分离(BSS)方法,例如独立分量分析(ICA)和独立向量分析(IVA),其通过朝向干扰点源导向空波束而操作。 

图4和5分别展示在1500Hz和2300Hz下三麦克风阵列(虚线)和四麦克风阵列(实线)的波束成形器波束模式的实例。在这些图中,左上方绘图A展示具有约60度的看视方向的波束成形器的模式,中下方绘图B展示具有约90度的看视方向的波束成形器的模式,且右上方绘图C展示具有约120度的看视方向的波束成形器的模式。具有以线性阵列(例如,邻近麦克风之间的间距为约3.5cm)布置的三个或四个麦克风的波束成形可用以获得约10到20度的空间带宽鉴别。图3C展示不对称阵列的波束模式的实例。 

在又一实例中,基于增益差的方法基于从多通道信号(例如,使用如上所述的波束成形或BSS方法)产生的波束的通道之间的增益差来估计DOA以产生多通道输出。举例来说,固定滤波器可经配置以通过将从特定方向或源(例如,看视方向)到达的能量集中到一个输出通道中和/或将从另一方向或源到达的能量集中到不同输出通道中来产生此波束。图6B展示包含固定滤波器BF20a、BF20b和BF20n的此配置的实例,所述固定滤波器经布置以对多通道信号S10进行滤波以产生相应波束,所述波束具有信号通道B20as、B20bs和B20ns(例如,对应于相应看视方向)和噪声通道B20an、B20bn和B20nn。在此情况下,基于增益差的方法可经实施以将DOA估计为在其输出通道之间具有最大能量差的波束的看视方向。 

DOA估计也可通过直接使用BSS非混合矩阵W和麦克风间距来获得。此技术可包含通过使用经分离源信号的背投影、使用非混合矩阵W的逆(例如,摩尔-彭罗斯(Moore-Penrose)伪逆),之后是基于背投影数据的单个源DOA估计,来估计源DOA(例如,针对每一源-麦克风对)。此DOA估计方法通常对麦克风增益响应校准中的误差是稳健的。将BSS非混合矩阵W应用于m个麦克风信号X1到XM,且从矩阵W的输出当中选择待进行背投影的源信号Yj。可使用例如GCC-PHAT或SRP-PHAT等技术根据背投影信号计算每一源-麦克风对的DOA。最大似然和/或多信号分类(MUSIC)算法也可应用于背投影信号以用于源定位。在图37中说明上述背投影方法。 

基于相位差的方法基于多通道信号的不同通道的相位之间的差而估计DOA。此些方法包含基于多通道信号(例如,多通道信号的声频分量)的交叉功率谱相位(CPSP)的技术,所述CPSP可通过使交叉功率谱密度向量的每一元素按其量值正规化来加以计算。此些技术的实例包含具有相位变换的一般化交叉相关(GCC-PHAT)和导向响应功率相位变换(SRP-PHAT),其通常以到达时间差的形式产生估计DOA。基于相位差的方法的一个潜在优点是其通常对麦克风的增益响应之间的失配是稳健的。 

其它基于相位差的方法包含针对待检查的多个频率分量中的每一者估计每一通道中的相位。在一个实例中,将频率分量的相位估计为频率分量的FFT系数的虚数项与频率分量的FFT系数的实数项的比率的逆正切(也称为反正切)。可能需要针对待检查的每一频率分量通过从所述频率分量在另一(例如,次要)通道中的估计相位减去所述频率分量在主要通道中的估计相位来计算相位差。在此情况下,主要通道可为预期具有最高信噪比的通道,例如对应于在装置的典型使用期间预期最直接接收用户话音的麦克风的通道。 

DOA估计方法可能不必考虑信号的整个带宽上的相位差。对于例如宽带范围(例如,0到8000Hz)中的许多频带,相位估计可为不实际的或不必要的。在极低频率下对接收的波形的相位关系的实际评估通常要求变换器之间的对应大的间距。因此,麦克风之间的最大可用间距可建立频率下界。另一方面,麦克风之间的距离不应超过最小波长的一半以便避免空间混叠。例如8千赫取样速率给出从0到4千赫的带宽。4kHz信号的波长为约8.5厘米,因此在此情况下,邻近麦克风之间的间距不应超过约4厘米。麦克风通道可经低通滤波以便移除可能引起空间混叠的频率。 

可能需要在多通道信号的有限声频范围(例如,语音信号的预期频率范围)上执行DOA估计。基于相位的DOA估计方法的一个此实例经配置以计算针对700Hz到2000Hz的频率范围的相位差,所述频率范围可预期包含用户话音的大多数能量。对于4千赫带 宽信号的128点FFT,700到2000Hz的范围大致对应于从第10样本到第32样本这23个频率样本。在另外实例中,此方法经配置以在从为约50、100、200、300或500Hz的下界到为约700、1000、1200、1500或2000Hz的上界的频率范围上计算相位差(明确地预期和揭示这些下界和上界的25种组合中的每一者)。 

浊音语音(例如,元音声音)的能量谱往往在音调频率的谐波处具有局部峰值。另一方面,背景噪声的能量谱往往相对未经结构化。因此,音调频率的谐波处的输入通道的分量可预期具有比其它分量高的信噪比(SNR)。可能需要配置DOA估计方法以利于对应于估计音调频率的倍数的相位差。举例来说,可能需要计算的相位差中的至少25%、50%或75%(可能全部)对应于估计音调频率的倍数,或对对应于此些分量的方向指示符比其它方向指示符更重地加权。典型音调频率范围是从男性说话者的约70到100Hz到女性说话者的约150到200Hz,且音调频率的当前估计(例如,以音调周期或“音调滞后”的估计的形式)在包含语音编码和/或解码的应用(例如,使用包含音调估计的编解码器的话音通信,例如码激励线性预测(CELP)和原型波形内插(PWI))中将通常已经可用。相同原理也可应用于其它所要谐波信号。相反,可能需要配置DOA估计方法以忽略对应于已知干扰者的频率分量,例如音调信号(例如,闹钟、电话铃声和其它电子警报)。 

DOA估计方法可经配置以针对多个所计算相位差中的每一者计算DOA的对应指示。在一个实例中,将每一频率分量的DOAθi的指示计算为估计相位差与频率fi之间的比率ri(例如,)。或者,可将DOAθi的指示计算为量的逆余弦(也称为反余弦),其中c表示声速(约340米/秒),d表示麦克风之间的距离,表示两个麦克风的对应相位估计之间的弧度差,且fi是相位估计对应于的频率分量(例如,对应FFT样本的频率,或对应子带的中心或边缘频率)。或者,到达方向θi的指示可计算为量 的逆余弦,其中λi表示频率分量fi的波长。 

在另一实例中,将DOA的指示计算为多通道信号的对应频率分量fi的到达时间延迟τi(例如,以秒为单位)。举例来说,此方法可经配置以使用例如或 等表达式参考主要麦克风估计次要麦克风处的到达时间延迟τi。在这些实例中,τi=0的值指示从边射方向到达的信号,τi的大的正值指示从参考端射方向到达的信号,且τi的大的负值指示从另一端射方向到达的信号。在计算值τi时,可能需要使用视为适用于特定应用的时间单位,例如取样周期(例如,针对8kHz取样率的125微秒的单位)或一秒 的分数(例如,10-3、10-4、10-5或10-6秒)。应注意,到达时间延迟τi也可通过在时域中使每一通道的频率分量fi交叉相关来计算。 

基于相位差的方法可经配置以将DOA估计为DOA指示符的平均(例如,平均值、中值或最频值)。或者,此方法可经配置以通过将DOA覆盖的所要范围划分为多个区间(例如,针对0到180度范围的3、4、5、6、7、8、9、10、11或12个区间的固定方案)且确定值落在每一区间内的DOA指示符的数目(即,区间群体)来估计DOA。对于其中区间具有不等带宽的情况,可能需要通过按对应带宽使每一区间群体正规化来计算区间群体值。可将所要源的DOA估计为对应于具有最高群体值的区间的方向,或估计为对应于当前群体值具有最大对比(例如,与所述区间的群体值的长期时间平均相差最大的相对量值)的区间的方向。 

类似方法使用一组方向掩蔽函数来将DOA覆盖的所要范围划分为多个扇区(例如,针对0到180度范围的3、4、5、6、7、8、9、10、11或12个扇区)。用于邻近扇区的方向掩蔽函数可重叠,且方向掩蔽函数的分布可为线性的或非线性的。方向掩蔽函数可经实施以使得止带与通带之间的过渡的锐度在操作期间可根据一个或一个以上因数(例如,信噪比(SNR)、噪声底限等等)的值而选择和/或可变。举例来说,可能需要在SNR低时使用较窄的通带。扇区可具有彼此相同的角宽度(例如,以度或弧度为单位),或扇区中的两者或两者以上(可能全部)可具有彼此不同的宽度。图7展示装置D20的三麦克风实施方案D22的此应用的俯视图,其中将一组三个重叠扇区应用于对应于麦克风MC10和MC20的通道对以用于基于相位差的DOA估计。 

图8A到8D展示方向掩蔽函数的个别实例,且图9展示不同的两组(线性对弯曲分布)三个方向掩蔽函数的实例。在这些实例中,每一片段的掩蔽函数的输出是基于正在检查的频率分量的对应相位差的通过值的总和。举例来说,可通过相对于掩蔽函数的最大可能值使所述总和正规化来计算输出。当然,掩蔽函数的响应也可在时间延迟τ或比率r而非方向θ的方面来表达。 

可预期麦克风阵列将接收来自不同方向的不同量的环境噪声。图10展示将如图9所示的一组三个方向掩蔽函数应用于同一多通道音频信号的结果的量值对时间(以帧为单位)的绘图。可见,各种掩蔽函数对此信号的平均响应显著不同。可能需要将相应检测阈值应用于每一掩蔽函数的输出,使得对应于所述扇区的DOA不被选择为片段的DOA估计,除非掩蔽函数输出高于(或者不小于)对应检测阈值。 

还可能配置DOA估计方法以评估对应于不同通道对的扇区。图11到14展示与装置D20的四麦克风实施方案D24一起使用的此方法的实例。在图11中,扇区1由应用 于(主要-次要)麦克风对MC20-MC10的端射方向的掩蔽函数界定,扇区2由应用于麦克风对MC10-MC40的端射方向的掩蔽函数界定,且扇区3由应用于麦克风对MC30-MC20的端射方向的掩蔽函数界定。图12的实例添加第四扇区,其由应用于麦克风对MC40-MC10的端射方向的掩蔽函数界定。图13和14展示两个类似实例(分别具有五个和八个扇区),其说明与每一扇区相关联的DOA估计。在这些实例中,与每一扇区相关联的DOA估计对应于相应麦克风对的端射方向。 

多通道信号的“方向相干性”界定为信号的各种频率分量从相同方向到达的程度。对于理想地方向相干的通道对,的值对于所有频率均等于常数k,其中k的值与到达方向θ和到达时间延迟τ相关。多通道信号的方向相干性可例如通过以下方法来量化:根据每一频率分量的估计到达方向与特定方向的一致程度有多好来对所述估计到达方向进行分级,且随后组合各种频率分量的分级结果以获得信号的相干性量度。因此,每一扇区的掩蔽函数输出是所述扇区内的多通道信号的方向相干性的量度。方向相干性的量度的计算和应用还在例如国际专利公开案WO2010/048620A1和WO2010/144577A1(维瑟(Visser)等人)中进行了描述。 

可能需要将每一扇区的相干性量度产生为时间平滑值。在一个此实例中,DOA估计方法经配置以将相干性量度产生为在最近m个帧上的平均值,其中m的可能值包含4、5、8、10、16和20。在另一此实例中,所述方法经配置以根据例如z(n)=βz(n-1)+(1-β)c(n)(也称为一阶IIR或回归滤波器)等表达式针对帧n计算经平滑相干性量度z(n),其中z(n-1)表示前一帧的经平滑相干性量度,c(n)表示相干性量度的当前未经平滑值,且β是平滑因数,其值可选自从0(无平滑)到1(无更新)的范围。平滑因数β的典型值包含0.1、0.2、0.25、0.3、0.4和0.5。使用相同的β值来平滑对应于不同扇区的相干性量度是典型的但不是必要的。 

相干性量度的对比可表达为相干性量度的当前值与相干性量度随着时间的平均值(例如,在最近10、20、50或100个帧上的平均值、最频值或中值)之间的关系(例如,差或比率)的值。DOA估计方法可经配置以使用例如泄漏积分器等时间平滑函数或根据例如v(n)=αv(n-1)+(1-α)c(n)等表达式针对每一扇区计算相干性量度的平均值,其中v(n)表示当前帧的平均值,v(n-1)表示前一帧的平均值,c(n)表示相干性量度的当前值,且α是平滑因数,其值可选自从0(无平滑)到1(无更新)的范围。平滑因数α的典型值包含0.01、0.02、0.05和0.1。 

基于扇区的DOA估计方法可经配置以将信号的DOA估计为与相干性量度最大的扇 区相关联的DOA。或者,此方法可经配置以将信号的DOA估计为与相干性量度当前具有最大对比(例如,具有与所述扇区的相干性量度的长期时间平均相差最大相对量值的当前值)的扇区相关联的DOA。基于相位差的DOA估计的额外描述可例如参见第2011/0038489号美国公开专利申请案(2011年2月17日公开)和第13/029,582号美国专利申请案(2011年2月17日申请)。 

对于基于增益差的方法和基于相位差的方法两者,可能需要在多通道信号的有限声频范围上执行DOA估计。举例来说,可能需要在中频范围(例如,从100、200、300或500到800、100、1200、1500或2000Hz)上执行DOA估计以避免由于低频率中的混响和/或高频率中所要信号的衰减所带来的问题。 

在某些应用中可能需要相对于音频感测装置定位一个或一个以上方向声源中的每一者的位置。除了例如DOA估计之外,可能需要获得关于每一方向声源相对于麦克风阵列的范围(即,距离)的信息。可能需要使用此信息来跟踪移动方向源(例如,说话的人)相对于音频感测装置的随着时间的位置。用于源定位的应用的实例包含(但不限于)以下各项:方向麦克风的导向;多麦克风阵列的波束的导向;使用空间信息用于语音增强;记录声场的空间信息以用于空间增强再生(例如,使用波场合成);麦克风路径增益的控制;音频重放增益的控制;音频会议;视频会议;手势辨识;运动检测;存在检测;成像传感器(例如,相机)的导向和/或聚焦;用于无眼镜三维观看的显示器的控制;交互式运动相关游戏应用,其可包含例如跳舞、体育和/或乐器演奏等活动(例如,Dance Dance Revolution(日本东京柯乐美公司)、Wii体育(日本京都任天堂有限公司)、电视游戏的英雄系列(例如,Guitar Hero、Band Hero、DJ Hero,加利福尼亚州圣莫尼卡的Activision Blizzard公司))。可用以执行此些技术的音频感测装置的实例包含机顶盒、游戏控制台以及膝上型计算机和平板计算机。 

一种测距方法是从由源发射的可听声音的记录来估计所述源的范围(也称为“无源测距”)。然而,为了从音频记录检索可靠的范围信息,通常希望麦克风阵列的孔径可相当于阵列与声源之间的距离。对于其中希望支持1米或1米以上(例如,多达3或4米)的范围估计的应用,针对小形状因数获得阵列孔径与源范围之间的此关系可能是不实际的,小形状因数例如为用于无线通信的装置(例如,智能电话)和/或便携式计算(例如,上网本或膝上型计算机)和其它消费型装置(例如,机顶盒、游戏控制台)。对于此些应用,可能需要使用有源方法用于测距。 

在声音记录应用(例如,用于话音通信)中,使用可听声音的发射来支持有源测距可造成与所俘获可听声场的干扰。因此,可能需要使用另一方法用于有源测距。一种此类 方法是使用超声能量的有源测距,超声能量是人类不可感知的。此测距可包含发射超声测距脉冲,检测由脉冲从待测距对象(即,源)的反射引起的回声,以及基于从脉冲发射到反射回声检测的飞行时间而计算范围(例如,声源与检测器之间的距离)。超声能量通常是在远高于发射最多噪声的频带的频带中发射和检测,这可为超声测量提供比声频测量低的噪声底限。 

超声测距与从可听声音的DOA估计的组合可提供对其它定位方法的良好替代,例如基于成像数据(例如,运动俘获)的那些方法。将超声测距整合到音频处理装置中通常比例如微功率脉冲雷达(MIR)或红外线等其它测距技术的类似整合更容易。举例来说,通常可使用音频麦克风作为超声检测器。超声测距在此音频处理应用的典型距离范围上(例如,从1到5米的距离)也可比其它方法更准确。图1C展示其中到达方向和范围RS1两者与所要源AS1相关联的实例。 

超声测距也可帮助识别环境的其它方面,例如房间尺寸(例如,以配置将对所接收声频信号执行的去混响操作)。超声测距操作可与一种或一种以上方向区别方法(例如,从可听声音的DOA估计)组合,因为通常仅有的关注范围是特定方向上的对象的范围(即,与所有附近对象的范围相反)。 

可能需要使用来自例如超声测距等测距操作的信息来改善DOA估计。举例来说,可能需要基于声源与麦克风阵列之间的估计距离而在用于从所接收声音估计DOA的不同方法当中进行选择。当源靠近阵列时用于从所接收声音估计DOA的一些基于相位差的方法可产生比基于能量差的方法好的结果,而当源远离阵列时基于能量差的方法可产生更好的结果。 

在此些情况下,所述应用可经配置以响应于源靠近装置的指示而使用相位差来估计DOA。在此些情况下也可使用近场噪声减少方法。响应于源远离装置的指示,所述应用可经配置以改为使用基于能量差的DOA估计方法(和/或不同的基于相位差的方法)。 

时域交叉相关方法对于靠近的源可产生比远离的源更好的结果,而一些基于相位差的方法对于多达1到2米或更大的源-装置距离可产生良好的DOA估计结果。在基于增益差的方法当中,基于波束强度或质量差的方法在较大的源-装置距离下可比基于所接收声频信号的通道之间的增益差的方法更有效。 

图2B展示根据一般配置的方法M100的流程图,所述方法包含任务T100、T200和T300。基于来自所发射超声信号的检测到的反射的信息,任务T100估计发声对象(例如,所要声源,例如用户)的范围。任务T200指示估计范围与阈值之间的关系的状态。基于关系的所指示状态,任务T300计算多通道信号的声频分量的到达方向的估计。举例来 说,任务T300可经配置以响应于任务T200的所述关系具有第一状态(例如,源靠近阵列)的指示而基于声频分量的通道之间的相位差计算DOA估计,且响应于任务T200的所述关系具有第二状态(例如,源远离阵列)的指示而基于声频分量的通道之间的能量差计算DOA估计,或反之亦然。在另一实例中,任务T300可经配置以基于两种不同的基于增益差的方法中的选定一者或两种不同的基于相位差的方法中的选定一者或本文揭示的各种DOA估计技术中的任何技术当中的选定一者(或一者以上)而计算DOA估计。如上所述,图1D展示装置D10的实施方案D20的实例,其可经配置以执行方法M100的实施方案。 

任务T100可经配置以在时域中或在频域(例如,子带域或变换域(例如FFT域))中从检测到的超声信号估计范围。在子带域实例中,任务T100将时域接收信号传递通过一组一个或一个以上时域带通滤波器且测量每一子带的输出能量。在变换域实例中,任务T100计算所接收信号的谱图且监视峰值频率(例如,40kHz)处的能量随着时间的演进(参见例如图20)。 

任务T100可经配置以确定所接收回声的时间轴位置作为FFT域中的能量峰值的位置。对于时域信号,任务T100可经配置以确定所接收回声的时间轴位置作为能量(个别地或者共同地)高于回声检测阈值的样本的区的峰值位置。回声检测阈值可为固定的或自适应的,且可能需要限制所述区的最大宽度(以样本为单位)。任务T100可经配置以将峰值识别为所述区的最高能量样本或者识别为所述区的时间中心。 

任务T100可经配置以将范围估计为距离量度(例如,以米或厘米为单位)或等效地估计为时间量度(例如,以秒、毫秒、帧周期或样本周期为单位)。任务T100可经配置以在从发射器到反射源到检测器的路径的总距离(例如,从发射到检测的总飞行时间)方面指示所计算源到装置范围。或者,任务T100可经配置以通过将总距离或飞行时间除以2来指示所计算源到装置范围(即,将所计算源到装置范围指示为反射源与装置之间的距离)。 

任务T100可经配置以从检测到的超声信号识别脉冲发射的时刻(即,飞行时间的开始)。或者,任务T100可经配置以从产生脉冲的信号产生器接收发射时间的指示。 

任务T200可经配置以在估计范围小于阈值的情况下指示估计范围与阈值之间的关系具有第一状态(例如,1或逻辑高),且在估计范围大于阈值的情况下指示所述关系具有第二状态(例如,0或逻辑低)。此方法的一个实例使用对应于约1米的源到装置距离的阈值(例如,针对340米/秒的声速,约5.88毫秒的总飞行时间),使得当源到装置比1米近时选择基于相位的DOA方法,且当源距装置比1米远时选择基于能量的DOA方法。 阈值的其它实例包含对应于在从50厘米到150厘米范围内(例如,50、75、80、120、135或150厘米)的源到装置距离的值。 

图15A到15D说明方法M100的应用的实例。图15A展示超声检测器UD10响应于由超声发射器UE10在第一时间A发射的脉冲和响应于由脉冲从可听源AS1的反射引起的所接收回声ES1A而产生的信号的绘图(振幅对时间)。这两个事件(脉冲发射和回声接收)之间的时间是超声脉冲的飞行时间TOF1A,其指示在时间A处可听源AS1的范围RS1A,如图15B所示。在此情况下,任务T200指示范围RS1A小于距离阈值TR,使得选择第一DOA估计方法(例如,基于相位)。 

图15C展示超声检测器UD10响应于由超声发射器UE10在第二时间B发射的脉冲和响应于由脉冲从可听源AS1的反射引起的所接收回声ES1B而产生的信号的类似绘图。这两个事件之间的时间是超声脉冲的飞行时间TOF1B,其指示在时间B处可听源AS1的范围RS1B,如图15D所示。在此情况下,任务T200指示范围RS1B大于距离阈值TR,使得选择第二DOA估计方法(例如,基于能量)。 

为了展现在短时间周期(例如,在范围接近阈值TR的源到情况下)中DOA估计方法之间的过度切换,可能需要实施任务T300以包含释放延迟(hangover)或其它时间平滑操作。在一个此实例中,任务T300经配置以仅在任务T200已在某个最小数目的连续指示中(例如,3、5、10或20个连续脉冲,或对应于50、100、200或500毫秒的周期)指示新状态之后切换DOA估计方法。另外或替代地,通过配置任务T200以针对每一状态转变使用不同距离阈值(例如,如图16A所示)可抑制在短时间周期中DOA估计方法之间的过度切换。举例来说,任务T200可经配置以仅在范围超过(或者,至少等于)上升阈值TRr(例如,110、120、135或150厘米)时指示从第一状态到第二状态(例如,从基于相位到基于能量的DOA估计)的转变,且仅在范围小于(或者,不大于)下降阈值TRf(例如,50、60、75或90厘米)时指示从第二状态到第一状态(例如,从基于能量到基于相位的DOA估计)的转变。 

可能需要配置方法M100以存储与不同时刻相关联的范围以及可听源AS1相对于装置的对应方向(例如,如图1C所示)的历史。此历史可用以支持在源随着时间移动时对源的位置的跟踪。在一个此实例中,方法M100经配置以将一系列源位置中的每一者存储为时间值和对应DOA和范围值的三元组(例如,作为与对应时间值相关联的极坐标)。此历史也可包含视场内的一个以上源和/或其它对象的位置,所述位置可随着时间改变或保持恒定。 

方法M100(或执行此方法的设备)的实施方案还可包含对多通道信号S10执行一个 或一个以上空间选择性处理操作。举例来说,方法M100可经配置以通过使多通道信号的从不同于估计DOA的方向(例如,从在估计DOA周围的所接受方向范围之外的方向)到达的频率分量衰减而产生经增强信号。对于其中多通道信号包含两个以上通道的情况,方法M100可经配置以基于估计DOA而选择一子组(例如,一对)通道。举例来说,方法M100可经配置以选择对应于端射(即,轴线)方向与估计DOA最接近地符合的麦克风对的所述对通道。 

替代地或另外,方法M100可经配置以计算多通道信号的噪声分量的估计,其包含从不同于估计DOA的方向(例如,其它扇区)到达的频率分量。对于其中计算噪声估计的情况,方法M100也可经配置以使用噪声估计来对多通道信号的一个或一个以上通道执行噪声减少操作(例如,对来自经增强信号的一个或一个以上通道的噪声估计的维纳滤波或频谱减法)。方法M100的其它应用包含使用估计DOA或源位置来选择由音频感测装置的相机俘获的图像的一部分作为聚焦窗口(例如,使得聚焦窗口包含源的图像的至少一部分),且使用估计源范围和来自聚焦窗口的信息使相机聚焦于所要源上。 

通常可使用装置D20的与用于可听声音记录相同的麦克风用于超声检测(例如,将检测器UD10实施为麦克风阵列中的麦克风),但此装置可经配置以改为包含一个或一个以上专用超声检测器。对于其中麦克风用于感测超声和可听声音两者的情况,可能需要将所接收信号传递通过滤波器组以分离超声分量(用于测距且可能用于DOA估计)与声频分量(用于DOA估计且可能用于空间选择性处理)。 

检测器UD10和阵列的麦克风(例如,MC10、MC20、MC30、MC40)当中的每一者可经实施为延伸带宽微机电系统(MEMS)麦克风和/或实施为驻极体电容麦克风(ECM)。超声和/或可听声音的此检测器也可实施为一个或一个以上压电材料片,例如聚偏氟乙烯(PVDF)、压电陶瓷或碳纳米管。可将多个PVDF片应用于一表面。 

可使用扬声器来发射超声测距信号以及可听声音信号(例如,电话应用中的远端语音信号),但可能需要改为使用专用超声发射器UE10用于测距。超声发射器的实例包含压电膜、热电膜以及压电陶瓷。压电膜(例如,PVDF)超声发射器和接收器提供用于空中测距应用的独特优点。用于PVDF膜的典型发射和检测频率包含40kHz和80kHz。圆柱形PVDF发射器通常展现全向水平波束方向性和宽带特性。圆柱形PVDF接收器通常展现极宽的水平波束方向性和宽带特性。取决于应用,发射器和/或接收器的谐振频率和垂直波束方向性可通过改变PVDF圆柱体的直径和/或长度来容易地定制。图17展示音频感测装置D20(例如,膝上型计算机或平板计算机)的实施方案的一个实例的一部分,其包含安装在框体BZ10中的屏幕SCR10、安装在框体BZ10上的超声发射器UE10的圆 柱形PVDF实施方案UE12,以及位于框体BZ10中的对应声端口后方的三个麦克风MC10、MC20、MC30的阵列。在此实例中,麦克风MC20还充当检测器UD10,且其它麦克风中的一者或一者以上也可用作超声检测器。对于如图17所示突出的发射器,可能需要以弹簧加载或另外可缩回方式安装发射器以使得其在不使用时可在框体BZ10内移动。装置D20的另一实例包含多个PVDF圆柱形接收器,其经正交布置以提供完全三轴全向波束模式。 

热电膜也可用作超声发射器。例如碳纳米管技术(CNT)发射器可经配置以展现热电效应。在绝热过程中快速加热和冷却空气压缩和稀薄化空气分子,从而导致声波。此膜(例如,CNT膜)可在平面发射器中使用,或替代地卷绕成圆柱形形状以用于全向波束模式。 

压电陶瓷发射器也是有效的超声发射器,但通常具有比PVDF发射器低的Q因数。此发射器可形成为球形形状以充当全向点源,或形成为片以充当活塞模式或悬臂波束致动器。图16B展示音频感测装置D20(例如,膝上型计算机或平板计算机)的实施方案的一个实例的一部分,其包含安装在框体BZ20中的屏幕SCR20、和四个麦克风MC10、MC20、MC30、MC40的阵列,以及位于框体BZ20中的对应声端口后方的超声发射器UE10的压电陶瓷实施方案UE14。在此实例中,麦克风MC20还充当检测器UD10,且其它麦克风中的一者或一者以上也可用作超声检测器。 

装置D20经配置以驱动发射器UE10以在例如0.2、0.25、0.5、1、2、5、10、20、50或100Hz的速率下发射测距脉冲。对于消费者家庭环境中的装置(例如,机顶盒、游戏控制台、膝上型计算机或平板计算机),可能需要使用高于宠物听力的范围的超声频率。狗可通常听见高达40,000Hz的声音,猫可通常听见高达60,000Hz的声音,且啮齿动物可通常听见高达90,000Hz的声音。可能需要对所接收信号进行取样的速率大于所发射脉冲的频率的两倍(例如,80到200kHz或更大的取样率,例如192kHz)。 

例如房间的墙壁等大、平坦且硬的表面可能比人体反射更多的超声脉冲的能量。此表面可产生具有比来自装置的用户的回声大的振幅的回声。超声信号通常快速衰减(例如,在5米内达约50%),使得最大实际源到装置范围可限于约5米或5米以下(例如,2或3米)。所接收超声信号通常随着对象与检测器之间的距离增加而变弱且还随着对象的大小减小而变弱。距离的影响通常在检测到的超声信号中对于非平坦表面比对于平坦表面更可感知。 

在实际应用中,所发射超声脉冲可预期从一个以上表面反射,使得由超声检测器或麦克风产生的信号可预期包含来自所发射脉冲的一次以上反射的回声。图18展示其中 检测到的信号包含来自处于范围RS1处的源AS1的回声的实例。在此实例中,所述信号还可包含来自处于范围RL1处的左墙壁、处于范围RT1处的右墙壁和处于范围RR1处的后墙壁当中的一者或一者以上的回声。图19展示包含多个回声的检测到的信号的记录的绘图(振幅对时域样本)。图20展示此时域信号和对应谱图(可使用例如具有16、32、64或128个样本的帧大小的FFT操作从感测到的信号产生)。 

图21A展示由超声检测器UD10响应于由超声发射器UE10发射的脉冲、响应于由脉冲从可听源AS1的反射引起的回声ES1和响应于由脉冲从另一对象O1(例如,墙壁、一件家具、另一个人等等)的反射引起的回声E01而产生的信号的绘图。如上所述,每一反射的飞行时间(TOF)指示对应反射对象的范围。然而,在没有更多信息的情况下,可能难以可靠地确定这些反射中的哪一者对应于在同一时间周期期间针对其估计DOA的可听源。如图21B中说明的所得范围模糊性可造成状态指示任务T200中的误差且阻碍任务T300针对从源AS1接收的可听信号选择范围适当的DOA估计方法。 

一种解决方案是配置任务T100以选择最靠近的范围,只要其满足与指定最小和/或最大值的指定关系即可。举例来说,可假定所要的源比视场内的任何其它对象都更靠近装置。任务T100的此实施方案可经配置以选择最靠近的范围,只要其不小于(或者至少等于)最小值(例如,对应于不小于20、25、30、40或50厘米的源到检测器距离)和/或不大于(或者小于)最大值(例如,对应于不大于1、1.25、1.3、1.5或2米的源到检测器距离)即可。 

对于其中音频感测装置在使用期间将保持静止的情况,可能需要执行范围初始化操作以在源不存在的情况下表征其中将估计源DOA的空间(例如,阵列前方的区域)。此操作可例如通过存储未经占据空间中(例如,来自墙壁和家具)的回声的范围来产生基线范围图,使得在装置的使用期间可忽略指示这些范围的回声以处理从可听源接收的声音。 

替代地或另外,可能需要以类似方式产生基线图以表征周围音频环境。此图可用以加强对可听DOA估计方法(例如,以避开特定DOA)和/或空间选择性处理操作(例如,以衰减从特定DOA到达的声音)的几何约束。此约束可有助于减少由位置固定的方向干扰源带来的分心,所述干扰源例如收音机、电视机、有噪声的电器、时钟等等。 

方法M100可经实施以使用来自一个以上检测器(例如,来自阵列的一个以上麦克风)的信号用于范围估计。当来自多个超声检测器的测距结果可用时,例如使用这些结果用于DOA估计变为可能。此DOA估计可包含使用例如三角测量算法、边测量算法(例如,三边测量或多边测量)和/或质心算法而组合来自不同超声检测器的记录中的对应能量峰值的范围(例如,飞行时间)。 

可能需要布置检测器以使得超声反射拾取对高程敏感和/或可在前方向与后方向之间区分(例如,如图2A和11到14中所示的布置)。麦克风布置可允许对于超声比对于声频信号更高的空间区别。 

图22A到22C展示使用来自多个超声检测器的测距结果的DOA估计的应用的实例。图22A展示位于音频感测装置D20的实施方案D30的视场中的源AS1和对象O1。图22B展示由检测器UD10(例如,麦克风MC10)产生的信号的绘图,所述信号包含指示范围R1的回声E1。在此情况下,由所发射脉冲从源AS1和对象O1两者的反射引起回声E1,所述两者具有相对于检测器UD10的相同范围以使得其回声已合并。图22C展示由检测器UD20(例如,麦克风MC20)产生的对应信号的绘图,所述信号包含指示源AS1的范围R2S1的回声E2S1和不同于回声E2S1且指示对象O1的范围R2O1的回声E2O1。 

方法M100的此实施方案可经配置以根据回声E1、E2S1和E201(例如,使用双边测量)确定视场内的两个候选位置。所述方法还可经配置以使用来自由源AS1产生的可听信号的DOA估计(例如,最近DOA估计)来在候选位置当中选择适当的一者。在此实例中,适当候选位置的选择还解决范围模糊性,从而支持任务T300中的适当DOA估计技术的选择。当然啊,方法M100的此实施方案也可经配置以使用来自三个或三个以上检测器中的每一者的检测信号。 

超声DOA估计方法还可包含使用一个以上发射器,其中每一发射器经配置以产生可区分于由其它发射器产生的脉冲的脉冲(例如,具有不同发射频率和/或随着时间的不同脉冲能量分布的脉冲)。替代地或另外,由同一对象反射且由不同检测器接收的同一脉冲的回声的增益(例如,量值、能量)和/或相位之间的差可用于DOA估计。然而,靠近间隔的检测器在提供增益差测量方面可能表现不良。相反,对于其中麦克风也用作超声检测器的情况,检测器之间的间距通常分开太远而无法支持基于相位差的超声测距。 

对于机顶盒或膝上型计算机或平板计算机的典型形状因数,可预期从超声反射的DOA估计在约30厘米到约3米的源到装置距离的范围上可为实际的。当大的对象靠近检测器时,由于所发射和反射能量的重叠,超声DOA估计可能变得不可靠。可能需要基于超声推断范围来启用和/或停用超声DOA估计(以及可能基于声频信息的DOA估计)的更新。举例来说,如果任务T100指示对象比阈值距离Tmin更靠近检测器,和/或对象的大小比阵列的大小(例如,孔径)大,那么可能需要将对应DOA估计作为不可靠而拒绝。在此情况下,可能需要任务T100使用最近DOA估计作为当前估计,或相对于组合估计中的声频DOA估计的权重wp[n]减少超声DOA估计的权重wa[n](可能减少到0)。或者,在此情况下可能需要停用基于DOA估计的空间选择性处理操作的调适(例如,改为退回 到单通道处理算法,例如通过在语音不活动周期期间对所接收声频信号进行时间平均的噪声估计)。 

可表达为对应飞行时间的阈值距离Tmin(例如,20或30厘米)可取决于所发射超声信号的波长和工作循环。举例来说,可通过使用较高频率用于所发射信号来减少距离Tmin。另外或替代地,可使用具有较低Q的发射器,使得可通过以较低工作循环(例如,较窄脉冲)驱动发射器来减少阈值距离Tmin。 

替代于或除了使用来自多个超声检测器的结果的DOA估计之外,方法M100可经配置以使用范围信息随着时间的改变来解决范围模糊性。图23A和23B展示在两个不同时间A和B的典型使用情形。对象O1从时间A到时间B不移动,使得范围RO1A和范围RO1B相同。源AS1从时间A到时间B移动,使得范围RS1A和范围RS1B不同。大体上,与视场内的其它对象(例如,墙壁和家具)相比,例如装置的用户等可听源较可能正在朝向装置移动或移动远离装置,从而导致所接收回声在时间轴上的对应相对位移。可能需要实施方法M100以跟踪超声反射信号的时间轴改变而非静态峰值。 

可能需要配置方法M100的此实施方案以包含基于连续接收回声的飞行时间的此改变而选择所要源的范围的操作。举例来说,可能需要通过使任务T300估计的DOA与随着时间改变的范围相关联来定位所要的源。 

图24到26展示在用户移动远离检测器阵列时在不同的连续时间的三通道记录的实例。图24展示装置的实施方案D30的三个超声检测器(例如,麦克风MC10、MC20、MC30)的阵列响应于由超声发射器UE10在时间A发射的脉冲和所得回声而产生的信号的绘图(能量对时间)。图25和26分别展示响应于在时间B和C发射的脉冲的类似绘图,其中时间B在时间A之后且时间C在时间B之后。可听源(例如,说话的人)从时间A到时间C移动远离装置,使得其范围随着时间改变,与保持恒定的左墙壁和右墙壁的范围形成对比。可假定随着时间移动的回声较可能与所要源相关联,且随着时间保持静止的回声较可能与墙壁、一件家具或其它对象相关联。 

可能需要配置任务T100以使用关于对象位置的存储信息来在检测到的信号中忽略范围随着时间持续不变的特征(例如,静态峰值、拐点或能量集中)且跟踪范围随着时间改变的特征。举例来说,任务T100可经实施以通过计算对应于每一回声的连续飞行时间之间的差且选择对应于移动回声的范围来选择范围。任务T100的此实施方案可经配置以根据特征的连续范围之间的差与移动阈值Tm之间的关系将特征识别为持续不变或移动的。在此情况下,任务T100可经配置以响应于检测到特征的范围已改变少于(或者不多于)Tm而将所述特征识别为持续不变的,且响应于检测到特征的当前范围与其先前 范围相差至少(或者多于)Tm而将所述特征识别为在运动。阈值Tm的值的实例包含10、20和25厘米的距离及其对应的时间。 

当来自可听源的回声具有与来自另一对象的回声相同的飞行时间时,所述源可变为对测距检测器不可见,即使其相对于装置位于与掩蔽对象不同的方向也是如此。图26展示此实例,其中可听源已移动以使得其回声与掩蔽回声(在此情况下,来自左墙壁的回声)合并。由掩蔽回声占据的范围也称为“盲区”。实施任务T100以跟踪所要源的范围随着时间的改变允许所述方法检测所述源何时进入盲区,使得所述方法可继续为所要源提供适当范围。 

可能需要配置方法M100以通过检测所检测信号的对应多普勒频移来检测源的运动。对于在1米/秒的速率下的源运动和40kHz的所发射超声频率,(对于直接朝向或远离阵列移动的源)可预期的所得多普勒频移为约100Hz。 

DOA估计技术可经配置以得益于使用超声的方法与使用可听声音的方法之间的协同。举例来说,可能需要实施任务T300以使用自适应加权来组合基于反射超声的估计DOA与基于从所要源接收的声音的估计DOA。在一个此实例中,任务T300经配置以根据例如以下的表达式来产生DOA估计:De[n]=wα[n]Dα[n]+wp[n]Dp[n],其中De[n]指示对于脉冲n的DOA估计,Dα[n]指示对于脉冲n的有源DOA估计,wα[n]指示针对对于脉冲n的有源DOA估计的权重,Dp[n]指示对于脉冲n的无源DOA估计,且wp[n]指示针对对于脉冲n的无源DOA估计的权重。可能需要权重wa[n]和wp[n]具有在从0到1的范围内的值,使得wα[n]+wp[n]=1。 

当一个以上对象位于距超声检测器相同距离以使得其接收的回声重合时,基于所接收回声的增益和/或相位之间的差的超声DOA估计技术可能变得不可靠。回声的此合并也可能使基于到不同检测器的飞行时间的DOA估计技术变复杂。在这些情况下,可能需要相对于对应声频DOA估计的权重wp[n]减少超声DOA估计的权重wα[n](可能减少到0)。相反,在当声源静默的周期期间,可能需要相对于对应超声DOA估计的权重wα[n]减少声频DOA估计的权重wp[n](可能减少到0)。 

可能需要配置任务T300以随着时间而平滑DOA估计。举例来说,任务T300可经配置以根据例如以下表达式(也称为一阶无限脉冲响应滤波器或泄漏积分器)执行时间平滑操作:Des[n]=αD es[n-1]+(1-α)De[n],其中De[n]指示对于脉冲n计算的DOA估计(可能为来自超声和声频测量的DOA估计的组合),Des[n-1]指示对于前一脉冲[n-1]的经平 滑DOA估计,Des[n]指示对于脉冲n的经平滑DOA估计,且α指示具有在从0(无平滑)到1(最大平滑,无更新)的范围内的值的平滑因数。平滑因数α的值的实例包含0.05、0.1、0.2、0.25、0.3、0.4和0.5。 

对于基于到不同检测器的飞行时间的DOA估计技术,可能需要通过使用较大的麦克风间距离而在时间轴上增加所反射回声的峰之间的分离。替代地或另外,可能需要通过使用多个方向元件或分布式模式致动器且使用所发射波形的时域多路复用来区分这些单独的反射峰。 

从检测到的超声信号的DOA的估计也可与从检测到的声频信号的DOA的估计一起使用,以通过启用对正在移动但是静默的对象(例如,人)的范围信息的拒绝来解决范围模糊性。在此情况下,任务T100可经配置以通过拒绝与超声DOA不同于当前声频DOA估计的对象相关联的范围来解决范围模糊性。 

虽然超声可用以识别非可听声音发射的源,但超声的使用也可能导致与人对象跟踪无关的许多反射信号。在存在连续超声波的情况下,可通过干涉测量过程识别为讲话人的源,因为喉咙和胸腔的振动提供经相位调制的反射。方法M100可经配置以包含此非脉冲信号的发射(例如,在测距脉冲之间,或通过另一发射器在与测距脉冲的频率不同的频率下),且对此经相位调制的反射的检测可用以指示话音活动的存在(例如,与方向性声频噪声信号相反)。 

图27A展示根据一般配置的设备A100的框图,其包含超声范围估计器100、比较器200和无源DOA估计器300。超声范围估计器100经配置以基于来自检测到的超声信号SU10的信息而估计范围(例如,通过执行如本文所述的任务T100的实施方案)。比较器200经配置以指示估计范围与阈值之间的关系的状态(例如,通过执行如本文所述的任务T200的实施方案)。无源DOA估计器300经配置以基于所指示的关系状态而产生多通道信号的通道S10-1和S10-2的声频分量的估计到达方向DE10(例如,通过执行如本文所述的任务T300的实施方案)。检测到的超声信号SU10可为多通道信号的通道。 

超声范围估计器100和无源DOA估计器300中的每一者可经实施以在时域中或在频域(例如,子带域或变换域,例如快速傅立叶变换(FFT)域)中操作。图27B展示设备A100的实施方案A110的应用的框图,其中多通道信号的通道S10-1和S10-2由相应FFT模块FFT1和FFT2变换到频域。设备A110包含超声范围估计器100的实施方案110,其经配置且布置以在FFT域中接收通道S10-1作为检测到的超声信号SU10,和无源DOA估计器300的实施方案310,其经配置且布置以在FFT域中接收通道S10-1和S10-2。 

对于其中检测到的超声信号SU10是多通道信号的通道(即,是基于由麦克风阵列当 中的一者产生的信号)的情况,可能需要以合适高的取样率(例如,所发射超声信号的频率的两倍以上)对所述通道进行取样。然而,为了减少功率消耗和/或计算复杂性,可能需要配置无源DOA估计器300以在较低取样率(例如,7、8、12、16、20、22、24、32、44,1或48kHz)下对通道操作。 

图28A展示设备A100的实施方案A120的框图,其包含经布置以在高取样率下接收第一通道S10-1的滤波器组FB10。滤波器组FB10经配置以在高取样率下产生高频(即,超声)带作为检测到的超声信号UD10,且在较低取样率(例如,抽选和/或再取样)下产生低频(即,声频)带作为对无源DOA估计器300的输入。在此实例中,设备A120在较低取样率下接收通道S10-2,但设备A120也可经实施以用类似方式从高取样率对第二通道S10-2进行抽选和/或再取样。在此特定实例中,设备A120还包含FFT模块FFT1、FFT2,其经配置以在FFT域中将通道S10-1和S10-2提供到无源DOA估计器310的实例。 

设备A100可经实施以将来自一个以上检测器(例如,来自阵列的一个以上麦克风)的检测到的超声信号用于范围估计且可能用于DOA估计。图28B展示设备A100的实施方案A130的应用的框图,其中多通道信号的四个通道S10-1、S10-2、S10-3和S10-4由相应FFT模块FFT1到FFT4变换到FFT域。在此实例中,范围估计器110的实施方案112经配置以接收频域通道作为检测到的超声信号SU10的多通道实例(例如,如图24到26中所示),且无源DOA估计器310的实施方案312计算多通道信号的声频分量的估计DOA。设备A130还可经配置以执行空间选择性处理操作,其包含基于估计DOA而选择所述四个通道的子组(例如,选择对应于其端射方向符合估计DOA的麦克风对的通道对)。基于估计DOA的麦克风阵列子组选择的额外揭示内容参见第13/029,582号美国专利申请案(2011年2月17日申请)。 

图29A展示设备A100(例如,设备A110、A120和/或A130)的实施方案A140的框图,其包含超声信号产生器SG10。信号产生器SG10经配置以产生超声测距信号SR10(例如,一系列脉冲)以由发射器UE10发射。在此实例中,信号产生器SG10还向范围估计器100指示每一脉冲产生的时间。在另一实例中,范围估计器100改为根据检测到的超声信号SU10确定每一脉冲发射的时间(即,飞行时间的开始)。 

可能需要实施超声范围估计器100以在一个以上计算的范围当中进行选择(例如,以解决如本文所述的范围模糊性)。图29B展示超声范围估计器100的实施方案120的框图。范围估计器120包含范围计算器102,其经配置以如本文所述计算检测到的超声信号SU10的至少一个范围。举例来说,范围计算器102可经配置以根据所发射超声脉冲的一个或一个以上回声中的每一者计算范围。 

范围估计器120还包含范围选择逻辑104,其经配置以如本文所述从计算的范围当中进行选择。举例来说,范围选择逻辑104可经配置以在计算的范围当中选择最小者(或最小计算范围和最小范围值中的最大者)。 

在此实例中,范围估计器120还包含范围历史106,其经配置以存储所要源随着时间的一系列估计范围。范围选择逻辑104可经配置以使用范围历史106来选择移动范围(例如,在范围历史106中不存在的当前计算范围)。范围历史106可包含所要源的位置(例如,范围和DOA)的历史,且还可经配置以包含一个以上所要源的范围和/或DOA和/或视场中的其它对象的图。 

范围估计器120可经实施以包含范围计算器102的一个以上实例,其各自对应于检测到的超声信号SU10的多通道实例的不同通道。设备A100可经配置以使用同一回声的多个范围用于如本文所述的有源DOA估计。在此情况下,范围选择逻辑104可经配置以基于声频和/或超声DOA估计从若干候选位置当中进行选择,且选择对应于选定位置的范围。 

图30A展示设备A100(例如,设备A110、A120、A130和/或A140)的实施方案A150的框图,其包含有源DOA估计器400。有源DOA估计器400经配置以计算声频分量的DOA的第二估计。有源DOA估计器400可经配置以基于由两个或两个以上检测器接收的同一回声之间的增益和/或相位的差而计算第二DOA估计。替代地或另外,有源DOA估计器400可经配置以基于同一回声到多个检测器中的每一者的飞行时间的差而计算第二DOA估计。在此情况下,有源DOA估计器400可经配置且布置以从范围估计器120接收来自同一回声的多个范围。包含范围估计器120的实例的设备A150的实施方案可经配置以使用有源DOA估计来更新范围历史106。 

设备A150还包含组合器500,其经配置以根据相对加权而组合由估计器300和400产生的DOA估计以获得到达方向的组合估计。所述相对加权可基于声频分量的增益(例如,使得可听DOA的相对加权在可听等级为高时比可听等级为低或静默时更重)。另外或替代地,相对加权可基于计算的DOA估计之间的差(例如,使得超声DOA估计在其极为不同于可听DOA估计时较轻地加权,尤其是当声频分量的等级为高且/或可听DOA估计与新近组合的DOA估计一致时)。 

另外或替代地,由组合器500应用的相对加权可基于连续超声信号的飞行时间之间的差。连续超声信号的飞行时间之间的0或其它极低的差可指示源已移动到例如超声盲区中,使得对应超声DOA估计的可靠性可能降低。在此情况下,可能需要减少由组合器500应用于超声DOA估计的相对加权。 

图30B展示根据一般配置的设备MF100的框图。设备MF100包含用于基于来自检测到的超声信号US10的信息而估计范围(例如,通过执行如本文所述的任务T100的实施方案)的装置F100。设备MF100还包含用于指示估计范围与阈值之间的关系的状态(例如,通过执行如本文所述的任务T200的实施方案)的装置F200。设备MF100还包含用于基于所指示的关系状态而产生多通道信号的通道S10-1和S10-2的声频分量的估计到达方向DE10(例如,通过执行如本文所述的任务T300的实施方案)的装置F300。 

图31展示设备A100(例如,设备A110、A120、A130、A140和/或A150)的实施方案A160的框图,其包含空间选择性滤波器SSP10。滤波器SSP10经配置以对多通道信号执行一个或一个以上空间选择性处理操作。举例来说,滤波器SSP10可经配置以通过使多通道信号的从不同于估计DOA DE10的方向(例如,从在估计DOA DE10周围的所接受方向范围之外的方向,例如未选定扇区)到达的频率分量衰减而产生经增强信号SE10。对于其中多通道信号包含两个以上通道的情况,滤波器SSP10可经配置以基于估计DOA DE10而选择一子组(例如,一对)通道。举例来说,滤波器SSP10可经配置以选择对应于端射(即,轴线)方向与估计DOA DE10最接近地符合的麦克风对的所述对通道。 

替代地或另外,滤波器SSP10可经配置以计算多通道信号的噪声分量的估计SN10,其包含从不同于估计DOA DE10的方向(例如,从未选定扇区)到达的频率分量。设备A160还包含噪声减少模块NR10,其经配置以使用噪声估计SN10来对多通道信号SE10的一个或一个以上通道执行噪声减少操作(例如,对来自经增强信号SE10的一个或一个以上通道的噪声估计SN10的维纳滤波或频谱减法)。估计DOA DE10的其它应用包含在成像操作(例如,使用音频感测装置的相机)中对聚焦窗口的选择。 

大体上,本文描述的测距和DOA估计策略可使用固定位置或便携式音频感测装置来实施,所述装置具有超声发射器和经配置以接收声信号的两个或两个以上麦克风的阵列。可经构造以包含此发射器和阵列且将与这些测距和DOA估计策略一起使用以用于音频记录和/或话音通信应用的便携式音频感测装置的实例包含:电话手持机(例如,智能电话或其它蜂窝式电话手持机);手持式音频和/或视频记录器;经配置以记录音频和/或视频内容的个人媒体播放器;以及笔记本计算机、膝上型计算机、上网本计算机、平板计算机或其它便携式计算装置。可经构造以包含此发射器和阵列且将与这些测距和DOA估计策略一起使用的音频感测装置的其它实例包含机顶盒和音频和/或视频会议装置。 

阵列的两个或两个以上麦克风中的每一者可具有全向、双向或单向(例如,心形线)的响应。阵列中可使用的各种类型的麦克风包含(不限于)压电麦克风、动态麦克风和驻 极体麦克风。在例如手持机等用于便携式话音通信的装置中,阵列的邻近麦克风之间的中心到中心间距通常在从约4到5厘米的范围内,但更大的间距(例如,多达10或15厘米)在例如智能电话等装置中也是可能的,且甚至更大的间距(例如,多达20、25或30厘米或更大)在例如平板计算机等装置中是可能的。阵列的麦克风可沿着线布置或者使得其中心位于二维(例如,三角形)或三维形状的顶点处。然而,大体上,阵列的麦克风可以被视为适合于特定应用的任何配置来安置。 

在如本文描述的多麦克风音频感测装置的操作期间,麦克风阵列产生多通道信号,其中每一通道是基于麦克风中的对应一者对声环境的响应。一个麦克风可比另一麦克风更直接地接收特定声音,使得对应通道彼此不同以共同地提供与使用单一麦克风可俘获的情况相比对声环境的更完整表示。 

可能需要阵列对由麦克风产生的信号执行一个或一个以上处理操作以产生多通道信号S10。图32A展示麦克风阵列的实例R100的框图,其包含麦克风MC10和MC20。阵列R100还包含音频预处理级AP10,其经配置以对由麦克风产生的信号执行一个或一个以上此类操作,所述操作可包含(不限于)阻抗匹配、模/数转换、增益控制和/或模拟和/或数字域中的滤波。 

图32B展示阵列R100的实施方案R110的框图。阵列R110包含音频预处理级AP10的实施方案AP20,其包含模拟预处理级P10a和P10b。在一个实例中,级P10a和P10b各自经配置以对对应麦克风信号执行高通滤波操作(例如,以50、100或200Hz的截止频率)。 

可能需要麦克风阵列产生多通道信号作为数字信号,即作为样本序列。举例来说,阵列R110包含模/数转换器(ADC)C10a和C10b,其各自经布置以对对应模拟通道进行取样。用于声学应用的典型取样率包含8kHz、12kHz、16kHz和在从约8到约16kHz的范围内的其它频率,但也可使用高达约44.1或48kHz的取样率。在此特定实例中,阵列R210还包含数字预处理级P20a和P20b,其各自经配置以对对应经数字化通道执行一个或一个以上预处理操作(例如,回声消除、噪声减少和/或频谱成形)。 

对于其中麦克风阵列用以产生检测到的超声信号UD10以及多通道信号S10的情况,可能需要配置转换器C10a和C10b以使用所发射超声信号的频率的两倍以上的取样率。在此情况下,还可能需要配置阵列以在转换器C10a和/或C10b的输出处提供检测到的超声信号UD10(即,与级P10a和/或P20b的输出处的经处理信号相反)。阵列R100和R110的实例向两个以上(例如,3、4或5)麦克风的扩展是明确预期的且在此揭示。 

图33A展示音频感测装置D20(例如,D22或D24)的实施方案D100的框图。装置 D100包含本文揭示的麦克风阵列R100的实施方案中的任一者的实例。装置D100还包含本文描述的设备A100(或者MF100)的实施方案中的任一者的实例,其经配置以处理由阵列R100产生的多通道信号S10。举例来说,设备A100可经配置以根据本文揭示的方法M100的实施方案中的任一者的实例处理多通道信号S10。设备A100可以硬件或以硬件与软件的组合(例如,固件)来实施。举例来说,设备A100可在装置D100的处理器上实施,所述处理器也经配置以对经处理多通道信号执行如本文描述的空间选择性处理操作(例如,确定音频感测装置与特定声源之间的距离、减少噪声、增强从特定方向到达的信号分量和/或分离一个或一个以上声音分量与其它环境声音的一个或一个以上操作)。 

图33B展示作为装置D100的实施方案的通信装置D200(例如,智能电话)的框图。装置D200包含芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组),其包含设备A100。芯片/芯片组CS10可包含一个或一个以上处理器,其可经配置以执行设备A100的一个或一个以上软件和/或固件部分(例如,作为指令)。芯片/芯片组CS10也可包含阵列R100的处理元件(例如,音频预处理级AP10的元件)。芯片/芯片组CS10包含:接收器,其经配置以经由天线C30接收射频(RF)通信信号且经由扬声器SP10解码和再生编码于所述RF信号内的音频信号;以及发射器,其经配置以对基于由设备A100产生的经处理信号的音频信号进行编码,且经由天线C30发射描述所述经编码音频信号的RF通信信号。举例来说,芯片/芯片组CS10的一个或一个以上处理器可经配置以对多通道信号的一个或一个以上通道执行如上所述的噪声减少操作以使得经编码音频信号是基于经噪声减少的信号。芯片/芯片组CS10还经配置以经由触摸屏显示器C20显示信息和接收用户输入,且驱动发射器UE10(例如,包含如本文描述的信号产生器SG10的实例)。 

便携式计算装置的类别当前包含具有例如以下名称的装置:膝上型计算机、笔记本计算机、上网本计算机、超便携式计算机、平板计算机、移动因特网装置、智能本和智能电话。一种类型的此装置具有板层或平板配置,且还可包含滑出式键盘。图34A到34D展示另一类型的此装置,其具有包含显示屏的顶部面板和可包含键盘的底部面板,其中所述两个面板可以蛤壳式或其它铰接关系连接。 

图34A展示装置D100的此便携式计算实施方案D700的实例的正视图,其包含超声发射器UE10以及以线性阵列布置于显示屏SC10上方的顶部面板(例如,框体)PL10上的四个麦克风MC10、MC20、MC30、MC40。图34B顶部面板PL10的俯视图,其展示呈另一尺寸的所述四个麦克风的位置。图34C展示此便携式计算装置D710的另一实例的正视图,其包含超声发射器UE10以及以非线性阵列布置于显示屏SC10上方的顶 部面板PL12上的四个麦克风MC10、MC20、MC30、MC40。图34D展示顶部面板PL12的俯视图,其展示呈另一尺寸的所述四个麦克风的位置,其中麦克风MC10、MC20和MC30安置于面板的前面处且麦克风MC40安置于面板的背面处。图16B和17展示类似装置上的阵列R100和发射器UE10的特写图。 

可预期用户可在此装置D700或D710前方朝向和远离所述装置从一侧到另一侧移动,和/或在使用期间甚至围绕装置移动(例如,从装置的前方到后方)。可能需要实施如本文描述的相关联处理系统以提供近场语音的保留与远场干扰的衰减之间的合适折中,和/或提供非所要方向上的非线性信号衰减。可能需要选择用于最小话音失真的线性麦克风配置,或用于较好噪声减少的非线性麦克风配置。 

图35展示用于手持式应用的多麦克风音频感测装置D100的便携式实施方案D800的图。装置D800包含发射器UE10、触摸屏显示器TS10、用户接口选择控件UI10(左侧)、用户接口导航控件UI20(右侧)、两个扬声器SP10和SP20,以及阵列R100的实施方案,其包含三个前麦克风MC10、MC20、MC30和一个后麦克风MC40。用户接口控件中的每一者可使用按钮、跟踪球、点击轮、触摸板、操纵杆和/或其它指向装置等等中的一者或一者以上来实施。装置D800还可在装置的显示面中和/或装置的背面(即,与触摸屏显示器相对的面)中包含相机CAM。可在浏览-讲话模式或玩游戏模式中使用的装置D800的典型大小为约15厘米乘20厘米。便携式多麦克风音频感测装置可类似地实施为在顶部表面上包含触摸屏显示器的平板计算机(例如,“平板”,例如iPad(苹果公司)、Slate(加利福尼亚州帕洛阿尔托的惠普公司),或Streak(德克萨斯州圆石市戴尔公司)),其中阵列R100的麦克风安置于顶部表面的边限内(例如,屏幕框体内)和/或平板计算机的一个或一个以上侧表面处。 

如本文揭示的范围和DOA估计策略的应用不限于便携式音频感测装置。图36A到36D展示包含超声发射器UE10的全向(例如,圆柱形)实施方案的会议装置的若干实例的俯视图。图36A包含阵列R100的三麦克风实施方案(麦克风MC10、MC20和MC30)。图36B包含阵列R100的四麦克风实施方案(麦克风MC10、MC20、MC30和MC40)。图36C包含阵列R100的五麦克风实施方案(麦克风MC10、MC20、MC30、MC40和MC50)。图36D包含阵列R100的六麦克风实施方案(麦克风MC10、MC20、MC30、MC40、MC50和MC60)。可能需要将阵列R100的麦克风中的每一者定位于规则多边形的对应顶点处。用于再生远端音频信号的扬声器可包含于装置内,且/或此扬声器可与装置分开定位(例如,以减少声反馈)。 

可经配置以支持交互式和/或通信应用(例如,经由IP话音(VoIP)协议)的装置D100 的额外静态使用情况实例包含游戏控制台(例如,微软Xbox、索尼P1aystation或任天堂Wii系列中的控制台中的任一者)和电视机顶盒,例如用于卫星电视、有线电视、数字视频记录(DVR)或流式传输电视用途(例如,Revue(加利福尼亚州弗里蒙特的罗技公司)、Roku HD、XD或XDIS(加利福尼亚州萨拉托加的Roku公司)、Apple TV(加利福尼亚州库珀蒂诺的苹果公司))。 

本文揭示的方法和设备可一般地应用于任何收发和/或音频感测应用中,尤其是此些应用的移动或以其它方式而便携的实例中。举例来说,本文揭示的配置范围包含驻留于经配置以采用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将了解,具有如本文描述的特征的方法和设备可驻留于采用所属领域的技术人员已知的广范围技术的各种通信系统中的任一者中,所述系统例如采用经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)发射通道的IP话音(VoIP)的系统。 

明确预期且在此揭示,本文揭示的通信装置可适用于包交换(举例来说,经布置以根据例如VoIP等协议而载运音频发射的有线和/或无线网络)和/或电路交换式网络中。还明确预期且在此揭示,本文揭示的通信装置可适用于窄带译码系统(例如,对约4或5千赫的音频频率范围进行编码的系统)中和/或用于宽带译码系统(例如,对大于5千赫的音频频率进行编码的系统)中,包含全频带宽带译码系统和分频带宽带译码系统。 

提供对本文描述的配置的呈现以使得所属领域的技术人员能够制作或使用本文揭示的方法和其它结构。本文展示和描述的流程图、框图和其它结构仅仅是实例,且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改是可能的,且本文呈现的一般原理也可适用于其它配置。因此,本发明不希望限于上文展示的配置,而是应被赋予与本文以任何方式(包含在所申请的形成本发明一部分的所附权利要求书中)揭示的原理和新颖特征一致的最广范围。 

所属领域的技术人员将了解,可使用多种不同技艺和技术中的任一种来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示整个以上描述中可能参考的数据、指令、命令、信息、信号、位和符号。 

实施如本文揭示的配置的重要设计要求可包含最小化处理延迟和/或计算复杂性(通常以每秒百万指令或MIPS来测量),尤其是计算密集型应用,例如在高于8千赫(例如,12、16、44.1、48或192kHz)的取样速率下的话音通信的应用。 

如本文描述的多麦克风处理系统的目标可包含实现10到12dB的总体噪声减少, 在所要说话者的移动期间保留话音电平和音色,获得噪声已移动到背景中而非激进噪声移除的感知,语音的去混响,和/或启用针对较激进噪声减少的后处理(例如,频谱掩蔽和/或基于噪声估计的另一频谱修改操作,例如频谱减法或维纳滤波)的选项。 

如本文揭示的设备(例如,设备A100、A110、A120、A130、A140、A150、A160或MF100)的实施方案的各种元件可实施于视为适合于既定应用的任何硬件结构或硬件与软件和/或固件的任何组合中。举例来说,此些元件可制造为例如驻留于同一芯片上或芯片组中的两个或两个以上芯片之间的电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且这些元件中的任一者均可实施为一个或一个以上此阵列。这些元件中的任两个或两个以上或甚至全部均可实施于相同阵列内。此阵列可实施于一个或一个以上芯片内(例如,包含两个或两个以上芯片的芯片组内)。 

本文揭示的设备的各种实施方案的一个或一个以上元件也可部分地实施为一个或一个以上指令集,其经布置以在一个或一个以上固定或可编程逻辑元件阵列上执行,例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文揭示的设备的实施方案的各种元件中的任一者也可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器,也称为“处理器”),且这些元件中的任两者或两者以上或甚至全部均可实施于相同的此计算机内。 

如本文揭示的处理器或用于处理的其它装置可制造为例如驻留于同一芯片上或芯片组中的两个或两个以上芯片之间的一个或一个以上电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且这些元件中的任一者均可实施为一个或一个以上此阵列。此阵列可实施于一个或一个以上芯片内(例如,包含两个或两个以上芯片的芯片组内)。此些阵列的实例包含逻辑元件的固定或可编程阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文揭示的处理器或用于处理的其它装置还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器)或其它处理器。如本文描述的处理器可能用以执行并非与方法M100的实施方案的程序直接相关的任务或其它指令集,例如与其中嵌入处理器的装置或系统(例如,音频感测装置)的另一操作相关的任务。如本文揭示的方法的一部分也可能由音频感测装置的处理器执行(例如,无源DOA估计任务T300),且所述方法的另一部分在一个或一个以上其它处理器的控制下执行(例如,范围估计任务T100)。 

所属领域的技术人员将了解,结合本文所揭示的配置描述的各种说明性模块、逻辑块、电路和测试和其它操作可实施为电子硬件、计算机软件或所述两者的组合。此些模块、逻辑块、电路和操作可用经设计以产生如本文揭示的配置的通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。举例来说,此配置可至少部分地实施为硬连线电路、制造于专用集成电路中的电路配置,或加载到非易失性存储装置中的固件程序或者作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,此代码是可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可以是微处理器,但在替代方案中,所述处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。软件模块可驻留在非暂时性存储媒体中,例如RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM等非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸式盘、或CD-ROM或此项技术中已知的任何其它形式的存储媒体。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和向存储媒体写入信息。在替代方案中,存储媒体可与处理器成一体式。处理器和存储媒体可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储媒体可作为离散组件驻留在用户终端中。 

应注意,本文揭示的各种方法(例如,方法M100和参考本文描述的各种设备和装置的操作而揭示的其它方法)可由例如处理器等逻辑元件阵列执行,且如本文描述的设备的各种元件可部分地实施为经设计以在此阵列上执行的模块。如本文使用,术语“模块”或“子模块”可指代呈软件、硬件或固件形式的包含计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应了解,多个模块或系统可组合为一个模块或系统,且一个模块或系统可分离为多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的元件本质上是用以执行相关任务的代码段,例如具有例程、程序、对象、组件、数据结构和类似物。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制码、固件、宏代码、微代码、可由逻辑元件阵列执行的任一个或一个以上指令集或指令序列,和此些实例的任何组合。程序或代码段可存储在处理器可读存储媒体中或由体现于发射媒体或通信链路上的载波中的计算机数据信号发射。 

本文揭示的方法、方案和技术的实施方案也可有形地体现(例如,以如本文列出的一 个或一个以上计算机可读存储媒体的有形计算机可读特征)为可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可装卸和不可装卸的存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软磁盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘或可用以存储所要信息的任何其它媒体、光纤媒体、射频(RF)链路,或可用以存储所要信息且可被存取的任何其它媒体。计算机数据信号可包含可经由例如电子网络通道、光纤、空气、电磁、RF链路等等传输媒体传播的任何信号。代码段可经由例如因特网或内联网等计算机网络而下载。在任一情况下,本发明的范围均不应解释为受到此些实施例的限制。 

本文描述的方法的任务中的每一者可直接以硬件、以由处理器执行的软件模块或以所述两者的组合来实施。在如本文揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行方法的各种任务中的一者、一者以上或甚至全部。任务中的一者或一者以上(可能全部)也可实施为代码(例如,一个或一个以上指令集),体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等等)中,其可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文揭示的方法的实施方案的任务也可由一个以上此阵列或机器执行。在这些或其它实施方案中,任务可在用于无线通信的装置内执行,所述装置例如蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换式和/或包交换式网络(例如,使用例如VoIP等一个或一个以上协议)通信。举例来说,此装置可包含经配置以接收和/或发射经编码帧的RF电路。 

明确揭示了本文揭示的各种方法可由便携式通信装置(例如,智能电话或其它手持机)执行,且本文描述的各种设备可包含在此装置内。典型的实时(例如,在线)应用是使用此移动装置进行的电话谈话。 

在一个或一个以上示范性实例中,本文描述的操作可以硬件、软件、固件或其任一组合来实施。如果以软件实施,那么此些操作可作为一个或一个以上指令或代码存储在计算机可读媒体上或经由计算机可读媒体传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如,发射)媒体。举例来说而非限制,计算机可读存储媒体可包括存储元件阵列,例如半导体存储器(可包含(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM)或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装 置;和/或磁盘存储装置或其它磁性存储装置。此存储媒体可以可由计算机存取的指令或数据结构的形式存储信息。通信媒体可包括可用以载运呈指令或数据结构形式的所要程序代码且可由计算机存取的任何媒体,包含促进计算机程序从一处到另一处的传送的任何媒体。而且,恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波等无线技术从网站、服务器或其它远程源传输软件,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波等无线技术包含在媒体的定义中。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及Blu-ray DiscTM(加利福尼亚州环球城蓝光光盘协会),其中磁盘通常以磁性方式再生数据,而光盘使用激光以光学方式再生数据。上文的组合也应包含在计算机可读媒体的范围内。 

如本文描述的声信号处理设备可并入到接受语音输入以便控制某些操作的电子装置中,或可另外得益于所要噪声与背景噪声的分离,例如通信装置。许多应用可得益于加强或分离清晰的所要声音与源自多个方向的背景声音。此些应用可包含电子或计算装置中的人机接口,所述装置并入有例如话音辨识和检测、语音加强和分离、话音激活的控制等等能力。可能需要实施此声信号处理设备以适合于仅提供有限处理能力的装置中。 

本文描述的模块、元件和装置的各种实施方案的元件可制造为例如驻留于同一芯片上或芯片组中的两个或两个以上芯片之间的电子和/或光学装置。此装置的一个实例是例如晶体管或门的逻辑元件的固定或可编程阵列。本文描述的设备的各种实施方案的一个或一个以上元件也可整体或部分地实施为一个或一个以上指令集,其经布置以在一个或一个以上固定或可编程逻辑元件阵列上执行,例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC。 

如本文描述的设备的实施方案的一个或一个以上元件可能用以执行并非与设备的操作直接相关的任务或其它指令集,例如与其中嵌入所述设备的装置或系统的另一操作相关的任务。还可能此设备的实施方案的一个或一个以上元件具有共同结构(例如,用以在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间执行不同元件的操作的电子和/或光学装置的布置)。举例来说,FFT模块FFT1到FFT4中的一者或一者以上(可能全部)可经实施以在不同时间使用相同结构(例如,界定FFT操作的相同指令集)。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号