首页> 中国专利> 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置

具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置

摘要

提供可响应于所检测到声音活动而自动对焦及/或配置波束形成瓣的阵列麦克风系统及方法。可基于远程远端音频信号抑制所述波束形成瓣的所述自动对焦及/或配置。可通过确保波束形成瓣即使音频源已移动且改变位置仍最佳地拾取所述音频源来改进所述音频源在环境中的涵盖范围的质量。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-04

    实质审查的生效 IPC(主分类):H04R 3/00 专利申请号:2020800369630 申请日:20200320

    实质审查的生效

说明书

本申请要求2019年3月21日提出申请的美国临时专利申请第62/821,800号、2019年5月31日提出申请的美国临时专利申请第62/855,187号及2020年2月7日提出申请的美国临时专利申请第62/971,648号的权益。每一申请的内容通过全文引用的方式完全并入本文中。

技术领域

本申请一般来说涉及一种具有波束形成麦克风瓣的自动对焦及配置的阵列麦克风。具体来说,本申请涉及一种阵列麦克风,其在已初始配置波束形成麦克风瓣之后基于对声音活动的检测来调整所述瓣的对焦及配置,且允许基于远程远端音频信号来抑制对所述波束形成麦克风瓣的所述对焦及配置的所述调整。

背景技术

会议环境,如会议室、董事会议室、视频会议应用程序等可涉及使用麦克风来捕获来自在此类环境中活跃的各种音频源的声音。举例来说,此类音频源可包含正讲话的人。所捕获声音可通过放大扬声器(用于声音加强)传播到环境中的本地听众,及/或传播到远离环境的其它人(如经由电视广播及/或网络广播)。麦克风的类型及其在特定环境中的配置可取决于音频源的位置、物理空间要求、美学、房间布局及/或其它考虑因素。举例来说,在一些环境中,麦克风可配置在音频源附近的桌子或讲台上。举例来说,在其它环境中,可将麦克风架空安装以捕获来自整个房间的声音。因此,可使用各种大小、外观尺寸、安装选项及接线选项的麦克风,以满足特定环境的需求。

传统麦克风通常具有固定极性样式及很少手动选择设置。为了在会议环境中捕获声音,可同时使用诸多传统麦克风来捕获环境内的音频源。然而,传统的麦克风往往还捕获非所要音频,如房间噪声、回声及其它不良音频元素。使用诸多麦克风会加剧这些非所要噪声的捕获。

具有多个麦克风元件的阵列麦克风可提供如可操纵涵盖或拾音样式(具有一或多个瓣)的好处,此允许麦克风可专注于所要音频源并拒绝非所要声音,如室内噪声。操纵音频拾音样式的能力提供以下益处:麦克风配置的精度可能降低,且以此方式,阵列麦克风更为宽容。此外,阵列麦克风提供通过一个阵列麦克风或单元拾取多个音频源的能力,此同样归因于能够操纵拾音样式的能力。

然而,在某些环境及情况下,阵列麦克风的拾音样式的瓣的位置可能并非最佳的。举例来说,最初由瓣检测到的音频源可能会移动并改变位置。在此情况下,瓣可能无法在其新位置的最佳地拾取音频源。

因此,对阵列麦克风来说存在解决这些问题的机会。更具体来说,对阵列麦克风来说存在机会,即,在已初始配置波束形成麦克风瓣之后,基于对声音活动的检测自动地对焦及/或配置所述瓣,同时还能够基于远程远端音频信号抑制波束形成麦克风瓣的对焦及/或配置,此可导致环境的较高质量声音捕获及更佳涵盖范围。

发明内容

本发明旨在通过提供阵列麦克风系统及方法来解决上述问题,所述阵列麦克风系统及方法除其它外还经设计以:(1)在已初始配置阵列麦克风的波束形成瓣之后,响应于对声音活动的检测,实现所述瓣的自动对焦;(2)响应于对声音活动的所述检测,实现阵列麦克风的波束形成瓣的自动配置;(3)在已初始配置阵列麦克风的波束形成瓣之后,响应于对声音活动的所述检测,实现所述瓣在瓣区域内的自动对焦;以及(4)基于远程远端音频信号的活动,抑制或限制阵列麦克风的波束形成瓣的所述自动对焦或自动配置。

在一个实施例中,当大体上在初始坐标附近的新坐标处检测到新声音活动时,可通过将波束形成瓣移动到所述新坐标来对焦已定位于所述初始坐标处的所述瓣。

在另一实施例中,当在所述新坐标处检测到新声音活动时,可将波束形成瓣配置或移动到新坐标。

在又一实施例中,当在所述新坐标处检测到新声音活动时,已定位在初始位置处的波束形成瓣可通过移动所述瓣来对焦,但限制在瓣区域内。

在另一实施例中,当远程远端音频信号的所述活动超过预定阈值时,可抑制或限制波束形成瓣的移动或配置。

从以下详细描述及附图,这些及其它实施例以及各种排列及方面将变得显而易见,且将得到更充分的理解,详细描述及附图阐明指示可采用本发明的原理的各种方式的说明性实施例。

附图说明

图1为根据一些实施例的具有响应于对声音活动的检测而自动对焦波束形成瓣的阵列麦克风的示意图。

图2为根据一些实施例的说明用于自动对焦波束形成瓣的操作的流程图。

图3为根据一些实施例的说明用于利用成本泛函的波束形成瓣的自动对焦的操作的流程图。

图4为根据一些实施例的具有响应于对声音活动的检测而自动配置阵列麦克风的波束形成瓣的示意图。

图5为根据一些实施例的说明用于自动配置波束形成瓣的操作的流程图。

图6为根据一些实施例的说明用于在所检测到声音活动附近找到瓣的操作的流程图。

图7为根据一些实施例的在瓣区域内具有波束形成瓣的麦克风的示例性描绘。

图8为根据一些实施例的说明用于在瓣区域内自动对焦波束形成瓣的操作的流程图。

图9为根据一些实施例的说明用于确定所检测到声音活动是否在瓣的外观半径内的操作的流程图。

图10为根据一些实施例的在瓣区域内具有波束形成瓣并展示瓣的外观半径的阵列麦克风的示例性描绘。

图11为根据一些实施例的说明用于确定瓣在瓣的移动半径内的移动的操作的流程图。

图12为根据一些实施例的在瓣区域内具有波束形成瓣并展示瓣的移动半径的阵列麦克风的示例性描绘。

图13为根据一些实施例的在瓣区域内具有波束形成瓣且展示瓣区域之间的边界垫的阵列麦克风的示例性描绘。

图14为根据一些实施例的说明用于基于瓣区域之间的边界垫来限制瓣移动的操作的流程图。

图15为根据一些实施例的在区域内具有波束形成瓣并展示基于区域之间的边界垫的瓣的移动的阵列麦克风的示例性描绘。

图16为根据一些实施例的具有响应于对声音活动的检测而自动对焦波束形成瓣及基于远程远端音频信号而抑制自动对焦的阵列麦克风的示意图。

图17为根据一些实施例的具有响应于对声音活动的检测而自动配置阵列麦克风的波束形成瓣及基于远程远端音频信号而抑制自动配置的阵列麦克风的示意图。

图18为根据一些实施例的说明用于基于远程远端音频信号抑制自动调整阵列麦克风的波束形成瓣的操作的流程图。

图19为根据一些实施例的具有响应于对声音活动的检测及对声音活动的活动检测而自动配置阵列麦克风的波束形成瓣的阵列麦克风的示意图。

图20为根据一些实施例的说明用于自动配置波束形成瓣的操作的流程图,所述操作包含对声音活动的活动检测。

具体实施方式

以下描述根据本发明的原理描述、说明及例示本发明的一或多个特定实施例。提供此描述并非为了将本发明限制于本文中所描述的实施例,而是以一方式公开及教示本发明的原理使得所属领域的技术人员能够理解这些原理并在所述理解的情况下能够将其应用于不仅实践本文中所描述的实施例而且能够实践根据这些原理想到的其它实施例。本发明的范围旨在涵盖所有可能落入所附权利要求书的范围内的所有此类实施例,无论在字面上还是在等同原则下。

应注意,在说明书及图式中,相似或大体上相似的元件可用相同参考编号标记。然而,有时这些元素可用不同的编号标记,如在此标记有助于更清晰描述的状况下。另外,本文阐述的附图不一定按比例绘制,且在一些情况下,可能放大比例以更清楚地描绘某些特征。此类标记及绘图惯例未必意味着潜在的实质性目的。如上文所述,本说明书旨在作为一个整体,并根据本文中所教示且为所属领域的技术人员所理解的本发明的原理来解释。

本文中所描述的阵列麦克风系统及方法可响应于对声音活动的检测而实现波束形成瓣的自动对焦及配置,以及允许基于远程远端音频信号来抑制波束形成瓣的对焦及配置。在实施例中,阵列麦克风可包含多个麦克风元件、音频活动定位器、瓣自动对焦器、数据库及波束形成器。音频活动定位器可检测新声音活动的坐标及置信度得分,且瓣自动对焦器可确定在新声音活动附近是否存在先前配置的瓣。如果存在此一瓣,且新声音活动的置信度得分大于瓣的置信度得分,那么瓣自动对焦器可将新坐标传输到波束形成器,以使得瓣移动到新坐标。在这些实施例中,可改进瓣的位置,且自动对焦于瓣内部及附近的音频源的最新位置,同时还可防止瓣重叠,指向非所要方向(例如,朝向非想要的噪声),及/或过于突然移动。

在其它实施例中,阵列麦克风可包含多个麦克风元件、音频活动定位器、瓣自动配置器、数据库及波束形成器。音频活动定位器可检测新声音活动的坐标,且瓣自动配置器可确定在新声音活动附近是否存在瓣。如果不存在此一瓣,那么瓣自动配置器可将新坐标传输到波束形成器,以使得将非作用中瓣配置在新坐标处,或以使得现有瓣移动到新坐标。在这些实施例中,阵列麦克风的作用中瓣的集合可指向阵列麦克风的涵盖区域中的最新声音活动。

在其它实施例中,音频活动定位器可检测新声音活动的坐标及置信度得分,且如果新声音活动的置信度得分大于阈值,那么瓣自动对焦器可识别新声音活动所属于的瓣区域。在所识别瓣区域中,如果坐标在瓣的当前坐标的外观半径内(即,在瓣的当前坐标周围的可认为新声音活动在其中的空间的三维区域),那么可移动先前配置瓣。瓣在瓣区域中的移动可限于瓣的当前坐标的移动半径内,即,在三维空间中允许瓣移动的最大距离,及/或限于瓣区域之间的边界垫外部,即,瓣可移动到瓣区域之间的边界的接近程度。在这些实施例中,可改进瓣的位置,且自动对焦于与瓣相关联的瓣区域内部的音频源的最新位置,同时还可防止瓣重叠,指向非所要方向(例如,指向非想要的噪声),及/或过于突然移动。

在其它实施例中,活动检测器可如从远端接收远程音频信号。远程音频信号的声音可在本地环境中播放,如在会议室内的扬声器上播放。如果远程音频信号的活动超过预定阈值,那么可抑制波束形成瓣的自动调节(即,焦点及/或配置)的发生。举例来说,可通过远程音频信号的能阶来测量远程音频信号的活动。在此实例中,当存在经含于远程音频信号中的一定位准的话音或语音时,远程音频信号的能阶可超过预定阈值。在此情况下,可能期望防止自动调整波束形成瓣,以使得瓣未经定向为从远程音频信号拾取声音,例如在本地环境中播放。然而,如果远程音频信号的能阶未超过预定阈值,那么可执行波束形成瓣的自动调整。波束形成瓣的自动调整可包含例如本文中所描述的瓣的自动对焦及/或配置。在这些实施例中,瓣的位置,在远程音频信号的活动未超过预定阈值时可经改进并自动对焦及/或配置,且在远程音频信号的活动超过预定阈值时经抑制或限制自动对焦及/或配置。

通过使用本文中的系统及方法,可通过例如确保即使音频源已从初始位置移动并改变位置,波束形成瓣仍最佳地拾取所述音频源,来改进所述音频源在环境中的涵盖范围的质量。举例来说,还可通过降低波束形成瓣经部署(例如,对焦或配置)以拾取非想要声音(如同来自远端的语音、话音或其它噪声)的可能性来改进音频源在环境中的涵盖范围的质量。

图1及4为可检测来自各种频率的音频源的声音的阵列麦克风100、400的示意图。阵列麦克风100、400可在会议室或董事会议室中使用,举例来说,其中音频源可为一或多个人类发言者。在所述环境中可存在可为非所要的其它声音,如来自通风设备、其它人、音频/视觉设备、电子设备等的噪声。在典型情况下,音频源可能坐在桌子旁椅子上,尽管音频源的其它构造及配置为可预期的且可能的。

阵列麦克风100、400可配置在桌子、讲台、桌面、墙壁、天花板等上或其中,以使得可检测及捕获来自音频源的声音,如人类发言者说出的话音。阵列麦克风100、400可包含例如任何数目个麦克风元件102a、102b、…、102zz,402a、402b、…、402zz,且能够形成具有瓣的多个拾音样式,以使得可检测及捕获来自音频源的声音。任何适当数目个麦克风元件102、402为可能的且可预期的。

阵列麦克风100、400中的麦克风元件102、402中的每一个可检测声音并将所述声音转换为模拟音频信号。阵列麦克风100、400中的组件,如模拟转数字转换器、处理器及/或其它组件,可处理模拟音频信号并最终产生一或多个数字音频输出信号。在一些实施例中,数字音频输出信号可符合用于通过以太网传输音频的丹特(Dante)标准,或可符合另一标准及/或传输协议。在实施例中,阵列麦克风100、400中的麦克风元件102、402中的每一个可检测声音并将所述声音转换为数字音频信号。

阵列麦克风100、400中的波束形成器170、470可根据麦克风元件102、402的音频信号来形成一或多个拾音样式。波束形成器170、470可产生与每一拾音样式相对应的数字输出信号190a、190b、190c、…190z,490a、490b、490c、…、490z。拾音样式可由一或多个瓣(例如,主瓣、侧瓣及后瓣)构成。在其它实施例中,阵列麦克风100、400中的麦克风元件102、402可输出模拟音频信号,使得在阵列麦克风100、400之外的其它组件及装置(例如,处理器、混合器、记录器、放大器等)可处理模拟音频信号。

响应于对声音活动的检测而自动对焦波束形成瓣的图1的阵列麦克风100可包含麦克风元件102;与麦克风元件102有线或无线通信的音频活动定位器150;与音频活动定位器150有线或无线通信的瓣自动对焦器160;与麦克风元件102及瓣自动对焦器160有线或无线通信的波束形成器170;以及与瓣自动对焦器160有线或无线通信的数据库180。这些组件将在下文更详细地进行描述。

响应于对声音活动的检测而自动配置波束形成瓣的图4的阵列麦克风400可包含麦克风元件402;与麦克风元件402有线或无线通信的音频活动定位器450;与音频活动定位器450有线或无线通信的瓣自动配置器460;与麦克风元件402及瓣自动配置器460有线或无线通信的波束形成器470;以及与瓣自动配置器460有线或无线通信的数据库480。这些组件将在下文更详细地进行描述。

在实施例中,阵列麦克风100、400可包含与音频活动定位器150、450及/或波束形成器170、470一起工作的其它组件,如回声消除器或自动混合器。举例来说,如本文中所描述,在响应于检测到新声音活动而将瓣移动到新坐标时,来自瓣移动的信息可由回声消除器用于在移动期间及/或由自动混合器最小化回声以改进其决策能力。作为另一实例,可通过自动混合器的决定来影响瓣的移动,如允许自动混合器已将其识别为具有相关语音活动的瓣移动。波束形成器170、470可为任何合适波束形成器,如延迟加总波束形成器或最小变异无失真响应(MVDR)波束形成器。

包含在阵列麦克风100、400中的各种组件可使用可由一或多个服务器或计算机执行的软件来实施,如具有处理器及存储器的计算装置、图形处理单元(GPU)及/或由硬件(例如,离散逻辑电路、专用集成电路(ASIC)、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。

在一些实施例中,麦克风元件102、402可经布置成同心环及/或谐波嵌套。在一些实施例中,麦克风元件102、402可经布置为大体对称。在其它实施例中,麦克风元件102、402可不对称地或以另一种布置来布置。在其它实施例中,例如,麦克风元件102、402可经布置在衬底上,配置在框架中或单独地悬置。在共同转让的美国专利第9,565,493号中描述阵列麦克风的实施例,所述美国专利特此以全文引用的方式并入本文中。在实施例中,麦克风元件102、402可为主要在一方向上敏感的单向麦克风。在其它实施例中,根据需要,麦克风元件102、402可具有其它方向性或极性样式,如心形、亚心形或全方向。麦克风元件102、402可为可检测来自音频源的声音并将声音转换为电音频信号的任何合适类型的传感器。在一个实施例中,麦克风元件102、402可为微机电系统(MEMS)麦克风。在其它实施例中,麦克风元件102、402可为电容式麦克风、平衡衔铁式麦克风、驻极体麦克风、动态麦克风及/或其它类型的麦克风。在实施例中,麦克风元件102、402可排列成一维或二维。阵列麦克风100、400可经配置或安装在桌子、墙壁、天花板等上且可例如在视频监视器旁边、下方或上方。

图2中展示用于自动对焦阵列麦克风100的先前配置波束形成瓣的过程200的实施例。过程200可由瓣自动对焦器160执行,使得阵列麦克风100可从阵列麦克风100输出一或多个音频信号180,其中音频信号180可包含由波束形成瓣拾取的声音,所述波束形成瓣专注于音频源的新声音活动。阵列麦克风100内部或外部的一或多个处理器及/或其它处理组件(例如,模拟转数字转换器、加密芯片等)可执行过程200的任何、一些或所有步骤。一或多种其它类型的组件(例如,存储器、输入及/或输出装置、传输器、接收器、缓冲器、驱动器、离散组件等)还可结合处理器及/或其它处理组件用于执行过程200的任何、一些或所有步骤。

在步骤202处,可在瓣自动对焦器160处从音频活动定位器150接收与新声音活动相对应的坐标及置信度得分。音频活动定位器150可连续地扫描阵列麦克风100的环境以找到新声音活动。音频活动定位器150发现的新声音活动可包含合适音频源,例如不固定人类发言者。新声音活动的坐标可为相对于阵列麦克风100的位置的特定三维坐标,如在笛卡尔坐标(即,x、y、z)中或在球形坐标(即,径向距离/量级r、仰角θ(theta)、方位角

在步骤204处,瓣自动对焦器160可确定新声音活动的坐标是否在现有瓣附近(即,在其附近)。新声音活动是否在现有瓣附近可基于(1)新声音活动的坐标与(2)现有瓣的坐标的方位角及/或仰角相对于预定阈值的差。新声音活动距麦克风100的距离还可影响新声音活动的坐标是否在现有瓣附近的确定。在一些实施例中,瓣自动对焦器160可从数据库180检索现有瓣的坐标以供在步骤204中使用。下文关于图6更详细地描述确定新声音活动的坐标是否在现有瓣附近的实施例。

如果瓣自动对焦器160在步骤204确定新声音活动的坐标不在现有瓣附近,那么过程200可在步骤210处结束且阵列麦克风100的瓣的位置未更新。在此情况下,可将新声音活动的坐标认为在阵列麦克风100的涵盖区域之外,且因此可忽略新声音活动。然而,如果在步骤204,瓣自动对焦器160确定新声音活动的坐标在现有瓣附近,那么过程200继续到步骤206。在此情况下,新声音活动的坐标可认为现有瓣的经改进(即,更对焦)位置。

在步骤206处,瓣自动对焦器160可比较新声音活动的置信度得分与现有瓣的置信度得分。在一些实施例中,瓣自动对焦器160可从数据库180检索现有瓣的置信度得分。如果瓣自动对焦器160在步骤206处确定新声音活动的置信度得分小于(即,不如)现有瓣的置信度得分,那么过程200可在步骤210处结束且阵列麦克风100的瓣中的位置未更新。然而,如果瓣自动对焦器160在步骤206处确定新声音活动的置信度得分大于或等于(即,优于或更有利于)现有瓣的置信度得分,那么过程200可继续到步骤208。在步骤208处,瓣自动对焦器160可将新声音活动的坐标传输到波束形成器170,使得波束形成器170可将现有瓣的位置更新到新坐标。另外,瓣自动对焦器160可将瓣的新坐标存储在数据库180中。

在一些实施例中,在步骤208处,瓣自动对焦器160可限制现有瓣的移动,以防止及/或最小化瓣的位置的突然改变。举例来说,如果特定瓣最近已在某个最近时间段内移动,那么瓣自动对焦器160可不将所述瓣移动到新坐标。作为另一实例,如果新坐标过于靠近瓣的当前坐标,过于接近另一瓣,与另一瓣重叠及/或认为过于远离瓣到现有位置,那么瓣自动对焦器160可不将特定瓣移动到所述新坐标。

当音频活动定位器150发现新声音活动并将新声音活动的坐标及置信度得分提供到瓣自动对焦器160时,过程200可由阵列麦克风100连续执行。举例来说,过程200可在音频源(例如,人类发言者)在会议室周围移动时执行,以使得一或多个瓣可对焦在音频源上以最佳地拾取其声音。

图3中展示用于使用成本泛函自动对焦阵列麦克风100的先前配置波束形成瓣的过程300的实施例。过程300可由瓣自动对焦器160执行,以使得阵列麦克风100可输出一或多个音频信号180,其中音频信号180可包含由波束形成瓣拾取的声音,所述波束形成瓣专注于音频源的新声音活动。麦克风阵列100内部或外部的一或多个处理器及/或其它处理组件(例如,模拟转数字转换器、加密芯片等)可执行过程300的任何、一些或所有步骤。一或多种其它类型的组件(例如,存储器、输入及/或输出装置、传输器、接收器、缓冲器、驱动器、离散组件等)还可结合处理器及/或其它处理组件用于执行过程300的任何、一些或所有步骤。

瓣自动对焦器160的过程300的步骤302、304及306可与上文所描述的图2的过程200的步骤202、204及206大体上相同。具体来说,可在瓣自动对焦器160处从音频活动定位器150接收与新声音活动相对应的坐标及置信度得分。瓣自动对焦器160可确定新声音活动的坐标是否在现有瓣附近(即,在其附近)。如果新声音活动的坐标未在现有瓣附近(或如果新声音活动的置信度得分小于现有瓣的置信度得分),那么过程300可前进到步骤324,且阵列麦克风100的瓣的位置未更新。然而,如果在步骤306处,瓣自动对焦器160确定新声音活动的置信度得分大于(即,优于或更有利于)现有瓣的置信度得分,那么过程300可继续到步骤308。在此情况下,可将新声音活动的坐标视为将现有瓣移动到的候选位置,且可评估并最大化现有瓣的成本泛函,如下文所描述。

瓣的成本泛函可考虑瓣的空间方面及新声音活动的音频质量。如本文中所使用,成本泛函及成本函数具有相同含义。具体来说,在一些实施例中,可将瓣i的成本泛函定义为新声音活动的坐标(LC

在步骤308处,可由瓣自动对焦器160在新声音活动的坐标处评估瓣的成本泛函。在一些实施例中,所评估的成本泛函可由瓣自动对焦器160存储在数据库180中。在步骤310处,瓣自动对焦器160可将瓣分别从新声音活动的坐标沿x、y及z方向移动量Δx、Δy、Δz中的每一个。在每一移动之后,可由瓣自动对焦器160在这些位置中的每一个处评估成本泛函。举例来说,瓣可移动到位置(x+Δx,y,z),且可在所述位置处评估成本泛函;然后移动到位置(x,y+Δy,z)且可在所述位置处评估成本泛函;且然后移动到位置(x,y,z+Δz)且可在所述位置处评估成本泛函。在步骤310处,瓣可按任何次序移动量Δx、Δy、Δz。在一些实施例中,在这些位置处的评估成本泛函中的每一个可由瓣自动对焦器160存储在数据库180中。如下文所描述,由瓣自动对焦器160在步骤310执行对成本泛函的评估,以便计算偏导数的估计及成本泛函的梯度。应注意,虽然上文描述涉及笛卡尔坐标,但可对球形坐标(例如Δ方位角、Δ仰角、Δ量级)执行类似操作。

在步骤312处,可由瓣自动对焦器160基于偏导数的估计集合来计算成本泛函的梯度。梯度

在步骤314处,瓣自动对焦器160可将瓣沿在步骤312处计算的梯度

在步骤316处,瓣自动对焦器160可比较新位置处的瓣的成本泛函(在步骤314处评估)与新声音活动的坐标处的瓣的成本泛函(在步骤308处评估)。如果在步骤316处新位置处的瓣的成本泛函小于在新声音活动的坐标处的瓣的成本泛函,那么可考虑在步骤314处的步长μ过大,那么过程300可继续到步骤322。在步骤322处,可调整步长,且过程可返回到步骤314。

然而,如果在步骤316处新位置处的瓣的成本泛函不小于在新声音活动的坐标处的瓣的成本泛函,那么过程300可继续到步骤318。在步骤318处,瓣自动对焦器160可确定(1)新位置处的瓣的成本泛函(在步骤314处评估)与(2)新声音活动的坐标处的瓣的成本泛函(在步骤308处评估)之间的差是否接近,即,差的绝对值是否在小量ε内。如果在步骤318处不满足条件,那么可认为尚未达到成本泛函的局部最大值。过程300可进行到步骤324,且阵列麦克风100的瓣的位置未更新。

然而,如果在步骤318处满足条件,那么可认为已达到成本泛函的局部最大值且瓣已经自动对焦,且过程300继续到步骤320。在步骤320处,瓣自动对焦器160可将新声音活动的坐标传输到波束形成器170,使得波束形成器170可将瓣的位置更新到新坐标。另外,瓣自动对焦器160可将瓣的新坐标存储在数据库180中。

在一些实施例中,在步骤320处,瓣自动对焦器160可施加瓣的退火/抖动移动。可应用退火/抖动移动来将瓣微调出成本泛函的局部最大值之外,以试图找到较佳局部最大值(且因此为瓣找到较佳位置)。退火/抖动位置可由(x

当音频活动定位器150发现新声音活动并将新声音活动的坐标及置信度得分提供到瓣自动对焦器160时,过程300可由阵列麦克风100连续执行。举例来说,过程300可在音频源(例如,人类发言者)在会议室周围移动时执行,以使得一或多个瓣可对焦在音频源上以最佳地拾取其声音。

在实施例中,例如,可在步骤308到318及322中重新评估及更新成本泛函,且可例如不需要在步骤302处接收新声音活动的一组坐标的情况下调整瓣的坐标。举例来说,算法可在不提供新声音活动的一组坐标的情况下检测阵列麦克风100的哪个瓣具有最大声音活动。基于来自此算法的声音活动信息,可重新评估及更新成本泛函。

图5中展示用于阵列麦克风400的波束形成瓣的自动对焦或部署的过程500的实施例。过程500可由瓣自动配置器460执行,以使得阵列麦克风400可从图4中所展示的阵列麦克风400输出一或多个音频信号480,其中音频信号480可包含由经配置波束形成瓣拾取的来自音频源的新声音活动的声音。麦克风阵列400内部或外部的一或多个处理器及/或其它处理组件(例如,模拟转数字转换器、加密芯片等)可执行过程500的任何、一些或所有步骤。一或多种其它类型的组件(例如,存储器、输入及/或输出装置、传输器、接收器、缓冲器、驱动器、离散组件等)还可结合处理器及/或其它处理组件用于执行过程500的任何、一些或所有步骤。

在步骤502处,可在瓣自动配置器460处从音频活动定位器450接收对应于新声音活动的坐标。音频活动定位器450可连续地扫描阵列麦克风400的环境以找到新声音活动。音频活动定位器450发现的新声音活动可包含合适音频源,例如不固定人类发言者。新声音活动的坐标可为相对于阵列麦克风400的位置的特定三维坐标,如在笛卡尔坐标(即,x、y、z)中或在球形坐标(即,径向距离/量级r、仰角θ(theta)、方位角

在实施例中,可基于新声音活动的活动量是否超过预定阈值来发生波束形成瓣的配置。图19为阵列麦克风1900的示意图,所述阵列麦克风可检测来自各种频率的音频源的声音,且响应于对声音活动的检测而自动配置波束形成瓣,同时考虑新声音活动的活动量。在实施例中,阵列麦克风1900可包含与上文所描述阵列麦克风400相同的组件的一些或全部,例如,麦克风402、音频活动定位器450、瓣自动配置器460、波束形成器470及/或数据库480。阵列麦克风1900还可包含与瓣自动配置器460及波束形成器470通信的活动检测器1904。

活动检测器1904可检测新声音活动中的活动量。在一些实施例中,活动量可被测量为新声音活动的能阶。在其它实施例中,可使用时域及/或频域中的方法来测量活动量,如通过应用机器学习(例如,使用倒谱系数),测量一或多个频带中的信号非平稳性,及/或搜索所要声音或话音的特征。

在实施例中,活动检测器1904可为语音活动检测器(VAD),其可确定在远程音频信号中是否存在语音及/或噪声。举例来说,可通过分析远程音频信号的频谱变异,使用线性预测编码,应用机器学习或深度学习技术来检测语音及/或噪声及/或使用如ITUG.729VAD、GSM规范中包含的用于VAD计算的ETSI标准或长期音高预测。

基于所检测到活动量,可执行或不执行自动瓣配置。当新声音活动的检测活动满足预定准则时,可执行自动瓣配置。相反地,当新声音活动的所检测到活动不满足预定准则时,可能不会执行自动瓣配置。举例来说,满足预定准则可指示新声音活动包含语音、话音或优选地由一瓣拾取的其它声音。作为另一实例,未满足预定准则可指示新声音活动不包含语音、话音或优选地由一瓣拾取的其它声音。通过在此后一种情况下抑制自动瓣配置,将不会配置瓣以避免从新声音活动拾取声音。

如在图20的过程2000中所见,在步骤502之后的步骤2003处,可确定新声音活动的活动量是否满足预定准则。举例来说,活动检测器1904可从波束形成器470接收新声音活动。所检测到活动量可对应于新声音活动中的语音、话音、噪声等的量。在实施例中,可将活动量测量为新声音活动的能阶,或作为新声音活动中的语音量。在实施例中,所检测到活动量可具体指示新声音活动中的语音或话音量。在其它实施例中,所检测到活动量可为语噪比,或指示新声音活动中的噪声量。

如果在步骤2003处活动量不满足预定准则,那么过程2000可在步骤522处结束且阵列麦克风1900的瓣的位置未经更新。当在新声音活动中话音或语音量相对较低及/或语噪比相对较低时,所检测到新声音活动的活动量可能不满足预定准则。类似地,当在新声音活动中存在相对高量的噪声时,所检测到新声音活动的活动量可能不满足预定准则。因此,不自动配置瓣以检测新声音活动可帮助确保不会拾取非所要声音。

如果在步骤2003处活动量满足预定准则,那么过程2000可如下文所描述继续到步骤504。当在新声音活动中话音或语音量相对较高及/或语噪比相对较高时,所检测到新声音活动的活动量可能满足预定准则。类似地,当在新声音活动中存在相对低量的噪声时,所检测到新声音活动的活动量可满足预定准则。因此,在此情况下,可能期望自动配置一个瓣以检测新声音活动。

返回到过程500,在步骤504处,瓣自动配置器460可将时间戳更新到如时钟的当前值。在一些实施例中,时间戳可存储在数据库480中。在实施例中,时间戳及/或时钟可为实时值,例如小时、分钟、秒等。在其它实施例中,时间戳及/或时钟可基于增加的整数值,所述整数值可使得能够跟踪事件的时间顺序。

瓣自动配置器460可在步骤506确定新声音活动的坐标是否在现有活动瓣附近(即,在其附近)。新声音活动是否在现有瓣附近可基于(1)新声音活动的坐标与(2)现有瓣的坐标的方位角及/或仰角相对于预定阈值的差。新声音活动距麦克风400的距离还可影响新声音活动的坐标是否在现有瓣附近的确定。在一些实施例中,瓣自动配置器460可从数据库480检索现有瓣的坐标以供在步骤506中使用。下文关于图6更详细地描述确定新声音活动的坐标是否在现有瓣附近的实施例。

然而,如果在步骤506处,瓣自动配置器460确定新声音活动的坐标在现有瓣附近,那么过程500继续到步骤520。在步骤520处,将现有瓣的时间戳从步骤504更新到当前时间戳。在此情况下,现有瓣被认为能够涵盖(即,拾取)新声音活动。过程500可在步骤522处结束,且阵列麦克风400的瓣的位置未更新。

然而,如果在步骤506处,瓣自动配置器460确定新声音活动的坐标在现有瓣附近,那么过程500继续到步骤508。在此情况下,可将新声音活动的坐标认为在阵列麦克风400的当前涵盖区域之外,且因此需要涵盖新声音活动。在步骤508处,瓣自动配置器460可确定阵列麦克风400的非作用中瓣是否可用。在一些实施例中,如果瓣未指向特定的坐标集或如果瓣未经部署(即,不存在),那么所述瓣可被认为非作用中。在其它实施例中,基于部署的瓣的度量(例如,时间、年龄等)是否满足某一准则,部署的瓣可被视为非作用中。如果瓣自动配置器460在步骤508确定存在可用的非作用中瓣,那么在步骤510处选择所述非作用中瓣,且在步骤514处将新选择瓣的时间戳更新到当前时间戳(来自步骤504)。

然而,如果在步骤508处瓣自动配置器460确定不存在可用的非作用中瓣,那么过程500可继续到步骤512。在步骤512处,瓣自动配置器460可选择当前作用中瓣以进行再循环以指向在新声音活动坐标。在一些实施例中,选择用于再循环的瓣可为具有最低置信度得分及/或最旧时间戳的作用中瓣。瓣的置信度得分可表示例如坐标的确定性及/或声音活动的质量。在实施例中,可利用与瓣有关的其它合适度量。作用中瓣的最旧时间戳可指示所述瓣最近未检测到声音活动,且可能指示所述瓣中不再存在音频源。在步骤512处选择用于再循环的瓣可在步骤514处使其时间戳更新到当前时间戳(来自步骤504)。

在步骤516处,当瓣为来自步骤510的所选择非作用中瓣或来自步骤512的所选择再循环瓣时,皆可为所述瓣分配新置信度得分。在步骤518处,瓣自动配置器460可将新声音活动的坐标传输到波束形成器470,使得波束形成器470可将瓣的位置更新到新坐标。另外,瓣自动配置器460可将瓣的新坐标存储在数据库480中。

当音频活动定位器450发现新声音活动并将新声音活动的坐标提供到瓣自动配置器460时,过程500可由阵列麦克风400连续执行。举例来说,过程500可在音频源(例如,人类发言者)在会议室周围移动时执行,以使得可配置一或多个瓣来最佳地拾取音频源的声音。

在图6中展示用于找到在声音活动附近的先前配置瓣的过程600的实施例。过程600可由瓣自动对焦器160在过程200的步骤204处、在过程300的步骤304处,及/或在过程800的步骤806处,及/或由自动配置器460在过程500的步骤506处使用。具体来说,过程600可确定新声音活动的坐标是否在阵列麦克风100、400的现有瓣附近。新声音活动是否在现有瓣附近可基于(1)新声音活动的坐标与(2)现有瓣的坐标的方位角及/或仰角相对于预定阈值的差。新声音活动距阵列麦克风100、400的距离还可影响新声音活动的坐标是否在现有瓣附近的确定。

在步骤602处,可在瓣自动对焦器160处或瓣自动配置器460分别从音频活动定位器150、450接收对应于新声音活动的坐标。新声音活动的坐标可为相对于阵列麦克风100、400的位置的特定三维坐标,如在笛卡尔坐标(即,x、y、z)中或在球形坐标(即,径向距离/量级r、仰角θ(theta)、方位角

在步骤604处,瓣自动对焦器160或瓣自动配置器460可通过评估新声音活动的距离是否大于所确定阈值来确定新声音活动是否相对远离阵列麦克风100、400。新声音活动的距离可由表示新声音活动的坐标的向量的量值来确定。如果在步骤604处确定新声音活动相对远离阵列麦克风100、400(即,大于阈值),那么在步骤606处,可设置较低方位角阈值以供稍后在过程600中使用。如果在步骤604处确定新声音活动并非相对远离阵列麦克风100、400(即,小于或等于阈值),那么在步骤608处可设置较高方位角阈值以供稍后在过程600中使用。

在步骤606或步骤608处设置方位角阈值之后,过程600可继续到步骤610。在步骤610处,瓣自动对焦器160或瓣自动配置器460可确定是否存在任何瓣待检查其是否在新声音活动附近。如果在步骤610处不存在阵列麦克风100、400的瓣待检查,那么过程600可在步骤616处结束且表示在阵列麦克风100、400附近无任何瓣。

然而,如果在步骤610处存在阵列麦克风100、400的瓣待检查,那么过程600可继续到步骤612并检查现有瓣中的一个。在步骤612处,瓣自动对焦器160或瓣自动配置器460可确定(1)现有瓣的方位角与(2)新声音活动的方位角之间的差的绝对值是否大于方位角阈值(所述方位角阈值在步骤606或步骤608处设置)。如果在步骤612处满足条件,那么可认为受检查的瓣不在新声音活动附近。过程600可返回到步骤610以确定是否存在其它瓣待检查。

然而,如果在步骤612处不满足条件,那么过程600可进行到步骤614。在步骤614处,瓣自动对焦器160或瓣自动配置器460可确定(1)现有瓣的仰角与(2)新声音活动的仰角之间的差的绝对值是否大于一预定仰角阈值。如果在步骤614处满足条件,那么可认为受检查的瓣不在新声音活动附近。过程600可返回到步骤610以确定是否存在其它瓣待检查。然而,如果在步骤614中不满足所述条件,那么过程600可在步骤618处结束,且表示受检查的瓣在新声音活动附近。

图7为阵列麦克风700的示例性描绘,其可响应于检测到新声音活动而自动地将先前配置波束形成瓣对焦在相关联瓣区域内。在实施例中,阵列麦克风700可包含与上文所描述阵列麦克风100相同的组件的一些或全部,例如,音频活动定位器150、瓣自动对焦器160、波束形成器170及/或数据库180。阵列麦克风700的每一瓣可在其相关联瓣区域内移动,且瓣可不越过瓣区域之间的边界。应注意,虽然图7描绘具有八个相关联瓣区域的八个瓣,但任何数目个瓣及相关联瓣区域皆为可能的且被预期的,如图10、12、13及15中所描绘的具有四个相关联瓣区域的四个瓣。还应注意,图7、10、12、13及15经描绘为在阵列麦克风周围的三维空间的二维表示。

至少两组坐标可与阵列麦克风700的每一瓣相关联:(1)原始坐标或初始坐标LO

另外,阵列麦克风700的每一瓣可与在其周围的三维空间的瓣区域相关联。在实施例中,瓣区域可经定义为空间中的点集合,较之阵列麦克风的任何其它瓣的坐标,所述空间较接近于瓣的初始坐标LO

在实施例中,可基于使用红外传感器、视觉传感器及/或其它合适传感器感测阵列麦克风700所处的环境(例如,对象、墙壁、人等)来计算及/或更新瓣区域。举例来说,阵列麦克风700可使用来自传感器的信息来设置瓣区域的近似边界,此又可用于配置相关联瓣。在其它实施例中,可基于用户界定瓣区域,如通过阵列麦克风700的图形用户接口来计算及/或更新瓣区域。

如图7中进一步所展示,如下文所描述,可存在与每一瓣相关联的各种参数,所述参数可限制其在自动对焦过程期间的移动。一个参数为瓣的外观半径,所述外观半径为在瓣的初始坐标LO

另一参数为瓣的移动半径,所述半径为允许瓣移动的在空间中的最大距离。瓣的移动半径通常小于瓣的外观半径,且可设置以防止瓣移动离阵列麦克风过远或离瓣的初始坐标LO

另一参数为瓣的边界垫,所述边界垫为在空间上允许瓣朝向相邻瓣区域以及朝向瓣区域之间的边界移动的最大距离。举例来说,在图7中,表示为D的点在瓣8的边界垫及其相关联瓣区域8(毗邻于瓣区域7)外部。瓣的边界垫可经设置以使毗邻瓣的重叠最小化。在图7、10、12、13及15中,瓣区域之间的边界由虚线表示,且每一瓣区域的边界垫由与边界平行的点划线表示。

图8中展示用于将阵列麦克风700的先前配置波束形成瓣自动对焦在相关联瓣区域内的过程800的实施例。过程800可由瓣自动对焦器160执行,使得阵列麦克风700可从阵列麦克风700输出一或多个音频信号180,其中音频信号180可包含由波束形成瓣拾取的声音,所述波束形成瓣专注于音频源的新声音活动。阵列麦克风700内部或外部的一或多个处理器及/或其它处理组件(例如,模拟转数字转换器、加密芯片等)可执行过程800的任何、一些或所有步骤。一或多种其它类型的组件(例如,存储器、输入及/或输出装置、传输器、接收器、缓冲器、驱动器、离散组件等)还可结合处理器及/或其它处理组件用于执行过程800的任何、一些或所有步骤。

用于瓣自动对焦器160的过程800的步骤802可与上文所描述的图2的过程200的步骤202大体上相同。具体来说,在步骤802处,可在瓣自动对焦器160处从音频活动定位器150接收与新声音活动相对应的坐标及置信度得分。在实施例中,可在步骤802处接收及利用与新声音活动有关的其它合适度量。在步骤804处,瓣自动对焦器160可比较新声音活动的置信度得分与预定阈值,以确定新置信度得分是否令人满意。如果瓣自动对焦器160在步骤804处确定新声音活动的置信度得分小于预定阈值(即,置信度得分不令人满意),那么过程800可在步骤820处结束且阵列麦克风700的瓣的位置未更新。然而,如果瓣自动对焦器160在步骤804处确定新声音活动的置信度得分大于或等于预定阈值(即,置信度得分令人满意),那么过程800可继续到步骤806。

在步骤806处,瓣自动对焦器160可识别新声音活动所在的瓣区域,即,新声音活动所属于的瓣区域。在实施例中,在步骤806处,瓣自动对焦器160可找到最接近于新声音活动的坐标的瓣,以便识别瓣区域。举例来说,可通过找到最接近于新声音活动的瓣的初始坐标LO

在步骤806处已识别瓣区域之后,在步骤808处,瓣自动对焦器160可确定新声音活动的坐标是否在瓣的外观半径外部。如果瓣自动对焦器160在步骤808处确定新声音活动的坐标在瓣的外观半径外部,那么过程800可在步骤820处结束且阵列麦克风700的瓣的位置未更新。换句话说,如果新声音活动在瓣的外观半径外部,那么可忽略新声音活动,且可认为新声音活动在瓣的涵盖范围外部。作为实例,图7中的点A在与瓣5相关联的瓣区域5内,但在瓣5的外观半径外部。下文参考图9及10描述确定新声音活动的坐标是否在瓣的外观半径外部的细节。

然而,如果在步骤808处,瓣自动对焦器160确定新声音活动的坐标不在瓣的外观半径外部(即,在其内部),那么过程800可继续到步骤810。在此情况下,如下文所描述,根据相对于其它参数(如,移动半径及边界垫)评估新声音活动的坐标,可使瓣朝向新声音活动移动。在步骤810处,瓣自动对焦器160可确定新声音活动的坐标是否在瓣的移动半径外部。如果在步骤810处,瓣自动对焦器160确定新声音活动的坐标在瓣的移动半径外部,那么过程800可继续到步骤816,其中瓣的移动可受限制或经限制。特别地,在步骤816处,可将瓣可临时移动到的新坐标设置为不大于移动半径。如下文所描述,由于仍然可相对于边界垫参数来评估瓣的移动,因此新坐标可为临时的。在实施例中,可基于定标因数α(其中0<α≤1)限制瓣在步骤816处的运动,为了防止瓣移动离其初始坐标LO

如果在步骤810处,瓣自动对焦器160确定新声音活动的坐标不在瓣的移动半径外部(即,内部),那么过程800也可继续到步骤812。作为实例,图7中的点B在瓣5的移动半径内部,因此瓣5可移动到点B。在步骤812处,瓣自动对焦器160可确定新声音活动的坐标是否接近于边界垫且因此过接近于毗邻瓣。如果瓣自动对焦器160在步骤812处确定新声音活动的坐标接近于边界垫,那么过程800可继续到步骤818,其中瓣的移动可受限制或经限制。具体来说,在步骤818处,可将瓣可移动到的新坐标设置为刚好在边界垫外部。在实施例中,可基于定标因数β(其中0<β≤1)限制瓣在步骤818处的移动。作为实例,图7中的点D在毗邻瓣区域8与瓣区域7之间的边界垫外部。过程800可在步骤818之后继续到步骤814。下文关于图13到15描述关于边界垫的细节。

如果瓣自动对焦器160在步骤812处确定新声音活动的坐标不接近于边界垫,那么过程800也可继续到步骤814。在步骤812处,瓣自动对焦器160可将瓣的新坐标传输到波束形成器170,以使得波束形成器170可将现有瓣的位置更新到新坐标。在实施例中,瓣的新坐标

取决于上文所描述过程800的步骤,当由于检测到新声音活动而使瓣移动时,瓣的新坐标:(1)在新声音活动的坐标在瓣的外观半径内,在瓣的移动半径内,且不接近于相关联瓣区域的边界垫的情况下,可为新声音活动的坐标;(2)在新声音活动的坐标在瓣的外观半径之内,在瓣的移动半径外部,且不接近于相关联瓣区域的边界垫的情况下,可为在朝向新声音活动的运动向量方向上的一点,且所述点经限制到移动半径的范围;或(3)在新声音活动的坐标在瓣的外观半径之内且接近于边界垫的情况下,可为刚好在边界垫外部。

当音频活动定位器150发现新声音活动并将新声音活动的坐标及置信度得分提供到瓣自动对焦器160时,过程800可由阵列麦克风700连续执行。举例来说,过程800可在音频源(例如,人类发言者)在会议室周围移动时执行,以使得一或多个瓣可对焦在音频源上以最佳地拾取其声音。

在图9中展示用于确定新声音活动的坐标是否在瓣的外观半径外部的过程900的实施例。举例来说,过程900可由瓣自动对焦器160在过程800的步骤808处使用。具体来说,过程900可在步骤902处开始,其中可将运动向量

在步骤902处计算运动向量

在图11中展示用于将瓣的移动限制在其移动半径内的过程1100的实施例。举例来说,过程1100可由瓣自动对焦器160在过程800的步骤816处使用。具体来说,过程1100可在步骤1102处开始,其中可将运动向量

在步骤1102处计算运动向量

然而,如果在步骤1104处运动向量

图13到15涉及瓣区域的边界垫,其为靠近所述瓣区域的毗邻于另一瓣区域的边界或边缘的空间的部分。具体来说,可使用连接两个瓣(即,LO

基于上述情况,从瓣i的原始坐标LO

另外,应注意,如果由于检测到新声音活动瓣i沿朝向瓣j的方向(例如,如上文所描述沿运动向量

图14中展示用于使用向量投影来创建瓣区域的边界垫的过程1400的实施例。举例来说,过程1400可由瓣自动对焦器160在过程800的步骤818处使用。过程1400可导致限制运动向量

在执行过程1400之前,可针对所有成对的活动瓣计算向量

在过程1400的步骤1402处,可针对与经识别用于新声音活动的瓣区域不相关联的所有瓣计算投影向量

当PM

定标因数β可用于确保

在步骤1406处,可确定与最近瓣区域的边界垫相对应的最小定标因数β,如在下式中:

举例来说,图15展示存在于瓣区域3中的新声音活动S以及瓣3的初始坐标LO

图15中所描绘的投影向量

图16及17为可检测来自各种频率的音频源的声音的阵列麦克风1600、1700的示意图。图16的阵列麦克风1600可响应于声音活动的检测而自动对焦波束形成瓣,同时当来自远端的远程音频信号的活动超过预定阈值时能够抑制波束形成瓣的自动对焦。在实施例中,阵列麦克风1600可包含与上文所描述阵列麦克风100相同的组件的一些或全部,例如,麦克风102、音频活动定位器150、瓣自动对焦器160、波束形成器170及/或数据库180。阵列麦克风1600还可包含传感器1602,例如扬声器,以及与瓣自动对焦器160通信的活动检测器1604。来自远端的远程音频信号可与传感器1602及活动检测器1604通信。

图17的阵列麦克风1700可响应于声音活动的检测而自动配置波束形成瓣,同时当来自远端的远程音频信号的活动超过预定阈值时能够抑制波束形成瓣的自动配置。在实施例中,阵列麦克风1700可包含与上文所描述阵列麦克风400相同的组件的一些或全部,例如,麦克风402、音频活动定位器450、瓣自动配置器460、波束形成器470及/或数据库480。阵列麦克风1700还可包含传感器1702,例如扬声器,以及与瓣自动配置器460通信的活动检测器1704。来自远端的远程音频信号可与传感器1702及活动检测器1704通信。

传感器1602、1702可用于在阵列麦克风1600、1700所位于的本地环境中播放远程音频信号的声音。活动检测器1604、1704可检测远程音频信号中的活动量。在一些实施例中,活动量可经测量为远程音频信号的能阶。在其它实施例中,可使用时域及/或频域中的方法来测量活动量,如通过应用机器学习(例如,使用倒谱系数),测量一或多个频带中的信号非平稳性,及/或搜索所要声音或话音的特征。

在实施例中,活动检测器1604、1704可为语音活动检测器(VAD),其可确定在远程音频信号中是否存在语音。举例来说,可通过分析远程音频信号的频谱变异,使用线性预测编码,应用机器学习或深度学习技术来检测语音,及/或使用如ITU G.729VAD、GSM规范中包含的用于VAD计算的ETSI标准或长期音高预测。

基于所检测到活动量,可执行或抑制自动瓣调整。如本文中所描述,自动瓣调整可包含例如瓣的自动对焦,区域内瓣的自动对焦及/或瓣的自动配置。当远程音频信号的所检测到活动未超过预定阈值时,可执行自动瓣调整。相反,当所检测到远程音频信号的活动超过预定阈值时,可抑制(即不执行)自动瓣调整。举例来说,超过预定阈值可指示远程音频信号包含语音、话音或其它优选地未被瓣拾取的声音。通过在此情况下抑制自动瓣调整,瓣将不会经对焦或配置以避免从远程音频信号拾取声音。

在一些实施例中,活动检测器1604、1704可确定所检测到远程音频信号的活动量是否超过预定阈值。当所检测到活动量未超过预定阈值时,活动检测器1604、1704可将赋能信号分别传输到瓣自动对焦器160或瓣自动配置器460,以允许调整瓣。另外或替代地,当所检测到远程音频信号的活动量超过预定阈值时,活动检测器1604、1704可分别将暂停信号传输到瓣自动对焦器160或瓣自动配置器460,以阻止瓣经调整。

在其它实施例中,活动检测器1604、1704可将所检测到远程音频信号的活动量分别传输到瓣自动对焦器160或瓣自动配置器460。瓣自动对焦器160或瓣自动配置器460可确定所检测到活动量是否超过预定阈值。基于所检测到活动量是否超过预定阈值,瓣自动对焦器160或瓣自动配置器460可执行或暂停瓣的调整。

包含在阵列麦克风1600、1700中的各种组件可使用可由一或多个服务器或计算机执行的软件来实施,如具有处理器及存储器的计算装置、图形处理单元(GPU)及/或由硬件(例如,离散逻辑电路、专用集成电路(ASIC)、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。

图18中展示用于基于远程远端音频信号抑制自动调整阵列麦克风的波束形成瓣的过程1800的实施例。可由阵列麦克风1600、1700执行过程1800,以使得可基于来自远端的远程音频信号的活动量来执行或抑制波束形成瓣的自动对焦或自动配置。阵列麦克风1600、1700内部或外部的一或多个处理器及/或其它处理组件(例如,模拟转数字转换器、加密芯片等)可执行过程1800的任何、一些或所有步骤。一或多种其它类型的组件(例如,存储器、输入及/或输出装置、传输器、接收器、缓冲器、驱动器、离散组件等)还可结合处理器及/或其它处理组件用于执行过程1800的任何、一些或所有步骤。

在步骤1802处,可在阵列麦克风1600、1700处接收远程音频信号。远程音频信号可来自远端(例如,远程位置),且可包含来自远端的声音(例如,话音、语音、噪声等)。远程音频信号可在步骤1804处在传感器1602、1702(如本地环境中的扬声器)上输出。因此,来自远端的声音可在本地环境中播放,如在电话会议期间,以使得本地参与者可听到远程参与者。

远程音频信号可由活动检测器1604、1704接收,活动检测器1604、1704可在步骤1806处检测远程音频信号的活动量。所检测到活动量可对应于远程音频信号中的话音、语音、噪声等的量。在实施例中,活动量可经测量为远程音频信号的能阶。在步骤1808处,如果所检测到远程音频信号的活动量未超过预定阈值,那么过程1800可继续到步骤1810。所检测到远程音频信号的活动量未超过预定阈值可指示在远程音频信号中存在相对少量的话音、语音、噪声等。在实施例中,所检测到活动量可具体指示远程音频信号中的语音或话音量。在步骤1810处,可执行瓣调整。步骤1810可包含例如用于自动对焦波束形成瓣的过程200及300、用于自动配置波束形成瓣的过程400及/或用于将波束形成瓣自动对焦于瓣区域内的过程800,如本文中所描述。在此情况下可执行瓣调整,因为即使瓣可经对焦或配置,但存在此瓣将从在本地环境中正输出的远程音频信号拾取不良声音的较小可能性。在步骤1810之后,过程1800可返回到步骤1802。

然而,如果在步骤1808处所检测到远程音频信号的活动量超过预定阈值,那么过程1800可继续到步骤1812。在步骤1812处,不执行任何瓣调整,即,可抑制瓣调整。所检测到远程音频信号的活动量超过预定阈值可指示在远程音频信号中存在相对高量的话音、语音、噪声等。在此情况下,抑制发生瓣调整可能有助于确保瓣未经对焦或配置在从本地环境中输出的远程音频信号拾取声音。在一些实施例中,过程1800可在步骤1812之后返回到步骤1802。在其它实施例中,过程1800可在返回到步骤1802之前在步骤1812处等待特定持续时间。等待特定持续时间可允许消散本地环境中的回响(例如,由播放远程音频信号的声音引起)。

当接收到来自远端的远程音频信号时,过程1800可由阵列麦克风1600、1700连续执行。举例来说,远程音频信号可包含不超过预定阈值的低量活动(例如,无话音或语音)。在此情况中,可执行瓣调整。作为另一实例,远程音频信号可包含超过预定阈值的高量活动(例如,话音或语音)。在此情况下,可能抑制执行瓣调整。因此,瓣调整是执行还是抑制可随着远程音频信号的活动量的改变而改变。过程1800可通过减少不合意地拾取来自远端的声音的可能性而导致在本地环境中更佳地拾取声音。

诸图中的任何过程描述或块应理解为表示代码模块、分段或部分,其包含用于实施过程中的特定逻辑功能或步骤的一或多个可执行指令,且替代实施方案包含于本发明的实施例的范围内,其中功能可不以来自所展示或所论述的次序的次序执行,取决于所涉及的功能,包含大体上同时执行或以反向次序执行,如将由所属领域的技术人员将理解。

本发明旨在解释如何形成及使用根据本技术的各种实施例,而非限制其真实、预期及公平的范围及精神。前述描述并非意图为穷尽的或限制于所公开的任何精确形式。根据上述教示,修改或变化为可能的。选择并描述实施例以提供对所描述技术的原理及其实际应用的最佳说明,且使得所属领域的技术人员能够将技术用于各种实施例中且具有适合于所预期特定用途的各种修改。当根据其经公平、合法和公正地授权的宽度来解释时,所有此类修改及变化形式皆在由所附权利要求书及其所有等效物确定的实施例的范围内,所附权利要求书可在本专利申请的申请中期间进行修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号