首页> 中国专利> 基于多重超定向波束形成器的共同讲话者调零

基于多重超定向波束形成器的共同讲话者调零

摘要

使用多个定向麦克风定向地选择车辆中来自驾驶员的语音和来自乘客的语音。从被第二多个定向麦克风检测为来自驾驶员的声音抑制从多个定向麦克风被检测为来自乘客的声音。

著录项

  • 公开/公告号CN104640001A

    专利类型发明专利

  • 公开/公告日2015-05-20

    原文格式PDF

  • 申请/专利权人 大陆汽车系统公司;

    申请/专利号CN201410621776.5

  • 发明设计人 宋建鸣;M.罗伊特;

    申请日2014-11-07

  • 分类号H04R1/08(20060101);G10L15/26(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人申屠伟进;胡莉莉

  • 地址 美国密执安州

  • 入库时间 2023-12-18 08:49:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-18

    授权

    授权

  • 2016-12-07

    实质审查的生效 IPC(主分类):H04R1/08 申请日:20141107

    实质审查的生效

  • 2015-05-20

    公开

    公开

说明书

相关申请的交叉引用

本申请与下列申请相关:Co-Talker Nulling For Automatic Speech Recognition Systems,由Mike Reuter发明,和本申请同日提交,并由代理人案号2013P03181US标识。

背景技术

在最近几年中,通过计算机精确识别人类语音有所改善,但尚未百分之百地精确。语音识别系统的一个已知问题是排除从除了其语音旨在被识别的人以外的某个人发出的声音或语音,即共同讲话者(co-talker)的语音可能使语音识别系统混乱。能够定位并抑制来自共同讲话者声音将是优于现有技术的改善。

附图说明

图1是车辆乘客室的平面图的示意性描绘;

图2是一对空间选择性麦克风检测波束的示意性表示;

图3描绘定向波瓣(lobe)对,表示空间选择性虚拟麦克风;

图4是音频系统的框图;

图5描绘由单个“波束”对上的话音样本处理器执行的方法的步骤,该方法实现从驾驶员选择性捕获或音频;

图6是话音样本处理器的框图;

图7是车辆乘客室的平面图的示意性描绘;

图8示出响应于来自驾驶员的语音信号的波形,该波形表示从图7所描绘的车辆乘客室中的麦克风输出的电信号;

图9描绘图8中所示的波形的延迟副本;

图10示出响应于来自乘客的语音信号声波的波形,该波形表示从图7中所示的麦克风输出的电信号;以及

图11是图10中所示波形的延迟和反转副本。

具体实施方式

由Young的实验演示的行波的相长和相消干涉是公知的。简单地说,当光波经过贯通平板的两个狭缝时,从狭缝发出的光波将在定位成越过平板的屏幕上产生交替的亮带和暗带。在屏幕上产生的各交替的带由从狭缝发出的波的相加和相消干涉引起。

发送的无线电波的相加和相消干涉也是公知的。该现象的一种用途是相控阵雷达。简单地说,相控阵雷达引导从两个紧密间隔的天线发送的RF信号,并且因此,相对于发送到第二天线的信号,通过改变发送到一个天线的RF信号的相位而引导雷达“波束”。

行波的相加和相消干涉的另一种用途是定向选择性或“波束形成”麦克风,它们也是公知的。例如McCowan et al., “Near-field Adaptive Beam former for Robust Speech Recognition,” Queensland University of Technology, Brisbane, Australia,其全部内容通过引用并入本文。如下文所述,多对超定向麦克风(其中的每一个通过把来自两个不同的麦克风的信号以数字方式延迟逐步不同的时间长度来实现)精确地定位和检测来自驾驶员和共同讲话乘客的声音。由具有最强的共同讲话乘客音频的至少一个超定向麦克风对拾取的、来自共同讲话乘客的声音被从驾驶员的声音中去除,所述驾驶员的声音由具有最强驾驶员音频信号的超定向麦克风对拾取。

现在参照各图,图1是车辆乘客室100、车辆驾驶员102、车辆乘客104和从他们中每一个发出的声波的平面图的示意性描绘,声波由同心圆部分106表示。图1还示出两个非定向和通用麦克风108、110相对于驾驶员102和乘客104的布置。在图1中,麦克风106、108被示出为附连到车辆的后视反射镜112,并由此彼此以相对小的距离114(典型地是10-14英寸)被间隔开。

如图1所示,右侧麦克风108比左侧麦克风108更加远离驾驶员102。类似地,左侧麦克风108比右侧麦克风110更远离乘客104。从驾驶员102发出的声波106因此将在来自驾驶员102的相同声波108到达右侧麦克风110之前到达左侧麦克风108。从另一侧的乘客104发出的声波106因此将在来自乘客104的相同声波104到达左侧麦克风108之前到达右侧麦克风110。

当驾驶员102说话时,来自驾驶员102的相应的声波106在两个不同的时间到达两个麦克风108、110。来自驾驶员的声音将在声音到达右麦克风110之前到达左麦克风108。当右侧麦克风转化来自驾驶员的声波时,由右侧麦克风生成的模拟电信号将具有相位角,该相位角“滞后于”或者在当左侧麦克风转化相同声波时由左侧麦克风生成的电信号的相位角的后面。当乘客104说话时,并且来自乘客104的相应的声波106到达两个麦克风108、110,当左侧麦克风转化来自乘客的声波时,由左侧麦克风生成的模拟电信号将具有相位角,该相位角“滞后于”或者在当右侧麦克风转化相同的乘客的声波时由右侧麦克风生成的电信号的相位角的后面。

来自两个麦克风的音频信号被采样,并使用信号处理领域中的普通技术人员公知的技术转换成表示样本的数字值。为了产生超定向麦克风“波束”,即定向选择性麦克风,有必要实现源于空间中不同位置并且将必须传播不同距离到两个麦克风的波的相加和相长干涉的等效。等效于在不同位置处空间定位麦克风以便实现来自特定方向的波的相加,表示来自第一麦克风的样本的数字值被选择性地以数字方式延迟达预定的时间长度,然后与从另一麦克风获得的样本组合。当表示非延迟样本的数字值被相加到表示先前获得和延迟的样本的数字值时,所得的值将是由麦克风检测的音频信号的相加或相消干涉。换句话说,通过选择性地延迟和组合来自不同麦克风的样本,由两个麦克风提供的信号与从中获得样本的音频信号的相加或相消“干涉”组合。选择性地延迟和组合从麦克风获得的延迟的样本因此使得两个麦克风能够从不同位置选择性地接收音频。因此麦克风表现得好像它们接收和转化仅来自定位在离两个麦克风一距离处的地区或区域的音频,使得在麦克风处接收的信号将被相加地组合。通过相加地或相消地把样本组合在一起,源于车辆中的各位置以使得当它们被组合时它们彼此相消地干涉的音频信号因此能够被选择性地接收或抑制。

来自两个麦克风108、110的信号因此可被以数字方式操纵,以便实现空间选择性或“波束”,由两个麦克风从空间选择性或“波束”检测到的声音将被相加或相干地彼此组合,并且因此可用于后续的用途或处理。

图2是一对空间选择性麦克风检测“波束”200、204的示意性表示,“波束”200、204在本文中也被称为“波束对”206。“波束”200、204由上述声波的相长和相消干涉“生成”。敏感性的左侧麦克风区域或“波束”202被“引导”向乘客室100中驾驶员102所定位的位置,并且选择性地检测从驾驶员发出的声音。右侧麦克风“波束”204被“引导”向乘客104所定位的位置,选择性地检测从乘客104发出的声音。

信号处理领域中的普通技术人员将认识到:来自驾驶员102的某些声音将到达最靠近乘客104的麦克风110并由其检测。类似地,来自乘客104的声音也将到达最靠近驾驶员102的麦克风108并由其检测。因此重要的是,尽可能近地定位驾驶员和共同讲话者以便能够从所检测的驾驶员的声音中抑制所检测的共同讲话者的声音。一旦共同讲话乘客被定位,就可抑制由麦克风波束拾取的共同讲话者的语音。

图3描绘定向波瓣对,该对由附图标记302A和302B、304A和304B以及306A和306B标识。波瓣一般表示乘客室100的空间区域,其中将使用两个物理麦克风310、312选择性地检测声音,它的输出声音使用音频行波的相加和相消干涉的原理以数字方式被处理,从而来实现多个定向选择性虚拟麦克风。

波束对的不同选择性方向通过检测由第一虚拟麦克风拾取和由第二虚拟麦克风拾取的声音来实现。来自虚拟麦克风之一的声音被选择性地延迟达逐渐不同的时间长度。每个被延迟的样本然后与由其它麦克风同时检测的声音样本组合。因为各麦克风被定位成以稍微不同的距离远离声源,所以由一个麦克风拾取的声音将和由不同的麦克风拾取的相同声音具有不同的相位角。当那些相位角之间的差是180度时,把这些声音相加在一起将使得由各麦克风拾取的声音抵消。通过改变来自一个麦克风的声音的延迟时间长度并把不同延迟的组合在一起声音,将不同延迟的样本组合到未延迟的样本将产生不同程度的相加或相消干涉。这种干涉发生得好像所检测的声音源于不同的空间位置,这相当于“转向”检测音频的方向。产生分别来自驾驶员和乘客的信号的最大振幅相长干涉的波束对302、304、306与使用单个波束的可能情况相比更精确地确定驾驶员和乘客二者的位置,而且他们各自的语音信号与使用单个波束的可能情况相比更精确。基于由麦克风检测的声音的振幅大于还是小于预定阈值,做出声音来自乘客还是驾驶员的决定,如下所阐述。

在替代实施例中,从空间上分离的麦克风发出的电信号可被选择性地“选通”或采样,以便选择性地接收和忽略在不同时间到达两个麦克风的声波。例如,可在第一时刻t1采样来自麦克风108的电信号,并且此后的被忽略。可在稍后的时间t2采样来自另一麦克风110的电信号,并且此后的被忽略。通过选择t1和t2,使得它们之间的差等于声音的波长从第一麦克风传播到第二麦克风所需的时间,两个样本将相长地相加。相反地,如果选择t1和t2,使得它们的差是声音的半波长从第一麦克风传播到第二麦克风所需的时间,则这两个样本将相消地相加。因此选择性地选择t1和t2使得两个空间上分离的麦克风能够通过在不同时间采样来自麦克风的声音而定向地辨别声音。

通过比较由每个波束对选择性地检测的声音的相对振幅并把那些振幅和实验确定的和预定的阈值相比较,波束对包括定向选择性滤波器,通过定向选择性滤波器,与不使用多个波束对的可能情况相比,可更精确地定位驾驶员的位置和驾驶员的音频。来自波束对302、304、306的音频信号因此能够定位驾驶员和乘客。和阈值相比,提供最强检测信号的波束此后被用来选择性地从驾驶员音频信号去除乘客音频信号。换句话说,通过比较从每个波束对生成的输出,波束对实现对驾驶员的语音和乘客的语音的选择性定位。多个波束对还实现对源于乘客的语音信号的抑制。

图4是由语音控制的音频系统400的框图。系统400包括:两个常规的但是空间上分离的麦克风402、404;常规的模拟到数字(A/D)转换器406;快速傅立叶变换处理器408,被配置成生成来自A/D转换器406的数字信号的傅立叶变换;话音样本处理器416;语音识别器418;和命令处理器420。命令处理器420形成分离车辆系统422的部分,诸如话音启动导航或“信息娱乐”设备或系统。

在优选实施例中,车辆系统422可由话音命令控制,该话音命令首先由话音样本处理器416识别为来自驾驶员。被识别为来自驾驶员的命令之后被提供给语音识别器,语音识别器被配置成处理声音并识别音素,并生成电信号,被配置成实现车辆系统的操作,诸如到收音机、蜂窝电话或导航系统的命令。在优选实施例中,话音样本处理器416和语音识别器418被体现在相同的数字信号处理器(DSP)中。

如上所指出,波束形成和麦克风波束形成是公知的,然而,多个波束的波束形成以及分别来自驾驶员和乘客的声音的选择性检测和抑制在此以前不是已知的。图5描绘由话音样本处理器对单个“波束”对执行的方法的步骤,并且使用麦克风“波束对”的多个超定向对(诸如在图3中所描绘的各超定向对),该方法实现选择性捕获或来自驾驶员的音频,并且同时减少或抑制来自乘客的音频信号。因此在逐个波束对的基础上执行图5中所示的步骤。

图5中所呈现的步骤不处于以必须按其执行该步骤的特定顺序。例如,可以在需要从来自第二麦克风的第二样本的FFT表示中去除或减去一个样本的频率分量之前的任何时间确定来自第一麦克风的话音样本的FFT表示的频率分量。

在图5A中所示的第一步骤502中,生成由两个麦克风中的第一个转化的信号的样本的快速傅立叶变换(FFT)表示。在步骤504处,样本被存储在寄存器或存储器设备中,以便能够控制麦克风样本的数字表示将与来自另一个麦克风的样本组合的时间。

步骤506示出允许经过预定的时间量。预定的时间量已经经过之后,在步骤508处确定FFT的频率分量。如上所指出,也可在存储FFT之前做出FFT分量的确定。

在图5B中所示的步骤510处,针对第一样本的FFT中的频率分量中的每一个确定最大信号水平。换句话说,确定由最靠近驾驶员的麦克风拾取的声音的最大振幅。

在步骤512处,确定第二样本的频率分量。这就是说,确定由最靠近乘客的麦克风拾取的音频的频率分量。

在步骤514处,从由最靠近驾驶员的麦克风拾取的音频的频率分量中去除由最靠近驾驶员的麦克风拾取的频率分量。所得的差是从由最靠近乘客的麦克风拾取的信号中调零(nulling)由最靠近乘客的麦克风拾取的信号的分量。

重要的是:由最靠近乘客的麦克风拾取的信号和由最靠近驾驶员的麦克风拾取的信号是由定向辨别虚拟麦克风拾取的信号,在本文中被称为麦克风“波束”。换句话说,由每个麦克风拾取的信号是通过两个麦克风拾取的波的相干或相长干涉所定向选择的音频信号。此外,多个麦克风“波束”用在每个方向中,即多个“波束”被引导向驾驶员,并且多个“波束”被引导向乘客。从由引导向驾驶员的多个波束拾取的音频信号中抑制从引导向乘客的多个波束拾取的音频信号,所述引导向乘客的多个波束中的一个波束将具有最大的检测信号水平,所述引导向驾驶员的多个波束中的一个波束也将具有最大的检测信号水平。通过将来自两个麦克风之一的样本选择性地延迟不同的时间长度,提供多个定向选择性麦克风波束对。

不管可以通过在不同选择时间在第一麦克风处接收音频样本并将那些样本与来自第二麦克风的样本组合来获得的定向选择性如何,不可能完全避免检测源自定向波束外部的位置的声音。换句话说,两个麦克风将检测来自驾驶员和乘客二者的至少某个音频。在第二个人也在说话时优先检测来自第一个人的语音需要标识来自第二个人的语音。抑制或调零共同讲话者的语音,即共同讲话者调零(CT)基本上包括三个步骤,其中之一是可选的。

第一步骤是标识任何语音的空间位置,这是使用上述方法和装置实现的。第二步骤是衰减被确定为来自除了驾驶员之外的位置的语音,即从驾驶员的检测语音中去除或抑制来自除了驾驶员以外的源的信号。在第三和可选步骤中,为被衰减的任何语音注入舒适噪声。

在优选实施例中,其操作由下列公式表示, 是形成麦克风权重向量的第k个虚拟麦克风波束。它们表示来自分别“看见”驾驶员和前排乘客的波束形成麦克风的定向选择性波束。来自这两个权重向量的输出被计算为:

其中H表示厄密(Hermitian)共轭转置。

量ζ用来确定从四种可能性中的信号源:1.驾驶员,2.乘客,3.并发(驾驶员+乘客语音在时间上重叠)以及4.没有语音。选择在其上计算ζ的频率范围,使得波束对在方向性上展现出大的对比度/区别。从计算量ζ,如下:

针对ζ的最大和最小值被计算为:

频率范围是从第一“bin” N1到第二“bin” N2。根据麦克风阵列几何结构的知识确定针对N1和N2的值。

在这些计算中隐含的是驾驶员侧的麦克风配对之间的配对,即在乘客侧的麦克风波束“波瓣”和在乘客侧麦克风波束“波瓣”的配对。麦克风配对由麦克风阵列的对称性定义。例如,对于虚拟麦克风指数k=0,驾驶员侧虚拟麦克风是最左边的波束,并且乘客侧波束是最右边的波束,即配对的虚拟麦克风是关于宽边的镜像。通过定义两个阈值Dthreshold和Pthreshold,根据下列伪代码中阐述的步骤确定语音源的位置vSource:

 // 来自驾驶员和乘客的语音在时间上重叠}

其中VAD是话音活动检测器,对于本领域普通技术人员是公知的。

简单地说,当驾驶员的话音活动检测器VAD为真时,语音已被检测到。如果所检测语音的最小振幅                                                  大于针对驾驶员的检测语音的第一实验确定的最小阈值,即Dthreshold,则所检测语音被认为是来自驾驶员的语音。如果所检测语音的最大振幅小于针对乘客的检测语音的第二实验确定的最大阈值,即Pthreshold。如果所检测语音的最大振幅大于Pthreshold并且小于Dthreshold,则所检测语音被认为是来自乘客和驾驶员二者。

图6是装置600的框图,装置600提供图4中描绘的话音样本处理器的功能,以上描述并在图5中描绘它的至少某个功能。简单地说,该装置被优选地体现为数字信号处理器602、一个或多个非临时性存储器设备604以及在存储器设备中存储并且因此未在图6中示出的预定指令。当指令在存储器设备604中被执行时,它们使得DSP执行上述方法步骤,包括图5中所示的方法步骤。存储器604通过常规的总线606耦合到DSP 602。

上述装置和方法有效检测来自驾驶员的语音并且调零来自共同讲话乘客的语音,只要被操作为提供定向辨别麦克风波束的麦克风彼此相对靠近,它们之间分离的优选间隔在大约10至14英寸之间。当麦克风之间的分离距离显著地更大时,例如大约30英寸或以上,选择性地延迟话音样本以提供波束形成麦克风是有问题的。当麦克风间隔大约是30英寸或以上时,不同装置和方法被用来检测来自驾驶员的语音和调零来自共同讲话乘客的语音。

在替代实施例中,其中麦克风被彼此远远地间隔开,即大约30英寸,布置两个“波束形成”麦克风,使得从期望的说话者的方向发出的声能在两个波束之间具有零度相位;从共同讲话者的方向发出的声能具有180度的相对相位。两个波束的相位估计被用作讲话者辨别器。两个波束的相位估计也可用作共同讲话者调零机制。

图7是车辆乘客室700、车辆驾驶员702、车辆乘客704和从他们中每一个发出的声波的平面图的示意性描绘,该声波分别由同心圆部分706和708表示。图7还示出了两个非定向的和通用的麦克风710、712相对于驾驶员702和乘客704的布置。在图7中,麦克风710、712都耦合到相同的数字信号处理器(DSP),并且各自由大约30英寸的分离距离S分离。配置两个麦克风和DSP,使得两个定向选择性麦克风能够拾取来自驾驶员和乘客的声音。

图8示出第一波形800-1,第一波形800-1表示响应于从驾驶员102发出并且撞击第一麦克风710的语音信号声波706而从第一麦克风710输出的电信号。和第一波形800-1相同但稍有延迟的第二波形800-2表示响应于从驾驶员102发出但撞击第二麦克风712的相同语音信号声波706而从第二麦克风712输出的电信号。因此稍微在第一波形800-1“后面”短时间段生成第二波形800-2。第二波形800-2和第一波形800-1因此只是时间上不同,两个波形之间的差由被命名为“”的相位角度差度量。

当由第一麦克风710生成的第一波形800-1被延迟等于对应于的时间差的非常短的时间段时,被延迟的波形800-1和第二波形800-2然后将彼此同相。当两个同相的波形相加在一起时,它们将如图9中所示那样彼此相长地相加,图9描绘相长地相加到第二波形800-2以形成第三波形900的延迟的第一波形800-1。

在优选实施例中,图7中所示的数字信号处理器(DSP)714被编程为接收从两个麦克风710、712输出的音频信号的样本。DSP被编程为通过执行快速傅立叶变换来将源于麦克风的时域样本转换到频域。在时域中从麦克风获得的样本被转换到频域之后,表示从第一麦克风输出的音频信号的个体频率或频率范围被选择性延迟不同的时间长度,然后与从第二麦克风获得的样本的相应频域表示组合,使得由来自第一麦克风的时间延迟的样本所表示的音频信号与由从第二麦克风获得的样本所表示的音频信号同相。换句话说,从麦克风之一获得的语音优选地在频域中被时间延迟一时间量,使得当时间延迟的语音与从另一麦克风获得的语音组合时,组合的语音信号将相干地相加,如图9中所示。

现在参照图10,第一波形1000表示响应于从乘客104发出并且撞击第二麦克风712的语音信号声波708而从第二麦克风712输出的电信号。图11描绘第二波形1100,第二波形1100表示响应于相同的语音信号声波708而从第一麦克风710输出的信号,该相同的语音信号声波708从乘客104发出但是在声波708到达第二麦克风712之后的短时间撞击第一麦克风710。如图10和11中所见,两个波形1000和1100彼此180度异相。两个波形(即与在第一麦克风710处捕获的波形异相的在第二麦克风712处捕获的波形)在它们相加时将相互抵消。通过将在第二麦克风712处获得的第一波形1000的样本延迟一时间量,该时间量等于声波108的半波长传播额外距离d'到第一麦克风710所需的时间,异相的样本将彼此相消地干涉,有效地抵消来自乘客的语音。

本领域普通技术人员将认识到:图7-11中所示的那样处理语音信号可使用图6中所示的DSP以及也在图6中所示的关联非易失性存储器设备中存储的可执行指令来实现。通过选择性地使能或配置两个麦克风710、712及其关联的DSP 714来捕获声音并将在至少一个麦克风处捕获的声音延迟全波或半波长传播到第二麦克风所需的时间,在逐个频率的基础上,可使得麦克风710、712的输出或其数字表示彼此相加或抵消。

前面的描述是为了说明的目的。在所附权利要求中阐述本发明的真实范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号