首页> 中国专利> 响应于目标说话人话音识别对麦克风信号进行自适应滤波的电子设备和方法

响应于目标说话人话音识别对麦克风信号进行自适应滤波的电子设备和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了响应于识别出目标说话人话音对麦克风信号进行自适应滤波的电子设备及方法。该电子设备可以包括麦克风、说话人表征电路、自适应声音滤波器电路以及说话人识别电路。说话人表征电路在训练模式下工作以学习麦克风信号中的目标说话人话音成分的特征，并存储所习得的特征。自适应声音滤波器电路响应于控制信号对麦克风信号进行自适应滤波。说话人识别电路使用所习得的特征来识别在麦克风信号中存在目标说话人话音，并对控制信号进行调节以使自适应声音滤波器电路进行自适应滤波，从而相对于麦克风信号中的其他成分来增大目标说话人话音成分。

著录项

公开/公告号CN101952884A

专利类型发明专利
公开/公告日2011-01-19

原文格式PDF
申请/专利权人索尼爱立信移动通讯有限公司;
展开▼

申请/专利号CN200880127432.1
发明设计人亨里克·本特松;
展开▼

申请日2008-09-02
分类号G10L17/00;G10L21/02;G10L15/20;
代理机构北京三友知识产权代理有限公司;
代理人李辉
地址瑞典隆德
入库时间 2023-12-18 01:39:26

法律信息

法律状态公告日

法律状态信息

法律状态
2016-10-19

未缴年费专利权终止 IPC(主分类):G10L17/00 授权公告日:20120404 终止日期:20150902 申请日:20080902

专利权的终止
2012-04-04

授权

授权
2011-03-16

实质审查的生效 IPC(主分类):G10L17/00 申请日:20080902

实质审查的生效
2011-01-19

公开

公开

说明书

技术领域

本发明涉及能够记录麦克风信号的电子设备，更具体地涉及在蜂窝终端、摄录机和其他电子设备内对麦克风信号进行滤波。

背景技术

各种各样的电子设备正逐渐具备音频记录能力。例如，大多数蜂窝移动通信终端及数字相机都能够记录音频及视频以提供摄录机型功能。背景噪声会对所记录的音频造成很多不利的影响。例如，背景噪声可能使设备操作者想要记录的特定人的声音变模糊或被掩蔽。背景噪声可以包括风噪和诸如车辆的其他噪声源、来自除用户之外的人的话音和/或背景音乐。

发明内容

本发明的实施方式涉及响应于对目标说明人话音的识别对麦克风信号进行自适应滤波的电子设备及方法。

根据本发明的某些实施方式，一种电子设备包括麦克风和声音处理器。该麦克风响应于进入的声音而生成麦克风信号。该声音处理器被设置为识别麦克风信号内的目标说话人话音，并响应于对所述目标说话人话音的识别而调整对所述麦克风信号的滤波。

在某些其他实施方式中，所述声音处理器包括说话人表征电路、自适应声音滤波器电路和说话人识别电路。该说话人表征电路被设置为在训练模式下工作以学习所述麦克风信号中的所述目标说话人话音成分的特征，并存储所习得的特征。该自适应声音滤波器电路被设置为响应于控制信号对所述麦克风信号进行自适应滤波。该说话人识别电路被设置为使用所习得的特征来识别所述麦克风信号中存在所述目标说话人话音，并对所述控制信号进行调整以使所述自适应声音滤波器电路进行自适应滤波，从而相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分。

在某些其他实施方式中，所述自适应声音滤波器电路包括可变带通滤波器，该可变带通滤波器具有响应于所述控制信号而变化的带通频率。所述说话人识别电路进一步被设置为，通过使用所习得的特征来确定所述目标说话人话音的频率范围，并通过响应于所确定的所述目标说话人话音的频率范围来调整所述控制信号以改变所述可变带通滤波器的带通频率，对识别出所述麦克风信号中存在所述目标说话人话音作出响应。

在某些其他实施方式中，所述自适应声音滤波器电路包括高通滤波器，该高通滤波器具有响应于所述控制信号而变化的截止频率。所述说话人识别电路进一步被设置为，通过使用所习得的特征来确定所述目标说话人话音的低频范围，并通过响应于所确定的低频范围来调整所述控制信号以改变所述高通滤波器的截止频率，对识别出所述麦克风信号中存在所述目标说话人话音作出响应。

在某些其他实施方式中，所述说话人表征电路进一步被设置为，在所述训练模式期间工作以在所述目标说话人发出特定歌曲/语音时从所述麦克风信号中的所述目标说话人话音成分中学习所述目标说话人话音的时变频谱模式。所述说话人识别电路进一步被设置为：使用所习得的时变频谱模式来识别所述麦克风信号中存在发出所述特定歌曲/语音的所述目标说话人话音；通过在所述歌曲/语音期间使用所习得的时变频谱模式来随时间改变所述控制信号以动态地调节(tune)所述自适应声音滤波器电路从而跟踪所述目标说话人话音的预计时变频谱模式并且相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分，来对识别出所述麦克风信号中存在所述目标说话人话音作出响应。

在某些其他实施方式中，所述自适应声音滤波器电路包括可变带通滤波器，该可变带通滤波器具有响应于所述控制信号而变化的带通频率。所述说话人表征电路进一步被设置为，通过在所述目标说话人发出所述特定歌曲/语音时对所述麦克风信号中所述目标说话人话音的频率范围随时间的差异进行表征(characterize)，来学习所述时变频谱模式。所述说话人识别电路进一步被设置为，在所述特定歌曲/语音期间，使用所习得的时变频谱模式来调整所述带通滤波器的带通频率使之遵循(follow)所述目标说话人话音的频率范围随时间的差异，从而相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分。

在某些其他实施方式中，所述说话人表征电路进一步被设置为学习间隙的定时(timing of gaps)，在所述间隙中，当所述目标说话人发出所述特定歌曲/语音时，所述麦克风信号中的所述目标说话人话音低于阈值幅度。所述说话人识别电路进一步被设置为，使用所习得的间隙的定时来随时间改变所述控制信号，以在各个间隙期间相对于所述麦克风信号中的所述目标说话人话音成分来增大所述麦克风信号的其他成分，而在各个间隙之间相对于所述麦克风信号中的所述其他成分来增大所述目标说话人话音成分。

在某些其他实施方式中，所述自适应声音滤波器电路包括可变增益放大器，该可变增益放大器放大所述麦克风信号并具有响应于所述控制信号而变化的增益。所述说话人表征电路进一步被设置为，在所述训练模式期间工作，以在所述目标说话人发出特定歌曲/语音时从所述麦克风信号中的所述目标说话人话音成分中学习所述目标说话人话音的时变幅度模式。所述说话人识别电路进一步被设置为，在所述歌曲/语音期间，通过使用所习得的时变幅度模式随时间改变所述控制信号，以动态地调节所述可变增益放大器的增益，从而跟踪所述目标说话人话音的预计时变幅度模式，来对识别出存在所述目标说话人话音作出响应。

在某些其他实施方式中，该电子设备进一步包括射频接收器和距离确定电路。该射频接收器被设置为从所述目标说话人携带的远程发射器接收无线通信信号。该距离确定电路被设置为确定所接收的通信信号的信号强度，并响应于接收信号强度来估计从所述电子设备到所述远程发射器的距离。所述说话人表征电路进一步被设置为，在对所述麦克风信号进行滤波期间，响应于所估计出的从所述电子设备到所述远程发射器的距离，对所习得的所述目标说话人话音的特征进行自适应，以补偿距离对所述目标说话人话音成分的特征的预计影响。

在某些其他实施方式中，该电子设备进一步包括图像传感器和距离确定电路。该图像传感器被设置为生成图像信号。该距离确定电路被设置为识别所述图像信号中存在预计与所述目标说话人相对应或位置接近所述目标说话人的人，并响应于此人相对于多个阈值的大小来估计从所述电子设备到此人的距离。所述说话人表征电路进一步被设置为，在对所述麦克风信号进行滤波期间，响应于所估计的从所述电子设备到所识别的人之间的距离，对所习得的所述目标说话人话音的特征进行自适应，以补偿距离对所述目标说话人话音成分的特征的预计影响。

在某些其他实施方式中，该射频接收器被设置为从所述目标说话人携带的远程发射器接收无线通信信号。该距离确定电路被设置为确定所接收的通信信号的信号强度，并响应于接收信号强度来估计从所述电子设备到所述远程发射器的距离。所述麦克风包括具有多个麦克风单元以及可控相位组合器电路的缩放/波束可调麦克风，所述可控相位组合器电路响应于相位控制信号对来自所述麦克风单元的信号之间的相对相位进行调节，并对相位调节后的信号进行组合以生成所述麦克风信号。所述说话人识别电路进一步被设置为，响应于识别出所述麦克风信号中存在所述目标说话人话音以及估计出的从所述电子设备到所述远程发射器的距离来调整所述相位控制信号，以相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分。

在某些其他实施方式中，该图像传感器被设置为生成图像信号。该距离确定电路被设置为识别所述图像信号中是否存在人，并响应于此人相对于多个阈值的大小来估计从所述电子设备到此人的距离。所述麦克风包括具有多个麦克风单元以及可控相位组合器电路的缩放/波束可调麦克风，所述可控相位组合器电路响应于相位控制信号对来自所述麦克风单元的信号之间的相对相位进行调节，并对相位调节后的信号进行组合以生成所述麦克风信号。所述说话人识别电路进一步被设置为，响应于识别出所述麦克风信号中存在所述目标说话人话音以及估计出的从所述电子设备到所识别的人的距离来调整所述相位控制信号，以相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分。

在某些其他实施方式中，该电子设备进一步包括音频记录器，该音频记录器记录来自所述自适应声音滤波器的经滤波的麦克风信号。

本发明的某些实施方式涉及一种方法，该方法包括计算机实现的如下步骤：对麦克风信号内的目标说话人话音进行识别，并响应于对所述目标说话人话音的识别来调整对所述麦克风信号的滤波。

在某些其他实施方式中，该方法进一步包括计算机实现的如下步骤：在训练模式期间学习所述麦克风信号中的所述目标说话人话音成分的特征，以及使用所习得的特征来识别所述麦克风信号中存在所述目标说话人话音并对控制信号进行调整以使所述自适应声音滤波器电路对所述麦克风信号的滤波进行自适应，从而相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分。

在某些其他实施方式中，该方法进一步包括计算机实现的如下步骤：在所述训练模式期间，当所述目标说话人发出特定歌曲/语音时学习所述麦克风信号中所述目标说话人话音的频率范围随时间的特征差异。该方法还包括计算机实现的如下步骤：在所述特定歌曲/语音期间，通过使用所习得的所述目标说话人话音的频率范围随时间的特征差异随时间来改变所述控制信号，以动态地调节所述自适应声音滤波器电路从而跟踪所述目标说话人话音的频率范围随时间的预计特征差异，并相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分，对识别出所述麦克风信号中存在所述目标说话人话音作出响应。

在某些其他实施方式中，该方法进一步包括计算机实现的如下步骤：在所述训练模式期间，当所述目标说话人发出特定歌曲/语音时学习所述麦克风信号中所述目标说话人话音的幅度模式随时间的特征差异。该方法还包括计算机实现的如下步骤：在所述特定歌曲/语音期间，通过使用所习得的所述目标说话人话音的幅度模式随时间的特征差异随时间改变所述控制信号，来动态地调节所述自适应声音滤波器电路中对所述麦克风信号进行放大的可变增益放大器的增益，从而跟踪所述目标说话人话音的幅度模式随时间的预计特征差异，来对识别出所述麦克风信号中存在所述目标说话人话音作出响应。

在某些其他实施方式中，该方法进一步包括计算机实现的如下步骤：在所述训练模式期间学习间隙的定时，在所述间隙中，当所述目标说话人发出所述特定歌曲/语音时，所述麦克风信号中的所述目标说话人话音低于阈值幅度。该方法还包括计算机实现的如下步骤：通过使用所习得的间隙的定时随时间改变所述控制信号，以动态地调节所述自适应声音滤波器电路，从而在各个间隙期间相对于所述麦克风信号中的所述目标说话人话音成分来增大所述麦克风信号中的其他成分，而在各个间隙之间相对于所述麦克风信号中的所述其他成分来增大所述目标说话人话音成分，对识别出所述麦克风信号中存在所述目标说话人话音作出响应。

在某些其他实施方式中，该方法进一步包括计算机实现的如下步骤：响应于电子设备从所述目标说话人携带的远程发射器接收到的信号的强度，估计从所述电子设备到所述远程发射器的距离。该方法还包括计算机实现的如下步骤：在对所述麦克风信号进行滤波期间，响应于所估计的从所述电子设备到所述远程发射器的距离对所习得的所述目标说话人话音的特征进行自适应，以补偿距离对所述目标说话人话音成分的特征的预计影响。

本发明的某些其他方面涉及一种电子设备，其包括麦克风、说话人表征电路、自适应声音滤波器电路以及说话人识别电路。该麦克风响应于进入的声音而生成麦克风信号。该说话人表征电路被设置为在训练模式下工作，以在目标说话人发出特定歌曲/语音时从所述麦克风信号中的所述目标说话人话音成分中学习所述目标说话人话音的频率范围的时变差异和/或幅度模式的时变差异。该自适应声音滤波器电路被设置为响应于控制信号对所述麦克风信号进行自适应滤波。所述自适应声音滤波器电路包括可变带通滤波器和/或可变增益放大器，该可变带通滤波器具有响应于所述控制信号而变化的带通频率，该可变增益放大器具有响应于所述控制信号而变化的增益。该说话人识别电路被设置为使用所习得的所述目标说话人话音的频率范围的时变差异和/或幅度模式的时变差异来识别所述麦克风信号中存在发出所述特定歌曲/语音的所述目标说话人话音，并通过使用所述目标说话人话音的频率范围的时变差异和/或幅度模式的时变差异来随时间改变所述控制信号，以动态地调节所述带通滤波器的带通频率使之遵循所述目标说话人话音的频率范围随时间的差异，和/或动态地调节所述可变增益放大器的增益使之遵循所述目标说话人话音的幅度模式随时间的差异，来对识别出所述麦克风信号中存所述目标说话人话音作出响应。

本领域技术人员在阅读了以下附图及详细描述后可以想到根据本发明实施方式的其他电子设备和/或方法。旨在将所有这种附加电子设备及方法包括在本说明书中，落入本发明的范围内，并受到所附权利要求书的保护。

附图说明

附图被包括进来以提供对本发明的进一步理解，并且被包含而构成了本申请的一部分，附图例示了本发明的特定实施方式。在附图中：

图1是根据本发明一些实施方式的包括无线通信终端的无线通信系统的框图，该无线通信终端被设置为响应于识别出目标说话人话音而对麦克风信号进行自适应滤波；

图2是图1的无线通信终端的根据本发明一些实施方式而设置的若干个部件的框图，这些部件包括声音处理器；

图3是例示了根据本发明一些实施方式的，在训练模式期间可以由图1的无线通信终端执行以在目标说话人发出特定歌曲/语音时学习该目标说话人的各种特征的操作和方法的流程图；

图4是例示了根据本发明一些实施方式的，在记录模式期间可以由图1的无线通信终端执行以响应于根据训练模式习得的特征通过自适应声音滤波器电路进行自适应滤波/动态调节的操作和方法的流程图；

图5是例示了根据本发明一些实施方式的，在记录模式期间可以由图1的无线通信终端执行以响应于估计出的该终端与目标说话人携带的远程发射器之间的距离对根据训练模式习得的各种特征进行自适应的操作和方法的流程图；

图6是例示了根据本发明一些实施方式的，在记录模式期间可以由图1的无线通信终端执行以响应于估计出的该终端与在图像流中识别出的人(其可能是目标说话人或位置接近目标说话人的人)之间的距离，对根据训练模式习得的各种特征进行自适应的操作和方法的流程图。

具体实施方式

下面将参照附图更全面地描述本发明的各种实施方式。然而，本发明不应当理解为限于此处描述的实施方式。而是，这些方式被提供用于使公开充分和完整，并向本领域技术人员表达本发明的范围。

应理解的是，此处所使用的措辞“包括”是开放式的，并且包含一个或更多个所述的元素、步骤和/或功能，但不排除一个或更多个未说明的元素、步骤和/或功能。除非上下文中另有说明，此处所使用的单数形式的“一个”和“该”旨在也包括复数形式。措辞“和/或”以及“/”包括关联列出的一项或更多项的任意及全部组合。在附图中，可能出于清楚的目的而夸大了区域的大小及相对大小。通篇用相同的附图标记指代相同的元素。

某些实施方式可以用硬件和/或软件(包括固件、驻留软件、微代码等)来具体实现。因而，此处使用的术语“信号”可以呈连续波形和/或离散值的形式，诸如存储器或寄存器中的数字值。此外，各个实施方式的形式可以为计算机可用或计算机可读存储介质上的计算机产品，在该介质中包含有计算机可用或计算机可读程序代码以供指令执行系统使用或与指令执行系统相结合地使用。因而，此处使用的术语“电路”和“控制器”可以呈诸如由指令处理设备(例如通用微处理器和/或数字信号微处理器)执行的计算机可读程序代码之类的数字电路形式，和/或模拟电路形式。因此，以下针对图4至6描述的操作至少可以部分地实现为由计算机(例如微处理器)执行的计算机可读程序代码。

下面参照框图和操作流程图对实施方式进行描述。应理解的是，在框中注明的功能/动作可以按照与所例示的操作不同的顺序发生。例如，接连示出的两个框可以实际上大致同时执行，或者取决于所涉及的功能/动作，这两个框有时可以按相反顺序执行。尽管某些图在通信路径上包括用于示出通信的主要方向的箭头，但应理解的是，通信可以在与所示箭头相反的方向上发生。

根据本发明的多种实施方式，一种电子设备包括麦克风和声音处理器。麦克风响应于进入的声音而生成麦克风信号。声音处理器被设置为识别麦克风信号内的目标说话人话音并响应于对目标说话人话音的识别而调整对麦克风信号的滤波。

仅出于例示和说明的目的，此处在包括局域网(WLAN)并具有蓝牙通信能力的诸如蜂窝终端的示例性无线移动通信终端(“终端”)的背景下描述多种实施方式。然而，应理解的是，本发明不限于这种实施方式，并且通常可以在根据此处描述的至少一种实施方式工作并且对诸如麦克风信号进行滤波的任何电子设备内具体实施本发明，该电子设备例如是声音(“音频”)记录设备或音频及视频记录器(例如摄录机)。其他的非限制性示例性电子设备包括数字音频记录器、个人数据助理(PDA)、数字摄像机及膝上型/掌上型/台式计算机。

图1是包括终端110的无线通信系统100的框图，该终端110被设置为响应于目标说话人话音的识别对麦克风信号进行自适应滤波。参照图1，终端110包括麦克风112、声音处理器114、摄像机116和视频及声音记录器118。终端110由此可以被设置为对视频及声音都进行记录的视频-声音记录器。

终端110可以进一步包括无线通信协议控制器120、蜂窝收发器122、WLAN收发器124(例如与IEEE 802.11a-g标准中的一个或更多个兼容)以及蓝牙收发器126。蜂窝收发器122可以被设置为利用一个或更多个蜂窝通信标准进行通信，这些蜂窝通信标准例如是全球移动通信(GSM)、通用分组无线业务(GPRS)、增强数据速率GSM演进(EDGE)、集成数字增强网络(iDEN)、码分多址(CDMA)、宽带CDMA、CDMA2000和/或通用移动通信系统(UMTS)。由此，终端110可以被设置为通过无线空中接口与蜂窝收发器基站136进行通信并经由WLAN收发器124和/或蓝牙收发器126与另一终端138进行通信。

终端110可以进一步包括能够对终端110的多种其他部件进行控制的通用控制器128，并且通用控制器128可以被设置为对用户输入界面132作出响应的用户可选择应用，以控制视频及声音记录器118来通过扬声器130及显示器134提供声音及视频记录和播放功能。下面参照图2的框图来描述声音处理器114和麦克风112的各个示例性部件及操作。

参照图2，声音处理器114被设置为对来自麦克风112的麦克风信号140内的目标说话人话音进行识别，并响应于对目标说话人话音的识别来调整对麦克风信号140的滤波。声音处理器114包括自适应声音滤波器电路150和话音识别控制器160。自适应声音滤波器电路150被设置为响应于控制信号152对麦克风信号140进行自适应滤波。话音识别控制器160包括说话人识别电路162、说话人表征(characterization)电路164，以及存储有习得说话人特征的库166。库166可以包括一个或更多个半导体存储器和/或其他数据存储装置，如硬盘驱动器和/或CD/DVD驱动器。

说话人表征电路164被设置为工作在训练模式下以学习麦克风信号140中的目标说话人话音成分的特征，并将习得的特征存储在库166中。说话人表征电路164习得的特征可以包括但不限于说话人话音的平均/最大/最小频谱(带宽)、音调(pitch)和/或节奏(cadence)。

说话人识别电路162被设置为在记录模式期间使用习得的特征来识别麦克风信号140中存在目标说话人话音，其中该记录模式可位于学习模式之后。响应于这种识别，说话人识别电路162可以调整控制信号152以使自适应声音滤波器电路150进行自适应滤波，从而相对于提供给视频及声音记录器118内的音频记录器170的经滤波信号142中的其他成分来增大目标说话人话音成分。

在某些实施方式中，自适应声音滤波器电路150包括可变带通滤波器，该可变带通滤波器的带通频率(例如上、下衰减转角频率)响应于控制信号152而变化。说话人识别电路162可以通过使用习得的特征(来自于库166)确定目标说话人话音的频率范围，并通过响应于所确定的频率范围来调整控制信号152以改变可变带通滤波器的带通频率，来对识别出麦克风信号140内存在目标说话人话音作出响应。因而，可以将该带通滤波器调节为响应于识别出存在目标说话人话音及其相关联的习得特征，相对于经滤波信号142中的其他成分来增大目标说话人话音成分。

在某些其他实施方式中，自适应声音滤波器150包括对麦克风信号140进行滤波的高通滤波器。该高通滤波器具有响应于控制信号152而变化的截止频率。说话人识别电路162可以通过使用习得的特征确定目标说话人话音的低频范围，并通过响应于所确定的低频范围对该控制信号进行调整以改变该高通滤波器的截止频率，来对识别出麦克风信号140中存在目标说话人话音作出响应。

在某些进一步的实施方式中，说话人表征电路164可以被设置为在目标说话人发出特定歌曲/语音时学习该说话人话音的与时变模式相关联的特征。图3是根据本发明多种实施方式的在学习模式期间可以由识别控制器160执行的示例性操作及方法300的流程图。参照图3，说话人表征电路164可以在显示器134上生成指令(操作302)，该指令命令操作者让目标说话人移动到与将要在后续目标记录期间使用的终端110相距期望距离处。这样，训练模式期间说话人的话音将经受与后续记录模式期间类似的衰减和其他距离效应。说话人表征电路164接收麦克风信号140中的目标说话人话音的离散样本(操作304)。

说话人表征电路164被进一步设置为在目标说话人发出特定歌曲/语音时学习麦克风信号140中目标说话人话音成分的时变频谱模式。说话人表征电路164可以被设置为在目标说话人发出特定歌曲/语音时对麦克风信号140中的目标说话人话音的频谱随时间的差异进行表征(操作306)。另选地或另外地，说话人表征电路164可以被设置为在目标说话人发出特定歌曲/语音时对麦克风信号140中的目标说话人话音的幅度随时间的差异进行表征(操作308)。另选地或另外地，说话人表征电路164可以被设置为学习如下间隙的定时(操作310)，在这些间隙中，当目标说话人发出特定歌曲/语音时麦克风信号140中目标说话人话音的幅度低于阈值幅度。习得的特征可以存储在库166中(操作312)以供随后在记录模式期间由说话人识别电路162使用。

图4是例示了记录模式期间的示例性操作和方法400的流程图，可以由说话人识别电路162执行这些操作和方法以响应于根据训练模式习得的特征通过自适应声音滤波器电路150对滤波进行半静态自适应或进行动态调节。参照图4，说话人识别电路162利用来自库166的习得特征搜索(操作402)采样麦克风信号以尝试识别其中存在目标说话人话音成分。说话人识别电路162可以被设置为使用习得的目标说话人话音的时变频谱模式(如习得的频率范围随时间的变化)来识别麦克风信号中存在目标说话人话音，该操作可以在说话人正发出先前训练过的歌曲/语音时进行。

当确定出采样麦克风信号中存在目标说话人话音时(操作404)，随后进一步确定(操作406)识别控制器160是否工作在歌曲/语音模式下。例如可以由用户(通过界面132)来设置歌曲/语音模式以表明将动态调节对已经习得了话音特征的歌曲/语音的滤波。

当歌曲/语音模式未被启用时，说话人识别电路162可以使用(操作416)来自库166的习得特征借助于自适应声音滤波器电路150对滤波进行半静态自适应(例如响应于初次识别出存在目标说话人话音进行自适应)，以相对于经采样麦克风信号中的其他成分来增大目标说话人话音成分。

例如，如上所述，说话人识别电路162可以通过响应于目标说话人话音的频率范围特征，改变位于自适应声音滤波器电路150内的可变带通滤波器的带通频率和/或高通滤波器的高通频率，来对识别出目标说话人话音成分作出响应。自适应声音滤波器电路150可以被设置为，通过利用快速傅里叶变换(FFT)将经时间采样的麦克风信号变换为多个频率窗口(frequency bin)，并对频率窗口内位于习得的目标说话人话音的频谱范围之外的信号能量进行衰减，来执行谱减。

在歌曲/语音模式启用的情况下，在歌曲/语音期间，说话人识别电路162可以使用(操作408)来自库166的习得特征来动态调节自适应声音滤波器电路150，以跟踪目标说话人话音的频率范围和/或幅度随时间的预计特征变化，从而相对于经采样麦克风信号中的其他成分来增大目标说话人话音成分。例如，说话人识别电路162可以调节控制信号152，以使自适应声音滤波器电路150动态地改变带通滤波器的频率范围和/或改变高通滤波器的高通频率，从而跟踪在经训练的歌曲/语音期间目标说话人话音特征随时间的预计变化。另选地或另外地，说话人识别电路162可以调整控制信号152以动态地调节自适应声音滤波器电路150中对麦克风信号140进行放大的可变增益放大器的增益，从而在经训练的歌曲/语音期间动态地补偿(例如跟踪)目标说话人话音的幅度随时间的预计变化。例如，说话人识别电路162可以通过增大放大增益而对特定时刻目标说话人话音的预计下降进行补偿，该放大增益被施加给麦克风信号140中的所有成分或者被提供给麦克风信号140中已经被习得作为该时刻目标说话人话音的特征的特定频谱成分。

说话人识别电路162还可以使用(操作410)从库166取出的习得间隙的定时来动态调节自适应声音滤波器电路150，以在各个间隙之间相对于采样麦克风信号的其他成分来增大目标说话人话音成分，而在各间隙期间相对于这些其他成分来减小目标说话人话音成分。

因此，当基于习得的特征预计目标说话人在特定时刻没有唱歌/说话或者轻声地(例如低于阈值幅度)歌唱/说话时，可以将自适应声音滤波器电路150调节为减小对麦克风信号140的滤波或稍微偏向目标说话人特征更中性地(neutrally)进行滤波。例如，在各个间隙期间，说话人识别电路162可以调整控制信号152以使自适应声音滤波器电路150扩展带通滤波器的频率范围、降低高通滤波器的高通频率，和/或增大/减小放大器所施加的增益。

当习得的特征表明(操作412)话音/歌曲预计尚未结束时，说话人识别电路162可以返回并重复操作408及410。相反，当习得的特征表明话音/歌曲已经结束时，进一步确定(操作414)记录模式是否仍启用，并且当确定记录模式仍启用时，说话人识别电路162可以返回并重复确定操作406及相关的后续操作。

再来参照图2，声音处理器114可以进一步包括距离确定电路180，该距离确定电路180被设置为确定终端110与目标说话人所携带的远程发射器之间的距离。距离确定电路180可以包括基于接收信号强度(RSS)的测距电路182，该测距电路182被设置为确定例如由WLAN收发器124和/或蓝牙收发器126接收的通信信号的信号强度。基于RSS的测距电路182可以响应于RSS来估计从终端110到远程发射器的距离。

图5是例示了示例性操作和方法500的流程图，该操作和方法可以由声音处理器114执行以确定终端110与目标说话人所携带的远程发射器之间的距离，并响应于此，对如何使用库166中的多种习得特征进行自适应，以控制自适应声音滤波器电路150来补偿距离对麦克风信号140内的目标说话人话音成分的特征的预计影响。

参照图5，从可由目标说话人携带的远程发射器接收(操作502)无线通信信号。例如，终端110和远程发射器可以通过无线局域网(WLAN)和/或分别经由WLAN收发器124和蓝牙收发器126通过蓝牙网络进行通信。因而，该远程发射器可以是具有蓝牙收发器和/或WLAN收发器的蜂窝电话或PDA，该蜂窝电话或PDA与终端110联网并且例如可能位于目标说话人的衣服口袋内。

基于RSS的测距电路182确定接收信号的强度(操作504)，并响应于接收信号的强度来估计(操作506)从终端110到远程发射器的距离。基于RSS的测距电路182可以利用远程发射器所发射信号的预计强度与终端110所接收信号的强度之间的规定关系对该距离进行估计。例如，预计远程发射器内的蓝牙收发器和/或WLAN收发器能够以相对恒定的信号强度进行发射。因而，可以定义一种关系，基于RSS的测距电路182可以响应于远程发射器所发射信号的预计强度以及蓝牙收发器126和/或WLAN收发器124所接收信号的强度，利用这种关系来确定终端110与远程发射器之间的距离。基于发射模式以及发射天线及接收天线的相关增益，可以借助于距离的平方或距离的立方将发射信号强度与接收信号强度关联起来。

说话人表征电路164和/或说话人识别电路162还可以进一步被设置为响应于所估计的从终端110到远程发射器的距离对习得的目标说话人话音的特征进行自适应(操作508)，以补偿距离对麦克风信号140内的目标说话人话音成分的特征的预计影响。随着到目标说话人的距离的增大，可以(经由电路160和180)对自适应声音滤波器电路150进行调节以增大对麦克风信号140施加的放大增益，从而补偿在确定的距离处目标说话人话音幅度的预计减小。另选地或者另外地，随着到目标说话人的距离的增大，例如通过移动带通滤波器的转角频率以使经滤波信号142的通过频率范围变窄从而对应于在所确定的距离处目标说话人话音的频率范围的预计减小，可以(经由电路160和180)将自适应声音滤波器电路150调节到在该距离处目标说话人话音的预计频率范围。另选地或者另外地，随着到目标说话人的距离的增大，可以(经由电路160和180)调节自适应声音滤波器电路150以减小带通滤波器的高通频率，从而使低频能够通过该滤波信号142以补偿在所确定的距离处目标说话人话音频率的预计降低。

图6是例示了另外的或另选的示例性操作及方法500的流程图，在记录模式期间可以由声音处理器114执行该操作及方法以确定终端110与来自摄像机116的图像流内的人之间的距离，并响应于此，对如何使用库166内的多种习得特征进行自适应，以控制自适应声音滤波器电路150来补偿距离对麦克风信号140内的目标说话人话音成分的特征的预计影响。

参照图2和图6，距离确定电路180可以包括电路184，该电路184确定来自摄像机116的图像信号中人图像的大小，并响应于此，基于人图像的大小来确定终端110与来自摄像机116的图像流中的人图像之间的距离。如图所示，还可以将该图像信号发送到视频及声音记录器118内的视频记录器172以将其记录于此。电路184被设置为识别(操作602)图像信号中存在可能与目标说话人相对应或位置接近目标说话人的人。电路184还可以进一步响应于此人相对于多个阈值的大小来估计(操作604)从终端110到此人的距离，其中这些阈值可以将图像大小与预计距离关联起来。电路184可以进一步考虑在距离估计期间摄像机116的变焦设置(有的话)。说话人表征电路164和/或说话人识别电路162可以进一步被设置为响应于估计出的从终端110到此人的距离对习得的目标说话人话音特征进行自适应(操作606)，以补偿距离对麦克风信号140中的目标说话人话音的特征的预计影响，正如以上针对图5的操作508所述的那样。

再来参照图2，麦克风112可以被设置为具有多个麦克风单元190a和190b以及可控相位组合器电路192的缩放/波束可调麦克风，该可控相位组合器电路192响应于相位控制信号194调节来自麦克风单元190a和190b的信号之间的相对相位，并对经相位调节的信号进行组合以生成麦克风信号140。识别控制器160可以被设置为响应于识别出麦克风信号140中存在目标说话人话音以及估计出的从终端110到远程发射器和/或到在图像信号中识别出的人之间的距离，来调整相位控制信号194，以响应于到目标说话人的距离来缩放或调整麦克风单元190a和190b的组合后的灵敏度。由此，麦克风112可以被控制为辅助相对于麦克风信号140中的其他成分来增大目标说话人话音成分。

附图和说明书中公开了本发明的示例性实施方式。然而，在不实质上脱离本发明的原理的情况下，可以对这些实施方式做出许多变型和修改。因而，尽管使用了特定术语，但这些术语仅在一般性和描述性的意义上使用，而不是出于限制性目的，因此本发明的范围由所附权利要求书限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 响应于目标说话人话音识别对麦克风信号进行自适应滤波的电子设备和方法 [P] . 中国专利： CN101952884B . 2012.04.04
2. 响应于目标说话人话音识别对麦克风信号进行自适应滤波的电子设备和方法 [P] . 中国专利： CN101952884A . 2011-01-19
3. Electronic devices and methods that adapt filtering of a microphone signal responsive to recognition of a targeted speaker's voice [P] . 美国专利： US7974841B2 . 2011-07-05

机译：响应于对目标说话者语音的识别而适应对麦克风信号的滤波的电子设备和方法
4. ELECTRONIC DEVICES AND METHODS THAT ADAPT FILTERING OF A MICROPHONE SIGNAL RESPONSIVE TO RECOGNITION OF A TARGETED SPEAKER'S VOICE [P] . 欧洲知识产权局专利： EP2245618A1 . 2010-11-03

机译：自适应识别目标说话人语音的麦克风信号的电子设备和方法
5. ELECTRONIC DEVICES AND METHODS THAT ADAPT FILTERING OF A MICROPHONE SIGNAL RESPONSIVE TO RECOGNITION OF A TARGETED SPEAKER'S VOICE [P] . 世界知识产权组织专利： WO2009106918A1 . 2009-09-03

机译：自适应识别目标说话人语音的麦克风信号的电子设备和方法