首页> 中国专利> 从两个或多个麦克风中为语音处理系统,例如工作在嘈杂环境中的免提电话设备,选择一个麦克风的方法

从两个或多个麦克风中为语音处理系统,例如工作在嘈杂环境中的免提电话设备,选择一个麦克风的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本方法涉及的方法包括步骤：数字化两个麦克风(N，M)同时拾取的声音信号；对在两个信道上拾取的信号(Xn(t)，Xm(t))执行短时距傅立叶变换以在一系列频带上产生连续帧；对每个信道应用用于计算语音存在置信指数的算法，特别是存在的语音的概率；通过对每个信道的连续帧应用决策规则选择两个麦克风中的一个，该规则基于信道选择标准以及所述语音存在置信指数；对所选择的麦克风拾取的声音信号执行语音处理。

著录项

公开/公告号CN102498709A

专利类型发明专利
公开/公告日2012-06-13

原文格式PDF
申请/专利权人鹦鹉股份有限公司;
展开▼

申请/专利号CN201080021380.7
发明设计人 G·维泰;A·布里奥;G·平托;
展开▼

申请日2010-05-07
分类号H04M9/08(20060101);
代理机构31100 上海专利商标事务所有限公司;
代理人管琦琦
地址法国巴黎
入库时间 2023-12-18 05:30:07

法律信息

法律状态公告日

法律状态信息

法律状态
2015-12-30

专利权的转移 IPC(主分类):H04M9/08 登记生效日:20151209 变更前: 变更后: 申请日:20100507

专利申请权、专利权的转移
2014-01-22

授权

授权
2012-07-11

实质审查的生效 IPC(主分类):H04M9/08 申请日:20100507

实质审查的生效
2012-06-13

公开

公开

说明书

本发明涉及处理嘈杂环境中的语音。

本发明特别地，但以非限制的方式，涉及处理由用于机动车辆的免提型设备拾取的语音信号。

这种装置具有灵敏的麦克风，该麦克风不仅拾取用户的声音，还拾取周围的噪声，这种噪声构成在特定状况下能够产生使用户的语音不可理解的声音干扰的干扰元素。如果期望实现语音识别技术，会发生同样的状况，因为对淹没在高水平噪声中的词语进行形状识别是很困难的。

与外界噪声有关的这种困难对用于机动车辆的免提设备是特别有制约性的。特别地，麦克风与扬声器之间的远距离引起相对高水平的噪声，使分离淹没在噪声中的有用信号很困难。更进一步地，汽车是典型的非常嘈杂的环境，其呈现不稳定的频谱特性，即，作为驾驶状况(在崎岖的路面或鹅卵石上驾驶、开着的汽车收音机等)的函数以不可预测的方式变化。

一些这样的设备提供利用多个麦克风，一般是两个麦克风，对它们拾取的信号取平均，或者完成其它更复杂的操作，以得到低干扰水平的信号。特别地，称作“波束成型”的技术实现麦克风阵列，以使用相对简单的软件工具产生能使信号噪声比提高的方向性。然而，那种技术假设扬声器相对于麦克风的位置或多或少是固定的，对于与驾驶员(但不是与乘客)在小汽车里的电话谈话这通常是正确的。

一般地，在所有称作“波束成型”的技术中，为了得到或多或少令人满意的有效性，有必要具有大量的麦克风(至少五个)，在大多数工业应用中它们是不可获得的。

那就是为什么使用仅涉及一个麦克风的技术更常见。

在这种情况下，使用能够提供更好信号/噪声比的单向麦克风是有利的，但是在不变化的单个方向才是这样的，因此仅对于一个扬声器位置是可行的。

例如，在WO 2008/049982 A1(Parrot SA)中描述了一个这样的用于机动车辆的“免提”设备，其描述了各种应用到由单个麦克风拾取的信号的回声消除及抑制技术、噪音降低技术等，该单个麦克风从附近的扬声器拾取与噪声一起的声音信号。

本发明涉及这样的仅利用一个麦克风的语音处理系统(因此不同于“波束成型”等类型的系统)，但是其中的(一个)麦克风是从两个不同的麦克风或者麦克风阵列中的多个麦克风中自动选择的。

本发明的目的是提出一种方法，使得有可能确定两个或多个麦克风中哪个麦克风以最低的噪声拾取语音信号，从而随后对以这种方式确定的、下面称作 “基准麦克风”的麦克风拾取的信号进行各种类型的处理(降噪，回声消除等)。

已知各种用来从多个麦克风中选择一个麦克风的技术，例如，在例如 EP1564980A1所描述的电话会议设备中，具有多个针对各个参与者、安装在设备周围的麦克风。该文件描述了适于区分语音和噪声的动态选择装置，并且该动态选择装置适于在任何给定的时刻仅激活面向活跃的讲话者的那一个麦克风。

对于上面提到的用于机动车辆的“免提”型设备，最经常(尽管不限于)的情况是系统中具有两个麦克风。那么可能设想几种配置。

第一种配置在于提供两个彼此紧邻的定向麦克风，例如在位于车舱中部的小汽车收音机的正面的两端，一个麦克风具有指向驾驶员的方向图主瓣，而另一个麦克风指向乘客。

另一个配置在于提供两个空间分离的麦克风，例如置于高处，位于车辆顶部的最角上，或在仪表盘的两端。

在两种配置中，将被选择的更有效的麦克风通常是指向活跃的讲话者(驾驶员或者乘客)的麦克风。但是有时候考虑到特殊情况是有必要的，因此如果一辆摩托车正从车辆的左边超车，即使讲话者是左边的驾驶员，选择右边的麦克风也是有利的。

本发明的目的是提出一种在具有两个麦克风的系统中自动选择麦克风的鲁棒系统(通过将同样的算法应用于每对可能的麦克风，本发明自然地适用于从多于两个的麦克风中切换至一个麦克风)。

根本思想是不考虑麦克风的配置(紧邻或空间分离)，通过假设两个麦克风中的一个麦克风拾取的信号优于另一个，即，两个麦克风中的那一个对于拾取想要的具有更少干扰或损失的信号比另一个麦克风放置得更好，来区别被每个麦克风拾取的信号是可能的。

本发明基于的一个原理在于，为了这个目的，为对应于两个麦克风的两个信道中的每一个导出一个语音存在置信指数，以及应用决策规则选择两个麦克风中的一个或另一个，此外，该决策规则是所述语音存在置信指数的函数。

这个原理使大大增加基准麦克风随时间被选择的鲁棒性，作为被不断地计算出来的结果的函数成为可能，并且选择适应于各种偏差变化的方式和声音环境中的变化。

上述目的被上述EP 1564980 A1公开的常规类型的方法实现了，即为工作在嘈杂环境中的多麦克风语音处理系统从两个或多个麦克风中选择一个麦克风的方法，每个麦克风关联于各自的信道并适于从混合了漫射噪声分量的主要的声音信号源拾取具有有用语音分量的嘈杂的声音信号。该方法包括步骤：

·数字化两个麦克风同时拾取的声音信号；

·以在一系列频带内产生一连续帧的方式，对在两个信道上拾取到的声音信号进行变换；

·应用为每个信道计算语音存在性指数的算法；

·通过对每个信道的连续帧应用决策规则从两个麦克风中选择一个，该规则既是信道选择标准的函数还是所述语音存在性指数的函数；

·在该选择的一个麦克风拾取的声音信号的基础上完成语音处理；

本发明具有特征方式是：

·在两个信道上拾取的信号的变换是短时距傅立叶变换；

·语音存在指数是为每个帧的每个频带计算的置信指数；以及

·选择标准仅在那些存在性指数大于第一给定阈值的频带的频带中被计算；

根据各种从属实施的特征在于：

·该方法进一步包括从连续帧中消除位于第二给定阈值下的频带的步骤；

·语音存在置信指数是语音存在的概率；

·为每个频带计算语音存在置信指数，当该指数大于第三给定阈值时，所述选择在若干大于第四给定阈值的频带中执行；

·多麦克风语音处理系统是具有紧邻定向麦克风的系统，并且该信道选择标准是基于比较在两个信道上同时拾取到的信号的各自相位的角度标准；

·用于选择的麦克风是比另一个麦克风更早拾取信号的麦克风；

·多麦克风语音处理系统是一个具有空间分离的定向或非定向麦克风的系统，并且信道选择标准是基于比较在两个信道同时拾取的信号的各自信号噪声比值的能量标准，用于选择的麦克风的信号噪声比大于另一个麦克风的。

·仅当在若干比第五给定阈值大的连续帧上满足决策规则时，有条件地执行选择两个麦克风中的一个。

·如果决定选择麦克风中的一个，则通过对将要选择的麦克风的信道增加增益并且对将不被选择的麦克风的信道降低增益，经过一段给定转换时间渐进地执行选择。

接下来是基准附图的本发明设备的实施例的说明，其中相同的编号用于指示功能类似的元件。

图1是具有两个紧邻的麦克风的配置的图示。

图2是具有两个空间分离的麦克风的配置的图示。

本发明基于的原理在下面结合其在上述两种配置中的应用描述(麦克风紧邻和麦克风空间分离)。

基本的假设是被两个麦克风拾取的信号中的一个先验地优于另一个，即，与有用语音信号相比，它比另一个包含更少的干扰或损失。

本发明的目的是确定在被拾取的两个信号中哪个信号在被单独选择之后进行语音处理(去噪，回声消除等)更好，该信号在下面被称作“基准信号”或“基准麦克风的信号”，的。

两个麦克风都拾取从一个主信号源s发射的信号，且麦克风之间的位置的差别造成相对于s发射的信号的各种相移和幅度变化。更精确地，作为时间t 的函数，应用下式：

x_n(t)＝a_n×s(t-τ_n)+v_n(t)

其中a_n是在声音源s处与序号为n的麦克风之间的声音路径上的能量损失造成的幅度衰减，τ_n是发射的信号与麦克风n接收到的信号的相移，附加项v_n代表麦克风n所在处的漫射噪声场的值。

用大写字母写出上面信号的短时距傅里叶变换，该方程变为：

X_n(k，l)＝d_n(k)×S(k，l)+V_n(k，l)

其中k和l分别代表频带和考虑中的帧，

$d_{n} (k) = a_{n} e^{- i 2 π f_{k} τ_{n}}$

其中f_k是序号为k的频带的中心频率。

应该注意系数d_n(k)唯一地取决于系统的几何数据，而不取决于发射信号s 的性质。实际上，这些系数是考虑中的几何配置的特性。

下面特别考虑两种情景：

·一种麦克风紧邻的配置，其中认为两个麦克风之间的距离相对于源与麦克风之间的距离很小(这种情况的更精确的数学定义如下给出)；以及

·一种麦克风空间分离的配置，其中认为源与两个麦克风之一之间的距离比源与另一个麦克风之间的距离相对较大。

紧邻麦克风配置

这种配置，图示于图1中，可被发现，例如当两个麦克风都位于汽车收音机的正面，它本身被放于车辆仪表盘的中央位置。麦克风间的距离典型地是5 厘米(cm)的数量级，最多10cm。

在这种配置中，使用具有不同方向的定向麦克风是最有利的。如果两个麦克风被称作为N和M，则麦克风M应该理想地具有主瓣覆盖半平面Pm的指向性图案，而麦克风N应该具有占据其它半平面Pn的指向性图案。

在这里考虑的配置中，使用紧邻的麦克风，作出声音源发射平面波(它满足源离麦克风几厘米远的需要)的近似是可能的，只有讨论中的波的传播方向是要被估计的(三维的或投影于一个特定的平面)。那么只有两个麦克风间的相位差信息是有用的，使用下面的公式：

$τ_{n} - τ_{m} = \frac{1}{2 π f_{k}} \arg (E ({\overline{X}}_{m} (k, l) X_{n} (k, l)))$

其中E是通过计算考虑中的多个帧上的乘积的均值可被估计的数学期望值。

麦克风“紧邻”的假设可被更精确地表达为两个麦克风间距离l_n，m的情况，为了避免相位延迟与相位超前间的混乱，x_n(t)和x_m(t)间的相移Δφ位于[-π；π]区间是必要的，即：

然而，如果距离D更大，使用同样的算法仍然是可能的，但是这是当忽略分析的频率中的更高频率的时候。最大频率于是表达如下：

$f_{\max} < \frac{c}{2 \cdot l_{n, m}}$

它满足确定两个半平面Pn和Pm中的哪个包含源的需要。问题则简化为研究表达式的符号函数(sign)：

$sign [θ_{n, m} (k, l)] = sign [τ_{n} - τ_{m}] = sign [\arg (E (\overline{X_{m}} (k, l) X_{n} (k, l)))]$

理论上，对于给定的帧，角度θ_n，m(k，l)应该对所有频率都相同。实际上，噪音支持者(proponent)造成小的变化。

因此为不同频率计算

$τ_{n} - τ_{m} = \frac{1}{2 π f_{k}} \arg (E ({\overline{X}}_{m} (k, l) X_{n} (k, l)))$ 的符号函数，并且通过计算未加权的个体决策的和，而执行作为每个频率上的结果的分布的函数的整体决策。

实际上，涉及了各种类型的相位噪声，对于θ_n，m(k，l)的小值，θ_n，m(k，l)的符号函数的确定可能是有偏差的。然而，下面的公式：

显示了噪声项在较高频率上具有较小影响的事实。因此，在k的低值上的计算比较不可靠，特别是当信号的入射角度小时。因此在较高频率上使用较高的置信指数加权是令人满意的。

由于这里未使用平均，而是仅仅使用了一个频率集上的符号函数的计算，从计算中排除最低频率(k≤k_min的频率)是可能的。总之，选择规则如下，其中NumPlusThreshold是预先确定的阈值：

对于帧l：

·M是较好的麦克风，如果

card(E₊)-card(E_-)＞NumPlusThreshold

·N是较好的麦克风，如果

card(E_-)-card(E₊)＞NumPlusThreshold

·其它，无决策

其中

$(\begin{matrix} E_{+} = {kt . q . k > k_{\min} and \arg (E ({\overline{X}}_{m} (k, l) X_{n} (k, l))) > 0} \\ E_{-} = {kt . q . k > k_{\min} and \arg (E ({\overline{X}}_{m} (k, l) X_{n} (k, l))) < 0} \end{matrix})$

换句话说，不是在麦克风拾取的信号间的相对相移的基础上测量来自于源的信号的入射角度，而是对频带子集中每个频带确定上面的表达式的符号函数，并且对那些符号函数计算。如果计算显示显著的多数(由阈值NumPlusThreshold 决定)倾向于麦克风N或M中的一个，那个麦克风就被认为是基准麦克风。

具有两个空间分离麦克风的配置

这个配置图示于图2中。

在这个例子中，麦克风间的距离大约为1米(m)到1.5米，例如相应于两个麦克风放置于车舱顶部的两边的安装。

在这种配置中，由于两个麦克风间的距离太大(相位延迟和相位超前之间不够相关和混乱)，相移信息不再有用。

作为对比，表示信号衰减的项a_n和a_m更相关。在麦克风之一拾取的整体信号中，来自于源的贡献，即，有用信号，将以相应于麦克风离所述源有多远的方式降低。

在这种配置中，不需要再为了区分两个声音拾取而使用定向麦克风。这种区分是麦克风相对于源的位置所固有的：例如，在汽车里，一个麦克风离驾驶员近得多，而另一个离乘客近得多。因此，在一个麦克风拾取的信号里的噪声比在另一个麦克风拾取的信号里的衰减得多。

在这种情况下，基本原理在于使用信号/噪声比值作为选择标准。选择标准因此不再是使用两个紧邻的麦克风那样的角度标准，而是能量标准。

根据与在麦克风紧邻的配置中的角度标准相同的原理作出相对于阈值 ΔSNRThreshold的决策。决策规则如下：

对于帧l：

·M是更好的麦克风，如果

SNR_m(l)-SNR_n(l)＞ΔSNRThreshold

·N是更好的麦克风，如果

SNR_n(l)-SNR_m(l)＞ΔSNRThreshold

·其它，无决策

其中

${SNR}_{m} (l) = \frac{\underset{k}{Σ} X_{m} (k, l)}{\underset{k}{Σ} {\hat{V}}_{m} (k, l)}$ 并且 ${SNR}_{n} (l) = \frac{\underset{k}{Σ} X_{n} (k, l)}{\underset{k}{Σ} {\hat{V}}_{n} (k, l)}$

其中和指分别被麦克风M和N拾取的估计的噪声分量。

使基准麦克风选择更鲁棒

自动选择基准麦克风的技术受到各种与噪声和计算近似有关的偏差的影响。

为了避免过多的错误检测，本发明提出那些自动选择技术，以及与其伴随的整体机制，该整体机制针对漫射噪声提供很大的鲁棒性，并且无关随后应用于所选择的基准信号的处理技术(互相关，求和，等)，该整体机制都是有效的。

本质上，本发明提出为每个麦克风拾取的信号中语音的存在，和为调节语音存在置信指数在某个最低水平上的基准麦克风的选择，推导置信指数。

如果没有来自于源的有用信号(没有来自于讲话者的通话)，寻求选择一个麦克风而非另一个是没有意义的。因此仅在源信号可能存在的帧上应用上面描述的选挥标准才是恰当的。

置信指数具体可是语音存在的概率，以例如WO 2007/099222 A1(Parrot SA) 描述的方式计算，WO 2007/099222 A1描述了一种涉及这种概率的计算的降噪方法，该方法由I.Cohen和B.Berdugo在“Speech enhancement for non-stationary noise environments”，Signal Processing，Elsevier，第81卷，第2403-2418页，2001 里描述的一种技术得到。

为语音的存在计算概率(或者其它任何相当的已知技术)，像在源信号对应语音信号的噪声降低处理的背景下描述的那样，可被应用于本发明，以增加用于选择基准麦克风的算法的鲁棒性(由此在任何去噪处理之前)。

像在对混合了噪声分量的语音信号去噪的领域经常发生的，要旨是不去准确地确定哪个帧的哪个分量具有存在的或不存在的语音，而是提供一个处于0 到1的范围内的置信指数，其中值1代表语音必定不存在(根据该算法)，而值0 指示相反。依靠它本身的性质，这个指数可被认为是语音不存在的先验概率，即，语音在考虑中的帧中的给定频率分量上不存在的概率。

语音存在的概率是P_PresProb，语音存在的概率因而可被用作调节选择一个或另一个麦克风的附加标准，通过将它与预先确定的阈值PresProbThreshold相比较：从而，为了应用选择规则，对信号的每个帧l，下面的公式的方式仅应用于 “相关频率”集F(l)

F(l)＝{kt.q.P_PresProb(k，l)＞PresProbThreshold}

如果这个由包含在有用信号中的频率构成的集合太小(即如果 card(F(l))＜MinSize)，那么对当前帧l不作出决策。这个标准以与阈值 NumPlusThreshold或者ΔSNRThreshold相同的方式限制及控制错误决策的数目。

否则，(即，如果card(F(l))＞MinSize)，用于选择较好的麦克风的计算仅在相关频率的基础上完成，即，在作出决策时源内容为零的(没有语音)频率未考虑在内。

上面解释的两种用于选择对于一个帧的较好的麦克风的规则因此可被重写如下。

在第一种配置中(麦克风紧邻)：

对于帧l

·M是较好的麦克风，如果

card(E₊)-card(E_-)＞NumPlusThreshold并且如果card(F(l))＞MinSize

·N是较好的麦克风，如果

card(E_-)-card(E₊)＞NumPlusThreshold并且如果card(F(l))＞MinSize

·其它，无决策

其中

$(\begin{matrix} E_{+} = {k \in F (l) t . q . k > k_{\min} and \arg (E ({\overline{X}}_{m} (k, l) X_{n} (k, l))) > 0} \\ E_{-} = {k \in F (l) t . q . k > k_{\min} and \arg (E ({\overline{X}}_{m} (k, l) X_{n} (k, l))) < 0} \end{matrix})$

在第二种配置中(麦克风空间分离)：

对于帧l

·M是更好的麦克风，如果

SNR_m(l)-SNR_n(l)＞ΔSNRThreshold并且如果card(F(l))＞MinSize

·N是更好的麦克风，如果

SNR_n(l)-SNR_m(l)＞ΔSNRThreshold并且如果card(F(l))＞MinSize

·其它，无决策

其中

${SNR}_{m} (l) = \frac{\underset{k \in F (l)}{Σ} X_{m} (k, l)}{\underset{k \in F (l)}{Σ} {\hat{V}}_{m} (k, l)}$ 并且 ${SNR}_{n} (l) = \frac{\underset{k \in F (l)}{Σ} X_{n} (k, l)}{\underset{k \in F (l)}{Σ} {\hat{V}}_{n} (k, l)}$

基准麦克风的更改

本发明系统的一个优点在于能够追随源的移动，从而当源移动时或者当两个源轮流发射时(例如车辆里的驾驶员与乘客)随着时间更改基准麦克风。

为了拥有稳定的系统，避免太突然或太频繁地更改麦克风仍然是重要的。

为了这个目的，本发明也提出了使基准麦克风更改的阶段更鲁棒。

为了避免不及时地切换，使从一个基准麦克风到另一个的切换(从N到M，或者相反)的调节取决于特定数目的稳定性规则是可能的，例如：

·只有当用于选择每个帧上的较好的麦克风的算法的几个连续迭代导致更改基准麦克风的决策时，才更改基准麦克风；和/或

·麦克风的更改不是突然的，而是渐进地发生，在多个连续帧上通过应用变化的增益，在一个麦克风上增加而在另一个上降低，从而获得渐进的“淡入淡出” 效果。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 从两个或多个麦克风中为语音处理系统,例如工作在嘈杂环境中的免提电话设备,选择一个麦克风的方法 [P] . 中国专利： CN102498709B . 2014.01.22
2. 从两个或多个麦克风中为语音处理系统,例如工作在嘈杂环境中的免提电话设备,选择一个麦克风的方法 [P] . 中国专利： CN102498709A . 2012-06-13
3. Method of selecting one microphone from two or more microphones, for a speech processor system such as a “hands-free” telephone device operating in a noisy environment [P] . 美国专利： US8892433B2 . 2014-11-18

机译：从两个或多个麦克风中选择一个麦克风的方法，用于语音处理器系统，例如在嘈杂环境中运行的“免提”电话设备
4. METHOD OF SELECTING ONE MICROPHONE FROM TWO OR MORE MICROPHONES, FOR A SPEECH PROCESSOR SYSTEM SUCH AS A "HANDS-FREE" TELEPHONE DEVICE OPERATING IN A NOISY ENVIRONMENT [P] . 美国专利： US2012284023A1 . 2012-11-08

机译：从两个或多个麦克风中选择一个麦克风的方法，用于在嘈杂环境中运行的“无手”电话设备的语音处理器系统
5. Method in order to select one of the microphones of two or more in regard to speech processing system such as the hand free telephone device which operates with the environment whose noise is many [P] . 日本专利： JP2012527003A . 2012-11-01

机译：关于在诸如噪声较大的环境下工作的免提电话设备之类的语音处理系统中，选择两个或多个麦克风之一的方法