首页> 中国专利> 一种基于双麦克风阵列的目标语音提取方法

一种基于双麦克风阵列的目标语音提取方法

页面导航

摘要
著录项
说明书
相似文献

摘要

一种基于双麦克风阵列的目标语音提取方法，包括如下步骤：S1.将两个麦克风接收的时域信号转化为频域信号；S2.然后对频域信号进行频域盲源分离算法处理；处理后得到两个源信号的估计信号；S3.利用两个源信号的估计信号求出各自的累加语音存在概率和功率谱值，并根据语音存在概率和功率谱值选择概率值高和功率谱值大的估计信号作为目标语音传输到后端语音识别系统进行识别。本发明对盲源分离算法分离后的两个信号通过语音存在概率和功率谱值的综合比较，提取出目标语音信号；该方法相对传统方法，不需要利用DOA提供目标声源先验信息，且不需要采用深度学习方法提取，对系统资源要求降低。

著录项

公开/公告号CN113096684A

专利类型发明专利
公开/公告日2021-07-09

原文格式PDF
申请/专利权人成都启英泰伦科技有限公司;
展开▼

申请/专利号CN202110630288.0
发明设计人曾帆;
展开▼

申请日2021-06-07
分类号G10L21/0272(20130101);G10L21/0216(20130101);G10L15/20(20060101);G10L15/05(20130101);G06K9/62(20060101);
代理机构
代理人
地址 610041 四川省成都市高新区天府五街200号菁蓉汇4号楼A座12层
入库时间 2023-06-19 11:45:49

说明书

技术领域

本发明属于人工智能技术领域，涉及语音提取技术,具体涉及一种基于双麦克风阵列的目标语音提取方法。

背景技术

在人工智能技术领域，语音增强、语音识别一直都是专家学者及语音交互产品市场关注的热点话题。其中，双麦克风阵列以其显而易见的优势成为技术人员研究的主要对象。原因在于相比于单麦克风，双麦克风阵列在降噪处理及远距离拾音等方面具有较大优势；而与多麦克风阵列相比，双麦克风阵列又极大简化了语音交互产品的硬件设计方案及语音前端算法处理的复杂度。因此，双麦克风阵列以其小巧灵活的构型以及电路、算力、成本要求都比较低而广泛应用于智能家居、智能家电、智能玩具等领域。

在语音增强技术上，基于双麦克风阵列的语音信号处理算法主要有基于波束形成的算法，如延时累加波束形成（Delay-Sum Beamforming,DSB）方法、最小方差无失真响应（Minimum Variance Distortionless Response,MVDR）波束形成方法等，基于盲源分离的算法以及基于深度学习的方法等。其中，基于盲源分离的算法相比于传统波束形成方法降噪效果好、相比于深度学习方法算力小，易集成在嵌入式系统上。因此，盲源分离算法在双麦克风阵列降噪处理上具有很好的应用前景。

虽然盲源分离算法在双麦降噪处理上可以取得较好的效果，但由于盲源分离算法只是将语音与噪声或者语音与干扰分离开，对于如何在盲源分离处理后提取目标语音仍是需要解决的难题。目前，对于目标语音的提取，主要的方法有基于目标声源的波达方向（Direction of Arrival,DOA）、基于深度学习的训练、基于音视频融合等方法。但是对于双麦克风而言，由于其麦克风数量较少，空间指向性较弱，利用DOA的方法会使目标语音提取时信号频谱失真甚至无法提取到目标语音，而深度学习的方法又对嵌入式系统的性能和资源要求较高。

发明内容

为克服现有方案技术存在的缺陷，本发明公开了一种基于双麦克风阵列的目标语音提取方法。

本发明所述基于双麦克风阵列的目标语音提取方法，其特征在于，包括如下步骤：

S1. 将两个麦克风接收的时域信号转化为频域信号；

S2. 然后对频域信号进行频域盲源分离算法处理；处理后得到两个源信号的估计信号；

S3. 利用两个源信号的估计信号求出各自的累加语音存在概率和功率谱值，并以功率谱值比值和概率值差值进行综合比较，设置不同的阈值范围，将功率谱值大和概率值高的信号作为目标语音传输到后端语音识别系统进行识别。

优选的：如果步骤S3中识别不成功，则更换另一估计信号进行识别。

优选的：所述S1步骤具体为：

S11.对时域信号做分帧加窗处理，设置每帧长度为K个采样点；

S12. 进行分帧加窗处理后的时域信号进行端点识别处理，检测输入信号是否为语音信号，是则进入下一步骤S13，否则终止进程；

S13.对时域信号进行短时傅里叶变换，得到频域信号。

优选的：所述S2步骤具体为：

S21.对双麦克风阵列，以2 * 2单位矩阵作为分离矩阵W(k,l)的初始化矩阵，对分离矩阵W(k,l)进行逐帧更新；即帧数增加1，更新一次；

W(k,l)的更新规则为：

W(k,l)+η*Δw（k）；即每次更新增加一个η*Δw（k）；

其中：0<η<1, η为W(k,l)更新的步长因子；

分离矩阵更新变量Δw（k）计算方法为：

其中H表示复数共轭转置，M为单位矩阵,E表示期望,k表示第k个时频点，l表示第l帧语音信号, y(k,l)表示双麦克风阵列估计信号；；

W(k)即分离矩阵 W(k,l)，Δw（k）表示分离矩阵更新变量；

语音信号概率密度

其中

上式中 i = 1，2，表示不同麦克风的源信号；

S22.对每一帧进行分离矩阵W(k,l)的上述更新；

S23.利用分离矩阵W(k,l)得到估计信号y(k,l)= W(k,l)*x(k,l)，x(k,l)表示接收信号。

优选的：所述S3步骤具体为：

根据语音存在概率差值和功率谱值比值提取目标语音Y为：

其中两个估计信号y

本发明通过本发明所述目标语音提取方法，利用盲源分离算法降噪性好的特点，对盲源分离算法分离后的两个信号通过语音存在概率和功率谱值比较，提取出目标语音信号；该方法相对传统方法，不需要利用DOA提供目标声源先验信息，且不需要采用深度学习方法提取，对系统资源要求降低，并在大多数情况下能准确单次即提取出目标语音。

附图说明

图1是本发明所述目标语音提取方法的一个具体实施方式示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述基于双麦克风阵列的目标语音提取方法，包括如下步骤：

S1. 将两个麦克风接收的时域信号转化为频域信号；

S2. 然后对频域信号进行频域盲源分离算法处理；处理后得到两个源信号的估计信号；源信号为麦克风观测的信号,现实中不易直接得出,可利用频域盲源分离算法处理对频域信号进行处理得到源信号的估计信号。

S3. 利用两个源信号的估计信号求出各自的累加语音存在概率和功率谱值，并以功率谱值比值和概率值差值综合比较，设置不同的阈值范围，将功率谱值大和概率值高的信号作为目标语音传输到后端语音识别系统进行识别。

本发明首先对麦克风阵列采集的信号进行语音活性检测，去除静音和不包含语音的噪声信号，然后对端点识别处理后的混合语音信号进行频域盲源分离算法处理，得到两个分离后的信号。并对分离后的信号计算各自的语音存在概率和功率谱值。最后以功率谱值比值和概率值差值综合比较，设置不同的阈值范围，将功率谱值大和概率值高的信号作为目标声源输出，并传输到ASR系统做识别。若该次识别未响应或识别错误，再将另一个分离信号传输到ASR系统做第二次识别。

以下进行更详细的说明。

将两个麦克风接收的时域信号转化为频域信号，假设双麦克风阵列中两个麦克风接收的时域信号分别为z

首先对两个时域信号z

进行分帧加窗处理后的时域信号进行端点识别（VAD）处理，检测输入信号是否为语音信号，去除静音和不包含语音的噪声信号。端点识别方法可以是短时功率谱、短时幅度、短时平均过零率等判定方法中任意一种或几种方法的结合。

检测到语音信号起始端点后，对时域信号z

然后对频域信号x

本发明以自然梯度下降IVA算法为例，利用双麦克风阵列分离两个源信号，源信号为麦克风观测的信号,现实中不易直接得出,可利用频域盲源分离算法对麦克风阵列的接收信号进行处理得到源信号的估计信号。

具体实现过程为：

设x(k,l),y(k,l)分别为双麦克风阵列的接收信号及经频域盲源分离算法处理后的估计信号，则：

x(k,l)=[x

y(k,l)=[y

y(k,l)=W(k,l)*x(k,l)

其中：x

对双麦克风阵列，W(k,l)表示2 * 2的分离矩阵。可通过按帧实时更新该分离矩阵W(k,l)得到双麦克风阵列估计信号y(k,l)。

一般的，分离矩阵W(k,l)用2 * 2的单位矩阵作为初始化矩阵，其更新过程为：

以超高斯分布近似表示语音信号的概率密度分布，即源语音信号概率密度分布

其中; y

则分离矩阵W(k,l)更新的梯度计算方法为：

分离矩阵更新变量：

其中H表示复数共轭转置，M为单位矩阵，E表示期望；

W(k)即分离矩阵 W(k,l)，Δw（k）表示分离矩阵更新变量；

语音信号概率密度

则W(k,l)的更新规则为：

W(k,l)+η*Δw（k）；即每次更新增加一个η*Δw（k）；

其中：0<η<1, η为W(k,l)更新的步长因子，可设置η=0.01。

则估计信号y(k,l)= W(k,l)*x(k,l),

然后分别求两个估计信号y

估计信号的语音存在概率的计算过程为：

首先计算估计信号y

psd

设置噪声估计窗长为N帧，设置噪声估计窗内信号功率谱阈值最小值为ε；然后根据每N帧长的噪声窗不断更新ε，即

psd

ε= min{ε, psd

其中psd

其中C(k,l)为当前帧的语音存在标识，判断阈值δ=M*ε

则语音存在概率P

其中：0<α

选取语音能量集中的频带计算累加语音存在概率,两个估计信号的累加语音存在概率为Prob

其中：KS为累加计算点,1

另外，两个估计信号的功率谱值Pow

最后以两个麦克风的功率谱值比值和概率值差值综合比较，设置不同的阈值范围，将功率谱值大和概率值高的作为目标语音传输到后端语音识别系统做识别。若该次识别未响应，则将功率谱值小的信号传输到后端语音识别系统做二次识别。

具体地，根据语音存在概率差值和功率谱值比值提取目标语音可按如下设置：

定义:δ

则提取的目标语音信号Y为：

上述目标语音提取的原理在于，在信噪比较高情况下，当一个估计信号的功率谱比值或概率值明显高于另一个估计信号的功率谱值或概率值时，可认为此时功率谱值或概率值高的估计信号为目标语音信号。但当功率谱值和概率值相差不大时，需要综合考虑差值范围，如上述分段函数所示,选择功率谱值和概率值至少一个相差较大，且另一个也不低的，具体的端点区间可以根据实际情况调整。

采用前述的具体实施方式和参数设置,进行语音提取,其中目标人声位于阵列90°方向，距离双麦克风阵列2米，说话声65-70dB。噪声位于阵列180°方向，距离双麦克风阵列1米，音响播放噪声。噪声类型为新闻噪声和音乐噪声55-60dB；按照本发明所述步骤S1至S3，仅进行第一次识别的实验结果如下表,其中对识别率的统计采用命令词识别方法，即统计100个命令词中能正确识别的词的个数、错误识别的个数及未能识别的个数，最终以正确识别率作为评估标准：

表1 正确识别率比较

从上表可见，在无需进行第二次识别的情况下，与以DOA为先验信息的目标语音提取方法相比，正确识别率相差不大，说明本发明所述目标语音提取方法可正确选取目标语音。

通过本发明所述目标语音提取方法，利用盲源分离算法降噪性好的特点，对盲源分离算法分离后的两个信号通过语音存在概率和功率谱值综合比较，提取出目标语音信号；该方法相对传统方法，不需要利用DOA提供目标声源先验信息，且不需要采用深度学习提取，对系统资源要求降低，并在信噪比（SNR）较高情况如SNR 不小于5dB下能准确单次即提取出目标语音。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于双麦克风阵列的目标语音提取方法 [P] . 中国专利： CN113889138A . 2022-01-04
2. 一种基于双麦克风阵列的智能语音交互系统 [P] . 中国专利： CN109817209B . 2020.09.25
3. Microphone array based speech recognition system and target speech extracting method of the system [P] . 美国专利： US8249867B2 . 2012-08-21

机译：基于麦克风阵列的语音识别系统及其目标语音提取方法
4. MICROPHONE ARRAY BASED SPEECH RECOGNITION SYSTEM AND TARGET SPEECH EXTRACTION METHOD OF THE SYSTEM [P] . 韩国专利： KR101023211B1 . 2011-03-18

机译：基于麦克风阵列的语音识别系统及系统的目标语音提取方法
5. MICROPHONE ARRAY BASED SPEECH RECOGNITION SYSTEM AND TARGET SPEECH EXTRACTION METHOD OF THE SYSTEM [P] . 韩国专利： KR20090061566A . 2009-06-16

机译：基于麦克风阵列的语音识别系统及系统的目标语音提取方法