首页> 中国专利> 语音处理方法、装置及语音处理模型的生成方法、装置

语音处理方法、装置及语音处理模型的生成方法、装置

摘要

本申请公开了一种语音处理方法、装置及语音处理模型的生成方法、装置,涉及语音技术、人工交互、深度学习技术领域。实现方案为:获取待处理的M个语音信号及N个参考信号;对每个信号分别进行子带分解,以获取每个语音信号及参考信号中的各个频带分量;获取N个参考信号在每个语音信号的每个频带中对应的理想比值膜IRM;基于每个IRM,对每个语音信号的每个频带分量进行回波消除,以获取回波消除后的M个语音信号。由此,基于真实的参考信号在语音信号的每个频带中对应的理想比值膜IRM,对语音信号的每个频带分量进行回波消除,无需依赖于任何模拟的信号,从而提高了回波消除的准确性和泛化性,改善了用户的使用体验。

著录项

  • 公开/公告号CN112466318A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202011164617.9

  • 发明设计人 陈旭;白锦峰;韩润强;贾磊;

    申请日2020-10-27

  • 分类号G10L21/0208(20130101);G10L21/0232(20130101);

  • 代理机构11201 北京清亦华知识产权代理事务所(普通合伙);

  • 代理人戎郑华

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本申请涉及信号处理技术领域,具体涉及语音技术、人工交互、深度学习技术领域,尤其涉及一种语音处理方法、装置、电子设备和存储介质,还涉及一种语音处理模型的生成方法、装置、电子设备和存储介质。

背景技术

随着芯片技术和语音技术的发展,越来越多的智能语音交互设备走进了人们的生活。比如家居场景中的智能音箱、智能电视,车载场景中的智能导航等,人们已经逐渐习惯于利用语音与设备交互以获取资源和服务。这些智能语音交互设备通常基于深度学习技术,并使用麦克风阵列和扬声器完成与用户之间的语音交互。

在语音交互的过程中,设备的扬声器发出的语音信号会通过智能硬件腔体和房间的反射等多条回波路径被自身麦克风接收。这些回波信号会减低用户真实语音信号的信噪比,造成语音识别错误、误唤醒/唤醒失败等问题,甚至会进一步引起设备误动作等严重影响用户体验的情况发生。因此,如何更好的提高回波消除的性能,以便更好的提升语音交互的体验,是当前语音交互相关技术的关键。

发明内容

本申请提供一种用于提高回波消除性能的语音处理方法、装置及语音处理模型的生成方法、装置。

根据本申请的第一方面,提供了一种语音处理方法,包括:获取待处理的M个语音信号及N个参考信号,其中,M和N分别为大于或等于1的正整数;对每个所述语音信号及参考信号分别进行子带分解,以获取每个所述语音信号及参考信号中的各个频带分量;利用回波消除模型对每个所述语音信号及参考信号中的各个频带分量进行处理,以获取所述N个参考信号在每个所述语音信号的每个频带中对应的理想比值膜IRM;基于所述N个参考信号在每个所述语音信号的每个频带中对应的IRM,对每个所述语音信号的每个频带分量进行回波消除,以获取回波消除后的M个语音信号。

根据本申请的第二方面,提供了语音处理模型的生成方法,包括:获取训练数据集,其中,所述训练数据集的每组训练数据中包括参考信号、带回波的语音信号及标注理想比值膜IRM;对每组所述参考信号及带回波的语音信号分别进行子带分解,以获取每组所述参考信号及带回波的语音信号中的各个频带分量;利用初始神经网络模型,对每组所述参考信号及带回波的语音信号中的各个频带分量进行处理,以获取每组所述参考信号在所述带回波的语音信号的每个频带中对应的预测IRM;根据每组所述预测IRM与对应的标注IRM的差异,对所述初始神经网络模型进行反向梯度传播修正,以生成训练后的语音处理模型。

根据本申请的第三方面,提供了一种语音处理装置,包括:获取模块,用于获取待处理的M个语音信号及N个参考信号,其中,M和N分别为大于或等于1的正整数;第一处理模块,用于对每个所述语音信号及参考信号分别进行子带分解,以获取每个所述语音信号及参考信号中的各个频带分量;第二处理模块,用于利用回波消除模型对每个所述语音信号及参考信号中的各个频带分量进行处理,以获取所述N个参考信号在每个所述语音信号的每个频带中对应的理想比值膜IRM;第三处理模块,用于基于所述N个参考信号在每个所述语音信号的每个频带中对应的IRM,对每个所述语音信号的每个频带分量进行回波消除,以获取回波消除后的M个语音信号。

由此,基于真实的参考信号在语音信号的每个频带中对应的理想比值膜IRM,对语音信号的每个频带分量进行回波消除,无需依赖于任何模拟的信号,从而提高了回波消除的准确性和泛化性,改善了用户的使用体验。

根据本申请的第四方面,提供了一种语音处理模型的生成装置,包括:第二获取模块,用于获取训练数据集,其中,所述训练数据集的每组训练数据中包括参考信号、带回波的语音信号及标注理想比值膜IRM;第五处理模块,用于对每组所述参考信号及带回波的语音信号分别进行子带分解,以获取每组所述参考信号及带回波的语音信号中的各个频带分量;第六处理模块,用于利用初始神经网络模型,对每组所述参考信号及带回波的语音信号中的各个频带分量进行处理,以获取每组所述参考信号在所述带回波的语音信号的每个频带中对应的预测IRM;第七处理模块,用于根据每组所述预测IRM与对应的标注IRM的差异,对所述初始神经网络模型进行反向梯度传播修正,以生成训练后的语音处理模型。

根据本申请的第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的语音处理方法,或者,执行上述一方面实施例所述的语音处理方法。

本申请的语音处理方法,基于真实的参考信号在语音信号的每个频带中对应的理想比值膜IRM,对语音信号的每个频带分量进行回波消除,无需依赖于任何模拟的信号,从而提高了回波消除的准确性和泛化性,改善了用户的使用体验。进一步地,用于进行回波消除的模型,是基于真实的参考信号、带回波的语音信号及标注理想比值膜IRM生成的,无需依赖于任何模拟的信号,从而提高了语音处理模型的准确性和泛化性,改善了用户的使用体验。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1为本申请实施例提供的一种语音处理方法的流程示意图;

图2为本申请实施例提供的一种进行子带分解的流程示意图;

图3为本申请实施例提供的另一种语音处理方法的流程示意图;

图4为本申请实施例提供的一种语音处理方法中获取理想比值膜IRM的流程示意图;

图5为本申请实施例提供的一种进行回波消除的示意图;

图6为本申请实施例提供的又一种语音处理方法的流程示意图;

图7为本申请实施例提供的一种语音处理模型的生成方法的流程示意图;

图8为本申请实施例提供的一种语音处理模型的生成方法中的获取训练数据集的流程示意图;

图9为本申请实施例提供的一种确定标注IRM的流程示意图;

图10为本申请实施例提供的另一种语音处理模型的生成方法的流程示意图;

图11为本申请实施例提供的一种语音处理装置的结构示意图;

图12为本申请实施例提供的一种语音处理模型的生成装置的结构示意图;

图13为用来实现本申请实施例的语音处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

需要说明的是,在语音交互中,扬声器发出的语音信号会通过智能硬件腔体和房间的反射等多条回波路径被麦克风接收。这些回波信号会减低用户真实语音信号的信噪比,造成语音识别错误,误唤醒/唤醒失败等问题,甚至进一步会引起设备误动作等严重影响用户体验的情况发生。因此,需要一种方法将这些回波信号消除掉,从而提高真实语音的信噪比,提升语音的识别率、唤醒的准确率和用户的交互体验。

相关技术中,通常对扬声器发出的信号进行估计以得到回波信号(模拟的信号),然后再将估计得到的回波信号从麦克风的输入信号中减去,从而得到估计的真实语音信号,达到回波消除的目的。该回波消除技术依赖于估计的回波信号,进而导致回波消除准确性较低、效果较差。

为此,本申请实施例提出了一种语音处理方法、装置及语音处理模型的生成方法、装置。本申请实施例,基于真实的参考信号在语音信号的每个频带中对应的理想比值膜IRM,对语音信号的每个频带分量进行回波消除,无需依赖于任何模拟的信号,从而提高了回波消除的准确性和泛化性,改善了用户的使用体验。

下面参考附图描述本申请实施例的语音处理方法、装置及语音处理模型的生成方法、装置。

图1为本申请实施例提供的一种语音处理方法的流程示意图。

需要说明的是,本申请实施例的语音处理方法应用于语音处理设备,该设备可以是智能家居设备,例如智能音箱、智能电视等,也可以是智能车载设备等。

如图1所示,该语音处理方法包括以下步骤:

S101,获取待处理的M个语音信号及N个参考信号,其中,M和N分别为大于或等于1的正整数。

其中,参考信号是指语音处理设备自身(扬声器)实际播放的语音信号。待处理的语音信号是由标准语音信号和回波信号组成的混合语音信号,其中,标准语音信号为语音处理设备需要识别或处理的纯净语音信号,回波信号是指语音处理设备自身播放的语音信号,经智能硬件腔体和房间的反射等多条回波路径后被麦克风采集到的回波信号。

本申请实施例中的语音信号和参考信号均是实际采集的真实信号,例如,参考信号是“喇叭播放的声音”,回波信号是“喇叭播放的声音被麦克风采集到的声音”,待处理的语音信号是“人声+喇叭播放的声音被麦克风采集到的声音”。

通常,在语音处理设备正在播放音频时,用户可能会有交互需求,从而会向该语音处理设备输入(标准)语音信号。该情况下,语音处理设备的麦克风便会采集到由标准语音信号和回波信号组成的混合语音信号,此时若该语音处理设备中有M个麦克风阵列,则会获取到M个待处理的语音。另外,若该语音处理设备中有N个扬声器,则可以通过采集电路采集到N个参考信号的获取,可以理解的是,此时每个待处理的语音信号中均包括N个参考信号对应的回波信号。

S102,对每个语音信号及参考信号分别进行子带分解,以获取每个语音信号及参考信号中的各个频带分量。

具体地,在获取到待处理的M个语音信号及N个参考信号之后,将每个语音信号及参考信号拆分成多路子带音频信号,并获取每个语音信号及参考信号中的各个频带分量,从而将语音信号及参考信号转换为频带特征,相比于传统FFT(Fast FourierTransformation,快速傅里叶变换)变换,子带分解能够更好地防止频带泄露,使不同频带间的信息更加独立,从而有利于提高回波消除的效率。

S103,利用回波消除模型对每个语音信号及参考信号中的各个频带分量进行处理,以获取N个参考信号在每个语音信号的每个频带中对应的理想比值膜IRM。

其中,回波消除模型是混合语音信号以及参考信号的各个频带分量-理想比值膜IRM(Ideal Ratio Mask,简称IRM)模型,即以混合语音信号及参考信号的各个频带分量为输入、理想比值膜IRM为输出,理想比值膜IRM表示标准语音信号在混合语音信号的每个频带分量中的占比。

具体地,在获取到每个语音信号及参考信号中的各个频带分量之后,将各个频带分量输入回波消除模型,以使回波消除模型对每个语音信号及参考信号中的各个频带分量进行处理后,输出N个参考信号在每个语音信号的每个频带中对应的理想比值膜IRM。

S104,基于N个参考信号在每个语音信号的每个频带中对应的IRM,对每个语音信号的每个频带分量进行回波消除,以获取回波消除后的M个语音信号。

具体地,在获取到N个参考信号在每个语音信号的每个频带中对应的IRM之后,基于IRM对每个语音信号的每个频带分量进行回波消除,并获取回波消除后的M个语音信号,回波消除后的语音信号即为标准语音信号即纯净的待识别或待处理的“人声”。

需要说明的是,由于本申请实施例中的理想比值膜IRM是标准语音信号的在混合语音信号的每个频带中的占比,因此在对每个频带分量进行回波消除时,可将得到的每个理想比值膜IRM与对应的混合语音信号的频带分量相乘,即将对应分量中的回波消除,从而得到回波消除后的各个频带分量,将回波消除后的各个分量合成后得到回波消除后地M个语音信号。

例如,若有1个待处理的语音信号及1个参考信号,则在获取到该语音信号和参考信号之后,对该语音信号及参考信号分别进行子带分解,以获取语音信号及参考信号中的各个频带分量,并将各个频带分量输入回波消除模型,以使回波消除模型进行处理后,输出该参考信号在该语音信号的第一频带中对应的IRM1、第二频带中对应的IRM2、第三频带中对应的IRM3、第四频带中对应的IRM4,之后,将IRM1乘以第一频带分量以消除第一频带中的回波信号、将IRM2乘以第二频带分量以消除第二频带中的回波信号、将IRM3乘以第三频带分量以消除第三频带中的回波信号、将IRM4乘以第三频带分量以消除第四频带中的回波信号,最后,将进行回波消除后的四个频带分量进行合成后即可得到回波消除后的1个语音信号。

本申请实施例的语音处理方法,基于真实的参考信号在语音信号的每个频带中对应的理想比值膜IRM,对语音信号的每个频带分量进行回波消除,无需依赖于任何模拟的信号,从而提高了回波消除的准确性和泛化性,改善了用户的使用体验。

需要说明的是,在实际应用中,参考信号与回波信号之间的关系,可能会因应用场景不同而有差异,例如,家居设备的参考信号与回波信号的关系,与车载设备中的参考信号与回波信号之间的关系不同。因此,在上述步骤S102中,可根据语音处理设备所处的环境对语音信号及参考信号,进行子带分解。例如,当语音处理设备处于车站等人流量较大的环境时,语音信号中的回波信号可能主要集中在高频带,则可将语音信号和参考信号分别拆分成多路子带音频信号(即进行子带细分),也可将语音信号和参考信号的高频段进行子带细分、而低频段可以进行子带粗分;或者,也可根据语音设备的类型对语音信号及参考信号,进行子带分解。

即在本申请地一个实施例中,如图2所示,上述步骤S102,包括:

S201,根据语音处理设备的类型,确定子带分解模式。

其中,子带分解模式可包括子带细分模式、子带粗分模式等。

S202,以分解模式,对每个语音信号及参考信号分别进行子带分解,以获取每个语音信号及参考信号中的各个频带分量。

例如,当语音处理设备为家居设备时,回波信号主要集中在低频带,那么在对每个语音信号及参考信号分别进行子带分解时,就可以进行粗分;而当语音处理设备为车载设备时,回波信号主要集中在奇数频段,那么在对每个语音信号及参考信号分别进行子带分解时,就需要进行子带细分。

由此,根据语音处理设备的类型对每个语音信号及参考信号进行子带分解,不仅能够防止频带泄漏,使频带间的信号更加独立,从而提高回波消除的准确性,而且避免乐对于回波消除而言不必要的子带分解,使子带分解更加简单、有效。

应当理解,本申请实施例中的回波消除模型是以语音信号及参考信号的各个频带分量,为输入信号进行的理想比值膜IRM的生成,以便于进行后续的回波消除。输入回波消除信号的各个频带分量中,可能存在奇异信号,奇异信号将导致模型的处理时间变长、且可能无法收敛的现象。因此,为了避免出现这种现象及后续数据处理的方便,可以对回波消除模型的输入信号进行归一化处理。

在本申请的一个实施例中,如图3所示,在利用回波消除模型对每个语音信号及参考信号中的各个频带分量进行处理之前,即在上述步骤S103之前,还可包括:

S301,将每个语音信号及参考信号中的各个频带分量进行归一化处理。

具体地,在获取到每个语音信号及参考信号中的各个频带分量之后,将每个语音信号及参考信号中的各个频带分量进行归一化处理,然后将归一化处理后的各个频带分量输入回波消除模型,以使回波消除模型进行处理后输出N个参考信号在每个语音信号的每个频带中对应的理想比值膜IRM,以基于IRM进行回波消除。

需要说明的是,由于本申请实施例中用到参考个数的的处理仅仅是子带分解以及归一化处理,因此,本申请实施例的计算复杂度并不会随着参考信号的个数线性增加。

由此,将各个频带分量进行归一化处理后,输入回波消除模型,从而避免了奇异频带分量导致的处理时间过长、以及无法收敛的现象,而且方便了模型的处理。

在本申请的一个实施例中,如图4所示,上述步骤S103,可包括以下步骤:

S401,对语音信号及参考信号中的每个频带分量进行多粒度特征提取,以获取每个语音信号及参考信号中每个频带分量的特征。

该实施例中,回波消除模型可以是基于因果卷积和LSTM(Long Short-TermMemory,长短时记忆)的神经网络模型。

具体地,将每个语音信号及参考信号的各个频带分量输入回波消除模型后,回波消除模型对每个频带分量进行因果卷积处理,以实现每个频带分量的特征提取,其中,在进行卷积处理时,通过设置不同的通道数,可以实现不同维度的特征提取。

如此,对每个频带分量进行卷积处理之后,即可实现每个频带分量的特征提取,而且,由于当前的回波信号只会依赖于之前的参考信号,因此使得整个回波消除过程没有任何硬延迟,提升语音处理的响应速度。

S402,对每个语音信号及参考信号中每个频带分量的特征进行特征融合,以获取N个参考信号在每个语音信号的每个频带中对应的IRM。

具体地,在获取到每个语音信号及参考信号中每个频带分量的特征之后,回波消除模型将其送入层叠的长短期记忆LSTM中,用来建模语音在时间上的动态特性,长短期记忆LSTM的输出构成了学习到的高级特征,接着将高级特征送入掩膜层得到N个参考信号在每个语音信号的每个频带中对应的理想比值膜IRM,之后,可将分别将每个理想比值膜IRM与对应的语音信号的频带分量相乘以消除频带分量中的回波信号。

为了更加清楚地描述本申请实施例的语音处理方法,下面通过一个示例说明:

如图5所示,获取两路语音信号和一路参考信号,M

在进行卷积处理后,通过频带共享LSTM以及按照卷积输出的通道数进行归一化处理,其中,各个卷积层的不同频带之间完全共享,进而得到参考信号R(t)在第一路参考信号M

由此,利用回波消除模型将每个频带分量进行多粒度特征提取,以提取出频带特征后,将每个频带特征进行融合处理,并获取参考信号在每个语音信号的每个频带中的IRM,从而在进行回波消除时,模型权重参数保持不变,不论回波信号是音乐、有声还是TTS(Text To Speech,从文本到语音),均会根据回波消除模型输出的理想比值膜IRM对回波进行消除,保证了回波消除的稳定性。

需要说明的是,本申请实施例的基于神经网络的回波消除模型可以直接接入语音识别模型、语因唤醒模型的前端,进行端到端联合训练,利于反传的梯度对于模型权重进行调节,进一提升内噪下语音识别、唤醒的准确率。即在本申请的一个实施例中,如图6所示,在获取回波消除后的M个语音信号之后,即在上述步骤S104之后,可包括:

S601,将M个语音信号输入语音识别模型,以获取M个语音信号对应的识别结果。

其中,语音识别模型,可以是以语音信号为输入、识别结果为输出的神经网络模型。需要说明的是,可将多个不含回波信号的语音信号作为采样信号,进行学习训练得到语音识别模型。

具体地,在获取到回波消除后的语音信号,即标准语音信号之后,将其输入语音识别模型,进而语音识别模型便通过自学习输出与该标准语音信号对应的语音识别结果。

例如,回波消除后的语音信号是“今天天气温度多少度”,则语音识别模型输出的识别结果为“播报今天的天气温度”,于是语音处理设备控制其扬声器播报“今天天气温度24摄氏度”的音频信号。

本申请实施例的语音处理方法,还可以用在设备处于内噪场景时的唤醒功能中,即在获取到回波消除后的语音信号,即标准语音信号之后,可将其输入语音唤醒模型,以实现内噪唤醒功能。

具体来说,当语音处理设备自身处于语音播报场景时,若设备接收到用户的唤醒语音信号(其中带有回波信号),则首先获取当前实际播报的参考信号,然后将用户的唤醒语音信号及参考信号进行子带分解后得到各个频带分量,并对各个频带分量进行归一化处理,之后,利用回波消除模型对各个频带分量进行处理后,得到参考信号在唤醒语音信号的每个频带中对应的理想比值膜IRM,之后,将该IRM乘以唤醒语音信号对应的频带分量,即可得到多个回波消除后的频带分量,将多个回波消除后的频带分量合成处理后即可得到一个消除回波后的唤醒语音信号,语音处理设备便根据回波消除后的唤醒语音进行相应的响应。

由此,基于神经网络的回波消除模型可以直接接入到语音识别模型、语音唤醒模型的前端,进行端到端的联合训练,进一步提升内噪下语音识别、语音唤醒的准确率,而且为内噪下唤醒、内噪下语音检测等场景的模型性能提升了保留空间。

本申请实施例还提供了一种语音处理模型的生成方法,图7为本申请实施例提供的一种语音处理模型的生成方法的流程示意图。

如图7所示,该语音处理模型的生成方法包括:

步骤S701,获取训练数据集,其中,训练数据集的每组训练数据中包括参考信号、带回波的语音信号及标注理想比值膜IRM。

其中,标注IRM可根据实际的标准语音信号以及带回波的语音信号得到,也可根据标准语音信号、参考信号及对应的回波信号得到。标准语音信号为语音处理设备需要识别或处理的纯净语音信号。

步骤S702,对每组参考信号及带回波的语音信号分别进行子带分解,以获取每组参考信号及带回波的语音信号中的各个频带分量。

该步骤与上述步骤S102类似,为避免冗余,此处不再赘述。

步骤S703,利用初始神经网络模型,对每组参考信号及带回波的语音信号中的各个频带分量进行处理,以获取每组参考信号在带回波的语音信号的每个频带中对应的预测IRM。

可以理解的是,理想比值膜IRM表示的是标准语音信号在带回波的语音信号中的占比,因此,当仅仅在参考信号及带回波的语音信号已知的情况下,只能预测出对应的IRM。

具体地,在获取到每组参考信号及带回波的语音信号中的各个频带分量之后,可将各个频带分量输入初始神经网络模型,以使初始神经网络模型输出预测IRM。

步骤S704,根据每组预测IRM与对应的标注IRM的差异,对初始神经网络模型进行反向梯度传播修正,以生成训练后的语音处理模型。

需要说明的是,初始神经网络模型是以参考信号及带回波的语音信号为输入、预测IRM为输出的神经网络模型,其只能输出预测IPM,为了保证输出参考信号及回波的语音信号对应的真实的IPM,本申请实施例需结合标准语音信号对其进行修正,以训练成以参考信号、带回波的语音信号为输入、真实的理想比值膜IRM为输出的语音处理模型。

具体地,在执行完上述步骤S701至S703之后,即可得到多组参考信号及带回波的语音信号对应的标注IRM和预测IRM,可计算二者之间的均方误差(Mean Square Error,简称MSE),以通过均方误差判断损失值,并通过反向梯度传播来确定梯度向量,进而通过梯度向量来调整每一个权值,使均方误差趋于0或收敛,从而在初始网络模型的基础上生成训练后的语音处理模型,其中,均方误差越小,生成的语音处理模型精确度越高。

需要说明的是,本申请实施例中的语音处理模型是以待处理的语音信号及参考信号为输入、真实的理想比值膜IRM为输出的神经网络模型。因此,可通过语音处理模型进行回波消除,即在进行语音处理时,将待处理的语音信号及参考信号输入语音处理模型,进而语音处理模型输出与输入对应的真实的理想比值膜IRM,之后,将语音处理模型输出的IRM乘以待处理的语音信号,即可得到回波消除后的语音信号,即标准语音信号。

基于上述描述可知,本申请通过对初始神经网络模型进行训练得到语音处理模型,以通过语音处理模型将语音信号中的回波消除,进而可将消除回波信号后的语音信号输入至语音识别模型或者语音唤醒模型,以使语音识别模型输出对应的识别结果。除此之外,可将初始神经网络模型与语音识别模型或者语音唤醒模型串联后,统一进行语音处理及识别的模型训练,以通过该模型输出对应的识别结果。

本申请实施例的语音处理模型的生成方法,基于真实的参考信号、带回波的语音信号及标注理想比值膜IRM,生成语音处理模型,无需依赖于任何模拟的信号,从而提高了语音处理模型的准确性和泛化性,改善了用户的使用体验。

本申请实施例中的训练数据集的每组训练数据中包括参考信号、带回波的语音信号及标注理想比值膜IRM,而标注IRM是根据实际的标准语音信号以及带回波的语音信号,或者,标准语音信号、参考信号及对应的回波信号得到的。因此,可通过下列实施例获取训练数据集:

在本申请的一个实施例中,如图8所示,上述步骤S701,可包括:

步骤S801,获取多组标准语音信号、参考信号及对应的回波信号。

本申请实施例中,可将正在播放音频的语音处理设备放置在安静环境下,这样设备的各麦克风便会接收到自身播放的参考信号的回波信号,如此,即可获取多组参考信号及对应的回波信号。之后,可获取多个标准语音信号。

步骤S802,将每组回波信号与标准语音信号进行融合,以生成带回波的语音信号。

具体地,在获取到多组标准语音信号、参考信号及对应的回波信号之后,为了使生成的带回波的语音信号具有较强的泛化能力,可以以语音处理设备所处的环境、语音处理设备的类型为依据,将每组回波信号与标准语音信号进行融合,还可以按照一定的信噪比将每组回波信号与标准语音信号进行融合。

即在本申请的一个示例中,依据不同的信噪比,将每组回波信号与标准语音信号进行融合,以生成多组带回波的语音信号。

其中,信噪比表征了带回波的语音信号中的标准语音信号与回波信号的比值,也就是说,信噪比不同,回波信号在带回波的语音信号中的占比不同。

为了提高语音处理模型的泛化能力,可预先设置不同的信噪比,以根据不同的信噪比,将每组回波信号与标准语音信号进行融合,以生成多组信噪比不同的带回波的语音信号,从而提高了带回波的语音信号的泛化性,进一步提高了语音处理模型的泛化性能。

步骤S803,将每组标准语音信号及带回波的语音信号进行子带分解,以获取每组标准语音信号及带回波的语音信号中的各个频带分量。

步骤S804,根据每组标准语音信号及带回波的语音信号中的各个频带分量,确定每组带回波的语音信号对应的标注IRM。

进一步地,如图9所示,该步骤S804,可包括:

步骤S901,将每组标准语音信号及带回波的语音信号中的每个频带分量取模,以获取每组标准语音信号及带回波的语音信号中每个频带分量的幅值。

步骤S902,根据标准语音信号中的各个频带分量的幅值与带回波的语音信号中的各个频带分量的幅值间的比值,确定每组带回波的语音信号对应的标注IRM。

具体而言,在获取到每组标准语音信号及带回波的语音信号中的各个频带分量之后,可将每个频带分量取模,以获取每个频带分量的幅值,之后,获取每个标准语音信号中的每个频带分量的幅值,与带回波的语音信号中的各个频带分量的幅值之间的比值,从而得到多个比值,将每组标准语音信号的各个频带分量的幅值在带回波的语音信号的各个频带分量的幅值之间的多个比值,进行融合处理,得到每个标准语音信号在每个带回波的语音信号中的标注IRM,由此得到用于训练的多组真实的标注IRM。

也就是说,对于一个带回波的频带分量而言,标注IRM*带回波的频带分量的幅值=标准频带分量的幅值。

由此,基于真实的标准语音信号及带回波的语音信号的幅值,确定带回波的语音信号对应的标注IRM,以实现语音处理模型的生成,有利于使神经网络更加专注于幅度谱的回波消除。

应当理解,本申请实施例中的初始神经网络模型是以每组参考信号及带回波的语音信号中的的各个频带分量为输入信号,以预测IRM为输出的模型,输出的预测IRM用于语音处理模型的生成。输入初始神经网络模型的各个频带分量中,可能存在奇异信号,奇异信号将导致模型的处理时间变长、且可能无法收敛的现象。因此,为了避免出现这种现象及后续数据处理的方便,可以对初始神经网络模型的输入信号进行归一化处理。

在本申请的一个实施例中,如图10所示,在利用初始神经网络模型,对每组参考信号及带回波的语音信号中的各个频带分量进行处理之前,即在上述步骤S703之前,还可包括:

步骤S1001,将每组语音信号及参考信号中的各个频带分量进行归一化处理。

具体地,在获取到每组语音信号及参考信号中的各个频带分量之后,将每组语音信号及参考信号中的各个频带分量进行归一化处理,然后将归一化处理后的各个频带分量输入初始神经网络模型,以使初始神经网络模型进行处理后输出每组带回波的语音信号对应的标注IRM,并将其用于语音处理模型的生成。

由此,将各个频带分量进行归一化处理后,输入初始神经网络模型,从而避免了奇异频带分量导致的处理时间过长、以及无法收敛的现象,而且方便了模型的处理。

本申请实施例还提出了一种语音处理装置,图11为本申请实施例提供的一种语音处理装置的结构示意图。

如图11所示,该语音处理装置100包括:第一获取模块110、第一处理模块120、第二处理模块130及第三处理模块140。

其中,第一获取模块110用于获取待处理的M个语音信号及N个参考信号,其中,M和N分别为大于或等于1的正整数;第一处理模块120用于对每个语音信号及参考信号分别进行子带分解,以获取每个语音信号及参考信号中的各个频带分量;第二处理模块130用于利用回波消除模型对每个语音信号及参考信号中的各个频带分量进行处理,以获取N个参考信号在每个语音信号的每个频带中对应的理想比值膜IRM;第三处理模块140用于基于N个参考信号在每个语音信号的每个频带中对应的IRM,对每个语音信号的每个频带分量进行回波消除,以获取回波消除后的M个语音信号。

在本申请的一个实施例中,第一处理模块,具体用于:根据语音处理设备的类型,确定子带分解模式;以分解模式,对每个语音信号及参考信号分别进行子带分解。

在本申请的一个实施例中,语音处理装置100,还包括:第四处理模块,用于在利用回波消除模型对每个语音信号及参考信号中的各个频带分量进行处理之前,将每个语音信号及参考信号中的各个频带分量进行归一化处理。

在本申请的一个实施例中,第二处理模块130,可包括:特征提取单元和特征融合单元。

其中,特征提取单元用于对语音信号及参考信号中的每个频带分量进行多粒度特征提取,以获取每个语音信号及参考信号中每个频带分量的特征;特征融合单元用于每个语音信号及参考信号中每个频带分量的特征进行特征融合,以获取N个参考信号在每个语音信号的每个频带中对应的IRM。

在本申请的一个实施例中,语音处理装置100,还包括:输入模块,用于在获取回波消除后的M个语音信号之后,将M个语音信号输入语音识别模型,以获取M个语音信号对应的识别结果。

需要说明的是,本申请实施例的语音处理装置的其他具体实施方式可参见前述语音处理方法的具体实施方式,为避免冗余,此处不再赘述。

本申请实施例的语音处理装置,基于真实的参考信号在语音信号的每个频带中对应的理想比值膜IRM,对语音信号的每个频带分量进行回波消除,无需依赖于任何模拟的信号,从而提高了回波消除的准确性和泛化性,改善了用户的使用体验。

为了实现上述实施例,本申请实施例还提出一种语音处理模型的生成装置,图12为本申请实施例提供的一种语音处理模型的生成装置的结构示意图。

如图12所示,该语音处理模型的生成装置200包括:第二获取模块210、第五处理模块220、第六处理模块230及第七处理模块240。

其中,第二获取模块210用于获取训练数据集,其中,训练数据集的每组训练数据中包括参考信号、带回波的语音信号及标注理想比值膜IRM;第五处理模块220用于对每组参考信号及带回波的语音信号分别进行子带分解,以获取每组参考信号及带回波的语音信号中的各个频带分量;第六处理模块230用于利用初始神经网络模型,对每组参考信号及带回波的语音信号中的各个频带分量进行处理,以获取每组参考信号在带回波的语音信号的每个频带中对应的预测IRM;第七处理模块240用于根据每组预测IRM与对应的标注IRM的差异,对初始神经网络模型进行反向梯度传播修正,以生成训练后的语音处理模型。

在本申请的一个实施例中,第二获取模块210,具体用于:获取多组标准语音信号、参考信号及对应的回波信号;将每组回波信号与标准语音信号进行融合,以生成带回波的语音信号;将每组标准语音信号及带回波的语音信号进行子带分解,以获取每组标准语音信号及带回波的语音信号中的各个频带分量;根据每组标准语音信号及带回波的语音信号中的各个频带分量,确定每组带回波的语音信号对应的标注IRM。

在本申请的一个实施例中,第二获取模块210,具体用于:依据不同的信噪比,将每组回波信号与标准语音信号进行融合,以生成多组带回波的语音信号。

在本申请的一个实施例中,第二获取模块210,具体还用于:将每组标准语音信号及带回波的语音信号中的每个频带分量取模,以获取每组标准语音信号及带回波的语音信号中每个频带分量的幅值;根据标准语音信号中的各个频带分量的幅值与带回波的语音信号中的各个频带分量的幅值间的比值,确定每组带回波的语音信号对应的标注IRM。

在本申请的一个实施例中,语音处理模型的生成装置,还可包括:第八处理模块,用于将每组语音信号及参考信号中的各个频带分量进行归一化处理。

需要说明的是,本申请实施例的语音处理模型的生成装置的具体实施方式可参见前述语音处理模型的生成方法的具体实施方式,故在此不再赘述。

本申请实施例的语音处理模型的生成装置,基于真实的参考信号、带回波的语音信号及标注理想比值膜IRM,生成语音处理模型,无需依赖于任何模拟的信号,从而提高了语音处理模型的准确性和泛化性,改善了用户的使用体验。

根据本申请的实施例,本申请还提供了一种语音处理方法或者语音处理模型的生成方法的电子设备和可读存储介质。下面结合图13进行说明。

如图13所示,是根据本申请实施例的语音处理方法或者语音处理模型的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示,该电子设备包括:一个或多个处理器1310、存储器1320,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器1310为例。

存储器1320即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音处理方法或者语音处理模型的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音处理方法或者语音处理模型的生成方法。

存储器1320作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音处理方法对应的程序指令/模块(例如,附图11所示的第一获取模块110、第一处理模块120、第二处理模块130及第三处理模块140,或者,附图12所示的第二获取模块210、第五处理模块220、第六处理模块230及第七处理模块240)。处理器1310通过运行存储在存储器1320中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音处理方法或者语音处理模型的生成方法。

存储器1320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音处理电子设备的使用所创建的数据等。此外,存储器1320可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1320可选包括相对于处理器1310远程设置的存储器,这些远程存储器可以通过网络连接至语音处理方法或者语音处理模型的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音处理方法或者语音处理模型的生成方法的电子设备还可以包括:输入装置1330和输出装置1340。处理器1310、存储器1320、输入装置1330和输出装置1340可以通过总线或者其他方式连接,图13中以通过总线连接为例。

输入装置1330可接收输入的数字或字符信息,以及产生与语音交互方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1340可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。

根据本申请实施例的技术方案,基于真实的参考信号在语音信号的每个频带中对应的理想比值膜IRM,对语音信号的每个频带分量进行回波消除,无需依赖于任何模拟的信号,进一步地,用于进行回波消除的模型,是基于真实的参考信号、带回波的语音信号及标注理想比值膜IRM生成的,也无需依赖于任何模拟的信号,从而提高了回波消除的准确性和泛化性,改善了用户的使用体验。在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号