首页> 中国专利> 一种提高车内语音识别准确率的前处理系统及其控制方法

一种提高车内语音识别准确率的前处理系统及其控制方法

摘要

本发明公开了一种提高车内语音识别准确率的前处理系统及其控制方法,控制方法包括以下步骤:振动传感器采集当前车外不同位置处的原始振动信号,同时车内麦克风采集当前车内的声音信号;通过卷积神经网络降噪模型和循环神经网络模型建立传递通道模型,以形成原始振动信号与车内噪声信号的映射关系,并输出建模后的抵消信号;根据建模后的抵消信号去除所述声音信号中的车内噪声信号,得到降噪后的残余信号,以作为语音识别系统的输入信号。本发明提供的前处理系统在语音识别系统前端进行语音信号的降噪及增强,提升语音识别的正确率,同时通过麦克风的布放定位车内发出语音的乘客位置,便于满足不同乘客的控制需求。

著录项

  • 公开/公告号CN112259113A

    专利类型发明专利

  • 公开/公告日2021-01-22

    原文格式PDF

  • 申请/专利权人 清华大学苏州汽车研究院(相城);

    申请/专利号CN202011060176.8

  • 申请日2020-09-30

  • 分类号G10L21/0208(20130101);G10L15/26(20060101);G10L15/22(20060101);

  • 代理机构32103 苏州创元专利商标事务所有限公司;

  • 代理人吴芳

  • 地址 215134 江苏省苏州市相城区渭塘镇爱格豪路19号中汽零大厦

  • 入库时间 2023-06-19 09:38:30

说明书

技术领域

本发明涉及语音降噪领域,特别涉及一种提高车内语音识别准确率的前处理系统及其控制方法。

背景技术

语音交互是人在驾驶汽车时,实现对车载系统控制最为方便与高效的手段。车内环境下的语音识别与控制将成为未来人车交互的热点技术方向。车辆行驶时车内较大的背景噪声包括路噪,发动机噪声,风噪,这些非平稳的时变噪声会严重影响语音识别系统的性能,降低系统识别的准确性,需要有相应的前处理系统对带噪语音信号进行降噪处理。同时现有车载语音识别系统不能对车内语音信号做定位区分,无法实现不同乘坐位置乘客的针对性语音控制,也降低了乘客的驾乘体验。

现有车载语音的降噪处理系统可以分为单通道语音增强和多通道语音增强。单通道增强一般是基于语音活动检测或统计模型方法,通过提升语音识别算法本身的鲁棒性,提升车内复杂环境语音识别的正确率。但在降噪的同时会引起语音信号的失真,常用于处理平稳噪声,对非平稳噪声控制效果不佳。多通道语音增强通过在车内布置多个麦克风,组成麦克风阵列接收声音信号进行语音信号降噪,从而获得更好的识别效果,可以在一定程度上处理非平稳噪声,但仍然存在降噪性能不理想、噪声追踪性能差等问题。

发明内容

为了克服现有技术存在的不足,本发明提供了一种提高车内语音识别准确率的前处理系统及其控制方法,所述技术方案如下:

一方面,本发明提供了一种提高车内语音识别准确率的前处理系统的控制方法,包括以下步骤:

S1、采集当前车外不同位置处的原始振动信号,同时采集当前车内声音信号,所述车内声音信号包括车内噪声信号和车内语音信号;

S2、通过卷积神经网络降噪模型对所述原始振动信号进行实时特征学习,得到相应的特征向量并输出至循环神经网络模型中;

S3、通过所述循环神经网络模型建立传递通道模型,以形成所述原始振动信号与所述车内噪声信号的映射关系,并输出建模后的抵消信号;

S4、根据所述抵消信号,去除所述车内声音信号中的所述车内噪声信号,得到降噪后的语音信号,并把该语音信号作为语音识别系统的输入信号。

进一步地,在S2步骤中,所述卷积神经网络降噪模型为六层结构,从输入到输出依次为第一卷积层、第二卷积层、最大池化层、第三卷积层、平均池化层和Dropout层,输入信号数据矩阵后将得到一个特征向量输出。

进一步地,在S3步骤中,输出建模后的抵消信号包括以下流程:

S31、通过所述循环神经网络模型得到抵消信号;

S32、所述抵消信号与所述车内噪声信号进行比较,得到残余误差信号;

S33、当所述残余误差信号超过设定值时,执行S34;当所述残余误差信号不超过设定值时,直接输出该抵消信号;

S34、根据残余误差信号更新所述循环神经网络模型中的模型参数,再执行S31-S33。

进一步地,在S1步骤中,存在多个车内麦克风同时采集当前车内不同位置的声音信号。

进一步地,在S2步骤前,通过卷积神经网络定位模型提取车内不同位置车内语音信号的声学特征,根据提取的声学特征将车内空间分为多个区域。

进一步地,所述声学特征包括强度和时长。

进一步地,所述卷积神经网络定位模型为五层结构,从输入到输出依次为第一卷积层、最大池化层、第二卷积层、平均池化层和Softmax层,输入信号数据矩阵后将得到一个向量输出。

进一步地,所述卷积神经网络定位模型以每个车内麦克风采集的声音信号能量和时间差别作为学习特征,所述卷积神经网络定位模型通过所述声音信号中的时域信号得到车内说话者在每个车内区域出现的概率。

另一方面,本发明提供了一种提高车内语音识别准确率的前处理系统,包括

车外振动传感器,所述车外振动传感器分布在车外不同位置并接入数字信号传输线路,所述车外振动传感器用于采集车外的原始振动信号;

车内麦克风,所述车内麦克风分布在车内不同位置并接入所述数字信号传输线路,所述车内麦克风用于采集车内的声音信号;

语音信号前处理模块,所述语音信号前处理模块接入所述数字信号传输线路,所述车外振动传感器和所述车内麦克风通过所述数字信号传输线路将各自采集到的信号输出至所述语音信号前处理模块,所述语音信号前处理模块通过卷积神经网络降噪模型和循环神经网络模型对所述车内麦克风采集的声音信号进行降噪处理,所述语音信号前处理模块能够根据所述车内麦克风采集的声音信号通过卷积神经网络定位模型判断说话者的位置。

进一步地,所述车外振动传感器包含第一车外振动传感器、第二车外振动传感器和第三车外振动传感器;所述第一车外振动传感器布置在车辆的发动机舱处,用于采集发动机噪声;所述第二车外振动传感器布置在车辆轮胎附近,用于采集车辆行驶时产生的路噪;所述第三车外振动传感器布置在车外后视镜处,用于采集车辆行驶时后视镜处形成的风噪。

本发明提供的技术方案带来的有益效果如下:

a.实现了对采集到的噪声信号的自适应控制,在进行语音识别前得到降噪,进而提高识别系统的识别率;

b.实现车内不同乘坐位置乘客的个性化语音识别控制与服务。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的提高车内语音识别准确率的前处理系统结构示意图;

图2是本发明实施例提供的提高车内语音识别准确率的前处理系统部件分布示意图;

图3是本发明实施例提供的提高车内语音识别准确率的前处理系统语音降噪信号传输路径示意图;

图4是本发明实施例提供的提高车内语音识别准确率的前处理系统在线学习与降噪流程示意图;

图5是本发明实施例提供的提高车内语音识别准确率的前处理系统神经网络降噪模型输入输出示意图;

图6是本发明实施例提供的提高车内语音识别准确率的前处理系统语音定位过程示意图;

图7是本发明实施例提供的提高车内语音识别准确率的前处理系统语音定位信号传输路径示意图;

图8是本发明实施例提供的提高车内语音识别准确率的前处理系统神经网络定位模型流程示意图。

其中,11-第一车外振动传感器,12-第二车外振动传感器,13-第三车外振动传感器,2-车内麦克风,3-语音信号前处理模块,4-数字信号传输线路,5-语音识别系统,6-乘员位。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,更清楚地了解本发明的目的、技术方案及其优点,以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。除此,本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明的一个实施例中,提供了一种提高车内语音识别准确率的前处理系统的控制方法,参见图1至图4,包括以下步骤:

S1、采集当前车外不同位置处的原始振动信号,同时采集当前车内声音信号,所述车内声音信号包括车内噪声信号和车内语音信号;

S2、通过卷积神经网络降噪模型对所述原始振动信号进行实时特征学习,得到相应的特征向量并输出至循环神经网络模型中;

S3、通过所述循环神经网络模型建立传递通道模型,以形成所述原始振动信号与所述车内噪声信号的映射关系,并输出建模后的抵消信号;

S4、根据所述抵消信号,去除所述车内声音信号中的所述车内噪声信号,得到降噪后的语音信号,并把该语音信号作为语音识别系统的输入信号。

其中,在S3步骤中,输出建模后的抵消信号包括以下流程:

S31、通过所述循环神经网络模型得到抵消信号;

S32、所述抵消信号与所述车内噪声信号进行比较,得到残余误差信号;

S33、当所述残余误差信号超过设定值时,执行S34;当所述残余误差信号不超过设定值时,直接输出该抵消信号;

S34、根据残余误差信号更新所述循环神经网络模型中的模型参数,再执行S31-S33。

其中,在S3步骤中,通过最小均方误差算法对循环神经网络模型中的模型参数进行更新;在S2步骤中,所述卷积神经网络降噪模型为六层结构,从输入到输出依次为第一卷积层、第二卷积层、最大池化层、第三卷积层、平均池化层和Dropout层,输入信号数据矩阵后将得到一个特征向量输出。

在本发明的一个实施例中,所述语音信号前处理系统的控制方法不仅包括语音降噪的方法,还包括语音定位的方法,在上述实施例的基础上,存在多个车内麦克风同时采集当前车内的声音信号,在进行语音定位前,需要通过神经网络模型进行特征学习。具体地,通过卷积神经网络定位模型提取车内不同位置车内语音信号的声学特征,根据提取的声学特征将车内空间分为多个区域,其中所述声学特征包括强度和时长,例如结合乘员位的分布将车内空间分成了4个区域,使得车内麦克风接收每个区域对应的信号特征范围有所差别,一般一个座位对应一个区域。所述卷积神经网络定位模型以每个车内麦克风采集的声音信号能量和时间差别作为学习特征,所述卷积神经网络定位模型通过所述声音信号中的时域信号得到车内说话者在每个车内座位出现的概率。所述卷积神经网络定位模型为五层结构,从输入到输出依次为第一卷积层、最大池化层、第二卷积层、平均池化层和Softmax层,输入信号数据矩阵后将得到一个向量输出,该向量包含说话者在每个车内座位出现的概率。

在本发明的一个实施例中,提供了一种基于上述控制方法的提高车内语音识别准确率的前处理系统,参见图1至图3,包括车外振动传感器、车内麦克风2和语音信号前处理模块3,所述车外振动传感器分布在车外不同位置并接入数字信号传输线路4,车外振动传感器优选为数字麦克风,所述车外振动传感器用于采集车外的原始振动信号,优选地,所述车外振动传感器包含第一车外振动传感器11、第二车外振动传感器12和第三车外振动传感器13;所述第一车外振动传感器11布置在车辆的发动机上,可采集发动机振动信号;所述第二车外振动传感器12布置在车辆四个轮胎车架附近,每个车辆轮胎车架附近均设有一个,可采集车辆行驶时产生的路噪;所述第三车外振动传感器13布置在车外后视镜处,可采集车辆行驶时后视镜处形成的风噪。

所述车内麦克风2分布在车内不同位置并接入所述数字信号传输线路4,所述车内麦克风2用于采集车内的声音信号,所述车内麦克风优选为车内数字双麦克风对,所述车内麦克风2的数量优选为4个,每个车内乘员位6附近,比如四个车门上方把手处,安装有一个车内麦克风2;所述车内麦克风2采集的声音信号包括车内说话者的车内语音信号以及车外原始振动传入车内形成的车内噪声信号,不同位置处的车内麦克风2能够同时对同一说话者的语音进行采集。

所述语音信号前处理模块3接入所述数字信号传输线路4,所述数字信号传输线路4优选为A2B连接方式,所述车外振动传感器和所述车内麦克风2通过所述数字信号传输线路4将各自采集到的信号输出至所述语音信号前处理模块3,所述语音信号前处理模块3所使用的芯片可优选为NXP专用神经处理引擎i.MX 8M Plus,所述语音信号前处理模块3通过卷积神经网络降噪模型和循环神经网络模型对所述车内麦克风2采集的声音信号进行降噪处理,所述语音信号前处理模块3根据前馈信号及上述算法模型可去除输入语音识别系统的噪声,留下干净的语音信号用于识别;所述语音信号前处理模块3还能够根据所述车内麦克风2采集的声音信号通过卷积神经网络定位模型判断说话者的位置。

具体地,所述语音信号前处理系统的语音降噪部分采用前馈系统结构,其前馈信号可由三个车外振动传感器采集,第一车外振动传感器、第二车外振动传感器和第三车外振动传感器采集到的原始振动信号分别记为x(n)、y(n)、z(n),4个车内麦克风一方面可采集车内不同乘员位处的语音信号,车内4个乘员位发出的语音信号可分别记为b

s(n)=b

其中,j=1,2,3,4。

参见图3,车外振动传感器采集的噪声源信号x(n)、y(n)、z(n)通过数字信号传输线路传给所述语音信号前处理模块,利用语音信号前处理模块的语音降噪部分建立车内噪声信号x′(n)、y′(n)、z′(n)与车外原始振动信号x(n)、y(n)、z(n)的映射关系,消除传输通道的时延影响,控制车内噪声信号,使系统具有对噪声的跟踪性能,提升前处理系统降噪效果并减少对语音信号的损伤。降噪增强后剩余干净的语音信号记作b′(n),以输入语音识别系统,可提升语音识别准确率。

所述语音信号前处理模块降噪部分的控制算法采用一维卷积神经网络模型与循环神经网络模型的混合模型,不但可以实时提取信号传输通道特征,还有效解决了处理系统的信号传输时延,实现对语音信号的降噪处理,此处一维卷积神经网络模型即为上述的卷积神经网络降噪模型。车外振动传感器采集的原始振动信号x(n)、y(n)、z(n)的对应序列分别为(x(1),x(2)...x(n))、(y(1),y(2)...y(n))、(z(1),z(2)...z(n)),其每次对应建模处理后的序列分别为(X(1),X(2)...X(n))、(Y(1),Y(2)...Y(n))、(Z(1),Z(2)...Z(n)),车内麦克风采集的车内噪声信号x′(n)、y′(n)、z′(n),其对应信号序列分别为(x′(1),x′(2)...x′(n))、(y′(1),y′(2)...y′(n))、(z′(1),z′(2)...z′(n))。所述语音信号前处理模块采用最小均方误差算法调整循环神经网络模型的控制参数W,使模型输出信号与车内麦克风采集的噪声信号的误差平方和最小,以达到降噪效果,误差平方和记作ε(n)。降噪后三个噪声源对应降噪的残余信号的误差平方可用以下公式计算:

ε

ε

ε

所述语音信号前处理模块中循环神经网络模型的模型参数W的更新公式如下:

式中,μ

参见图4,所述语音信号前处理模块的降噪场景可看作为无限序列的训练任务,所述混合模型的噪声信号实时在线学习与降噪流程如下,:

(1)输入数据:将采集的噪声信号预处理后,在离散时间间隔内,存储来自三个噪声源的振动信号值,这将产生一个3×n的矩阵,作为一维卷积神经网络的多通道输入向量。

(2)1D CNN层:第一层一维卷积神经网络选取80个卷积核提取输入信号特征,输出的向量为卷积核的权重矩阵,其中及以下表述的1D CNN层是指一维卷积层。

(3)1D CNN层:第一层卷积层的输出结果传送到第二卷积层,再选取50个卷积核进一步提取特征。

(4)最大池化层:为了减少输出的复杂性并防止数据过拟合,卷积层后选取最大池化层。

(5)1D CNN层:池化层输出接另一个卷积层,选取20个卷积核,以抽象高维特征。

(6)平均池化层:为避免过度拟合,取神经网络中两个权重的平均值进行池化。

(7)Dropout层:为网络中的神经元随机分配0权重,因为噪声信号的短时平稳特性,选择的比率优选为0.4,本层中40%的神经元的权重将置为零。

(8)RNN结构:将上一层输出噪声信号特征向量输入到循环神经网络RNN结构,并使网络输出向量序列与车内麦克风采集的噪声信号序列的均方误差值最小,参见图5所示,其中U、W、V为模型参数,模型参数W与上述的W意义相同且会相应地进行调整,RNN模型采用参数共享形式,s为隐含状态,o为模型输出向量。

(9)训练模型:采用针对循环神经网络的实时在线循环学习算法更新网络模型参数,达到训练模型的目的。

在本发明的一个实施例中,所述语音信号前处理模块还具备语音定位功能,例如4个位置不同的车内麦克风对车内某一乘员位上产生的语音信号的接收强度和时间信息会有所不同,基于此,建立语音信号位置判定的多通道卷积神经网络定位模型,下称卷积神经网络定位模型,以提取不同位置语音信号特征,实现前处理系统的语音定位功能。参见图6和图7,4个位置不同的车内麦克风对某一乘员位上产生的语音信号分别记作p(n)、q(n)、g(n)、h(n),其序列分别为(p(1),p(2)...p(n))、(q(1),q(2)...q(n))、(g(1),g(2)...g(n))、(h(1),h(2)...h(n))。

参见图8,所述卷积神经网络定位模型的算法步骤如下:

(1)输入数据:4个车内麦克风采集的语音信号经预处理后,根据其序列,产生一个4×n的矩阵,作为一维卷积神经网络的多通道输入向量。

(2)1D CNN层:第一层定义一维卷积核,一个卷积核可以学习神经网络第一层中的一个特征,对于语音信号定位,优选定义10个卷积核,因而在网络的第一层提取10个位置特征。

(3)最大池化层:为了减少输出的复杂性并防止数据过拟合,CNN层之后使用最大池化层。

(4)1D CNN层:再经过一个卷积层学习更高级别的特征,本层定义6个卷积核。

(5)平均池化层:采用平均池化层,以进一步避免过度拟合,取神经网络中两个权重的平均值,每个一维特征卷积核在这一层的神经网络中仅剩一个权重。

(6)输出层:采用Softmax激活的完全连接的层,输出层4个神经元,对应车内四个乘坐位置,输出值代表四个位置的概率,输出值会进入语音识别系统,为语音识别系统进行个性化服务提供依据,比如语音识别系统会开放驾驶员最大的语音识别控制权限,而一般乘员只能实现一些基础的语音控制,当然输出值也经过前处理系统本身的过滤以输出一个最大概率值至语音识别系统中。

需要说明的是,上述所有的车内麦克风、车外振动传感器的数量和分布位置均包括但不局限于上述,还应当包括其他数量和分布的位置,比如还可以在车尾增设车外振动传感器,上述实施例中计算相关参数的公式也仅是优选实施例,也包括与其实现相似功能的公式,上述实施例中各神经网络模型中各层选取的卷积核的数量、输入数据的数量以及相关参数的设置均是依据测试的优选值,还应包括其他实现其相似功能的数值。

本发明设计了一种车载环境下语音信号前处理系统,包括系统硬件结构在车体的搭载实现和相应的算法实现。在汽车行驶时,该系统利用车外振动传感器实时采集行车状态下非平稳的噪声源振动信号,并对噪声特征的提取,建立包含系统延时情况下其与车内语音识别系统接收到噪声信号的映射关系,同时车内采用的多位置双通道麦克风结构,通过算法实现对语音信号在车内四个乘坐位置上的位置匹配。语音信号前处理系统需要在语音识别系统前端进行语音信号的降噪及增强,进一步提升车内环境下语音识别的正确率,同时定位车内发出语音控制信号的乘客位置,便于语音识别系统满足不同乘客的个性化识别需求,实现良好的人车语音交互,使乘客获得更好的驾乘体验。

本发明提供的语音信号前处理系统中的降噪部分采用前馈自适应控制结构,用噪声源附近的振动传感器实时采集行车时的三种噪声源振动信号(路噪,发动机噪声,风噪),通过一维卷积神经网络控制模型进行实时噪声信号的特征学习,采用循环神经网络模型实现对信号跟踪与控制,有利于提升语音识别系统的正确率,其定位部分用车内四通道的麦克风对采集语音信号,通过一维卷积神经网络模型提取车内不同位置语音信号的声学特征,进而计算判定发出语音信号的乘客位置。

本发明提供的语音信号前处理系统实现了对车内噪声的控制,对带噪语音信号的降噪增强,为语音识别系统提供了干净语音信号,对发出语音信号的乘客位置进行定位,以便实现语音识别系统的个性化识别与控制。本发明提供的语音信号前处理系统克服了传统语音增强系统降噪同时造成的语音信号失真,算法自适应实时提取车内噪声信号特征,无需人工定义噪声信号特征,滤除噪声同时没有对语音信号的损伤,提高语音识别系统识别准确率,其前馈结构实时采集行车状态下的振动信号,对前处理系统的降噪模型进行训练,并有效解决降噪系统的信号时延问题,实现对车内噪声的有效跟踪,适用于不同车速、不同行车状态时复杂的车内噪声环境,提升前处理系统降噪性能;车内麦克风还实现对语音信号位置的判定,为语音识别系统提供语音指令的来源位置信息和扩展前处理系统功能。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号