首页> 中国专利> 语音识别系统中基于快速噪声估计的特征补偿方法

语音识别系统中基于快速噪声估计的特征补偿方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开一种语音识别系统中基于快速噪声估计的特征补偿方法，其主要特点是将特征补偿中的噪声参数估计和纯净语音估计分离开来，噪声估计和纯净语音估计用不同的高斯混合模型实现。一个含有较少高斯单元的高斯混合模型GMM用于从含噪测试语音中提取噪声参数；另一个含有较多高斯单元的高斯混合模型GMM用于与估得的单高斯噪声模型进行模型组合，得到与当前测试环境匹配的含噪GMM；最后用含噪GMM计算含噪测试语音的后验概率，用最小均方误差方法从含噪测试语音中估计纯净语音特征向量。本发明可以在减小计算量的同时，保证纯净语音估计的精度。

著录项

公开/公告号CN103000174A

专利类型发明专利
公开/公告日2013-03-27

原文格式PDF
申请/专利权人河海大学;
展开▼

申请/专利号CN201210486936.0
发明设计人吕勇;
展开▼

申请日2012-11-26
分类号G10L15/20(20060101);G10L15/14(20060101);
代理机构南京苏高专利商标事务所(普通合伙);
代理人柏尚春
地址 210098 江苏省南京市鼓楼区西康路1号
入库时间 2024-02-19 18:28:18

法律信息

法律状态公告日

法律状态信息

法律状态
2022-11-04

未缴年费专利权终止 IPC(主分类):G10L15/20 专利号:ZL2012104869360 申请日:20121126 授权公告日:20150624

专利权的终止
2015-06-24

授权

授权
2013-04-24

实质审查的生效 IPC(主分类):G10L15/20 申请日:20121126

实质审查的生效
2013-03-27

公开

公开

说明书

技术领域

本发明涉及一种语音识别系统中基于快速噪声估计的特征补偿方法，具体涉及到用一个含有较少高斯单元的高斯混合模型快速估计噪声参数，用一个含有较多高斯单元的高斯混合模型从含噪测试语音中估计纯净语音特征向量的特征补偿方法，属于语音识别技术领域。

背景技术

目前，语音识别系统在实验室理想环境下已经取得了很好的性能。然而，在实际环境中，背景噪声和信道失真往往是不可避免的，它们会导致实际应用环境中提取的特征向量与预先训练的声学模型严重失配，识别器的性能会急剧恶化，甚至有可能完全失效。因此，研究语音识别的环境补偿技术，减小环境失配对语音识别系统的影响，提高语音识别系统在实际环境中的性能，具有非常重要的意义。

一般来说，环境补偿技术可划分为前端特征补偿和后端模型补偿。特征补偿对测试环境下的语音特征进行补偿，使之与训练环境下的声学模型相匹配。模型补偿对训练环境下的声学模型进行调整，使之与测试环境相匹配，直接对测试语音进行识别。与后端模型补偿相比，前端特征补偿技术具有计算量小、实现灵活、与后端识别器无关的优点，因而其应用范围更为广泛。

在实际应用中，难以保证每段测试语音都有足够多的静音帧来估计噪声参数。为了及时跟踪环境的变化，往往需要从含噪测试语音中提取噪声参数。然而，训练环境与测试环境之间的环境变换关系是非线性的，噪声参数没有闭式解。矢量泰勒级数(VTS:Vector Taylor Series)是一种有效的噪声鲁棒技术，可以很好地逼近由噪声导致的非线性环境变换关系。但是基于VTS的噪声参数估计涉及较多的矩阵运算，其计算量与语音模型的高斯单元数目成正比。由于在特征补偿中，用于噪声估计的语音模型同时也用于估计纯净语音特征向量。为了充分描述语音的分布，保证纯净语音估计的精度，用于特征补偿的语音模型必须包含足够多的高斯单元。因而，基于VTS的特征补偿方法的计算量较大，难以在嵌入式系统等独立终端上实时实现。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种语音识别系统中基于快速噪声估计的特征补偿方法。

技术方案：一种语音识别系统中基于快速噪声估计的特征补偿方法，其主要特点是将特征补偿中的噪声参数估计和纯净语音估计分离开来，噪声估计和纯净语音估计用不同的高斯混合模型(GMM:Gaussian Mixture Model)实现。一个含有较少高斯单元的高斯混合模型GMM用于从含噪测试语音中提取噪声参数；另一个含有较多高斯单元的高斯混合模型GMM用于与估得的单高斯噪声模型进行模型组合，得到与当前测试环境匹配的含噪GMM；最后用含噪GMM计算含噪测试语音的后验概率，用最小均方误差(MMSE:Minimum Mean Squared Error)方法从含噪测试语音中估计纯净语音特征向量。

语音识别系统中基于快速噪声估计的特征补偿方法，具体包括训练阶段和测试阶段两个部分；

训练阶段的具体步骤包括：

(1)从纯净训练语音中提取纯净语音特征向量，采用美尔频率倒谱系数 (MFCC:Mel-Frequency Cepstral Coefficients)作为语音的特征参数；

(2)用全部训练语音的MFCC进行GMM训练，生成两个GMM：第一GMM 含有较少的高斯单元，用于噪声估计；第二GMM含有较多的高斯单元，用于模型组合和纯净语音估计；

(3)用每个基本语音单元的训练语音进行声学模型训练，生成每个基本语音单元的隐马尔可夫模型(HMM:Hidden Markov Model)；

测试阶段的具体步骤包括：

(4)从含噪测试语音中提取含噪语音MFCC；

(5)用第一GMM从含噪语音MFCC中提取噪声参数，包括噪声的高斯均值向量和协方差矩阵；

(6)用估得的噪声参数对第二GMM的均值和方差进行参数变换，计算含噪测试语音的后验概率，用MMSE方法估计纯净语音MFCC；

(7)用每个语音单元的HMM对纯净语音MFCC进行声学解码，即可得到识别结果。

有益效果：与现有技术相比，本发明提供的语音识别系统中基于快速噪声估计的特征补偿方法，将特征补偿中的噪声参数估计和纯净语音估计分离开来，噪声参数估计和纯净语音估计分别用不同的语音模型实现，可以在减小计算量的同时，保证纯净语音估计的精度。

附图说明

图1为本发明实施例的基于快速噪声估计的特征补偿框架；

图2为本发明实施例的基于快速噪声估计的语音识别系统结构。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，一个含有较少高斯单元的高斯混合模型GMM1用于从含噪测试语音中提取噪声参数；另一个含有较多高斯单元的高斯混合模型GMM2用于与估得的单高斯噪声模型进行模型组合，得到与当前测试环境匹配的含噪 GMM；最后用含噪GMM计算含噪测试语音的后验概率，用最小均方误差方法从含噪测试语音中估计纯净语音特征向量。

如图2所示，基于快速噪声估计的特征补偿方法主要包括训练阶段和测试阶段。训练阶段主要完成GMM训练和HMM训练工作；测试阶段主要完成噪声参数估计和纯净语音估计工作。

1、GMM训练：

采用GMM对语音的分布进行建模，用全部训练语音生成两个GMM：GMM1 和GMM2。GMM1含有较少的高斯单元，用于噪声估计；GMM2含有较多的高斯单元，用于纯净语音估计。GMM1和GMM2的协方差矩阵均取对角阵。

2、HMM训练：

本发明采用连续密度HMM对语音识别的每个基本语音单元进行建模，用每个基本语音单元的训练语音生成该基本语音单元的HMM。HMM的数目取决于语音单元的数目。所有HMM的协方差矩阵也取对角阵。

3、噪声参数估计：

在倒谱域，含噪语音特征向量y与纯净语音特征向量x的关系可以表示为：

y＝x+Clog(1+exp(C^-1(n-x)))

(1)

其中，n表示加性噪声倒谱特征向量，C和C^-1分别表示离散余弦变换(DCT: Discrete Cosine Transform)矩阵及其逆矩阵。将式(1)在x的均值μ_x和n的初始均值μ_n0附近，用一阶VTS展开，得到：

其中，I表示单位矩阵，和U为：

$U = Cdiag (\frac{\exp (C^{- 1} (μ_{n 0} - μ_{x}))}{1 + \exp (C^{- 1} (μ_{n 0} - μ_{x}))}) C^{- 1} - - - (4)$

式(4)中，diag()表示以括号中的向量元素为对角元素，生成对角矩阵。

在式(2)的两边取均值和方差，可以得到：

Σ_y＝(I-U)Σ_x(I-U)^T+U∑_n U^T

(6)

其中，μ_y、μ_x和μ_n分别表示含噪语音y、纯净语音x和加性噪声n的均值向量， Σ_y、Σ_x和Σ_n分别表示它们的协方差矩阵。

对GMM1的第m个高斯单元，式(5)和式(6)表示为：

σ_y，m＝(V_m·V_m)σ_x，m+(U_m·U_m)σ_n

(8)

其中，V_m＝I-U_m，σ_y，m、σ_x，m和σ_n分别表示Σ_y，m、Σ_x，m和Σ_n的对角元素向量。

将式(7)和式(8)分别代入辅助函数，即可得到噪声参数μ_n和σ_n的最大似然估计：

$σ_{n} = {[Σ_{m = 1}^{M_{1}} Σ_{t = 1}^{T} γ_{m} (t) G_{m} (U_{m} \cdot U_{m})]}^{- 1} [Σ_{m = 1}^{M_{1}} Σ_{t = 1}^{T} γ_{m} (t) G_{m} ((y_{t} - μ_{y, m}) \cdot (y_{t} - μ_{y, m}) - (V_{m} \cdot V_{m}) σ_{x, m})] - - - (10)$

其中，M₁为GMM1的高斯单元数目；γ_m(t)＝P(k_t＝m|y_t,λ)表示给定GMM1的先验参数λ时，第t帧含噪语音特征向量y_t属于GMM1第m个高斯单元的后验概率；G_m由下式给出：

$G_{m} = (U_{m}^{T} \cdot U_{m}^{T}) diag [{((V_{m} \cdot V_{m}) σ_{x, m} + (U_{m} \cdot U_{m}) σ_{n 0})}^{- 2}] - - - (11)$

式(11)中，σ_n0为σ_n的初值。

4、纯净语音估计：

估得噪声参数μ_n和σ_n后，首先用式(7)和式(8)对GMM2的均值和方差进行参数变换，此时μ_y，m和σ_y，m表示GMM2第m个高斯单元的含噪语音均值和方差；然后用含噪语音参数μ_y，m和σ_y，m计算当前测试语音属于GMM2第m个高斯单元的后验概率最后用下式得到纯净语音特征向量的MMSE估计

${\hat{x}}_{t} = E (x_{t} | y_{t}) \approx y_{t} - Σ_{m = 1}^{M_{2}} {\overline{γ}}_{m} (t) (C \log (1 + \exp (C^{- 1} (μ_{n} - μ_{x, m})))) - - - (12)$

其中，M₂表示GMM2的高斯单元数目。

纯净语音特征向量的一阶动态系数和二阶动态系数可以通过对估得的静态系数作时域差分得到。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 语音识别系统中基于快速噪声估计的特征补偿方法 [P] . 中国专利： CN103000174B . 2015.06.24
2. 语音识别系统中基于快速噪声估计的特征补偿方法 [P] . 中国专利： CN103000174A . 2013-03-27
3. Arbitrary transfer functions compensating method for speech recognition system, involves deflecting signal, based on transfer function of word model, and using deflection for compensating functions in system by microphone [P] . 德国专利： DE102004018375A1 . 2005-11-03

机译：语音识别系统的任意传递函数补偿方法，包括基于单词模型的传递函数对信号进行偏转，并利用麦克风利用偏转对系统中的函数进行补偿
4. METHOD AND APPARATUS FOR ESTIMATING NOISE OF INPUT IMAGE BASED ON MOTION COMPENSTION AND, METHOD FOR ELIMINATING NOISE OF INPUT IMAGE AND FOR ENCODING VIDEO USING NOISE ESTIMATION METHOD, AND RECORDING MEDIUM FOR STORING A PROGRAM TO IMPLEMENT THE METHOD [P] . 韩国专利： KR20050119422A . 2005-12-21

机译：基于运动补偿的输入图像噪声的估计方法和装置，以及使用噪声估计方法消除输入图像的噪声和编码视频的方法，以及用于存储程序的记录介质以实现该方法
5. Advanced noise estimation method and apparatus based on motion compensation, and method and apparatus to encode a video using the same [P] . 美国专利： US7450639B2 . 2008-11-11

机译：基于运动补偿的高级噪声估计方法和装置，以及使用该方法进行视频编码的方法和装置