法律状态公告日
法律状态信息
法律状态
2022-11-04
未缴年费专利权终止 IPC(主分类):G10L15/20 专利号:ZL2012104869360 申请日:20121126 授权公告日:20150624
专利权的终止
2015-06-24
授权
授权
2013-04-24
实质审查的生效 IPC(主分类):G10L15/20 申请日:20121126
实质审查的生效
2013-03-27
公开
公开
技术领域
本发明涉及一种语音识别系统中基于快速噪声估计的特征补偿方法,具体涉 及到用一个含有较少高斯单元的高斯混合模型快速估计噪声参数,用一个含有较 多高斯单元的高斯混合模型从含噪测试语音中估计纯净语音特征向量的特征补 偿方法,属于语音识别技术领域。
背景技术
目前,语音识别系统在实验室理想环境下已经取得了很好的性能。然而,在 实际环境中,背景噪声和信道失真往往是不可避免的,它们会导致实际应用环境 中提取的特征向量与预先训练的声学模型严重失配,识别器的性能会急剧恶化, 甚至有可能完全失效。因此,研究语音识别的环境补偿技术,减小环境失配对语 音识别系统的影响,提高语音识别系统在实际环境中的性能,具有非常重要的意 义。
一般来说,环境补偿技术可划分为前端特征补偿和后端模型补偿。特征补偿 对测试环境下的语音特征进行补偿,使之与训练环境下的声学模型相匹配。模型 补偿对训练环境下的声学模型进行调整,使之与测试环境相匹配,直接对测试语 音进行识别。与后端模型补偿相比,前端特征补偿技术具有计算量小、实现灵活、 与后端识别器无关的优点,因而其应用范围更为广泛。
在实际应用中,难以保证每段测试语音都有足够多的静音帧来估计噪声参 数。为了及时跟踪环境的变化,往往需要从含噪测试语音中提取噪声参数。然而, 训练环境与测试环境之间的环境变换关系是非线性的,噪声参数没有闭式解。矢 量泰勒级数(VTS:Vector Taylor Series)是一种有效的噪声鲁棒技术,可以很好地 逼近由噪声导致的非线性环境变换关系。但是基于VTS的噪声参数估计涉及较 多的矩阵运算,其计算量与语音模型的高斯单元数目成正比。由于在特征补偿中, 用于噪声估计的语音模型同时也用于估计纯净语音特征向量。为了充分描述语音 的分布,保证纯净语音估计的精度,用于特征补偿的语音模型必须包含足够多的 高斯单元。因而,基于VTS的特征补偿方法的计算量较大,难以在嵌入式系统 等独立终端上实时实现。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种语音识别系 统中基于快速噪声估计的特征补偿方法。
技术方案:一种语音识别系统中基于快速噪声估计的特征补偿方法,其主要 特点是将特征补偿中的噪声参数估计和纯净语音估计分离开来,噪声估计和纯净 语音估计用不同的高斯混合模型(GMM:Gaussian Mixture Model)实现。一个含有 较少高斯单元的高斯混合模型GMM用于从含噪测试语音中提取噪声参数;另一 个含有较多高斯单元的高斯混合模型GMM用于与估得的单高斯噪声模型进行 模型组合,得到与当前测试环境匹配的含噪GMM;最后用含噪GMM计算含噪 测试语音的后验概率,用最小均方误差(MMSE:Minimum Mean Squared Error)方 法从含噪测试语音中估计纯净语音特征向量。
语音识别系统中基于快速噪声估计的特征补偿方法,具体包括训练阶段和测 试阶段两个部分;
训练阶段的具体步骤包括:
(1)从纯净训练语音中提取纯净语音特征向量,采用美尔频率倒谱系数 (MFCC:Mel-Frequency Cepstral Coefficients)作为语音的特征参数;
(2)用全部训练语音的MFCC进行GMM训练,生成两个GMM:第一GMM 含有较少的高斯单元,用于噪声估计;第二GMM含有较多的高斯单元,用于模 型组合和纯净语音估计;
(3)用每个基本语音单元的训练语音进行声学模型训练,生成每个基本语音 单元的隐马尔可夫模型(HMM:Hidden Markov Model);
测试阶段的具体步骤包括:
(4)从含噪测试语音中提取含噪语音MFCC;
(5)用第一GMM从含噪语音MFCC中提取噪声参数,包括噪声的高斯均值 向量和协方差矩阵;
(6)用估得的噪声参数对第二GMM的均值和方差进行参数变换,计算含噪 测试语音的后验概率,用MMSE方法估计纯净语音MFCC;
(7)用每个语音单元的HMM对纯净语音MFCC进行声学解码,即可得到识 别结果。
有益效果:与现有技术相比,本发明提供的语音识别系统中基于快速噪声 估计的特征补偿方法,将特征补偿中的噪声参数估计和纯净语音估计分离开来, 噪声参数估计和纯净语音估计分别用不同的语音模型实现,可以在减小计算量的 同时,保证纯净语音估计的精度。
附图说明
图1为本发明实施例的基于快速噪声估计的特征补偿框架;
图2为本发明实施例的基于快速噪声估计的语音识别系统结构。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本 发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发 明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,一个含有较少高斯单元的高斯混合模型GMM1用于从含噪测 试语音中提取噪声参数;另一个含有较多高斯单元的高斯混合模型GMM2用于 与估得的单高斯噪声模型进行模型组合,得到与当前测试环境匹配的含噪 GMM;最后用含噪GMM计算含噪测试语音的后验概率,用最小均方误差方法 从含噪测试语音中估计纯净语音特征向量。
如图2所示,基于快速噪声估计的特征补偿方法主要包括训练阶段和测试阶 段。训练阶段主要完成GMM训练和HMM训练工作;测试阶段主要完成噪声参 数估计和纯净语音估计工作。
1、GMM训练:
采用GMM对语音的分布进行建模,用全部训练语音生成两个GMM:GMM1 和GMM2。GMM1含有较少的高斯单元,用于噪声估计;GMM2含有较多的高 斯单元,用于纯净语音估计。GMM1和GMM2的协方差矩阵均取对角阵。
2、HMM训练:
本发明采用连续密度HMM对语音识别的每个基本语音单元进行建模,用每 个基本语音单元的训练语音生成该基本语音单元的HMM。HMM的数目取决于 语音单元的数目。所有HMM的协方差矩阵也取对角阵。
3、噪声参数估计:
在倒谱域,含噪语音特征向量y与纯净语音特征向量x的关系可以表示为:
y=x+Clog(1+exp(C-1(n-x)))
(1)
其中,n表示加性噪声倒谱特征向量,C和C-1分别表示离散余弦变换(DCT: Discrete Cosine Transform)矩阵及其逆矩阵。将式(1)在x的均值μx和n的初始均 值μn0附近,用一阶VTS展开,得到:
其中,I表示单位矩阵,和U为:
式(4)中,diag()表示以括号中的向量元素为对角元素,生成对角矩阵。
在式(2)的两边取均值和方差,可以得到:
Σy=(I-U)Σx(I-U)T+U∑n UT
(6)
其中,μy、μx和μn分别表示含噪语音y、纯净语音x和加性噪声n的均值向量, Σy、Σx和Σn分别表示它们的协方差矩阵。
对GMM1的第m个高斯单元,式(5)和式(6)表示为:
σy,m=(Vm·Vm)σx,m+(Um·Um)σn
(8)
其中,Vm=I-Um,σy,m、σx,m和σn分别表示Σy,m、Σx,m和Σn的对角元素向量。
将式(7)和式(8)分别代入辅助函数,即可得到噪声参数μn和σn的最大似然 估计:
其中,M1为GMM1的高斯单元数目;γm(t)=P(kt=m|yt,λ)表示给定GMM1的先 验参数λ时,第t帧含噪语音特征向量yt属于GMM1第m个高斯单元的后验概 率;Gm由下式给出:
式(11)中,σn0为σn的初值。
4、纯净语音估计:
估得噪声参数μn和σn后,首先用式(7)和式(8)对GMM2的均值和方差进行 参数变换,此时μy,m和σy,m表示GMM2第m个高斯单元的含噪语音均值和方差; 然后用含噪语音参数μy,m和σy,m计算当前测试语音属于GMM2第m个高斯单元 的后验概率最后用下式得到纯净语音特征向量的MMSE估 计
其中,M2表示GMM2的高斯单元数目。
纯净语音特征向量的一阶动态系数和二阶动态系数可以通过对估得 的静态系数作时域差分得到。
机译: 语音识别系统的任意传递函数补偿方法,包括基于单词模型的传递函数对信号进行偏转,并利用麦克风利用偏转对系统中的函数进行补偿
机译: 基于运动补偿的输入图像噪声的估计方法和装置,以及使用噪声估计方法消除输入图像的噪声和编码视频的方法,以及用于存储程序的记录介质以实现该方法
机译: 基于运动补偿的高级噪声估计方法和装置,以及使用该方法进行视频编码的方法和装置