公开/公告号CN106384588A
专利类型发明专利
公开/公告日2017-02-08
原文格式PDF
申请/专利权人 河海大学;
申请/专利号CN201610812111.1
发明设计人 吕勇;
申请日2016-09-08
分类号G10L15/02(20060101);G10L15/06(20130101);G10L15/20(20060101);G10L17/04(20130101);G10L19/02(20130101);G10L21/0208(20130101);G10L25/24(20130101);G10L25/84(20130101);
代理机构南京苏高专利商标事务所(普通合伙);
代理人李玉平
地址 211100 江苏省南京市江宁区佛城西路8号
入库时间 2023-06-19 01:28:23
法律状态公告日
法律状态信息
法律状态
2023-04-28
专利权的转移 IPC(主分类):G10L15/02 专利号:ZL2016108121111 登记生效日:20230418 变更事项:专利权人 变更前权利人:河海大学 变更后权利人:南京土星信息科技有限公司 变更事项:地址 变更前权利人:211100 江苏省南京市江宁区佛城西路8号 变更后权利人:210000 江苏省南京市建邺区贤坤路1号科创中心3楼325室
专利申请权、专利权的转移
2019-09-10
授权
授权
2017-03-08
实质审查的生效 IPC(主分类):G10L15/02 申请日:20160908
实质审查的生效
2017-02-08
公开
公开
技术领域
本发明涉及到用求和卷积模型模拟短时混响环境下加性噪声和房间混响对纯净语音的影响,通过矢量泰勒级数从含噪测试语音中实时提取噪声参数和混响参数,对加性噪声和短时混响进行联合补偿,得到与测试环境较好匹配的声学模型的模型自适应方法,属于语音识别技术领域。
背景技术
语音在传输过程中不可避免地要受到加性背景噪声、线性信道失真等各种干扰的影响,因此有必要对这些干扰因素进行补偿,减小其对语音识别系统的影响,增强语音识别系统对环境的适应能力。
矢量泰勒级数是一种有效的鲁棒语音识别方法,它可以较好地逼近由加性背景噪声和线性信道失真引起的非线性环境变换关系,既可以用于前端特征补偿,也可以用于后端模型自适应。在传统的矢量泰勒级数算法中,一般假设纯净输入语音先与线性信道噪声相卷积,再与背景噪声相加,得到含噪测试语音,这与实际情况较为接近,因而该算法对加性背景噪声和信道卷积噪声可以取得较好的补偿效果。
当语音识别系统位于室内时,不仅受加性背景噪声的影响,而且还会受到室内混响的影响。此时,麦克风不仅收到由说话人发出的纯净语音和背景噪声混合得到的直达含噪语音,还会收到由房间墙壁反射得到的含噪语音的各次反射声。当混响时间较短时,由混响引起的干扰也可以看作是一种卷积噪声。但是,这种卷积噪声不同于传统的系统信道失真,它作用于由加性背景噪声引起的含噪语音,即纯净输入语音先与背景噪声相加,再与混响失真卷积。因此,短时混响环境下的矢量泰勒级数需要重新推导,这样才能对加性噪声和室内混响取得较好的补偿效果。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,用求和卷积模型模拟短时混响环境下加性噪声和房间混响对纯净语音的影响,通过矢量泰勒级数从含噪测试语音中实时提取噪声参数和混响参数,对加性噪声和短时混响进行联合补偿,得到与测试环境较好匹配的声学模型。
技术方案:一种基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,在室内或车内,说话人发出的纯净语音首先与背景噪声相加,得到含噪语音;然后,直达含噪语音和它的各次反射声相混合,得到含噪混响语音。在训练阶段,用全部语音单元的训练语音生成一个高斯混合模型(GMM:Gaussian Mixture Model)。在测试阶段,首先用训练阶段得到的GMM从含噪混响语音的特征参数中估计混响参数和噪声参数;然后,用估得的混响参数和噪声参数对纯净语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;最后,用估得的测试环境GMM从含噪混响语音的特征参数中估计纯净语音的特征参数。
具体步骤如下:
(1)在训练阶段,用全部语音单元的训练语音生成一个GMM;
(2)构建含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系:y=Clog(exp(C-1x)+exp(C-1n))+h,其中n和h为分别表示加性噪声和混响失真的倒谱特征向量;
(3)用矢量泰勒级数逼近y与x之间的非线性关系,并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数,在混响估计时,假设混响时间较短且说话人的位置不变,因此h可以看作为常数;
(4)利用估得的混响参数和噪声参数对纯净训练语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;
(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征,估得的纯净语音倒谱特征即可用于后端声学解码和语言解码,得到识别结果。
附图说明
图1输入语音的加性噪声和混响失真模型;
图2基于矢量泰勒级数的加性噪声与短时混响的联合补偿系统的结构。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法,具体步骤如下:
(1)在训练阶段,用全部语音单元的训练语音生成一个GMM;
(2)根据图1,构建含噪混响语音的倒谱特征向量y与纯净训练语音的倒谱特征向量x之间的非线性关系:y=Clog(exp(C-1x)+exp(C-1n))+h,其中n和h为分别表示加性噪声和混响失真的倒谱特征向量;
(3)用矢量泰勒级数逼近y与x之间的非线性关系,并用预先训练的纯净语音GMM从含噪混响语音的倒谱特征中实时估计混响参数和噪声参数,在混响估计时,假设混响时间较多且说话人的位置不变,因此h可以看作为常数;
(4)利用估得的混响参数和噪声参数对纯净训练语音GMM的参数进行变换,得到与含噪混响语音较为匹配的测试环境GMM;
(5)利用估得的测试环境GMM从含噪混响语音的倒谱特征中实时估计纯净语音的倒谱特征,估得的纯净语音倒谱特征即可用于后端声学解码和语言解码,得到识别结果。
1、失真模型:
本发明假设室内只存在加性背景噪声和短时混响干扰,其模型如图1所示。说话人发出的纯净语音先与加性背景噪声混合,得到的含噪语音再与房间的各次反射声混合得到待识别的含噪混响语音。当混响时间较短(一般在30毫秒以内)且说话人的位置不变时,混响参数可以看作常数。
设含噪语音、纯净语音、加性噪声、混响噪声经过快速傅里叶变换后的幅度谱分别为ylin、xlin、nlin和hlin,则它们的关系可以表示为:
ylin=(xlin+nlin)hlin(1)
在式(1)两边取对数,得:
logylin=log(xlin+nlin)+loghlin(2)
在式(2)两边取离散预先变换(DCT:Discrete Cosine Transform),得:
C(logylin)=Clog(exp(C-1C(logxlin))+exp(C-1C(lognlin)))+C(loghlin)(3)
其中,C和C-1分别表示DCT矩阵及其逆矩阵。
记y=C(logylin),x=C(logxlin),n=C(lognlin),h=C(loghlin),则式(3)可表示为:
y=Clog(exp(C-1x)+exp(C-1n))+h=x+h+Clog[1+exp(C-1(n-x))](4)
其中,y、x、n、h分别表示含噪语音、纯净语音、加性噪声、混响噪声的倒谱特征参数。因为说话人的位置保持不变,所以h可以看作常数,只估计其均值,忽略其方差。
设μx和μn0分别为x的均值和n的初始均值,用一阶矢量泰勒级数将式(4)在点(μx,μn0)处展开,可以得到失配函数的一阶线性近似:
其中,I表示单位矩阵;
>
式(7)中,diag()表示以括号中的向量为对角元素的对角矩阵。
在式(5)两边分别取各项的均值和方差,则含噪混响语音的均值μy和方差Σy可以分别表示为:
Σy=(I-U)Σx(I-U)T+UΣnUT(9)
其中,μx和μn分别表示x和n的均值向量;Σx和Σn分别表示x和n的协方差矩阵。
2、混响和噪声估计:
在训练阶段,用一个GMM表示纯净语音倒谱特征的分布:
>
其中,xt表示第t帧纯净语音的倒谱特征向量;cm、μx,m和Σx,m分别表示GMM中第m个高斯单元的混合系数、均值向量和协方差矩阵。
噪声参数μn、Σn和混响参数h通过最大似然准则和最大期望算法,从含噪语音中估计。辅助函数定义如下:
>
其中,γm(t)=P(m|yt,λ)表示给定GMM的先验参数集λ,第t帧观测向量yt属于GMM第m个高斯单元的后验概率;
对GMM的第m个高斯单元,式(8)可以写为:
其中,Wm=[I,Um],
令式(13)等于零,即可得到均值
在倒谱域,特征向量各维之间的相关性较小,Σx,m、Σn和Σy,m均可近似为对角矩阵。因此,对GMM的第m个高斯单元,式(9)可以重写为:
σy,m=(Vm·Vm)σx,m+(Um·Um)σn(15)
其中,σy,m、σx,m和σn分别为Σy,m、Σx,m和Σn的对角元素列向量;符号·表示矩阵的点乘,即两个同维度矩阵的对应元素分别相乘;Vm=I-Um。
令ηy,m=(σy,m)-1,辅助函数
>
其中,
>
式(17)中,σn0表示噪声方差σn的初值,第一次迭代时一般设为全1的向量;Gm0是一种加权因子,无具体含义,只是为了简化表达式而引入的符号。
将式(17)代入式(16),并令该导数等于零,可以得到噪声方差σn的估计公式:
>
3、模型变换:
从含噪混响语音的倒谱特征参数中估得噪声参数μn、σn和混响参数h后,即可用式(12)和(15)对纯净语音GMM每个高斯单元的均值和方差进行变换,得到与含噪混响语音匹配的测试环境GMM。
4、纯净语音估计:
得到测试环境GMM后,纯净语音的倒谱特征向量用下式进行估计:
>
其中,
机译: 使用加性和卷积性失真的联合补偿的用于噪声自动语音识别的系统和方法
机译: 使用加性和卷积性失真的联合补偿的用于噪声自动语音识别的系统和方法
机译: 使用加性和卷积性失真的联合补偿的用于噪声自动语音识别的系统和方法