首页> 中国专利> 基于语音生成模型的变分贝叶斯语音增强方法

基于语音生成模型的变分贝叶斯语音增强方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于语音生成模型的变分贝叶斯语音增强方法，首先建立含噪语音模型和语音生成模型的状态空间方程，然后表达含噪过程和语音生成过程的概率分布。根据变分贝叶斯方法，用近似后验分布来逼近语音生成模型的参数和纯净语音的概率分布，最后，得到这些近似后验分布的参数更新等式，循环迭代更新等式直到算法收敛。自动模型选择是将语音生成模型的阶数作为变分贝叶斯方法的代价函数的自变量，最小的代价函数值对应的阶数，即是最优的模型阶数，由这个最优阶数计算得到的语音信号即最佳结果。本发明充分利用变分贝叶斯学习模型参数和结构的优点，能准确地估计语音生成模型的参数和阶数，提高了语音增强效果。

著录项

公开/公告号CN1870136A

专利类型发明专利
公开/公告日2006-11-29

原文格式PDF
申请/专利权人上海交通大学;
展开▼

申请/专利号CN200610028331.1
发明设计人黄青华;杨杰;薛云峰;
展开▼

申请日2006-06-29
分类号G10L21/02(20060101);G10L15/20(20060101);
代理机构31201 上海交达专利事务所;
代理人毛翠莹
地址 200240 上海市闵行区东川路800号
入库时间 2023-12-17 17:55:29

法律信息

法律状态公告日

法律状态信息

法律状态
2013-08-21

未缴年费专利权终止 IPC(主分类):G10L21/02 授权公告日:20090610 终止日期:20120629 申请日:20060629

专利权的终止
2009-06-10

授权

授权
2007-01-24

实质审查的生效

实质审查的生效
2006-11-29

公开

公开

说明书

技术领域

本发明涉及一种基于语音生成模型的变分贝叶斯语音增强方法，可广泛应用于语音通讯和语音识别等方面，属于语音信号处理领域。

背景技术

实际的语音采集设备和语音采集环境下不能得到纯净的语音，语音会被各种背景噪声污染，因此在语音通讯和语音识别等应用中，将语音增强作为一个预处理环节是很重要的，增强后的语音可以更好的保证后续语音处理的准确性。

为提高语音质量，现有的语音增强方法主要有以下几种：

第一种方法是阈值法，其基本原理认为信号中幅值绝对值较小的部分主要是噪声，通过一种线性或者非线性压缩函数进一步压缩这部分信号达到语音增强的目的。此算法的主要缺点是压缩噪声的同时也压缩了很多有用的语音信息。

第二种方法是谱减法，假设噪声是平稳的或者是慢时变的加性噪声，并且假设语音信号和噪声是相互独立的条件下，从含噪语音的功率谱中减去噪声的功率谱，从而得到较为纯净的语音频谱。但是，这个方法有一个众所周知的缺点就是增强后的语音信号中存在称为“音乐”噪声的不自然音，进而使人耳主观感觉不舒服。

第三种方法是基于语音生成模型的增强算法，这种算法由于“纯净”语音模型的参数无法准确估计，所以只能采用从含噪信号中直接估计模型参数，如果模型估计不准确，增强后语音可懂度变差。因此从含噪声的语音中准确的估计模型参数和模型阶数是这一方法的关键。Gannot等(S.Gannot，D.Burshteinand E.Weinstein，Iterative and Sequential Kalman Filter-Based Speech EnhancementAlgorithms，IEEE Trans.Speech and Audio Processing，vol.6，No.4，July l998，pp.373-385.)提出一种基于卡尔曼滤波的增强算法，用最大似然法估计语音生成模型参数，但是这种方法不能估计模型阶数，只能用其他方法或者先验知识来确定模型阶数，并且参数初始值的估计对结果影响很大。Vermaak等(J.Vermaak，C.Andrieu，A.Doucet and S.J.Godsill，Partical Methods for Bayesian Modeling andEnhancement of Speech Signals，IEEE Trans.Speech and Audio Processing，Vol.10，No.3，2002，pp.173-185.)提出用马尔可夫链蒙特卡罗方法估计语音生成模型参数，用卡尔曼滤波器估计纯净的语音信号。但是，这种方法也不能估计模型阶数，并且计算量很大，不适用于很多场合。

发明内容

本发明的目的在于针对现有技术的不足，提出一种基于语音生成模型的变分贝叶斯语音增强方法，能够自动选择语音生成模型的阶数，并且能避免参数估计过程中产生过拟合现象，使模型的估计更准确，语音增强的效果更好。

为实现这一目的，本发明采用的技术方案考虑到：变分贝叶斯方法是最近几年发展起来的一种贝叶斯近似方法，其原理是用未知变量和参数的近似后验分布来逼近它们的真实分布，使贝叶斯方法能解析实现，它能学习模型结构和模型参数。因此，本发明充分利用变分贝叶斯方法在学习参数过程中避免过拟合的优点和模型选择的能力，来准确估计语音生成模型的参数和阶数，以更好的达到语音增强的目的。本发明首先建立含噪语音模型和语音生成模型的状态空间方程，然后表达含噪过程和语音生成过程的概率分布。根据变分贝叶斯方法，用近似后验分布来逼近语音生成模型的参数和纯净语音信号的概率分布。最后，得到这些近似后验分布的参数的更新等式，循环迭代更新等式直到算法收敛。自动模型选择是将语音生成模型的阶数作为变分贝叶斯方法的代价函数的自变量，最小的代价函数值对应的阶数，即是最优的模型阶数。由这个最优的阶数计算得到的语音信号是最佳的结果。

本发明的基于语音生成模型的变分贝叶斯语音增强方法主要包括以下几个步骤：

1、将含噪语音信号表达为纯净语音信号和噪声相加的形式，建立含噪语音模型，用一个自回归过程来表示语音生成模型，并建立含噪语音模型和语音生成模型对应的状态空间方程。

2、选定含噪语音模型的噪声为高斯分布，语音生成模型的驱动噪声也为高斯分布，根据这两个高斯分布及含噪语音模型和语音生成模型对应的状态空间方程，得出状态向量和观测向量的概率分布，由先验知识确定语音生成模型的权重系数和所有高斯分布的逆方差的先验分布。

3、根据变分贝叶斯方法的代价函数，并根据状态向量和观测向量的概率分布，以及语音生成模型的权重系数和所有高斯分布的逆方差的先验分布，用变分期望最大化算法求出状态向量、语音生成模型的权重系数和所有高斯分布的逆方差的近似后验分布。

4、用变分卡尔曼平滑算法估计状态向量的近似后验分布参数的更新等式，通过变分期望最大化算法的变分最大化来推导语音生成模型的权重系数和所有高斯分布逆方差的近似后验分布参数的更新等式。

5、在预先确定的语音生成模型阶数范围内选择一个初始阶数值，将含噪语音信号和初始阶数值带入由步骤4推导的参数更新等式中，反复迭代计算代价函数，直到代价函数从一步到下一步的变化的绝对值不大于某个事先确定的阈值，将此时的代价函数及与之对应的状态向量的近似后验分布参数保存。

6、在预先确定的语音生成模型阶数范围内依次改变模型阶数的值，用新的阶数值代替步骤5中的初始阶数值，重复步骤5，得到一组与各模型阶数对应的代价函数和状态向量的近似后验分布参数。

7、在得到的所有代价函数中，最小的代价函数对应的阶数就是最优的模型阶数，由这个最优模型阶数所对应的状态向量的近似后验分布参数计算得到的语音信号就是最优的结果。

本发明充分利用变分贝叶斯学习模型参数和结构的优点，更加准确地估计语音生成模型的参数和阶数，提高了语音增强效果。

本发明提出的基于语音生成模型的变分贝叶斯语音增强方法，可广泛应用于语音通讯和语音识别等方面，具有相当的实用价值。

具体实施方式

为了更好地理解本发明的技术方案，以下作进一步的详细描述。

1.含噪语音信号x_t表达为纯净语音信号s_t和噪声n_t相加的形式，建立含噪语音模型如下：

x_t＝s_t+n_t (1)

下标t是时间。语音生成模型用一个自回归过程来表示：

$>>>s>t>>=>>>w>V>>T>sup>>>s>V>>t>>(>p>)>sup>>+>>e>t>>->->->>(>2>)>>>s>$

$>>>w>V>>=> (\begin{matrix} >>>>w>1>>,>>w>2>>L>>>>w>p>>>>>>T>>>s>是自回归模型的权重系数， \\ >sup>>>s>V>>t>>(>p>)>sup>>=>[>>s>>t>->1>>>,>L>,>>s>>t>->p>>>]>>s>是和t时刻语音值有关的过去的p个值，p是模型的阶数。e \end{matrix})$ _t是自回归模型的驱动噪声。根据上述的含噪语音模型(1)和语音生成模型(2)，建立状态空间方程如下：

$>>>>s>V>>t>>=>A>>>s>V>>>t>->1>>>+>>Be>t>>->->->>(>3>)>>>s>$

$>>>x>t>>=>C>>>s>V>>t>>+>>n>t>>->->->>(>4>)>>>s>$

$>>>>s>V>>t>>>@> (\begin{matrix} >>>>s>t>>>>>s>>t>->1>>>>>L>>>>s>>t>->p>+>1>>>>>>>T>>>s>是p维的状态向量，含噪语音信号x \end{matrix})$ _t是观测向量， $>>A>@ (\begin{matrix} >>>>>w>V>>T>>>>>>>>I>[>p>->1>]>>>>0>>p>->1>×>1>>>>>>>>s>是p×p的状态转移矩阵，B＝C \end{matrix})$ ^T@[10L0]^T，I[p-1]是(p-1)×(p-1)单位阵。

2.噪声n_t选为高斯分布，表示为p(n_t)＝G(n_t|0，γ)。自回归模型的驱动噪声e_t也选为高斯分布，表示为p(e_t)＝G(e_t|0，β)。G(y|a，b)表示随机变量y满足均值为a，逆方差为b的高斯分布。根据(3)，状态向量的概率分布如下式：

$>>p>>(>>>s>V>>t>>|>>>s>V>>>t>->1>>>,>>w>V>>,>β>)>>=>G>>(>>>s>V>>t>>|>A>>>s>V>>>t>->1>>>,>β>)>>->->->>(>5>)>>>s>$

根据(4)，观测向量的概率分布可以被写作

$>>p>>(>>x>t>>|>>>s>V>>t>>,>γ>)>>=>G>>(>>x>t>>|>>s>t>>,>γ>)>>->->->>(>6>)>>>s>$

自回归模型的权重系数服从一个零均值的高斯先验分布

$>>p>>(>>w>V>>|>α>)>>=>G>>(>>w>V>>|>0>,>αI>[>p>]>)>>->->->>(>7>)>>>s>$

所有高斯分布的逆方差服从Gamma先验分布

p(α|H)＝Gamma(δ|b^(α)，c^(α)) (8)

p(β|H)＝Gamma(β|b^(β)，c^(β)) (9)

p(γ|H)＝Gamma(γ|b^(γ)，c^(γ)) (10)

3.用X表示观测向量的集合{x₁，x₂，…，x_T}，用S表示状态向量的集合用θ表示语音生成模型的权重系数和所有高斯分布的逆方差的集合变分贝叶斯方法的原理就是用一个近似后验分布Q(S，θ)来逼近p(S，θ|X)，在实际中用的代价函数是

$>>>C>KL>>=>⟨>log>>>Q>>(>S>,>θ>)>>>>p>>(>X>,>S>,>θ>)>>>>>⟩>Q>>=>>>⟨>log>>>Q>>(>S>)>>Q>>(>θ>)>>>>p>>(>X>,>S>,>θ>)>>>>⟩>>Q>>->->->>(>11>)>>>s>$

<·>_Q表示在概率分布Q(·)下的期望。根据变分贝叶斯方法的代价函数(11)，并根据状态向量和观测向量的概率分布(5)-(6)，以及语音生成模型的权重系数和所有高斯分布的逆方差的先验分布(7)-(10)，用变分期望最大化算法可以得到状态向量、语音生成模型的权重系数和所有高斯分布的逆方差的近似后验分布如下：

$>>Q>>(>>>s>V>>t>>)>>=>G>>(>>>s>V>>t>>|sup>>>m>V>>t>>(>s>)>sup>>,sup>>V>t>>(>s>)>sup>>)>>->->->>(>12>)>>>s>$

$>>Q>>(>>w>V>>)>>=>G>>(>>w>V>>|>>>μ>V>>>(>w>)>>>,>>Σ>>(>w>)>>>)>>->->->>(>13>)>>>s>$

Q(α)＝Gamma(α|b^(α)，c^(α)) (14)

Q(β)＝Gamma(β|b^(β)，c^(β)) (15)

Q(γ)＝Gamma(γ|b^(γ)，c^(γ)) (16)

4.用变分卡尔曼平滑算法求状态向量的近似后验分布(12)中的参数。一个序列集合{x_t0，x_t0+1，L，x_t1}用{x}_t0^t1来表示，首先定义条件期望 $>>>>m>V>>>t>|>τ>>>=>E>>(>>>s>V>>t>>|sup>>>{>x>}>>1>τsup>>)>>>s>和条件协方差矩阵 >>>V>>t>|>τ>>>=>Var>>(>>>s>V>>t>>|sup>>>{>x>}>>1>τsup>>)>>,>>s>初始值 >>>>m>V>>>0>|>0>>>=>>>m>V>>0>>>s>和V$ _0|0＝V₀，对t＝1，L，T，以下是卡尔曼滤波前向递归过程：

$>>>>m>V>>>t>|>t>->1>>>=>>A>‾>>>>m>V>>>t>->1>|>t>->1>>>->->->>(>17>)>>>s>$

V_t|t-1＝AV_t-1|t-1A^T+P (18)

$>>>K>t>>=>>V>>t>|>t>->1>>>>C>T>>>>(>>CV>>t>|>t>->1>>>>C>T>>+>>>(>>>⟨>γ>⟩>>Q>>)>>>->1>>>)>>>->1>>>->->->>(>19>)>>>s>$

$>>>>m>V>>>t>|>t>>>=>>>m>V>>>t>|>t>->1>>>+>>K>t>>>(>>x>t>>->C>>>m>V>>>t>|>t>->1>>>)>>->->->>(>20>)>>>s>$

V_t|t＝V_t|t-1-K_tCV_t|t-1 (21)

这里 $>>>A>‾>>@ (\begin{matrix} >>sup>>>⟨>>w>V>>⟩>>Q>Tsup>>>>>>>>I>[>p>->1>]>>>>0>>p>->1>×>1>>>>>>>,>P>= \\ (\begin{matrix} >>>>β>‾>>>>>0>>1>×>p>->1>>>>>>>>0>>p>->1>×>p>>>>>>>>>,>>s>β＝(〈β〉 \end{matrix}) \end{matrix})$ _Q)^-1， $>>p>>(>>>s>V>>t>>|sup>>>{>x>}>>1>tsup>>)>>=>G>>(>>>s>V>>t>>|>>>m>V>>>t>|>t>>>,>>V>>t>|>t>>>)>>>s>是状态向量的卡尔曼滤波分布。继续进行卡尔曼平滑算法，用对应的卡尔曼滤波值初始化和V$ _T|T，对t＝T-1，L，0，接着进行后向递归过程如下：

$>>>Q>t>>=>>V>>t>|>t>>>>>A>‾>>T>sup>>V>>t>+>1>|>t>>>->1>sup>>->->->>(>22>)>>>s>$

$>>>>m>V>>>t>|>T>>>=>>>m>V>>>t>|>t>>>+>>Q>t>>>(>>>m>V>>>t>+>1>|>T>>>->>>m>V>>>t>+>1>|>t>>>)>>->->->>(>23>)>>>s>$

$>>>V>>t>|>T>>>=>>V>>t>|>t>>>+>>Q>t>>>(>>V>>t>+>1>|>T>>>->>V>>t>+>1>|>t>>>)>sup>>Q>t>Tsup>>->->->>(>24>)>>>s>$

因此，我们得到 $>>Q>>(>>>s>V>>t>>)>>=>G>>(>>>s>V>>t>>|sup>>>m>V>>t>>(>s>)>sup>>,sup>>V>t>>(>s>)>sup>>)>>>s>参数的更新等式为： >sup>>>m>V>>t>>(>s>)>sup>>=>>>m>V>>>t>|>T>>>>s>和 >sup>>V>t>>(>s>)>sup>>=>>>[>>V>>t>|>T>>>]>>>->1>>>.>>s>$

用变分期望最大化算法的变分最大化推导语音生成模型的权重系数和所有高斯分布逆方差的近似后验分布参数的更新等式如下：

$>>>Σ>>(>w>)>>>=>>>⟨>αI>[>p>]>⟩>>Q>>+>>Σ>>t>=>1>>T>>>>⟨>βsup>>>s>V>>t>>(>p>)>sup>sup>>>s>V>>t>>>(>p>)>>T>sup>>⟩>>Q>>->->->>(>25>)>>>s>$

$>>>>μ>V>>>(>w>)>>>=>>>[>>Σ>>(>w>)>>>]>>>->1>>>[>>Σ>>t>=>1>>T>>>>⟨>>βs>t>sup>>>s>V>>t>>(>p>)>sup>>⟩>>Q>>]>->->->>(>26>)>>>s>$

$>>>>c>‾>>>(>α>)>>>=>>c>>(>α>)>>>+>>p>2>>->->->>(>27>)>>>s>$

$>>>>b>‾>>>(>α>)>>>=>>b>>(>α>)>>>+>>1>2>>>>⟨>>>w>V>>T>>>w>V>>⟩>>Q>>->->->>(>28>)>>>s>$

$>>>>c>‾>>>(>β>)>>>=>>c>>(>β>)>>>+>>T>2>>->->->>(>29>)>>>s>$

$>>>>b>‾>>>(>β>)>>>=>>b>>(>β>)>>>+>>1>2>>>>⟨>>>(>>s>t>>->>>w>V>>T>sup>>>s>V>>t>>(>p>)>sup>>)>>2>>⟩>>Q>>->->->>(>30>)>>>s>$

$>>>>c>‾>>>(>γ>)>>>=>>c>>(>γ>)>>>+>>T>2>>->->->>(>31>)>>>s>$

$>>>>b>‾>>>(>γ>)>>>=>>b>>(>γ>)>>>+>>1>2>>>Σ>>t>=>1>>T>>>>⟨>>>(>>x>t>>->>s>t>>)>>2>>⟩>>Q>>->->->>(>32>)>>>s>$

5.在预先确定的语音生成模型阶数范围内选择一个初始阶数值P₁，将实际的含噪信号x_t和初始阶数值p₁带入由步骤4推导的参数的更新等式(17)-(32)中，反复迭代计算(11)式的代价函数，直到代价函数从一步到下一步的变化的绝对值不大于某个事先确定的阈值停止，将此时的代价函数及与之对应的状态向量的近似后验分布参数保存；

6.在预先确定的语音生成模型阶数范围内依次改变模型阶数的值，用新的阶数值p代替步骤5中的初始阶数值P₁，重复步骤5，得到一组与各模型阶数对应的代价函数和状态向量的近似后验分布参数；

7.在得到的所有代价函数中，最小的代价函数对应的p值就是最优的模型阶数，由这个最优模型阶数所对应的状态向量的近似后验分布参数计算得到的语音信号 $>>>>s>^>>t>>=>Csup>>>m>V>>t>>(>s>)>sup>>>s>就是最好的结果。$

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于语音生成模型的变分贝叶斯语音增强方法 [P] . 中国专利： CN100498935C . 2009.06.10
2. 基于语音生成模型的变分贝叶斯语音增强方法 [P] . 中国专利： CN1870136A . 2006-11-29
3. Track determination of anomalous objects using variational Bayesian expectation maximization based on Gaussian process [P] . 日本专利： JP2015523753A . 2015-08-13

机译：基于高斯过程的变分贝叶斯期望最大化跟踪异常物体
4. Abnormal object track determination using a Gaussian Processes based Variational Bayes Expectation Maximisation [P] . AU2013254437A1 . 2014-10-30

机译：使用基于高斯过程的变分贝叶斯期望最大化进行异常物体跟踪确定
5. VOICE DATA ENHANCING METHOD AND DEVICE IN VOICE RECOGNITION BASED ON RECURRENT NEURAL NETWORK [P] . 世界知识产权组织专利： WO2019024008A1 . 2019-02-07

机译：基于递归神经网络的语音识别语音数据增强方法及装置