首页> 中国专利> 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法

基于可分离深度自动编码技术的无监督噪声估计和语音增强方法

摘要

本发明公开了一种基于可分离深度自动编码技术的无监督噪声估计和语音增强方法,包括事前处理和对被未知噪声污染的语音增强,可以灵活运用于各类语音处理场景:不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类等,并与经典的基于平稳性假设的谱估计算法SS和MMSE相比,本发明不再依赖于这种平稳性假设,可以较准确的估计出平稳或突变噪声的频谱;与基于隐马尔可夫和线性预测系数的算法相比,本发明不需要指定所处理非平稳噪声类型;与基于低秩结构的噪声估计方法相比,本发明无需噪声具有低秩重复结构。

著录项

  • 公开/公告号CN105023580A

    专利类型发明专利

  • 公开/公告日2015-11-04

    原文格式PDF

  • 申请/专利权人 中国人民解放军理工大学;

    申请/专利号CN201510357980.5

  • 申请日2015-06-25

  • 分类号G10L21/0208(20130101);G10L19/008(20130101);

  • 代理机构32203 南京理工大学专利中心;

  • 代理人唐代盛

  • 地址 210007 江苏省南京市秦淮区后标营路88号

  • 入库时间 2023-12-18 11:42:56

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-13

    授权

    授权

  • 2015-12-02

    实质审查的生效 IPC(主分类):G10L21/0208 申请日:20150625

    实质审查的生效

  • 2015-11-04

    公开

    公开

说明书

技术领域

本发明属于语音信号处理技术领域,特别是一种基于可分离深度自动编码技 术的无监督噪声估计和语音增强方法。

背景技术

语音增强无论对于提高语音信号的听觉效果,还是作为前端处理提高语音识 别器的性能,都具有重要的意义。语音增强的核心问题在于语音噪声的分离,理 想的语音增强技术需要在未知噪声的前提条件下,也能获得很好的效果。为此, 语音增强需要解决的一个关键问题是噪声估计问题。为了估计噪声的频谱,人们 提出了一些经典的算法,如谱减(Spectrum Subtraction,SS)、最小均方误差 (Minimum Mean Square Error,MMSE)等,并已经广泛应用在语音通信中。然 而,这些方法一般基于噪声的平稳性假设,对于具有高度非平稳突变特性的噪声 的频谱估计效果较差。

基于隐马尔可夫模型和线性预测系数的码书的语音增强方法能够处理非平 稳噪声,其前提条件是需要在已知噪声的条件下预先训练出噪声谱,并且噪声谱 的特征在实际带噪语音信号中不发生显著变化。然而,当所需处理的噪声特征未 知或不可得到时,这些方法就不能够有效实现语音增强。

基于非负矩阵分解的语音增强方法在噪声已知的条件下,也能够处理非平稳 噪声。为了使其在噪声未知的条件下也能取得好的效果,一种解决方案需要提前 训练出若干种不同噪声环境的噪声字典,将每种噪声环境的字典作为一个状态, 并在允许不同状态之间可以跳转(N.Mohammadiha,P.Smaragdis,and A.Leijon, “Supervised and unsupervised speech enhancement using nonnegative matrix  factorization,”Audio,Speech,and Language Processing,IEEE Transactions on,vol. 21,no.10,pp.2140–2151,2014.)。然而,这种方法无法穷举可能遇到的所有未 知噪声环境,并且,在特定噪声环境下也可能存在不匹配问题。一种解决方案是 假设噪声频谱具有低秩结构或预先训练一个通用的语音字典,根据输入的含噪声 的语音谱,估计出噪声谱(M.Sun,Y.Li,J.F.Gemmke,X.Zhang“Speech  enhancement under low SNR conditions via noise estimation using sparse and  low-rank NMF with Kullback-Leibler divergence,”IEEE Transactions on Audio, Speech and Language Processing,vol.59,2015.)。但噪声的这种低秩假设限制了 其在不具有低秩结构的噪声消除方面的效果。

在无任何噪声先验信息的条件下估计出噪声谱,其本质上就是找到无法用语 音模型表示的成分(这部分被认为是噪声),所以首要的问题是精确的表示语音, 从而利于后续的非语音成分的剔除。近年来,深度学习在语音信号表示领域获得 了成功应用,并且在噪声已知条件下取得了较好的去噪效果(X.Lu,Y.Tsao,S. Matsuda,and C.Hori,“Speech enhancement based on deep denoising autoencoder,” in INTERSPEECH,2013,pp.436–440.)。借助于104种噪声合成的带噪语音库, 通过训练深度神经网络建立起带噪语音信号和干净语音信号之间的映射关系(Y. Xu,J.Du,L.-R.Dai,and C.-H.Lee,“A regression approach to speech enhancement  based on deep neural networks,”IEEE/ACM Transactions on Audio,Speech,and  Language Processing,vol.23,no.1,pp.7–19,January 2015.)。巨大的训练数据集 使对于未知噪声的处理成为可能,相关的实验结果也验证了增强效果的显著提 升。然而,无论训练噪声数据集如何庞大,仍然无法得到能够囊括自然界的所有 噪声类型。因此,还需要一种在任何噪声环境都能使用的语音增强技术。

在信号的频谱领域进行处理,需要用到描述信号幅度谱重构的深度自编码机 (Deep Auto Encoder,DAE),在此先做简要介绍。DAE本质上是一个多层的神经 网络,并假设其输出与输入是相同的,然后训练调整其各层参数(即每一层的权 重和偏置)(http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial)。 然后,就得到了输入幅度谱的几种不同表示(每一层代表一种表示)。DAE就 是一种在输出层尽可能复现输入信号的神经网络。降噪深度自编码机(Denoising  DAE)是一种采用了“对干净语音信号加入人工噪声,并将其映射到干净语音信 号”的思路,在噪声已知的情况下经常被采用[8][9]。但在未知噪声,或未知噪声 特性与已知噪声差异很大的情况下,会存在不匹配的问题,从而影响其效果。

发明内容

本发明的目的在于提供一种基于可分离深度自动编码技术的无监督噪声估 计和语音增强方法,旨在解决无噪声或特定说话人先验信息的模式下,能够同时 估计出干净语音谱和未知噪声频谱结构。

实现本发明目的技术解决方案为:一种基于可分离深度自动编码技术的无 监督噪声估计和语音增强方法,包括事前处理和对被未知噪声污染的语音增强:

所述事前处理的实现步骤为:

步骤一,对干净语音时域信号s(n),经过分帧加窗后,对每帧进行傅里叶变 换并取模,得到该帧的幅度谱s;综合所有帧,就可得该语句的幅度谱S;

步骤二,使用来自不同性别、不同说话人的大量语音信号的幅度谱S,通过 非负矩阵分解,训练出一个能够表征语音信号的非负语音字典D,即求解如下优 化问题:

minD,CKLD(S||DC)

其中,KLD表示Kullback-Leibler散度,D为所要求的非负字典,C为字典 中各基函数的激活系数;

步骤三,使用来自不同性别、不同说话人的大量语音信号的幅度谱S,训练 出一个能够表征语音信号的深度自动编码机f(s);其中,各个节点的激活函数采 用反射线性单元激活函数σ(·)来确保重构谱的非负性,编码机的输出函数为:

f(W,b,S)=σ(W(l0)...σ(W(1)S+b(1))...+b(l0))

其中,W={W(1),...,W(l0)},b={b(1),...,b(l0)}分别为各层的系数和偏置,它们是 待估参数,因此,训练的目标函数为:

minW,b12||S-f(W,b,S)||l0l0

所述对被未知噪声污染的语音增强实现步骤为:

步骤四,对输入的带噪语音时域信号x(n),经过分帧加窗后,对每帧进行傅 里叶变换并取模得到该帧的幅度谱x;

步骤五,使用预先训练的非负语音字典D和预先训练好的深度自动编码机 f(s),该f(s)含参数的表述形式为f(W,b,S),引入额外的深度自动编码机g(n), 将这三者联合起来对含噪语音进行建模;该模型中,所有不能被语音深度自动编 码机f(s)有效表示的成分均被认为是噪声,用g(n)来表示;利用链式求导方法 迭代更新语音基函数的系数向量和噪声模型中的未知参数,分别得到干净语音幅 度谱和噪声谱的估计值;

步骤六,将估计所得的干净语音幅度谱,使用带噪语音信号的相位,重构出 增强后的语音信号

本发明与现有技术相比,其显著优点:(1)本发明可以灵活运用于各类语音 处理场景:不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪 声的种类等;(2)与经典的基于平稳性假设的谱估计算法SS和MMSE相比, 本发明不再依赖于这种平稳性假设,可以较准确的估计出平稳或突变噪声的频 谱;(3)与基于隐马尔可夫和线性预测系数的算法相比,本发明不需要指定所 处理非平稳噪声类型;(4)与基于低秩结构的噪声估计方法相比,本发明无需 噪声具有低秩重复结构。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明基于可分离深度自动编码技术的无监督噪声估计和语音增强 方法的流程图。

图2是本发明实施例提供的基于可分离深度自动编码技术的无监督噪声估 计和语音增强方法在粉红噪声估计的效果示意图(输入信噪比为-5dB)。

图3是本发明实施例提供的基于可分离深度自动编码技术的无监督噪声估 计和语音增强方法与经典无监督算法SS、MMSE和NMF算法的效果对比:各 方法在100句语音被20种噪声在[-5dB,0dB,5dB,10dB]信噪比条件下污染后进 行增强所得语音的平均PESQ得分,值越高说明效果越好。

图4是本发明与经典无监督算法SS、MMSE和NMF算法在100句语音被 20种噪声在[-5dB,0dB,5dB,10dB]信噪比条件下污染后进行增强所得语音的平 均信号失真比SDR得分,值越高说明效果越好。

图5是本发明与经典无监督算法SS、MMSE和NMF算法在100句语音被 20种噪声在[-5dB,0dB,5dB,10dB]信噪比条件下污染后进行增强所得语音的平 均分段信噪比SEGSNR得分,值越高说明效果越好。

具体实施方式

结合图1,本发明基于可分离深度自动编码技术的无监督噪声估计和语音增 强方法,包括事先处理和对被未知噪声污染(所谓“未知噪声”就是在语音增强 算法的训练阶段未曾遇到过的噪声类型)的语音增强:

所述事先处理的实现步骤为:

步骤一,对对来自不同性别、不同说话人的大量干净语音时域信号s(n),经 过分帧加窗后,对每帧进行傅里叶变换并取模,得到该帧的幅度谱s;综合所有 帧,就可得该语句的幅度谱S。

步骤二,使用来自不同性别、不同说话人的大量语音信号的幅度谱S,通过 非负矩阵分解,训练出一个能够表征语音信号的非负语音字典D,即求解如下优 化问题:

minD,CLD(S||DC)

其中,KLD表示Kullback-Leibler散度,D为所要求的非负字典,C为字典 中各基函数的激活系数。该步骤的目的是使得本发明能表示并增强非特定说话人 的语音。

步骤三,使用来自不同性别、不同说话人的大量语音信号的幅度谱S(可与 步骤二中的S相同或不同),训练出一个能够表征语音信号的深度自动编码机 f(s);其中,各个节点的激活函数采用反射线性单元激活函数(Rectified Linear  Unit,ReLU)σ(·)来确保重构谱的非负性,编码机的输出函数为:

f(W,b,S)=σ(W(l0)...σ(W(1)S+b(1))...+b(l0))

其中,W={W(1),...,W(l0)},b={b(1),...,b(l0)}分别为各层的系数和偏置,它们是 待估参数,因此,训练的目标函数为:

minW,b12||S-f(W,b,S)||l0l0

如以2层神经网络为例来描述编码机的输出函数为:

f(W,b,S)=σ(W(2)σ(W(1)S+b(1))+b(2))

其中,W={W(1),W(2)},b={b(1),b(2)}分别为各层的系数和偏置,它们是待估参 数,因此,训练的目标函数为:

minW,b12||S-f(W,b,S)||22

采用无监督预训练和有监督调优,通过传统的梯度下降算法优化上述问题,按照 现有技术UFLDL_Tutorial的方法,可以得到W,b。该步骤采用来自不同性别大 量说话人的语音的目的,也是使得本发明能表示并增强非特定说话人的语音。

所述对被未知噪声污染的语音增强实现步骤为:

步骤四,对输入的带噪语音时域信号x(n),经过分帧加窗后,对每帧进行傅 里叶变换并取模得到该语音帧的幅度谱x。在步骤四中,使用步骤三得到的深度 自动编码机f(s)(其含参数的表述形式为f(W,b,s))来表示带噪语音中对应的 干净语音部分,引入额外的深度自动编码机g(n)来表示带噪语音中对应的噪声 成分,这两个模型联合表示带噪语音谱并通过调整线性单元激 活函数σ(·)[Rectified Linear Unit(ReLU)]来确保重构谱的非负性,各深度自动编 码机对应的多层神经网络为:

f(s)=σ(W(l0)...σ(W(1)s+b(1))...+b(l0))

g(n)=σ(V(k0)...σ(V(1)n+c(1))...+c(k0))

l0、k0分别为语音、噪声对应神经网络的层数。

在步骤二、四中,使用从大量不同说话人语音信号训练所得的非负语音字典 D来表示混合谱中的干净语音成分将作为的s估计,并估计出语音基 函数(D中的列矢量)相对应的系数向量y,噪声成分通过混合谱与干净语音谱 做差的方式来得到,即σ(x-Dy),其非负性由调整线性单元激活函数σ(·)来确 保:

f(y)=σ(W(l0)...σ(W(1)Dy+b(1))...+b(l0))

g(y)=σ(V(k0)...σ(V(1)σ(x-Dy)+c(1))...+c(k0))

V(k),c(k)为噪声深度自编码机各层的系数和偏置。至此,语音部分自编码后 的重构为f(y),噪声部分自编码后的重构为g(y),这两部分加起来就得到了带 噪语音幅度谱的一个估计:由于在整个网络中语音网络f(y)和 噪声网络g(y)是分离的,所以本发明叫做“可分离深度自编码机”,所求解的相应 优化问题最终转化为如下形式:

{y^,V^(k),c^(k)}=argminy,V(k),c(k)12||x-(f(y)+g(y))||22

其中,y,V(k),c(k)为输入含噪语音的幅度谱x后的待估参数;该步骤中未对 噪声种类和特性做任何假设,通过一个额外的深度自编码机将其建模,通过与语 音部分的参数联合估计,进而将其从语音中分离出来;由于未利用噪声频谱的任 何性质(如低秩、与某类频谱类似等等),所以可以处理任何未知噪声。

步骤五,使用预先训练的非负语音字典D和预先训练好的深度自动编码机 f(s),引入额外的深度自动编码机g(n),将这三者联合起来对含噪语音进行建 模,该模型中,所有不能被语音深度自动编码机f(s)有效表示的成分均被认为是 噪声,用g(n)来表示;利用链式求导方法迭代更新语音基函数的系数向量y和噪 声模型中的未知参数(噪声自编码机各层的参数V(k),c(k)),分别得到干净语音 幅度谱和噪声谱的估计值。

本发明为了使得语音和噪声最大限度的分离,在目标函数 ϵ=12||x-(f(y)+g(y))||22中添加最大边际距离约束,

R1(y)=-α||f(y)-g(y)||22

通过最小化该约束,使得语音部分f(y)和噪声部分g(y)的距离尽可能的大, 也就是机器学习领域通常所说的最大边际距离。

本发明通过乘法迭代更新准则来更新未知参数如下:考虑到各系数的非负性 (以保证重构幅度谱的非负性并使得求解问题简化),采用乘法迭代准则:

其中,表示对θ求偏导数的负部,则表示对θ求偏导数的正部,重 构误差γ为可调整指数步长。上面的迭代公式中每个 分量的求解可通过链式法则来实施,但要区分正部和负部。利用链式求导方法求 取梯度(上述三个公式大括号中的部分就是梯度)的正部和负部步骤为:

1)更新y的方法

对于字典D中各语音基函数相对应的系数向量y,有如下关系:

[ϵy]+=[s~Ty]+[ϵs~]++[s~Ty]-[ϵs~]-

[ϵy]-=[s~Ty]-[ϵs~]++[s~Ty]+[ϵs~]-

其中,为语音部分通过预先训练的字典的重构,因此有

[s~Ty]+=D,[s~Ty]-=0

为了计算以及对语音的深度自编码机和噪声的深度自编码机使用 层级记法,各层输入ReLU单元的表示为:

h(l+1)=W(l+1)σ(hl)+b(l+1)

其中1≤l≤l0-1是各层的序号,h(1)为最底层的输入为最顶层的输出 f(y),噪声部分的层级表示为:

p(k+1)=V(l+1)σ(pl)+c(l+1)

其中1≤k≤k0-1是各层的序号,p(1)=x-Dy和分别为最底层的输 入和最顶层的输出;有了上面的层级记法,ε关于偏导数的偏导数如下所示:

ϵs~=(σ(h(1)))Ts~ϵσ(h(1))+(σ(p(1)))Ts~ϵσ(p(1))

的正部和负部通过计算得到,因此使用自底向上求取:

[ϵσ(h(l))]+=[(h(l+1)T)σ(h(l))]+[(σ(h(l+1)))Th(l+1)][ϵσ(h(l+1))]++[(h(l+1))Tσ(h(l))]-[(σ(h(l+1)))Th(l+1)][ϵσ(h(l+1))]-=[W(l+1)]+,Tdiag(I(h(l+1)))[ϵσ(h(l+1))]++[W(l+1)]-,Tdiag(I(h(l+1)))[ϵσ(h(l+1))]-

[ϵσ(h(l))]-=[(h(l+1)T)σ(h(l))]-[(σ(h(l+1)))Th(l+1)][ϵσ(h(l+1))]++[(h(l+1))Tσ(h(l))]+[(σ(h(l+1)))Th(l+1)][ϵσ(h(l+1))]-=[W(l+1)]-,Tdiag(I(h(l+1)))[ϵσ(h(l+1))]++[W(l+1)]+,Tdiag(I(h(l+1)))[ϵσ(h(l+1))]-

当l从1到l0-1层时,上述链式方法的中间项,是反射线性单元 的偏导数,其值是永远是非负的,为以h(l+1)的示性函数I(h(l+1))为对角线元素的对角 矩阵diag(I(h(l+1)));当到达语音深度自动编码顶层l0时,有:

[ϵσ(h(l0))]+=σ(h(l0))+σ(p(k0))+2α(σ(p(k0))),[ϵσ(h(l0))]-=x+2α(σ(h(l0))),

和使用上述方法来求取;

2)噪声深度自动编码机g(y)中参数的更新

为了得到和首先需要获得ε关于第k层噪声表示σ(p(k))的偏导 数,即采用自顶向下的递归方式进行,在递归开始的时候,ε关于顶 层噪声单元的偏导数为,

[ϵσ(p(k0))]+=σ(h(l0))+σ(p(k0))+2α(σ(h(l0)))[ϵσ(p(k0))]=x+2α(σ(p(k0)))

通过分别使用V(k)和c(k)替代W(l)和b(l),就能够得到任何从k0-1到2中任意的k 值和由于V(k)的非负性,其负部永远是0;因此,重构 误差ε关于噪声深度自动编码机的参数的偏导数为:

[ϵVi,j(k)]+=[(p(k))TVi,j(k)]+[(σ(p(k)))Tp(k)][ϵσ(p(k))]++[(p(k))TVi,j(k)]-[(σ(p(k)))Tp(k)][ϵσ(p(k))]-=[σ(p(k-1))]+,T[ϵp(k)]++[σ(p(k-1))]-,T[ϵp(k)]-=(p(k-1))T[ϵp(k)]+

[ϵci(k)]+=[(p(k))Tci(k)]+[(σ(p(k)))Tp(k)][ϵσ(p(k))]++[(p(k))Tci(k)]-[(σ(p(k)))Tp(k)][ϵσ(p(k))]-=1T[ϵp(k)]+

步骤六,将估计所得的干净语音幅度谱,使用带噪语音信号的相位,重构出 增强后的语音信号

实施例

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

结合图1,本发明基于可分离深度自动编码技术的无监督噪声估计和语音增 强方法的实现过程如下。

S101,从英语经典数据库TIMIT中随机选取来自不同性别、不同说话人的 500句语音,将其将采样为8kHz,以64ms的窗长8ms的帧移为参数分帧,然后 做512点的快速傅里叶变换,取模后,提取它们的幅度谱S;

S102,然后对S实施非负矩阵分解,训练出一个能够表征语音信号的非负 语音字典D,其中字典的大小也就是基函数的数目选取为2000;

S103,接下来对S实施深度自编码学习,训练f(S)中的未知参数,以使其重 构干净语音幅度谱S;逐层的无监督预训练先用来初始化这个深度自编码机:

首先,用S训练一个三层并且中间隐含层含有1000个节点的网络,其结构 为257×1000×257(其中257为512点傅里叶变换后,由于对称性只取一半幅度 谱值),因此任何一个语音帧的幅度谱就可以被这1000个隐含节点来表出。

其次,为了使得信号表示具有“深层”特性,这1000个隐含单元又进一步被 200个隐含单元所编码,这通过训练结构为1000×200×1000的网络来实现。

然后,通过展开上面训练的两个网络,可以获得一个5层的深度自编码机, 它具有结构257×1000×200×1000×257。

最后,有监督的逐层调优通过back propagation算法来进一步改进这个多层 的网络。

S104,数据准备:为验证本发明的效果,实施例用100句从TIMIT的男女 说话人中随机选取,并在不同信噪比条件下加不同类型噪声,做语音增强实验。 测试了私语噪声(babble),鸟叫(birds),赌场(casino),蝉鸣(cicadas),键 盘敲击(computerkeyboard),吃薯片(eatingchips),战斗机(f16),工厂1(factory1), 工厂2(factory2),赛车1(formula1),高速路(freeway),蛙叫(frogs),爵 士乐(jungle),机枪(machineguns),摩托车(motorcycles),海浪(ocean),电 话(phone),粉红(pink),白噪声(white),车内噪声(volvo),这二十种噪 声,其中既包含了像f16这样的平稳噪声,也包含了像machinegun和computer  keyboard这样的非平稳噪声,以检验算法应对各类噪声的性能;

对输入的带噪语音时域信号x(n),将采样为8kHz,以64ms窗长和8ms帧 移,经过分帧加窗后,对每帧进行512点的傅里叶变换,取前257个点并取模, 得到该语句的幅度谱X。

S105,对该语句引入一个3层的结构为257×M×257的深度自动编码机以对 噪声进行建模,其中M为该网络隐含节点的数目,数目越多,该网络的信号表 示能力越强,但也使其变得复杂,一般来说,长句子和低信噪比条件下,应采用 较大的M,以应对可能的大量的非平稳噪声。

S105,使用预先训练的非负语音字典D、结合深度自动编码技术,利用前述 的链式求导法则,迭代更新语音基函数的系数向量y和噪声网络中的参数V(l)、 b(l)

S107、将估计所得的干净语音幅度谱f(y),使用带噪语音信号的相位,重构 出增强后的语音信号

本发明所提出的基于可分离深度自动编码技术的无监督噪声估计和语音增 强方法在噪声估计上的效果如下图2所示,图中选取了“粉红噪声”(pink)信噪比 为-5dB条件下的增强效果示意图。左上图为含噪语音幅度谱图,右上图为干净 语音幅度谱,左中图为使用谱减法所得噪声的幅度谱,右中图为可分离深度自动 编码所估计得到的干净幅度谱图,左下为所添加噪声的幅度谱图,右下为采用可 分离深度自动编码估计得到的噪声幅度谱图。通过对比,可以看到本发明的方法 在噪声估计方面和去噪方面均获得了良好的效果。

本发明相对于已有技术的优越性将在后文给出具体数值对比。所采用的评价 指标“PESQ分”和“分段信噪比”来自现有技术(A.Rix,J.Beerends,M.Hollier,and  A.Hekstra,“Perceptual evaluation ofspeech quality(pesq)-a new method for speech  quality assessment of telephone networks and codes,”in ICASSP,2001,pp. 749–752.),“信号失真比”来自于现有技术(E.Vincent,C.Fevotte,and R.Gribonval, “Performance measurement in blind audio source separation,”IEEE Trans.on Audio  Speech Lang.Process,vol.14,pp.1462–1469,2006.),谱减和最小均方误差估计 算法来自于现有技术(http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox,2012.)。为 了量化的对比所提方法与经典算法的效果,将信噪比以5dB为间隔在-5到10dB 之间取值,对每组实验分别计算PESQ分值、“信号失真度”(Signal-to-Distortion  Ratio,SDR)和分段信噪比(Segmental SNR,SEGSNR)。这些指标的值越大,说 明增强的效果越好.从图3、图4、图5可以看出,本发明所提出的方法“基于 可分离深度自动编码技术的无监督噪声估计和语音增强方法”在PESQ、SDR和 SEGSNR三个指标上都对经典算法有明显提高。

本发明的基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 可以灵活运用于各类语音处理场景的:不局限于语音内容所属的语言、不受限于 说话人的变化、不受限于噪声的种类等,与经典的基于平稳性假设的谱估计算法 SS和MMSE相比,本发明不再依赖于这种平稳性假设,可以较准确的估计出平 稳或突变噪声的频谱;与基于隐马尔可夫和线性预测系数的算法相比,本发明不 需要指定所处理非平稳噪声类型;与基于低秩结构的噪声估计方法相比,本发明 无需噪声具有低秩重复结构。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号