公开/公告号CN101441872A
专利类型发明专利
公开/公告日2009-05-27
原文格式PDF
申请/专利权人 三菱电机株式会社;
申请/专利号CN200810174860.1
申请日2008-11-10
分类号G10L21/02;
代理机构北京三友知识产权代理有限公司;
代理人李辉
地址 日本东京
入库时间 2023-12-17 21:57:44
法律状态公告日
法律状态信息
法律状态
2019-11-01
未缴年费专利权终止 IPC(主分类):G10L21/02 授权公告日:20110914 终止日期:20181110 申请日:20081110
专利权的终止
2011-09-14
授权
授权
2009-07-22
实质审查的生效
实质审查的生效
2009-05-27
公开
公开
技术领域
本发明总体上涉及声学信号处理,更具体地涉及从诸如语音的声学信号中去除附加的噪声。
背景技术
噪声
从诸如语音的声学信号中去除附加的噪声在电话、音频话音记录、以及电子话音通信中有多种应用。噪声广泛存在于城市环境、工厂、飞机、车辆等中。
时变噪声尤其难以去除,该时变噪声更准确地反映了环境中的真实噪声。通常,由使用静态噪声模型的抑制技术不能实现非平稳噪声的消除。诸如谱减法和维纳滤波的常规方法常规地使用静态的或缓慢变化的噪声估计,因此受限于平稳的或准平稳的噪声。
非负矩阵分解
非负矩阵分解(NMF)最优地求解了下式
V≈WH。
常规的NMF定义如下。从非负的M×N矩阵V开始,目标是使得矩阵V近似为两个非负矩阵W和H的乘积。当矩阵V由WH的乘积近似地重构时,误差被最小化。这提供了一种将信号V分解为非负矩阵的凸组合的思路。
当信号V是声谱图并且该矩阵是一组谱形(spectral shape)时,通过将矩阵的不同列与不同的声源关联起来,NMF能够将单通道混合的声音分离,参见Smaragdis等人于2005年10月6日提交的美国专利申请20050222840,“Method and system for separating multiple sound sourcesfrom monophonic input with non-negative matrix factor deconvolution”,通过引用将其合并于此。
当不同声学信号的声谱图足以区分开时,NMF对于将声音分离是有效的。例如,如果诸如笛子的声源仅生成谐音(harmonic sound),并且诸如小鼓的另一声源仅生成非谐音(non-harmonic sound),则一个声源的声谱图区别于另一声源的声谱图。
语音
语音包括谐音和非谐音。谐音在不同时间可具有不同的基频。语音可在很宽的频率范围上具有能量。非平稳噪声的频谱可能与语音的频谱类似。因此,在语音去噪应用中,其中一个“声源”是语音而另一个“声源”是附加噪声,语音模型和噪声模型之间的重叠降低了去噪的性能。
因此,期望使得非负矩阵分解适于对具有附加非平稳噪声的语音进行去噪这一问题。
发明内容
本发明的实施方式提供了一种用于对混合的声学信号进行去噪的方法和系统。更具体地说,该方法对语音信号进行去噪。去噪结合了统计语音模型和噪声模型而使用受限非负矩阵分解(NMF)。
附图说明
图1是根据本发明实施方式的对声学信号进行去噪的方法的流程图;
图2是图1的方法的训练阶段的流程图;以及
图3是图1的方法的去噪阶段的流程图。
具体实施方式
图1示出了根据本发明实施方式的对混合的声学信号和噪声信号进行去噪的方法100。该方法包括一次训练200和实时去噪300。
一次训练200的输入包括训练声学信号
实时去噪的输入包括模型103和混合信号(Vmix)104,该混合信号例如是语音和非平稳噪声。去噪的输出是对混合信号的声学(语音)部分105的估计。
在一次训练期间,非负矩阵分解(NMF)210独立地应用于声学信号101和噪声信号102以产生模型103。
针对声学信号和语音信号,NMF 210分别独立地产生训练基矩阵(WT)211-212和这些训练基矩阵的权重(HT)213-214。确定权重213-214的统计量221-222,即均值和方差。训练语音信号和训练噪声信号的训练基矩阵211-212、均值和方差221-222形成去噪模型103。
在实时去噪期间,将根据本发明实施方式的受限非负矩阵分解(CNMF)应用于混合信号(Vmix)104。CNMF受到模型103的限制。具体地说,CNMF假设在训练期间获得的先验训练矩阵211精确地表示混合信号104的声学部分的分布。因此,在CNMF期间,基矩阵固定地是训练基矩阵211,并且在CNMF 310期间根据模型的先验统计量(均值和方差)221-222而最优地确定固定训练基矩阵211的权重(Hall)302。随后,通过求取最优权重302和先验基矩阵211的乘积可以重构输出语音信号105。
训练
在图2所示的训练200期间,我们得到大小为nf×nst的语音声谱图Vspeech 101,以及大小为nf×nnt的噪声声谱图Vnoise 102,其中nf是频率单元(frequency bin)的数量,nst是语音帧的数量,并且nnt是噪声帧的数量。
如现有技术中所公知的,此处描述的声谱图形式的所有信号被数字化并被采样为多个帧。当我们提及声学信号时,具体是指已知的或可识别的音频信号,例如语音或音乐。对于本发明的目的,并不认为随机噪声是可识别的声学信号。混合信号104将声学信号与噪声合并。本发明的目的是去除这些噪声,使得仅保留可识别的声学部分105。
不同的目标函数得到不同形式的NMF。例如,矩阵V和WH之间Kullback-Leibler(KL)散度(记为D(V‖WH))对于声源分离很有效,参见Smaragdis等人的文献。因此,在我们的去噪发明的实施方式中,我们优先使用KL散度。推广到使用这些技术的其他目标函数是显而易见的,参见以下文献,即A.Cichocki、R.Zdunek以及S.Amari等人的“Newalgorithms for non-negative matrix factorization in applications to blindsource separation”,IEEE International Conference on Acoustics,Speech,andSignal Processing,2006,vol.5,pp.621-625,通过引用将其合并于此。
在训练期间,我们对语音声谱图101和噪声声谱图102分别应用NMF210以生成各自的基矩阵
我们分别使
我们根据经验来确定(220)权重矩阵
为了计算方便,我们选择隐含高斯表示。对数域比线性域产生更好的结果。这与线性域中的高斯表达既允许正值又允许负值是一致的,既允许正值又允许负值与对矩阵H的非负限制不一致。
我们将两组基矩阵211和213连接以形成大小为nf×2nb的矩阵Wall215。该组连接的基矩阵用于表示包含混合了语音和独立噪声的信号。我们还将统计量连接为μall=[μspeech;μnoise]和Λall=[Λspeech0;0Λnoise]。连接的基矩阵211和213以及连接的统计量221-222形成我们的去噪模型103。
去噪
在图3所示的实时去噪期间,基于矩阵精确地表示我们想要处理的语音和噪声的类型这一假设,我们使模型103的连接矩阵Wall215保持固定。
目标函数
我们的目的是确定使得下式最小化的最优权重Hall302
>
>
其中Dreg是正则化的KL散度目标函数,i是频率的索引,k是时间的索引,并且α是用于控制似然函数L(H)对整体目标函数Dreg的影响的可调节参数。当α为0时,式(1)等于KL散度目标函数。对于非零的α,存在与logH的联合高斯模型下的负log似然度成比例的附加的惩罚。该项使得所得到的矩阵Hall与在训练期间根据经验确定的矩阵Hspeech和Hnoise的统计量221-222相一致。变化的α使得我们能够控制在符合(fit)整体(观察到的混合的语音)与匹配“部分”的期望的统计量(语音和噪声统计量)之间的权衡,并实现该模型下的高似然度。
根据Cichocki等人的文献,权重矩阵Hall的乘法更新规则是
>
其中表示用ε替换比一个小的正常数ε更小的括号内的任何值,以防止违反非负约束并避免除数是零。
我们使用训练基矩阵211和矩阵Hall的前nb行,将去噪后的声谱图(例如干净语音105)重构(320)为
>
发明效果
根据本发明的实施方式的方法能够对存在非平稳噪声的语音进行去噪。与常规的利用平稳噪声模型进行去噪的维纳滤波相比,本发明的结果在大范围的噪声类型上显示出优越的性能。
尽管以优选实施方式为例描述了本发明,但应当理解的是,在本发明的精神和范围内可以做出各种其他的改变和修改。因此,所附权利要求的目的是涵盖落入本发明的真实精神和范围内的所有这种变型和修改。
机译: 基于自适应窗口滤波和小波阈值优化的水下声学信号去噪的方法
机译: 利用内在模式函数(IMFS)的统计特性的基于经验模态分解(EMD)的信号去噪技术
机译: 受限网络环境中的声学传感器设备和声学分析系统