首页> 中国专利> 改进噪声抑制性能的语音概率存在修改器

改进噪声抑制性能的语音概率存在修改器

摘要

通过使用最小均方差(MMSE)计算语音概率存在(SPP)因子来减小音频信号中的声学噪声。具有通常在0和1之间的范围中的值的SPP因子响应于从s形函数的评估获得的值被修改或扭曲,s形函数的形状由信噪比(SNR)确定,通过随时间评估从麦克风输出的信号能量和噪声能量获得信噪比。

著录项

  • 公开/公告号CN104637493A

    专利类型发明专利

  • 公开/公告日2015-05-20

    原文格式PDF

  • 申请/专利权人 大陆汽车系统公司;

    申请/专利号CN201410621813.2

  • 发明设计人 G.拉米;宋建鸣;

    申请日2014-11-07

  • 分类号

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人申屠伟进

  • 地址 美国密执安州

  • 入库时间 2023-12-18 08:44:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-31

    授权

    授权

  • 2016-12-14

    实质审查的生效 IPC(主分类):G10L21/0232 申请日:20141107

    实质审查的生效

  • 2015-05-20

    公开

    公开

说明书

对相关申请的交叉引用

本申请涉及下面的申请:由Guillaume Lamy和Bijal Joshi发明的、与本申请相同日期提交的、并且由代理人案卷号2013P03103US 标识的“Accurate Forward SNR Estimation Based On MMSE Speech Probability Presence”;以及由Guillaume Lamy发明的、与本申请相同日期提交的、并且由代理人案卷号2013P03105US 标识的“Externally Estimated SNR Based Modifiers For Internal MMSE Calculations”。

背景技术

许多方法和设备已被开发用来从信息承载信号抑制或移除噪声。公知的噪声抑制方法使用噪声估计值,该噪声估计值使用对最小均方差或“MMSE”的计算来获得。MMSE在著作中被描述。例如参见Alan V. Oppenheim和George C. Verghese,“Estimation With Minimum Mean Square Error,” MIT Open CourseWare,http://ocw.mit.edu,2010年春天最后修改,其内容通过引用以其整体被合并于此。

虽然Log-MMSE是已建立的噪声抑制方法,但是随着时间已对其做出了改进。一个改进是使用语音概率存在或“SPP”作为log-MMSE估计器的指数                                                ,其也称为基于最优对数谱幅度的估计器或“OLSA”方法,其使得MMSE算法有效地达到其最大允许的衰减量。

Log-MMSE噪声估计的OLSA修改遭受两个已知的问题。一个问题是在低信噪比情形中它增加所谓的音乐噪声。另一个且更显著的问题是在有噪声状况中它还过度抑制弱语音。基于MMSE的噪声估计减小或避免存在于现有技术中的已知问题,对基于MMSE的噪声估计值确定的OLSE修改将是对现有技术的改进。

附图说明

图1是表示清洁语音信号的单个波形的绘图;

图2是背景声学噪声信号的绘图;

图3是表示有噪声语音信号(即,诸如图1中所示的那个的清洁语音信号和诸如图2中所示的那个的背景声学噪声信号)的绘图;

图4描绘了图3中所示的有噪声语音信号的样本;

图5A描绘了数据样本的第一帧,其在优选实施例中包括有噪声语音信号的十个相继样本;

图5B描绘了数据样本的第二帧,其包括图5A中示出的第一十个之后发生的十个样本;

图6A和6B描绘了多个频率分量带或范围的相对幅度,其分别表示频域中的第一和第二帧;

图7是被配置为具有增强MMSE确定器的无线通信装置的框图;

图8A是增强MMSE确定器的框图;

图8B是MMSE确定器的优选实施方式的框图;

图9是增强MMSE确定器的操作的流程图/框图描绘;

图10A和图10B分别示出了流程图的第一和第二部分,该流程图描绘用于扭曲或修改语音存在概率(SPP)并且使扭曲的SPP去噪的方法的步骤;

图11描绘四条S形曲线;以及

图12描绘用于确定信噪比的方法的步骤。

具体实施方式

在这里,噪声被认为是通信系统中不需要的、非信息承载信号。白噪声或随机噪声是随机能量,其具有一致的能量分布。其最通常由电子运动生成,诸如通过半导体、电阻器或导体的电流。散粒噪声是非随机噪声的一种类型,其可以在电流突然流动穿过结或连接时生成。声学噪声是不需要的或不希望的声音。在机动车辆中,声学噪声包括但不限于风噪声、轮胎噪声、引擎噪声和道路噪声。

声学噪声容易由必须与通信装备一起使用的麦克风检测到。声学噪声因此被“添加”到由麦克风检测到的信息承载语音信号。

因此,抑制声学噪声要求选择性地衰减被确定为或被认为是不需要或不希望的、非信息承载信号的音频信号。不幸的是,许多声学噪声是不连续的并且可能难以抑制。

如这里使用的,术语“频带受限”指代如下信号:其功率谱密度在特定的、预先确定的频率上为零或被“切断”。对于包括蜂窝和有线两者的大多数电信系统,该预先确定的频率是8千赫兹(8KHz)。

图1是单个、清洁、频带受限音频信号100(诸如话音或语音)的短时段的描绘,该信号100随时间t变化。为了清晰和简化的目的,仅示出了对应于一个信号的一个波形。如本领域普通技术人员知道的,音频信号100在以毫秒度量的短时间段上是稍微“突发”的。信号100因此固有地包括短时间段102,在其期间音频信号消失。

图1中描绘的信号100在幅度上随时间变化。因此,包括沉默或安静时段102的信号100被本领域普通技术人员称为是时域中的信号。

图2描绘了几百毫秒的声学噪声信号200。不同于图1中所示的音频信号100,噪声信号200被描绘成在图2中描绘的至少几百毫秒上基本上恒定。然而,噪声信号200可以在长时间段上是恒定的,如在噪声信号来自风噪声、道路噪声等的情况中将发生的那样。

如公知的那样,在机动车辆中,语音和噪声通常是共存的,也即是说,当语音信号100和声学噪声信号200同时由相同麦克风检测到时,如在人们正在使用车辆中的麦克风同时车辆正在驾驶员的窗户打开情况下以相对较高的速度向前移动的情况中发生的噪声200和语音100,麦克风将把语音和噪声添加到一起。

图3是当图2中所示的噪声信号200被添加到语音时图1的语音信号100的简化描绘,如在麦克风转化语音信号100和声学背景噪声200两者时发生的。如图3中所示的,产生的信号300是“有噪声的”、频带受限的音频信号300,其是清洁的、频带受限的音频信号102(诸如图1中所示的那个)和声学噪声信号104(诸如图2中所示的那个)的组合。噪声信号200可以被看出已被“添加”到清洁语音信号100。还要注意,在图3中,相对安静时间段102或语音沉默时间段102被“填充”有背景噪声200。在图3中,由参考数字302标识的时间段示出图2中所示的背景噪声信号占据图1中所示信号的另外安静时段102的地点。

由包括蜂窝系统的大多数电信系统提供的话音或音频通信实际上通过传输和接收表示时变或模拟信号(诸如图1和2中所示的那些)的数字数据来提供。把模拟信号转换为数字形式的过程是公知的,并且要求以如下速率采样频带受限信号:该速率是频带受限信号中存在的最高频率的至少两倍或双倍。一旦取得了模拟信号的样本,该样本就被转换为表示样本的数字值或“字”。表示模拟信号的样本的数字值被传输到一目的地,在该目的地数字值被用于重新创建原始样本从其取得的模拟信号的样本。重新创建的样本然后被用于在目的地重新创建原始模拟信号。

图4描绘图3中所示的有噪声的、频带受限的音频信号300的样本400。有噪声信号300的一些样本404将仅是被麦克风“添加”的声学噪声200的样本。其它样本403将表示信息承载音频信号100和噪声200。

不管样本400表示清洁信号100和噪声200还是仅表示噪声200,所有样本400都被转换为二进制值以用于传输到目的地。然而,如下面阐述的,如果归因于噪声200的有噪声信号300的各分量被抑制,则包括有噪声信号300的至少一些噪声200 可以被抑制或移除。因此,希望识别或确定有噪声信号的样本实际上表示或至少可能表示信号100还是噪声200。

术语“快速傅里叶变换(FFT)”指代数字信号处理领域中普通技术人员公知的过程,通过该过程,时域信号(包括数字信号)可以被转换到频域。换句话说,FFT提供如下方法:通过该方法,时域信号被使用许多不同频率的个体信号的集合以数学方式表示,当这些个体信号被组合在一起时,将重新形成或重新构造时域信号。简单来说,频域中的信号是各种正弦信号的简单数值表示,每个正弦信号具有不同的频率,当被添加在一起时,将重新构建时域信号。

数字信号处理领域中普通技术人员知道对模拟和数字信号两者的操纵和处理优选在频域中进行。数字信号处理领域中普通技术人员还知道模拟信号的样本和这种样本的数字表示还可以被使用FFT转换到频域或在频域中处理。因此为了简短,省略了对FFT技术的进一步描述。

图5A描绘图4中所示的并且包括第一样本帧(帧0,表示有噪声音频信号,诸如图3中所示的有噪声信号300)的第一十个相继样本400。照此,图5A中所示的样本帧包括与噪声200组合的清洁信号100的样本。

图5B描绘图4中所示的、在由参考数字402标识的间隔期间取得的并且包括第二样本帧(帧1,仅表示噪声200)的第二组十个相继样本404。

图6A和6B描绘图5A和5B中所示的十个样本的不同频带B1-B8中的各种不同频率的相对幅度。图6A和6B中所示的频率分量表示时域中的帧向频域转换的结果。

不同的分量频带B1-B8(其包括每个帧的十个样本的FFT)在每个图形的纵轴上被示出;存在于帧的FFT中的每个频带B1-B8分量的相对幅度Amp沿“x”轴被显示。因此图6A和6B示出了10个相继样本或信号帧如何能够在频域中由不同频率的相对幅度表示。因此,音频加噪声以及噪声自己可以由不同幅度的不同频率来表示。

数字信号处理领域中普通技术人员知道:存在一种方法,通过该方法,有噪声信号300的样本的时域帧(诸如图5A和5B中所示的帧)可以被转换到频域并且在频域中被以数字方式处理。一旦样本被转换到频域,表示时域样本的频率(其表示原始有噪声信号300)就可以被选择性地衰减以便抑制或衰减所识别的频率分量,或者至少被认为是噪声200。换句话说,当样本402的帧从时域被转换到频域并且帧的FFT表示被选择性地处理以确定该帧可能包含话音还是噪声时,表示噪声200的个体频率可以在频域中被衰减以使得当原始时域信号被重新构造时,原始有噪声信号300中存在的噪声内容302将被减小或消除。

为了计算效率,这里描述的设备和方法每次十个地评估信号样本的数字表示。十个这样的表示在这里被称为“帧”。该处理优选地由数字信号处理器(DSP)执行,但是也能够由适当编程的通用处理器执行。

图7是无线通信装置700的简化框图。装置700包括常规麦克风702,其把包括语音信号704和背景声学噪声信号706的音频信号转化为电模拟信号708。因此来自麦克风702的输出信号708是信息承载语音信号704,其与也由麦克风702拾取的背景噪声706组合。

从麦克风702输出的有噪声语音708被常规模数(A/D)转换器712转换成数字格式信号714。如公知的,A/D转换器712以预先确定的速率采样模拟信号并且把样本转换为二进制值,即数字值。

来自A/D转换器712的数字值(其是有噪声语音信号708的样本的表示714)在常规的、数字的、带通滤波器716中被数字滤波,滤波器716频带限制数字信号714并且因此有效地频带限制来自麦克风702的信号。数字滤波对于本领域普通技术人员来说是公知的。

有噪声语音信号708的频带受限数字表示718由常规FFT转换器720转换到频域722。计算快速傅里叶变换(FFT)的几种方法对于数字信号处理领域的普通技术人员来说是公知的。因此为了简短而省略了对FFT确定的描述。

来自FFT转换器720的频域信号722被提供给MMSE确定器740。MMSE确定器740处理各帧中样本的频域表示(即一次十个样本)以确定这些帧可能表示语音还是噪声。MMSE确定器740衰减可能为噪声的帧。来自MMSE确定器740的帧被提供给常规逆快速傅里叶变换(iFFT)转换器750。逆快速傅里叶变换(iFFT)转换器750重新构造减去由麦克风702拾取的至少一些背景噪声的原始样本的数字表示。常规数模转换器(D/A)760重新构造原始有噪声音频信号,但是重新构造为噪声减少信号762,其从常规传输器770被传输。噪声抑制因此在由MMSE确定器740执行的频域处理中发生。

如下面描述的,由MMSE确定器740进行的频域中的数字信号处理提供对如下事实的同时的和自适应的概率或估计值:来自麦克风702的(一个或多个)信号是语音还是噪声。MMSE确定器740还提供衰减因子,衰减因子用于选择性地衰减每个子频带的分量,其示例是图6A和6B中描绘的子频带B1-B8。因此重要的是,准确估计信号的频域表示是表示语音还是噪声的表示。

如这里使用的,“实时”指代一操作模式,在该操作模式中,在外部过程发生的实际时间期间执行计算以使得该计算结果可以被用于以及时的方式控制、监视或响应于外部过程。确定信号样本的频域表示可能表示语音还是噪声是公知的但并非不重要,并且要求实时或几乎实时地进行许多计算。出于计算有效的目的,对样本可能包含或表示语音还是噪声的确定不是在一个样本接一个样本的基础上执行,而是相反地在包括帧的多个相继样本上执行。在优选实施例中,对来自麦克风的信号包含语音还是噪声的确定基于对表示十个相继样本中的多个不同频带的数据的分析,该十个样本在这里被称为数据帧。

简单来说,MMSE确定器被配置为分析有噪声音频信号数据帧的频域表示,从而确定它们表示信号或噪声的改进可能性或概率。如这里使用的,语音存在概率或SPP和符号可互换地使用。因此MMSE确定器740包括对如下过程的修饰:由Ephraim和Cohen的“Recent Advancements in Speech Processing,” May 17, 2004(此后称为“Ephraim和Cohen”,其内容通过引用被合并于此)描述的用于确定语音存在概率或SPP的现有技术过程。还参见Y. Ephraim和D. Malah, “Speech enhancement using a minimum mean square error short time spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, pp. 1109-1121, December 1984;P. J. Wolfe和S. J. Godsill, “Efficient alternatives to Ephraim and Malah suppression rule for audio signal enhancement,” EURASIP Journal on Applied Signal Processing, vol. 2003, Issue 10, Pages 1043-1051, 2003;Y. Ephraim和D. Malah, “Speech enhancement using a minimum mean square error Log-spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. 33, pp. 443-445, December 1985,所有这些内容通过引用以其整体被合并于此。

如这里使用的,术语“增益”实际上指代衰减。因此当该术语在这里被使用时,增益是负的。在Ephraim和Cohen以及这里的图中,增益由变量“G”表示,就像Gmmse

MMSE确定器740确定SPP(如上面描述的那样,其是估计值)或帧包含语音的概率。MMSE确定器740还确定要应用于每个帧中各个子频带中每一个的分量的衰减或增益因子,如由Ephraim和Cohen公开的。

由MMSE方法(该方法由Ephraim和Cohen支持)提供的SPP或和衰减Gmmse被逐帧自适应地确定。针对第一帧确定的SPP被用于确定针对随后帧的SPP。

由Ephraim和Cohen支持的MMSE还要求信噪比(SNR)的估计值。不幸的是,当由Ephraim和Cohen的MMSE方法使用的SNR值变低时,产生的SPP和Gmmse值将是不正确的。因此,噪声以及因此与噪声伴随的话音将被渐增地过度抑制。换句话说,由Ephraim和Cohen描述的MMSE计算依赖于通常不准确的信噪比(SNR)的估计值。

在这里公开的MMSE确定器740的优选实施例中,使用Ephraim和Cohen方法确定的SPP在其计算后被修改。该修改响应于外部提供的并且外部确定的信噪比而被执行以便在信噪比低(即低于大约1.5:1)时减小或消除对语音的过度衰减。在优选实施例中并且如下所述的,在特定SNR状况下,SPP修改是非线性的,并且在其它SNR状况下,SPP修改是线性的。

图8A是用于在通信装置(诸如图7中所示的装置)中使用的增强MMSE确定器800的框图。MMSE确定器800包括语音概率(SPP)确定器802、乘法器804和SPP修改器806。

SPP确定器802提供SPP 806,如由Ephraim和Cohen描述的。乘法器804通过SPP修改因子810来修改SPP 806,SPP修改因子810是零和从SPP修改器806获得的数字之间的值。乘法器804的输出812是“扭曲的SPP”,这样称呼是因为从SPP修改器806获得的修改因子810是非线性变化的值。

在优选实施例中,SPP修改器通过评估非线性函数(优选为s形函数)来提供SPP修改因子810,该函数的参数表示外部提供的信噪比(SNR),优选地被实时确定并来自于实际信号值。因此增强MMSE确定器800提供一SPP,该SPP固有地比使用Ephraim和Cohen的可能SPP更准确,因为来自MMSE确定器800的SPP响应于实时SNR被确定。

如在图8B中可以看见的,MMSE确定器800优选地被体现为数字信号处理器(DSP)850,其耦合至存储可执行指令的非暂态存储器装置860。DSP 850经由常规总线870耦合至存储器装置860。DSP输出SPP的值和表示十个相继话音样本的数据帧,其频率分量如这里描述的那样被衰减以便从有噪声音频信号300减小或消除噪声200。

非暂态存储器中的可执行指令使得DSP执行对数据帧的操作,如在图9中所示的,图9是描绘通过根据从外部源(即非MMSE自身)获得的实时或接近实时的SNR确定SPP来改善基于log-MMSE的噪声抑制的优选方法的框图。

现在参见图9,其描绘了MMSE确定器800的操作,在步骤902,包括“帧”并且因此被认为具有相同发生时间t的有噪声信号的样本被语音概率确定器802处理,从而为帧的每个频带k提供SPP。在步骤902提供的处理通过评估由Ephraim和Cohen教导的等式3.11来提供SPP或,其副本被插入在下面:

在等式3.11中,以及在MMSE确定器800中,“k”是子频带,即通过评估快速傅里叶变换提供的频率范围;“t”是数据帧,即从有噪声话音信号取得的样本的十个或更多相继频域表示,其被“集中”到一起。ξ是第一帧的信噪比(SNR)估计值;υ是随后帧的SNR估计值。因此SPP或被逐帧地自适应确定。参见Ephraim和Cohen第十页。

如等式3.11中可以看见的,使用先前确定的(即,针对先前帧的,被命名为)来获得针对特定数据帧的的值。SPP响应于ξ和υ值的改变而随时间改变,ξ和υ值依赖于SNR。SPP的准确度因此将依赖于SNR。

产生于等式3.11的计算的SPP或是标量,其值的范围在0和1之间,具有0和它们之间的值。0指示帧数据的特定频带包含语音数据的概率为0;1指示数据帧的对应频带包含语音的实质确定性。

如等式3.11中还可以看见的,当信噪比ξ小(即接近1:1)时,如当信道有噪声时将发生的那样,作为结果,SPP也将是小的。小值的SPP意味着样本不太可能表示语音,这将触发帧的分量频率的衰减。等式3.11因此提供由Ephraim和Cohen支持的至少一个不合适的MMSE特性,当SNR接近1时,其是对语音的不需要的过衰减。不正确的SNR值可能提供不可接受的语音衰减。

为了在有噪声状况中减小或消除过衰减语音信号,图8中所示的MMSE确定器800被配置为:响应于SNR的接收而在逐帧的基础上修改根据等式3.11确定的值。如图8和图9中所示的,通过把所述值“乘以”通过非线性函数(优选为s形函数)的评估所获得的数字来修改由Ephraim和Cohen的等式3.11提供的,非线性函数的形式为:

                         (等式1)

其通常的形状在图11中提供,图11示出了三个s形曲线1102、1104、1106,其形状基本上相同。

通常,s形曲线具有两个特性:斜坡或非线性c以及中点b。s形函数的输出y在这里被认为是扭曲因子。在“x”值远离中点b和在曲线的非线性区域1108中时获得的y值非线性改变或扭曲使用MMSE确定的SPP,使用 Ephraim和Cohen的方法获得该MMSE。

在s形等式中,“b”是s形曲线的中点。在申请人的优选实施例中,“x”值是信噪比或SNR。不同于常规MMSE方法中使用的SNR,在申请人的优选实施例中,SNR优选地从外部源获得,如下面描述的那样。中点b也由外部提供的SNR来确定。

s形曲线的中点b、斜坡c以及x或SNR的值确定y的值,y的值可以被称为扭曲因子。扭曲因子y的值确定由SPP确定器802确定的SPP被扭曲或修改的程度。对于给定的SNR和斜坡c,改变中点b将改变s形函数的进取性(aggressiveness)。

在申请人的发明的优选实施例中,当噪声变得有优势时,即当SNR低时,扭曲趋向于减小。因此希望在高噪声情形中把s形扭曲减小为较低进取性,以便保持语音概率存在,即使它可能是不可靠的。修改s形扭曲并且因此修改它的进取性通过沿x轴向左和右“移位”s形曲线来完成。在这样做时,s形曲线的中点也将移位。相反地,移位s形曲线的中点也将向左和右移位s形曲线并且改变s形扭曲的进取性。

现在参见图11,其示出了四个s形曲线1102、1104、1106和1108,对由SPP修改器662评估的s形曲线的中点p的确定根据下面的等式来做出:

   (等式2)。

在上面的等式中,SNR0 和SNR1是实验确定的常数,优选分别大约为2.0(1.6dB)和10.0(10dB)。Warpfactor(realSNR)在0.0和1.0之间变化。对realSNR的确定在下面解释。

使用预先确定的或期望的Warpfactor、针对图11中所示的曲线的midP(其也是s形函数中的b)被计算为:

           (等式 3)。

限值midPmax和midPmin是针对midP的实验确定的限值,分别优选为大约0.5和大约0.3。它们限制或定义扭曲因子可以达到的值的范围。

在上面的等式3中,选择midPmin、midPmax 和Warpfactor 的值将沿x轴移动中点b的值。当SNR变低时,通过向右朝向midPmax移动midP的值,非线性扭曲被减小或最小化。当SNR变高时,向左朝向midPmin移动中点midP增加非线性扭曲(更大效果)以便在有噪声状况中维持语音同时在有较少噪声的状况中清理音乐噪声。

s形曲线的斜坡c可以被选择性地形成为非常进取性的或中性的,即线性或几乎线性。在图11中,由参考数字1102、1104和1106标识的曲线具有不同的中点和基本上相同的斜坡。然而,由参考数字1108标识的曲线与由参考数字1104标识的曲线具有相同的中点,但是具有减小的或较低的进取性斜坡。当s形曲线斜坡是进取性时,诸如由参考数字1108标识的曲线,SPP的值在当前帧的频谱的噪声和语音部分之间变得更加有差别。当s形曲线斜坡为线性或接近线性时,由MMSE计算的SPP基本上不改变。在优选实施例中,斜坡c和中点由信噪比确定。

选择s形曲线形状的目标或目的是:在处于低SNR状况中时使SPP成为中性以便维持尽可能多的语音,并且当SNR相对较高时使SPP更有差别,即最大噪声抑制Gmin被实现。

s形扭曲斜坡c(Warp_factor)是Warp_factor的线性函数:

         (等式4)。

然而,如上面阐述的,扭曲因子是SNR的函数。系数“a”和“b”被计算为:

a=(CMIN-CMAX),  b=CMIN-a           (等式5)。

CMIN=1和CMAX=15被以实验方式确定或选择,并且定义了非线性扭曲的最大和最小程度。

被以实验方式确定的是,中点b应当被保持在等于大约0.8的最大值bmax和等于大约0.3的最小值bmin之间以便限制SPP 806响应于SNR可以被衰减或扭曲的程度。

再次参照图8,如上面阐述的,使用等式3.11获得并且由SPP确定器802提供的与s形函数的值的乘积是扭曲的SPP。其还是在针对下一个数据帧的的计算中替代的值。

如图9中所示的,扭曲的SPP使用两个SNR来确定。换句话说,申请人的方法和设备使用s形函数自适应地更新SPP或的计算,响应于信噪比来控制或确定s形函数的形状以便:在SNR低时平滑或减小话音的衰减,并且在从等式3.11输出的的值高时增加衰减。

仍然参照图9,SPP和扭曲的SPP的确定被针对帧的所有频带执行。在优选实施例中,在扭曲的SPP在步骤904针对帧的所有频带被计算之后,SPP’在步骤906被去噪,其细节在图10中示出,其示出了去噪扭曲的SPP的方法1000的步骤。

在第一步骤1002,如上面描述的,SPP或通过评估Ephraim和Cohen的等式3.11来计算。在这里描述的SNR在步骤1004被接收之后,在步骤1006确定SPP修改量,其在优选实施例中是通过评估s形函数获得的值,s形函数的“形状”由在步骤1004接收的SNR确定。在步骤1008,在步骤1002确定的SPP被修改以产生扭曲的SPP’或扭曲的

在针对包括数据帧的所有频带确定扭曲的SPP之后,扭曲的值的平均值()在步骤1010被确定。在所有扭曲的值的平均值在步骤1010被确定之后,在步骤1012,每个先前计算的扭曲SPP与第一最小扭曲SPP阈值TH1相比较以识别可能异常的扭曲SPP值。TH1被预先确定并且优选地是等于所有扭曲的值的均值或平均值()增加的两个标准偏差的值。

在步骤1014进行算术比较,其中扭曲SPP的值与TH1比较。如果扭曲SPP的值被确定为大于TH1,则扭曲SPP被认识是异常。在步骤1016和1018,均值SPP()代替异常的扭曲SPP值以提供扭曲SPP的集合,每个的值指示语音在从时变信号获得的对应帧的对应频带中存在的概率。

在步骤1020,如由Ephraim和Cohen支持的,使用扭曲SPP值来修改针对每个频带的SNR估计值。修订的信噪比SNR’在步骤1022被计算,其结果在步骤1024提供要乘以频域帧数据的第一增益函数Gmmse

在步骤1026确定最小增益因子Gmin

在最后的步骤1028中,通过把第一修改增益函数与上升到等于1减去扭曲SPP次幂的最小增益相乘来确定最终增益因子,从而提供应用于接收的信号(也即是说应用于接收的信号的频率分量)的最终增益因子。

在优选实施例中,通过评估MMSE计算的第一阶段而生成的语音概率存在因子的范围在等于0的第一最小值和高达1.0之间。SPP因子被s形函数的输出修改,s形函数的输出的值的优选范围是从0到1。在替代实施例中,从MMSE计算输出的语音概率存在因子的值可以是除了0和1之外的值,只要它们全都小于1。类似地,SPP增益因子在其间被修改的各个值可以是0和1之间的值,只要这些值小于1。

用于确定s形函数的形状并且因此确定扭曲因子和扭曲SPP的信噪比优选地使用图12中以图形方式描绘的方法来确定。

在优选实施例中,确定信噪比估计实际上依赖于两个SNR估计和语音概率存在的可靠性的新度量。第一SNR估计在这里被称为“softSNR”。它是一种当音频信号伴随有高水平的声学噪声时(如在有噪声环境中将发生的)随时间非常快速趋向于0dB的SNR估计。在窗户降低的情况下以相对较高的速度行进的机动车辆的乘客舱是有噪声环境。第二SNR估计在这里被称为“realSNR”,其是即使在有噪声环境中也趋向于可靠的相当准确的SNR估计。

语音概率存在可靠性的新度量在这里被称为“qRel”。图12示出了这些分量softSNR 、realSNR和 qRel如何彼此交互并且产生对相当准确的实际SNR的确定,该实际SNR用于确定s形函数的形状,通过s形函数的形状,扭曲SPP的Ephraim和Cohen确定。图12示出了各种确定被同时做出或者与其它确定并行做出。换句话说,图12中描绘的方法不是完全顺序性的。

在步骤1202和1204,使用Ephraim和Cohen的现有技术方法计算针对第一数据帧的SPP或 。在步骤1206和1208,上面阐述的形式的s形函数被评估,中点P被确定,并且扭曲因子被生成。

在步骤1210,在步骤1208生成的扭曲因子被修改。但是步骤1210的扭曲因子保持在步骤1212处接收的扭曲因子的阈值之内或之间。该阈值现在如下面那样计算:

 (等式6)。

其中qRel是语音概率存在的可靠性因子。当希望高可靠性时qRel趋向于0,并且当希望不可靠时qRel趋向于1。

Denoise_max和Denoise_min是实验确定的常数,通常分别为大约0.3和大约0.0,并且是SPP扭曲因子的最大和最小值。因此当SPP可靠性qRel高时,去噪阈值Denoisethresh趋向于Denoise_max,并且当可靠性qRel低时,去噪阈值Denoisethresh趋向于Denoise_min。

在步骤1210调整SPP之后,在步骤1212输出“再扭曲”SPP用于计算针对下一数据帧的SPP。在步骤1214,“再扭曲”SPP被用于计算“softSNR”和“realSNR历史修改量” a。

在确定信噪比时,在相对较短的最近时间段上考虑信噪值的历史是有帮助的。在确定softSNR和realSNR时,SPP历史修改量被引入。其值基于上面计算的语音概率存在的均值和标准偏差来计算。

历史修改量在两个步骤中被计算。第一步骤是SPP的均值和标准偏差的线性变换,限制在两个值k_1和k_2之间,然后在0和1之间再次展开,如下:

  (等式7)

在上面的等式中,k1和k2是实验确定的常数,并且通常分别为大约0.2和大约0.8。压缩扩展和展开按照经验放大语音和噪声之间的差别并且加速SNR值改变或SNR“运动”。因此,当大多数语音存在时,历史修改量趋向于值1.0,并且当大多数噪声被检测到时,历史修改量趋向于值0.0。

softSNR计算要求长期语音能量ltSpeechEnergy的计算和长期能量ltNoiseEnergy的计算,长期语音能量优选地每帧更新。更新速率基于以指数方式减小的因子。 

  (等式8)

(等式9)。

在上面的等式中,“Mic”是焦耳能量,输出于检测语音和背景声学噪声的麦克风。上面的等式表示作为麦克风输出和ALPHA_LT的函数的语音和噪声能量,ALPHA_LT是实验确定的常数,其值通常为0.93,其对应于麦克风的相当快速的适配速率。

趋向于1时,如当存在大多数语音时将发生的那样,长期语音能量ltSpeechEnergy根据正规指数减小因子被更新,而ltNoiseEnergy趋向于保持其历史值。

趋向于0时,情况相反。在步骤1218,根据长期语音能量和长期噪声能量确定“softSNR”。因此使用根据上面阐述的等式8和9确定的长期语音能量和长期噪声能量来确定softSNR。SNRsoft因此可以被表达为:

                      (等式10)。

SNR值SNRsoft被这样称呼是因为其值不是固定的或严格的。也即是说,它是持续更新的,并且当由于在非常嘈杂环境中不可靠的语音概率估计而不存在语音时,它趋向于达到0dB。

在步骤1218,计算量“qRel”,其是语音概率存在可靠性估计。qRel与softSNR值具有直接线性关系,如在下面的等式中阐述的:

     (等式11)。

上面等式11的形式与等式3相同,但是其目的是不同的。根据等式11,当softSNR变低时,可靠性因子qRel趋向于1;当softSNR变高时,可靠性因子qRel趋向于0。

在步骤1220,计算针对realSNR的“判定标志”。用于更新realSNR的判定标志实际上是与等式6中看见的针对Denoisethresh的减少阈值相同的所使用的变量。当Denoisethresh小于Denoisemax时,SPP估计值的可靠性示出更新长期语音能量不是“安全”的。然而,更新噪声能量是“安全的”,因为在高噪声中,信号能量加上噪声能量近似等于噪声能量自身。

最后,在步骤1222,计算realSNR。类似于softSNR,realSNR在其指数常数上使用相同的历史修改量,但是硬逻辑现在就位以便仅在被要求时实施更新,如图12中的逻辑序列示出的,语音和噪声能量计算遵循如下这些等式:

 (等式12)

(等式13)。

的计算如上面等式7中所示的那样。“Mic”是麦克风能量。ALPHA_LTreal是实验确定的常数,通常大约为0.99(慢适配速率)。

使用长期语音能量和长期噪声能量来计算用于确定s形函数形状的realSNR,长期语音能量和长期噪声能量分别使用等式12和13来计算。因此SNRreal可以被表达为:

  (等式14)。

重要的是要注意,初始值被分配给softSNR和realSNR。两者初始都被设置为大约20dB。类似地,长期语音能量ltSpeechEng初始被设置到100。长期噪声能量ltNoiseEng也被设置到1.0。

前面的描述是出于说明的目的。本发明的真实范围在所附的权利要求中阐述。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号