首页> 中国专利> 一种基于动态噪声估计时频域自适应语音检测方法

一种基于动态噪声估计时频域自适应语音检测方法

摘要

本发明涉及信息处理技术及传感信号处理领域,特别是涉及到一种基于动态噪声估计时频域自适应自动语音检测方法,本发明根据声音的时域短时能量和一定范围频域短时能量变化分别进行语音的检测,最后根据动态估计出的背景噪声能量的大小,选择最优的结果,从而大幅提高了语音识别的准确率并提高了语音识别对环境变化的适应性。

著录项

  • 公开/公告号CN106098076A

    专利类型发明专利

  • 公开/公告日2016-11-09

    原文格式PDF

  • 申请/专利权人 成都启英泰伦科技有限公司;

    申请/专利号CN201610393406.X

  • 发明设计人 何云鹏;

    申请日2016-06-06

  • 分类号G10L21/0224(20130101);G10L21/0232(20130101);G10L25/60(20130101);G10L25/75(20130101);

  • 代理机构

  • 代理人

  • 地址 610041 四川省成都市高新区天府四街199号1栋26层22号

  • 入库时间 2023-06-19 00:50:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-21

    授权

    授权

  • 2016-12-07

    实质审查的生效 IPC(主分类):G10L21/0224 申请日:20160606

    实质审查的生效

  • 2016-11-09

    公开

    公开

说明书

技术领域

本发明涉及信息处理技术及传感信号处理领域,特别是涉及到一种基于动态噪声估计时频域自适应语音检测方法。

背景技术

人工智能应用领域的一个热点就是语音识别,目前语音识别已经开始在各个领域广泛应用。语音检测的实现是语音识别系统实时实现的重要部分,其目的是在复杂的实际环境中区分语音段与非语音段。有文献表明,实际应用中识别率较低部分很大程度是由于未对语音进行正确处理,大量的非语音信息严重影响了语音识别系统的准确率,特别是应用环境带有大量噪声的语音识别,正确的语音检测技术可有效地降低系统运算量,缩短系统处理时间,减少移动端发射功率并节省信道资源,提高语音识别准确率,尤其是在复杂背景噪声下,语音识别系统性能的优劣在很大程度上取决于语音检测技术的优劣,因此稳健、精确、实时、自适应性强及鲁棒性好的语音检测技术是每个语音识别系统所必需的。

目前语音识别技术在移动端尤其是手机或语音遥控器上应用时,主要依靠按键方式决定语音的起始和结束,然而这种方式对于大量远讲应用则非常不方便,对远讲或者是不拿在手上的支持语音识别的智能设备、机器人而言,自动语音检测系统就是必不可少的部件。

当前自动语音检测的主流方法是依靠时域中短时能量大小,过零率大小,以及频域中频带能量均方差三种方法来检测,具体方法式求出短时能量、过零率或者频带能量均方差,然后与一个经验阈值进行比较,实验证明,这种单独比较短时能量大小或过零率大小的方法对于有噪声的环境适应性不好,尤其是当应用环境发生变化时,同一环境的背景噪声也会发生相应的变化,而频带能量均方差方法对于安静环境也适应不好。

为解决上述问题,需要发明一种根据时域和频域声音平均能量的变化分别进行语音的检测,最后根据动态估计出的背景噪声大小,选择最优的结果,从而大幅提高了语音识别的准确率以及对环境变化的适应性。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足,提供一种能大幅提高语音识别的准确率以及对环境变化适应性的语音检测方法。

为了达到上述目的,本发明提供了如下技术方案。

一种基于动态噪声估计时频域自适应语音检测方法,其包括以下步骤:

步骤一,载入当前帧数据,所述当前帧数据为时域内语音数据;

步骤二,计算所述时域内语音数据的每帧声音的能量总和作为时域短时能量,并将每帧所述时域内语音数据通过FFT变换为频域数据;

步骤三,选取所述频域数据一定频率范围子带数据,计算所述一定频率范围子带数据的能量并累加作为频域短时能量;

步骤四,背景噪声估计单元计算出背景噪声能量,频域背景能量计算单元计算出频域背景能量;

步骤五,将所述时域短时能量与所述背景噪声能量进行比较,结果为大于所述背景噪声能量的则为语音,结果为小于或等于所述背景噪声能量的则为非语音;

步骤六,将所述频域短时能量与所述频域背景能量进行比较,结果为大于所述频域背景能量的则为语音,结果为小于或等于所述频域背景能量的则为非语音;

步骤七,将所述背景噪声能量与一系统设定的阈值一进行比较,若大于阈值一则选择步骤六中比较为语音的结果,若小于等于阈值一则选择步骤五中比较为语音的结果;

步骤八,若所述当前帧结果检测为非语音,则将所述当前帧的所述时域短时能量送到所述背景噪声估计单元中累加,累加到第一帧数后,将累加值除以所述第一帧数得到新的背景噪声作为输出,同时将所述当前帧的所述频域短时能量送到所述频域背景能量计算单元中累加,累加到第二帧数后,将累加值除以所述第二帧数得到新的频域背景能量作为输出。

通常的语音能量具有短时稳定性,而所述背景噪声能量具有长时稳定性,所述时域短时能量与所述背景噪声能量进行比较,比较结果作为该时刻是语音的时域概率,通常非语音期间周期会远大于语音期间,因为所述时域短时能量可看作可能含语音和所述背景噪声能量的声音能量,而时域长时能量主要由所述背景噪声能量构成,所述时域短时能量比所述时域长时能量大,则是语音的概率就大,而所述时域长时能量是动态计算出的,所以能很好的适应环境噪声的变化,利用所述时域短时能量与所述背景噪声能量比较的方法比较适合安静的环境,为了提高语音检测的准确性,使用所述时域短时能量与所述背景噪声能量比较的方法和所述频域短时能量与所述频域背景能量比较的方法相结合的新方法进行语音检测,提高语音检测的准确性。

作为本发明的优选方案,步骤五中所述时域短时能量与所述背景噪声能量进行比较的方法是用所述时域短时能量减去所述背景噪声能量的差值与系统设定的阈值二比较,结果大于所述阈值二则为语音,结果小于或等于所述阈值二则为非语音;

步骤六中所述频域短时能量与所述频域背景能量进行比较的方法是用所述频域短时能量减去所述频域背景能量的差值与系统设定的阈值三比较,结果大于所述阈值三则为语音,结果小于或等于所述阈值三则为非语音。

作为本发明的优选方案,步骤五中所述时域短时能量与所述背景噪声能量进行比较的方法是用所述时域短时能量与所述背景噪声能量的比值与系统设定的阈值四比较,结果大于所述阈值四则为语音,结果小于或等于所述阈值四则为非语音;

步骤六中所述频域短时能量与所述频域背景能量进行比较的方法是用所述频域短时能量与所述频域背景能量的比值与系统设定的阈值五比较,结果大于所述阈值五则为语音,结果小于或等于所述阈值五则为非语音。

作为本发明的优选方案,所述频率范围为人语音能量主要分布的频率范围,人的声音频谱分布比较广,人声频带区间可以通过两个参数来设置, 一是上频率阈值,另一个是下频率阈值,通常超过这个频率范围的声音往往是环境噪声或者其他非人声,在该频带范围内,环境噪声能量受到了较大的抑制,一般来说人声能量主要集中在300Hz到4000Hz之间,而背景噪声能量主要分布在300Hz以内,取人声主要分布频带范围的能量进行比较,因此在该频带范围内,当有语音时,所述频域短时能量会有明显的增高,因此和所述时域短时能量比较类似,用所述频域短时能量与所述频域背景能量比较,超过系统设置的所述阈值三或者所述阈值五的,则该时段大概率为语音。

作为本发明的优选方案,所述帧的时间范围大小在10毫秒到50毫秒之间,所述第一帧数和所述第二帧数由系统配置。

作为本发明的优选方案,所述背景噪声能量是将判断为非语音期间的所述时域短时能量进行累加后求平均的结果。

作为本发明的优选方案,所述频域背景能量是将判断为非语音期间的所述频域短时能量进行累加后求平均的结果。

与现有技术相比,本发明的有益效果:

本发明根据时域和频域声音平均能量的变化分别进行语音的检测,最后根据动态估计出的背景噪声大小,选择最优的结果,从而大幅提高了语音识别的准确率以及对环境变化的适应性。

附图说明

图1为本发明流程图;

图2为本发明运行框图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述,但不应将此理解为本发明上述主体的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

如图1所示,一种基于动态噪声估计时频域自适应语音检测方法,其包括以下步骤:

步骤一,载入当前帧数据,当前帧数据为时域内语音数据;

步骤二,计算时域内语音数据的每帧声音的能量总和作为时域短时能量,并将每帧时域内语音数据通过FFT变换为频域数据;

步骤三,选取频域数据一定频率范围子带数据,计算一定频率范围子带数据的能量并累加作为频域短时能量;

步骤四,背景噪声估计单元计算出背景噪声能量,频域背景能量计算单元计算出频域背景能量;

步骤五,将时域短时能量与背景噪声能量进行比较,结果为大于背景噪声能量的则为语音,结果为小于或等于背景噪声能量的则为非语音;

步骤六,将频域短时能量与频域背景能量进行比较,结果为大于频域背景能量的则为语音,结果为小于或等于频域背景能量的则为非语音;

步骤七,将背景噪声能量与一系统设定的阈值一进行比较,若大于阈值一则选择步骤六中比较为语音的结果,若小于等于阈值一则选择步骤五中比较为语音的结果;

步骤八,若当前帧结果检测为非语音,则将当前帧的时域短时能量送到背景噪声估计单元中累加,累加到第一帧数后,将累加值除以第一帧数得到新的背景噪声能量作为输出,同时将当前帧的频域短时能量送到频域背景能量计算单元中累加,累加到第二帧数后,将累加值除以第二帧数得到新的频域背景能量作为输出。

如图1和图2所示,首先载入当前帧数据,当前帧数据是时域内语音数据,在载入当前帧数据后进行时域短时能量的计算,在计算时域短时能量的同时将时域内语音数据通过FFT变换为频域数据,然后计算频域短时能量,由背景噪声估计单元计算出背景噪声能量,由频域背景能量计算单元计算出频域背景能量,分别将时域短时能量与背景噪声能量和频域短时能量与频域背景能量进行比较,在本实施例中采用时域短时能量与背景噪声能量的差值与系统设定的阈值二进行比较并频域短时能量与频域背景能量的差值与系统设定的阈值三进行比较的方法,时域短时能量减去背景噪声能量的差值与系统设定的阈值二比较,结果大于阈值二则为语音,结果小于或等于阈值二则为非语音,频域短时能量减去频域背景能量的差值与系统设定的阈值三比较,结果大于阈值三则为语音,结果小于或等于阈值三则为非语音,上述的两个比较结果均输出,将背景噪声能量与系统设置的阈值一进行比较,若大于阈值一则选择步骤六中比较为语音的结果,若小于等于阈值一则选择步骤五中比较为语音的结果,在步骤五和步骤六中比较结果为非语音的结果分别输送至背景噪声能量估计单元和频域背景能量计算单元中计算出新的背景噪声能量和新的频域背景能量,在本实施例中人语音能量主要分布的频率范围取300Hz到4000Hz,且帧的时间范围大小在10毫秒到50毫秒之间。

在另一实施例中采用时域短时能量与背景噪声能量的比值与系统设定的阈值四进行比较并频域短时能量与频域背景能量的比值与系统设定的阈值五进行比较的方法,时域短时能量与背景噪声能量的比值与系统设定的阈值四比较,结果大于阈值四则为语音,结果小于或等于阈值四则为非语音,频域短时能量与频域背景能量的比值与系统设定的阈值五比较,结果大于阈值五则为语音,结果小于或等于阈值五则为非语音,其余的计算过程均与前述实施例相同,在此不再赘述。

在其他实施例中还可以采用采用时域短时能量与背景噪声能量的差值与系统设定的阈值六进行比较并频域短时能量与频域背景能量的比值与系统设定的阈值七进行比较的方法等。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号