首页> 中国专利> 语音增强优化方法及语音增强优化系统、可读存储介质

语音增强优化方法及语音增强优化系统、可读存储介质

摘要

本申请公开了一种语音增强优化方法及语音增强优化系统、可读存储介质。本申请的语音增强优化方法,包括:获取音频数据信息;对所述音频数据信息进行音频分离处理,以得到背景噪音段数据;对所述背景噪音段数据进行频谱特性估计处理,得到噪音频谱;根据所述噪音频谱对所述音频数据信息进行降噪处理,得到目标音频。本申请所提供的语音增强优化方法通过对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。

著录项

  • 公开/公告号CN112652324A

    专利类型发明专利

  • 公开/公告日2021-04-13

    原文格式PDF

  • 申请/专利权人 深圳万兴软件有限公司;

    申请/专利号CN202011581295.8

  • 发明设计人 萧博耀;

    申请日2020-12-28

  • 分类号G10L21/0232(20130101);G10L21/0272(20130101);

  • 代理机构44205 广州嘉权专利商标事务所有限公司;

  • 代理人黄广龙

  • 地址 518000 广东省深圳市南山区粤海街道软件产业基地5栋D座1001

  • 入库时间 2023-06-19 10:35:20

说明书

技术领域

本申请涉及语音处理技术领域,尤其涉及一种语音增强优化方法及语音增强优化系统、计算机可读存储介质。

背景技术

在相关技术中,由于录音环境、录音设备的影响导致语音录音中背景噪音,而背景噪音的存在容易影响使用者对语音录音的整体感知、理解程度。

例如,通过手动降噪的方式对语音录音中没有语音的背景噪音部份进行框选,并通过对背景噪音部份进行噪音特性估计以对语音录音进行手动降噪。然而,一般的噪音特性估计方式需要通过使用者手动对背景噪音提取,以对语音录音进行降噪处理。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种语音增强优化方法及语音增强优化系统、可读存储介质,本申请所提供的语音增强优化方法通过对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。

本申请实施例第一方面提供一种语音增强优化方法,包括:

获取音频数据信息;

对所述音频数据信息进行音频分离处理,以得到背景噪音段数据;

对所述背景噪音段数据进行频谱特性估计处理,得到噪音频谱;

根据所述噪音频谱对所述音频数据信息进行降噪处理,得到目标音频。

本申请实施例中语音增强优化方法包括如下技术效果:通过对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。根据噪音频谱对整个音频数据信息进行降噪处理,以使得目标音频更加接近于纯净的无噪音录音,从而简化背景噪音段数据的提取步骤。

在一些实施例中,所述对所述音频数据信息进行音频分离处理,以得到所述背景噪音段数据,包括:

对所述音频数据信息进行初步检测处理,生成语音检测原始标签;

对所述语音检测原始标签进行保持时间处理,生成语音检测处理标签;

对所述语音检测处理标签进行侦测确保处理,生成语音检测扩展标签;

对所述语音检测扩展标签进行反向侦测处理,生成背景音标签;

根据所述背景音标签对所述音频数据信息进行音频分离处理得到所述背景噪音段数据。在一些实施例中,所述对所述音频数据信息进行初步检测处理,生成语音检测原始标签,还包括:

对所述音频数据信息进行分帧处理、加窗处理,得到音频子数据信息;对所述音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜;根据预设阈值、所述音频对数倒頻譜,生成所述语音检测原始标签。

在一些实施例中,所述对所述音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜,还包括:

对所述音频子数据信息进行傅里叶变换处理、平方处理,并得到第一变换数据;对所述第一变换数据进行对数处理、逆傅里叶变换处理,并得到第二变换数据;对所述第二变换数据进行平方处理、倒数处理得到所述音频对数倒頻譜。

在一些实施例中,所述对所述语音检测原始标签进行保持时间处理,生成语音检测处理标签,还包括:

根据预设时间间隔阈值对所述语音检测原始标签进行保持时间处理,以生成至少一个连续的所述语音检测处理标签。

在一些实施例中,所述对所述语音检测处理标签进行侦测确保处理,生成语音检测扩展标签,还包括:

根据预设的宽容时间长度对所述语音检测处理标签进行侦测确保处理,以延长所述对所述语音检测处理标签的范围,并生成所述语音检测扩展标签。

在一些实施例中,所述对所述语音检测扩展标签进行反向侦测处理,生成背景音标签,包括:

对所述语音检测扩展标签进行反向转换处理,以生成所述背景音标签。

本申请实施例第二方面提供一种语音增强优化系统,包括:

语音获取模块,用于获取音频数据信息;

噪音分离模块,用于对所述音频数据信息进行音频分离处理,以得到所述背景噪音段数据;

频谱估计模块,用于对所述背景噪音段数据进行频谱特性估计处理,得到噪音频谱;

降噪模块,用于对所述噪音频谱对所述音频数据信息进行降噪处理,得到目标音频。

在一些实施例中,所述噪音分离模块,还包括:

初步检测模块,用于对所述音频数据信息进行初步检测处理,生成语音检测原始标签;

保持时间模块,用于对所述语音检测原始标签进行保持时间处理,生成语音检测处理标签;

侦测确保模块,用于对所述语音检测处理标签进行侦测确保处理,生成语音检测扩展标签;

反向侦测模块,对所述语音检测扩展标签进行反向侦测处理,生成背景音标签;

音频分离模块,用于根据所述背景音标签对所述音频数据信息进行音频分离处理得到所述背景噪音段数据。

本申请实施例第三方面提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于:执行上述任一实施例中的语音增强优化方法。

计算机可读存储介质通过自动执行上述任一实施例中的语音增强优化方法,以简化背景噪音段数据的提取步骤,使得使用者可以简便地提取音频数据信息中的背景噪音段数据。

本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显。

附图说明

下面结合附图和实施例对本申请做进一步的说明,其中:

图1为本申请一实施例一种语音增强优化方法的流程图;

图2为本申请又一实施例一种语音增强优化方法的流程图;

图3A至图3E为本申请再一实施例的语音增强优化方法的时序波形图;

图4为本申请又一实施例一种语音增强优化方法的流程图;

图5A至图5B为本申请还一实施例一种音频数据信息的波形图;

图6为本申请还一实施例一种语音增强优化方法的流程图;

图7A至图7D为本申请还一实施例一种噪音估计频谱的比较示意图;

图8为本申请提供的一种语音增强优化系统的框架示意图;

图9为本申请提供的一种音频分离模块的框架示意图。

附图标记:100、语音获取模块;200、噪音分离模块;300、频谱估计模块;400、降噪模块;210、初步检测模块;220、保持时间模块;230、侦测确保模块;240、反向侦测模块;250、音频分离模块。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。

在本申请的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

在本申请的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本申请的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请中的具体含义。

本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在相关技术中,由于录音环境、录音设备的影响导致语音录音中存在背景噪音,而背景噪音造成使用者无法正确理解、感知语音录音。

例如,通过手动降噪调试程序的方式对语音录音中没有语音的背景噪音部份进行框选,并通过对背景噪音部份进行噪音特性估计,以对语音录音进行手动降噪。然而,一般的噪音特性估计方式对背景噪音的估计精度较低,导致无法对语音录音进行降噪处理。

且一般的噪音特性估计方式为通过手动逐步操作,以完成整个噪音特性估计流程。

基于上述技术问题,本申请提供一种语音增强优化方法,通过自动获取背景噪音段数据并进行频谱特性估计处理以得到噪音频谱,从而对音频数据信息进行降噪处理。

请参照图1,本申请实施例提供一种语音增强优化方法,包括:步骤S100、获取音频数据信息;步骤S200、对音频数据信息进行音频分离处理,以得到背景噪音段数据;步骤S300、对背景噪音段数据进行频谱特性估计处理,得到噪音频谱;步骤S400、根据噪音频谱对音频数据信息进行降噪处理,得到目标音频。

音频数据信息包括背景噪音段数据、语音段数据(语音段数据由目标录音、背景噪音的叠加得到)。通过获取音频数据信息并对音频数据信息进行音频分离,以得到背景噪音段数据。通过对背景噪音段数据进行频谱特性估计处理,以得到噪音频谱。根据预设降噪算法、噪音频谱对音频数据信息进行降噪处理,以得到目标音频,从而使得降噪后得到的目标音频中的噪音成分减少。

可以理解的是,通过对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。根据噪音频谱对整个音频数据信息进行降噪处理,以使得目标音频更加接近于纯净的无噪音录音。

请参照图2、图3A至图3E,在一些实施例,步骤S200、对音频数据信息进行音频分离处理,以得到背景噪音段数据,包括:步骤S210、对音频数据信息(wave form)进行初步检测处理,生成语音检测原始标签speech detection raw tag;步骤S220、对语音检测原始标签进行保持时间处理,生成语音检测处理标签speech detection processed tag;步骤S230、对语音检测处理标签进行侦测确保处理,生成语音检测扩展标签speech detectionextended tag;步骤S240、对语音检测扩展标签进行反向侦测处理,生成背景音标签non-speech(background noise)tag;步骤S250、根据背景音标签对音频数据信息进行音频分离处理得到背景噪音段数据。

图3A为音频数据信息(wave form)的波形图;图3B为语音检测原始标签speechdetection raw tag的示意图;图3C为语音检测处理标签speech detection processedtag的示意图;图3D为语音检测扩展标签speech detection extended tag的示意图;图3E为背景音标签non-speech(background noise)tag的示意图。

如图3A、图3B所示,通过对音频数据信息进行初步检测处理,以得到与语音段数据对应的语音检测原始标签speech detection raw tag。其中,语音检测原始标签包括多个语音检测原始子标签,且每一个语音检测原始子标签与语音段数据中子帧数据相对应。可以理解的是,语音段数据中目标录音包括多个波峰,每一个语音检测原始子标签与一个波峰相对应,且相邻两个语音检测原始子标签之间可能存在时间较短的噪音段。

如图3C所示,通过对语音检测原始标签进行保持时间处理,以根据语音检测原始标签speech detection raw tag的位置对音频数据信息进行区域性标记,并生成对应的语音检测处理标签speech detection processed tag。

如图3D所示,进一步地,为了保证语音检测处理标签speech detectionprocessed tag的标记区域内已包括所语音段数据,通过对语音检测处理标签speechdetection processed tag进行侦测确保处理,以增大标记范围。可以理解的是,通过增加语音检测处理标签speech detection processed tag的宽容度,并生成对应的语音检测扩展标签speech detection extended tag。

如图3E所示,进一步地,通过对语音检测扩展标签speech detection extendedtag进行反向侦测处理,以得到用于框选背景噪音段数据的背景标签non-speech(background noise)tag。通过对语音检测扩展标签speech detection extended tag进行反向侦测处理得到的背景标签speech detection extended tag可以精确地框选出音频数据信息中的背景噪音段数据。

请参照图4、在一些实施例,步骤S210、对音频数据信息进行初步检测处理,生成语音检测原始标签,还包括:步骤S211、对音频数据信息进行分帧处理、加窗处理,得到音频子数据信息;步骤S212、对音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜;步骤S213、根据预设阈值、音频对数倒頻譜,生成语音检测原始标签。

通过对音频数据信息进行分帧处理以分割成多个音频数据子片段,并对多个音频数据子片段进行加窗处理,从而使得多个音频数据子片段相对连续,避免出现吉布斯效应。且加窗处理后得到的音频子数据信息呈现出周期函数的部分特征。

通过对音频子数据信息进行对数倒頻譜处理,以得到音频对数倒頻譜。根据预设阈值、音频对数倒頻譜中峰值对音频数据信息进行标注,并得到对应语音检测原始标签。

请一并参照图5A、图5B,在音频对数倒頻譜中,语音段数据倒谱具有至少一个峰值大于预设阈值的波峰peak,而背景噪音段数据对应的倒谱波峰均小于预设阈值。横坐标为频率区bins,单位为Hz;纵坐标为量级magnitude,单位为dB。

图5A为背景噪音段数据所对应的音频对数倒頻譜,图5B为语音段数据所对应的音频对数倒頻譜。如图5A、图5B所示,音频对数倒頻譜中存在有大于预设阈值的波峰peak,而背景噪音段数据所对应的音频对数倒頻譜中的峰值均小于预设阈值。

请参照图6、在一些实施例,步骤S300、对音频子数据信息进行对数倒頻譜处理,得到音频对数倒頻譜,还包括:步骤S310、对音频子数据信息进行傅里叶变换处理、平方处理,并得到第一变换数据;步骤S320、对第一变换数据进行对数处理、逆傅里叶变换处理,并得到第二变换数据;步骤S330、对第二变换数据进行平方处理、倒数处理得到音频对数倒頻譜。

通过对音频数据信息中的音频子数据信息进行对数倒頻譜处理,以计算得到音频对数倒頻譜。其中,具体计算公式如下:

logcepstrum=log(|F

其中,x(n)是音频子数据信息或音频数据信息;F是傅里叶变换;F

通过对音频子数据信息x(n)进行傅里叶变换处理、平方处理,并得到第一变换数据|F{x(n)}|

通过音频对数倒頻譜logcepstrum、预设阈值threshold对音频数据信息进行标注,并得到对应语音检测原始标签。

在一些变更实施例中,通过short-term power、teager energy operator、zerocrossing rate等方法对音频子数据信息进行初步检测处理,生成语音检测原始标签。

可以理解的是,根据具体的应用场景,可选择地使用不同的语音识别方式,以对音频子数据信息进行音频检测,并生成对应的语音检测原始标签。

在一些实施例,对语音检测原始标签进行保持时间处理,生成语音检测处理标签,还包括:根据预设时间间隔阈值对语音检测原始标签进行保持时间处理,以生成至少一个连续的语音检测处理标签。

根据保持时间值对语音检测原始标签进行保持时间处理,以使得离散化的语音检测原始标签转换为连续化的语音检测处理标签。

进一步地,预设时间间隔阈值holding time,当相邻两个语音检测原始标签的时间间隔小于时间间隔阈值holding time,则将相邻两个语音检测原始标签进行连接处理以得到连续的语音检测处理标签。

例如,将时间间隔阈值holding time设定为1.6秒,当相邻两个语音检测原始标签的时间间隔小于1.6秒时,则将相邻两个语音检测原始标签进行联立,并得到对应的语音检测处理标签。

在一些实施例,对语音检测处理标签进行侦测确保处理,生成语音检测扩展标签,还包括:根据预设的宽容时间长度对语音检测处理标签进行侦测确保处理,以延长对语音检测处理标签的范围,并生成语音检测扩展标签。

通过设置宽容时间对语音检测处理标签进行侦测确保处理,以对语音检测处理标签的标注范围进行延伸,从而确保语音检测处理标签的标注范围可包含所有语音段数据(非背景噪音段数据)。

例如,宽容时间被设置为0.8秒,则对语音检测处理标签的前边界、后边界分别进行延伸,并对延伸后的范围进行标记,得到对应的语音检测扩展标签。

可以理解的是,通过对语音检测处理标签的标注范围进行延伸,以提高标签的标注范围精度。

在一些实施例,对语音检测扩展标签进行反向侦测处理,生成背景音标签,包括:对语音检测扩展标签进行反向转换,以生成背景音标签。

通过语音检测扩展标签进行反向转换,以获得用于标注背景噪音段数据的背景标签。通过背景标签对音频数据信息的背景噪音段数据进行范围标注,从而准确地提取音频数据信息中的背景噪音段数据。

通过以下公式对语音检测扩展标签反向转换,以得到背景音标签,具体如下:

non-speech(background noise)tag=1-speech detection extended tag

其中,non-speech(background noise)tag为背景音标签;speech detectionextended tag为语音检测扩展标签。

请参照图7A至图7D,图7A至图7D的横坐标为频率(单位为Hz),纵坐标为噪音等级(单位为dB)。

图7A、图7B为在不同信噪比下的粉红噪音的噪音频谱估计对比图,如图所示,在不同信噪比下,通过本实施例提供的音频分离处理方法均可获得与实际噪音频谱高度接近的噪音估计频谱。

图7C、图7D为在不同信噪比下的公共噪音的噪音频谱估计对比图,如图所示,在不同信噪比下,通过本实施例提供的音频分离处理方法均可获得与实际噪音频谱高度接近的噪音估计频谱。

结合图7A至图7D,对于不同的信噪比、噪音类型,通过本申请提供音频分离处理步骤均可获得与实际噪音频谱高度接近的噪音估计频谱,从而实现较优的降噪处理。

请参照图8,本申请还提供了一种语音增强优化系统用于执行上述语音增强优化方法,包括:语音获取模块100,用于获取音频数据信息;噪音分离模块200,用于对音频数据信息进行音频分离处理,以得到背景噪音段数据;频谱估计模块300,用于对背景噪音段数据进行频谱特性估计处理,得到噪音频谱;降噪模块400,用于对噪音频谱对音频数据信息进行降噪处理,得到目标音频。

噪音分离模块200通过对音频数据信息进行音频分离处理得到背景噪音段数据;通过频谱估计模块300对得到的背景噪音段数据进行频谱特征估计,以得到用于表征噪音分布特征的噪音频谱。降噪模块400根据噪音频谱对整个音频数据信息进行降噪处理,以得到接近于没有背景噪音的目标语音音频。

本申请实施例提供的语音增强优化系统通过侦测带有语音的语音段数据,并根据语音段数据从音频数据信息中分离出背景噪音段数据。通过分离得到的背景噪音段数据进行最佳化背景噪音预估,从而得到精准的噪音频谱,并通过噪音频谱对整个音频数据信息进行降噪处理。相对于使用者通过手动匡选背景噪音部份以噪音预估,本申请提供的语音增强优化系统通过自主执行预设算法,以简化使用者的操作流程。

请参照图9,在一些实施例,噪音分离模块200,还包括:初步检测模块210,用于对音频数据信息进行初步检测处理,生成语音检测原始标签;保持时间模块220,用于对语音检测原始标签进行保持时间处理,生成语音检测处理标签;侦测确保模块230,用于对语音检测处理标签进行侦测确保处理,生成语音检测扩展标签;反向侦测模块240,对语音检测扩展标签进行反向侦测处理,生成背景音标签;音频分离模块250,用于根据背景音标签对音频数据信息进行音频分离处理得到背景噪音段数据。

通过初步检测模块210对音频数据信息进行初步检测处理,以得到与语音段数据对应的语音检测原始标签。其中,语音检测原始标签包括多个语音检测原始子标签,且每一个语音检测原始子标签与语音段数据中子帧数据相对应。

通过保持时间模块220对语音检测原始标签进行保持时间处理,以根据语音检测原始标签的位置对音频数据信息进行区域性标记,并生成对应的语音检测处理标签。

进一步地,为了避免语音检测处理标签的标记区域内未对所有非背景噪音段数据进行标记,通过侦测确保模块230对语音检测处理标签进行侦测确保处理,以增大标记范围。可以理解的是,通过增加语音检测处理标签的宽容度,并生成对应的语音检测扩展标签。

进一步地,通过反向侦测模块240对语音检测扩展标签进行反向侦测处理,以得到用于框选背景噪音段数据的背景标签。通过音频分离模块250对语音检测扩展标签进行反向侦测处理得到的背景标签可以精确地框选出音频数据信息中的背景噪音段数据。

在一些实施例,计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于:执行权利要求上述任一实施例中的语音增强优化方法。

通过快速执行实施例中的语音增强优化方法,以对音频数据信息进行音频分离处理,并对得到的背景噪音段数据进行频谱特征估计,并得到用于表征噪音分布特征的噪音频谱,从而对整个音频数据信息进行降噪处理,使得目标音频更加接近于纯净的无噪音录音。

通过计算机可读存储介质快速执行计算机可读存储介质。以有效地简化用户的操作步骤,并达到快速增强/降噪语音的技术效果。

上面结合附图对本申请实施例作了详细说明,但是本申请不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下作出各种变化。此外,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号