首页> 中国专利> 一种基于综合特征集的深度学习语音增强方法

一种基于综合特征集的深度学习语音增强方法

摘要

一种基于综合特征集的深度学习语音增强方法:对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集;利用训练集对DBN的权重和偏置参数进行预训练和微调;利用训练好的DBN权重和偏置参数提取DBN声学特征;从训练集和测试集中提取互补特征集声学特征;从DBN声学特征和互补特征集的特征中选取所需特征;从五种特征汇总成的总向量中提取综合特征集声学特征;进行语音增强。本发明的综合特征集声学特征用于语音增强模型噪声抑制后,信噪比语音评价指标得到了较大提升,所以在极低信噪比条件下本发明表现出了非常好的优势。

著录项

  • 公开/公告号CN108447495A

    专利类型发明专利

  • 公开/公告日2018-08-24

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN201810267142.2

  • 发明设计人 张涛;任相赢;刘阳;

    申请日2018-03-28

  • 分类号G10L21/02(20130101);G10L21/0208(20130101);G10L25/24(20130101);G10L13/02(20130101);

  • 代理机构12201 天津市北洋有限责任专利代理事务所;

  • 代理人杜文茹

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-06-19 06:16:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-09

    授权

    授权

  • 2018-09-18

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20180328

    实质审查的生效

  • 2018-08-24

    公开

    公开

说明书

技术领域

本发明涉及一种语音增强方法。特别是涉及一种基于综合特征集的深度学习语音增强方法。

背景技术

1、语音增强的原理

当原始的纯净语音信号经过传输到达接收端时,可能会受到环境噪声或者通信信道噪声的影响,纯净的语音信号与噪声混合,得到的混合信号称之为带噪信号,从带噪信号中恢复原始的纯净信号,这一过程被称为语音增强,语音增强的目标就是要提高这些受损语音的质量以及可懂度,减轻听觉上的疲劳。声学噪声对于纯净语音信号的影响有可能是加性的,也有可能是卷积性的,所以依据带噪信号产生的原因,语音增强的研究可分为两个方向,即加性噪声消除和卷积噪声消除。根据信号处理相关理论可知,信号时域卷积相当于频域相乘,进而取对数运算,转换成信号的相加,从而卷积噪声的消除又转换为加性噪声的消除,因此,寻找有效的加性噪声消除方法成为研究的焦点。

2、基于深度学习的语音增强方法取得了较好的效果,该方法主要由声学特征提取、模型构建和目标估计三部分组成,如附图1所示,其中模型构建部分主要利用深度神经网络监督模型,目标标签估计选用理想比率掩码,由AMS、RASTA-PLP、MFCC、GF四个特征串联组成的互补特征集是目前效果较好的声学特征表达,四个特征描述如下。

1)AMS(Amplitude modulation spectrogram)

为了计算AMS特征,首先输入信号的包络进行全波整流,然后进行四分之一抽样,抽样后得到的信号以128点帧长和40点的帧移进行分帧,汉明窗平滑预处理,256点的短时傅里叶变换(STFT)将预处理后的时域信号变换到频域得到幅度谱,幅度谱通过15个中心频率在15.6~400Hz均匀分布的三角窗,得到15维的AMS特征。

2)RASTA-PLP(Relative spectral transform PLP)

RASTA-PLP特征提取过程如附图2所示,语音信号经离散傅里叶变换得能量谱,计算临界带听觉谱,输入信号被转换到Bark域,进而取对数,进行RASTA滤波,整个处理过程相当于一个带通滤波器,它的高低截止频率决定了所保留和去除的谱的变化。当声强相同时,人耳对不同频率所感到的响度并不相同,为了尽量逼近人耳耳蜗特点,对上述RASTA滤波输出取反对数,作等响度曲线函数变换和立方根压缩,最后进行线性预测分析,计算倒谱得13维的RASTA-PLP特征。

3)梅尔倒谱系数(Mel-frequency cepstral coefficient,MFCC)

语音信号首先分帧、加窗预处理,利用快速傅里叶变换(FFT)计算能量谱,将能量谱转换到梅尔域,在梅尔域内能量谱经三角带通滤波器得滤波输出,最后经离散余弦变换得31维MFCC特征。

4)GF(Gammatonefeature)

语音信号经64通道的γ-tone滤波器组滤波输出获取子带信号,每一子带信号进行分帧、加窗得时频单元,以时频单元为基本单位,计算每一基本单元的能量谱,提取得到64维的GF特征。

发明内容

本发明所要解决的技术问题是,提供一种组合DBN声学特征与互补特征集声学特征得到综合特征集声学特征,并将该综合特征集用于监督学习语音增强系统进行噪声抑制的基于综合特征集的深度学习语音增强方法。

本发明所采用的技术方案是:一种基于综合特征集的深度学习语音增强方法,包括如下步骤:

1)对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集;

2)利用训练集对DBN的权重和偏置参数进行预训练和微调;

3)利用训练好的DBN权重和偏置参数提取DBN声学特征;

4)从训练集和测试集中提取互补特征集声学特征,即根据AMS、RASTA-PLP、梅尔倒谱系数、GF四个特征提取方法,分别提取分帧、加窗后的训练集、测试集语音数据的四个特征,并将所述的四个特征汇总得到互补特征集;

5)利用GroupLasso模型从DBN声学特征和互补特征集的特征中选取所需特征;

6)从五种特征汇总成的总向量中提取综合特征集声学特征,即根据步骤5)得到的多个拟合参数值,对AMS、RASTA-PLP、MFCC、GF、DBN五种特征进行保留或舍弃,重新组合分别得到训练集的综合特征集声学特征和测试集的综合特征集声学特征;

7)进行语音增强。

步骤1)中所述的原始数据集是由720条TIMIT语料库纯净语音和NOISEX92噪声库中的噪声混合得到。

步骤1)包括:从TIMIT语料库和NOISEX92噪声库分别随机选取120条语句,以-2dB信噪比混合得到测试集,从TIMIT语料库和NOISEX92噪声库剩余语句中随机选取600条语句,以-2dB信噪比混合得到训练集,将所述的训练集和测试集分别进行分帧、加窗。

步骤2)包括:将分帧、加窗后的训练集语音数据分别作为DBN的输入层数据和输出层数据,所述输入层数据经过隐藏层,最后到达输出层并输出估计结果,所述的估计结果与所述的输出层数据之间有误差,计算所述的误差值,并将该误差值从输出层向隐藏层反向传播,直至传播到输入层,在反向传播过程中,根据误差值调整DBN的权重和偏置参数的值,重复迭代,直至收敛,得到最终训练好的DBN权重和偏置参数。

步骤3)包括:将分帧、加窗后的测试集语音数据输入到DBN输入层,利用步骤2)训练好的DBN权重和偏置参数对DBN输入层语音数据进行计算,计算公式如下:

hl=σ(Wlhl-1+bl)

式中,σ()是logistic函数,l是DBN的层数,Wl是相邻层之间连接的权重矩阵,bl是隐藏层的偏置参数,hl是DBN第l层的输出,利用上式,计算后得到的最上层隐藏层数据即为DBN声学特征。

步骤5)包括:选用二进制模型逻辑回归作为参数拟合GroupLasso模型,利用R语言中的glmnet包进行特征选取实验,汇总测试集语音的AMS、RASTA-PLP、MFCC、GF、DBN五种标准化后的特征作为一个总向量,将所述的总向量作为Group Lasso模型的输入,利用如下表达式计算得到理想比率掩码,

其中,S2(t,f),N2(t,f)分别表示语音与噪声的能量,β是可调的放缩指数,根据经验取β=0.5,所述的理想比率掩码取值范围为[0,1],将理想比率掩码值大于0.5的设为1,其它的设为0,进而得到GroupLasso二进制响应,将五种特征汇总成的总向量作为GroupLasso的输入,二进制响应作为Group>

步骤6)所述的保留或舍弃,是如果某一特征对应的拟合参数值中有大于零的值,则保留该特征,如果对应的拟合参数值全都为零,则舍弃该特征。

步骤7)包括:将步骤6)得到的训练集的综合特征集声学特征,作为特征输入,深度神经网络作为监督模型,理想比率掩码作为目标标签,对所述的监督模型进行训练;将测试集的综合特征集声学特征作为训练好的监督模型的特征输入,输出层数据即为估计标签,最后进行语音波形合成得到最终增强后语音。

本发明的一种基于综合特征集的深度学习语音增强方法,与互补特征集声学特征、多分辨率听觉谱(Multi-resolution Cochleagram,MRCG)特征相比,本文提出的综合特征集声学特征用于语音增强模型噪声抑制后,信噪比语音评价指标得到了较大提升,尤其是在-5dB混合信噪比条件下,本发明得到的效果比谱减法性能提高了69.35%,在0dB混合信噪比条件下,本发明得到的效果比谱减法提高了30.93%,所以在极低信噪比条件下本发明表现出了非常好的优势。

附图说明

图1是深度学习语音增强系统结构框图;

图2是RASTA_PLP特征提取流程图;

图3是DBN训练结构框图;

图4是本发明一种基于综合特征集的深度学习语音增强方法的流程图;

图5是分类误差与正则化参数λ关系图;

图6是五种串联特征逻辑回归参数值;

图7是五种噪声干扰情况下三种特征集语音增强后信噪比比较。

具体实施方式

下面结合实施例和附图对本发明的一种基于综合特征集的深度学习语音增强方法做出详细说明。

如图4所示,本发明的一种基于综合特征集的深度学习语音增强方法,包括如下步骤:

1)对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集;包括:

从TIMIT语料库和NOISEX92噪声库分别随机选取120条语句,以-2dB信噪比混合得到测试集,从TIMIT语料库和NOISEX92噪声库剩余语句中随机选取600条语句,以-2dB信噪比混合得到训练集,将所述的训练集和测试集分别进行分帧、加窗。

所述的原始数据集是由720条TIMIT语料库纯净语音和NOISEX92噪声库中的噪声混合得到。

2)利用训练集对DBN的权重和偏置参数进行预训练和微调;包括:

将分帧、加窗后的训练集语音数据分别作为DBN的输入层数据和输出层数据,所述输入层数据经过隐藏层,最后到达输出层并输出估计结果,所述的估计结果与所述的输出层数据之间有误差,计算所述的误差值,并将该误差值从输出层向隐藏层反向传播,直至传播到输入层,在反向传播过程中,根据误差值调整DBN的权重和偏置参数的值,重复迭代,直至收敛,得到最终训练好的DBN权重和偏置参数。

3)利用训练好的DBN权重和偏置参数提取DBN声学特征;包括:

将分帧、加窗后的测试集语音数据输入到DBN输入层,利用步骤2)训练好的DBN权重和偏置参数对DBN输入层语音数据进行计算,计算公式如下:

hl=σ(Wlhl-1+bl)

式中,σ()是logistic函数,l是DBN的层数,Wl是相邻层之间连接的权重矩阵,bl是隐藏层的偏置参数,hl是DBN第l层的输出,利用上式,计算后得到的最上层隐藏层数据即为DBN声学特征,如附图3所示。

4)从训练集和测试集中提取互补特征集声学特征,即根据AMS(Amplitudemodulation spectrogram)、RASTA-PLP(Relative spectral transform PLP)、梅尔倒谱系数(Mel-frequency cepstralcoefficient,MFCC)、GF(Gammatonefeature)四个特征提取方法,分别提取分帧、加窗后的训练集、测试集语音数据的四个特征,并将所述的四个特征汇总得到互补特征集。

5)利用GroupLasso模型从DBN声学特征和互补特征集的特征中选取所需特征;包括:

选用二进制模型逻辑回归作为参数拟合GroupLasso模型,利用R语言中的glmnet包进行特征选取实验,汇总测试集语音的AMS、RASTA-PLP、MFCC、GF、DBN五种标准化后的特征作为一个总向量,将所述的总向量作为GroupLasso模型的输入,为了得到GroupLasso模型的二进制响应向量,利用如下表达式计算得到理想比率掩码,

其中,S2(t,f),N2(t,f)分别表示语音与噪声的能量,β是可调的放缩指数,根据经验取β=0.5,所述的理想比率掩码取值范围为[0,1],将理想比率掩码值大于0.5的设为1,其它的设为0,进而得到GroupLasso二进制响应,将五种特征汇总成的总向量作为GroupLasso的输入,二进制响应作为GroupLasso的输出,得GroupLasso模型的五种标准化后的特征所对应的多个拟合参数值,如果某一特征对应的拟合参数值中有大于零的值,则保留该特征,如果对应的拟合参数值全都为零,则舍弃该特征。

6)从五种特征汇总成的总向量中提取综合特征集声学特征,即根据步骤5)得到的多个拟合参数值,对AMS、RASTA-PLP、MFCC、GF、DBN五种特征进行保留或舍弃,重新组合分别得到训练集的综合特征集声学特征和测试集的综合特征集声学特征;所述的保留或舍弃,是如果某一特征对应的拟合参数值中有大于零的值,则保留该特征,如果对应的拟合参数值全都为零,则舍弃该特征。

7)进行语音增强。包括:将步骤6)得到的训练集的综合特征集声学特征,作为特征输入,深度神经网络作为监督模型,理想比率掩码作为目标标签,根据附图1所示,对所述的监督模型进行训练;将测试集的综合特征集声学特征作为训练好的监督模型的特征输入,输出层数据即为估计标签,最后进行语音波形合成得到最终增强后语音。

下面给出最佳实施例:

从TIMIT语料库中随机选取600条语句作为训练集纯净语音,从剩余的语句中选取120条语句作为测试集纯净语音,从NOISEX92噪声库选择工厂噪声、白噪声、m109、f16机舱噪声、粉红噪声五种不同类型噪声进行实验,实验中参数设置:混合信噪比为-2dB,帧长NW=320,帧移NSH=160,窗函数h(l)选择320点的汉明窗。

将训练集与测试集中的纯净语音以-2dB混合信噪比分别与五种不同的噪声混合生成带噪信号,依据图4所示的流程图,对提出的基于综合特征集的深度学习语音增强方法分别进行对比分析,具体实施如下:

1、读取纯净语音被噪声干扰后生成的带噪信号,并进行分帧、加窗处理,每帧320个采样点,加320点的汉明窗。

2、将分帧、加窗后的训练集语音数据输入到DBN网络,迭代训练后得到DBN网络为In=>h1=>...=>hi=>...=>hn=>Out,其中In表示输入层数据,hi表示中间隐藏层数据,即DBN声学特征数据,Out表示输出层数据。

3、根据训练得到的DBN权重和偏置参数,将分帧、加窗后的测试集数据输入到DBN输入层,经传输变换后中间隐藏层数据hi即为DBN声学特征。

4、从分帧、加窗后的训练集、测试集中提取AMS、RASTA-PLP、MFCC、GF四个特征,并将四个特征汇总得到互补特征集。

5、利用R语言glmnet包进行特征选取,经10次交叉验证拟合后,得最优的正则化参数λ,λ的值决定了结果拟合模型的稀疏水平,得到的分类误差与λ之间的关系如附图5所示,深色的点线代表交叉验证曲线,上下误差线代表标准偏差,第一条垂直的点虚线显示了在误差最小情况下最优的λ取值,利用上述选取的最优λ值可求得五种汇总特征作为输入,二进制响应作为输出,对应的拟合参数值,如附图6所示。

6、由于五种特征拟合参数均大于零,所以保留全部的AMS、RASTA-PLP、MFCC、GF、DBN五种特征,将该五种特征汇总得到综合特征集。

7、将训练集带噪信号的综合特征集作为附图1语音增强系统的输入层数据,理想比率掩码作为输出层数据,隐藏层数为4层,每层1024节点,进行模型训练。随后将测试集带噪信号的综合特征集作为已训练好的模型输入,运算后输出层数据为估计标签,随后语音波形合成得到最终增强后语音。

如图7所示,对相同的测试集进行语音增强处理,本发明综合特征集与互补特征集、MRCG特征集进行对比,信噪比得到了一定提升。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号