公开/公告号CN102074245A
专利类型发明专利
公开/公告日2011-05-25
原文格式PDF
申请/专利号CN201110001022.6
发明设计人 叶利剑;
申请日2011-01-05
分类号G10L21/02(20060101);G10L19/14(20060101);
代理机构
代理人
地址 518057 广东省深圳市南山区高新技术产业园北区新西路18号
入库时间 2023-12-18 02:26:11
法律状态公告日
法律状态信息
法律状态
2018-12-21
专利权的转移 IPC(主分类):G10L21/02 登记生效日:20181130 变更前: 变更后: 变更前: 变更后: 申请日:20110105
专利申请权、专利权的转移
2017-08-18
专利权的转移 IPC(主分类):G10L21/02 登记生效日:20170728 变更前: 变更后: 变更前: 变更后: 申请日:20110105
专利申请权、专利权的转移
2017-08-18
专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L21/02 变更前: 变更后: 变更前: 变更后: 申请日:20110105
专利权人的姓名或者名称、地址的变更
2012-10-10
授权
授权
2011-07-13
实质审查的生效 IPC(主分类):G10L21/02 申请日:20110105
实质审查的生效
2011-05-25
公开
公开
查看全部
技术领域
本发明涉及一种基于双麦克风语音增强装置及语音增强方法。
背景技术
随着无线通讯的发展,全球移动电话用户越来越多,用户对移动电话的要求已不仅满足于通话,而且要能够提供高质量的通话效果,尤其是目前移动多媒体技术的发展,移动电话的通话质量更显重要。
由于大量环境噪声的存在,手机等通讯设备的麦克风采集到的语音信号普遍信噪比不够高,特别是在街道汽车等高噪声环境中,需要提高音量才能使对方听清。所以需要通过语音增强的方法来提升输入语音的信噪比,改善通讯质量。
然而传统的单通道语音增强方法降噪效果有限,并且会对语音造成较大失真。
发明内容
本发明需解决的技术问题是提供一种去噪效果好的基于双麦克风语音增强装置及语音增强方法。
根据上述需解决的技术问题,本发明提供了一种基于双麦克风的语音增强装置,该装置包括:
数字麦克风阵列模块,用于接收时域带噪语音数字信号并将接收的时域带噪语音数字信号输出,其包括第一数字麦克风和第二数字麦克风;
第一脉冲密度调制解码器模块,用于对时域带噪语音数字信号进行分帧、降采样及滤波,形成初步降采样率数字信号,其包括滤波器;
指向性形成模块,用于将初步降采样率数字信号进行指向性形成,形成初步降噪的指向性输出信号;
第二脉冲密度调制解码器模块,用于对初步降噪的指向性输出信号进行分帧、降采样、滤波和加重,形成第二降采样率数字信号;
语音增强处理模块,用于对第二降采样率数字信号进行语音增强处理,形成去除背景噪声的语音信号;
输出模块,用于输出去除背景噪声的语音信号。
优选的,所述第一脉冲密度调制解码器模块包括N级梳状滤波器。
优选的,所述第二脉冲密度调制解码器模块包括第一半带滤波器、第二半带滤波器、低通滤波器和高通滤波器。
基于双麦克风语音增强装置的语音增强方法包括如下步骤:
步骤S001:利用第一数字麦克风接收第一时域带噪语音数字信号;利用第二数字麦克风接收第二时域带噪语音数字信号,并将所述接收到的第一、第二时域带噪语音数字信号传送给脉冲密度调制解码器模块;
步骤S002:利用脉冲密度调制解码器模块将第一、第二时域带噪语音数字信号分帧,并利用N级梳状滤波器进行降采样及滤波,得到第一、第二初步降采样率数字信号并输出;
N级梳状滤波器的传递函数形式如下:
N为级联阶数,r为抽取比例
x′1(n,m)=x1(rn,m)
x′2(n,m)=x2(rn,m)
x1(n),x2(n)第一、第二时域带噪语音数字信号
x′1,x′2第一、第二初步降采样率数字信号
步骤S003:利用指向性形成模块接收脉冲密度调制解码器模块输出的第一、第二初步降采样的信号,并对第一、第二初步降采样的信号进行幅度补偿和相位补偿,得到第一、第二初步降噪的指向性信号,并将第一、第二初步降噪的指向性信号,相减得到初步降噪的指向性输出信号
经过幅度补偿,形式如下
为第一、第二初步降噪的指向性信号
其中am由第一数字麦克风和第二数字麦克风的灵敏度差异决定所述相位补偿的形式如下:
其中m为帧数,n为点数,fs为采样率,d为麦克风距离,cs为声速所述初步降噪的指向性输出信号如下:
步骤S004:利用第二脉冲密度调制解码器模块对初步降噪的指向性输出信号分帧、降采样、滤波和加重,形成第二降采样率数字信号;
步骤S005:利用语音增强处理模块对第二降采样率数字信号进行语音增强处理,形成去除背景噪声的语音信号;
步骤S006:利用输出模块接收语音增强处理模块输出去除背景噪声的语音信号。
优选地,步骤S004中
对所述初步降噪的信号进行分帧后的信号为y(m),m表示帧数
降采样及滤波分为三步:
第一步:利用第一半带滤波器,并按2∶1抽取;
第二步:利用第二半带滤波器,并按2∶1抽取;
第三步:利用低通滤波器,并按3∶1抽取;
第一半带滤波器为14阶有限冲激响应滤波器
y1(n,m)=y′1(2n,m)
第二半带滤波器为190阶有限冲激响应滤波器
y2(n,m)=y′2(2n,m)
低通滤波器为86阶有限冲激响应滤波器
y3(n,m)=y′3(3n,m)
利用高通滤波器,进行预加重处理
高通滤波器其形式如下:
H(z)=1-αz-1
其中常数α=0.9325
优选地,步骤S005中包括如下步骤
步骤A001:将第二降采样率数字信号经短时傅里叶变换成频域信号,并对将频域信号划分为若干频带,计算各个频带的能量并进行平滑;
短时傅里叶变换如下
其中,M为短时傅利叶变换的计算长度,f表示频率值,X表示频域信号,x表示第二降采样率数字信号;
汉明窗函数定义如下:
win(n)={
0.54-0.46cos(2*π*n/M) 0≤n≤M-1
0 其余n
}
采用如下方法计算每个频带的能量并进行平滑:
E(m,k)=|X(m,k)|2 0≤k≤N-1
YE(m,k)=αYK(m-1,k)+(1-α)E(m,k)0≤k≤N-1
其中,YE(m,k)表示经平滑后的每个频带区间的能量,m表示当前帧的序号,k表示当前的子带的序号,α=0.75表示平滑因子;N为选取的频带总数,E(m,k)表示频带能量值,X(m,k)表示第m帧第k个频带的频域信号;
步骤A002:用计算器计算先验信噪比估计值
设初始的噪声能量估计值V(0,k)=0,初始的先验信噪比估计值
由各频带的能量YE(m,k)及前一帧得到的噪声能量估计值V(m-1,k),计算各频带当前帧的后验信噪比并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值
表示前一帧最后得到的降噪后语音信号,E{|V(m,k)|2}表示噪声能量估计值,α为第一平滑系数;
步骤A003:对先验信噪比估计值进行修正,得到修正后的先验信噪比估计值
步骤A004:根据修正后的先验信噪比估计值计算各个频带的衰减增益q(m,k);
其中,对于不同频带,a为不同的常数;
步骤A005:将当前帧的各频带的频域信号X(m,k),乘以相应频带的衰减增益,得到该频带的增强后的语音信号
步骤A006:利用修正后的先验信噪比估计值对当前帧进行判断,判断当前帧是否是噪声并根据判决结果对各频带的噪声能量估计值进行更新,具体为:
如果判断为噪声,则噪声能量估计值等于前一帧的值V(m,k)=V(m-1,k),否则采用频带能量YE(m,k),对噪声能量估计值V(m,k)进行更新,并将此噪声能量估计值V(m,k),用于下一帧的步骤A002中,进行后验信噪比的估计;
V(m,k)=μV(m-1,k)+(1-μ)E(m,k)
μ表示第二平滑系数
步骤A007:将增强后的语音信号用短时傅里叶变换变换成时域信号,将该时域信号经过低通滤波器,H(z)=1+αz-1进行去加重处理,得到去除背景噪声的语音信号并输出。
优选地,步骤A003中采用计权噪声估计法对先验信噪比估计值进行修正,具体为:
先验信噪比估计值乘以计权因子去qθ,得到修正后的先验信噪比估计值
计权因子计算如下
其中γ1取1.5左右,γ2取200,θz取20;
优选地,步骤A004中还包括采用门限判决对所述衰减增益进行调整;
首先设定一阀值、调整值qmod和门限值qfloor;
其次以当前帧修正后的先验信噪比估计值为判断,小于某一阈值的增益系数均乘以调整值qmod,从而进一步抑制噪声;
接着将所有小于某阀值的增益系数调整到门限值qfloor,这样做可以避免一定的语音失真;
方法如下:
其中qmod=0.1,θG=1.2,qfloor=0.01
使用双麦克风阵列,可以引入语音与噪声信号的相位信息,提高噪声抑制的效果并减小语音的失真。
附图说明
图1是本发明提供的基于双麦克风语音增强装置的语音增强方法的流程示意图;
图2是本发明提供的基于双麦克风语音增强装置的结构框图;
图3是非线性计权曲线。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
参见图1至图3,本发明提供的基于双麦克风语音增强装置,该装置包括:
数字麦克风阵列模块,用于接收时域带噪语音数字信号并将接收的时域带噪语音数字信号输出,其包括第一数字麦克风和第二数字麦克风;
第一脉冲密度调制解码器模块,用于对时域带噪语音数字信号进行分帧、降采样及滤波,形成初步降采样率数字信号,其包括滤波器,例如N级梳状滤波器;
指向性形成模块,用于将初步降采样率数字信号进行指向性形成,形成初步降噪的指向性输出信号;
第二脉冲密度调制解码器模块,用于对初步降噪的指向性输出信号进行分帧、降采样、滤波和加重,形成第二降采样率数字信号,其包括第一半带滤波器、第二半带滤波器、低通滤波器和高通滤波器;
语音增强处理模块,用于对第二降采样率数字信号进行语音增强处理,形成去除背景噪声的语音信号;
输出模块,用于输出去除背景噪声的语音信号。
本发明提供的基于双麦克风语音增强方法,该方法包括如下步骤:
步骤S001:利用第一数字麦克风接收第一时域带噪语音数字信号x1(n);利用第二数字麦克风接收第二时域带噪语音数字信号x2(n),并将所述接收到的第一、第二时域带噪语音数字信号x1(n),x2(n)传送给脉冲密度调制解码器模块;
步骤S002:利用脉冲密度调制解码器模块将第一、第二时域带噪语音数字信号分帧,采用16∶1的信号抽取;分帧后的第一、第二时域带噪语音数字信号的采样率为3.072MHz,降采样后192kHz输出;
对第一、第二时域带噪语音数字信号x1(n),x2(n)进行分帧,是指将第一、第二时域带噪语音数字信号x1(n),x2(n)以帧为单位等分成若干带噪信号单元。所述带噪信号单元由采样点组成,本发明中数字麦克风采样率为3.072MHz,采用64倍过采样,根据短时谱分析的需要,帧长一般设定成10~35ms之间,本实施方式以16ms分帧,即一帧带噪信号单元设有49152个采样点,自然地,任意一帧带噪信号单元具有一定的帧长,本发明中任意帧的帧长为49152。
为了防止相邻两帧的带噪信号单元间的块效应,在分帧时要使相邻两帧的带噪信号单元之间有一定的混叠部分,即,本帧数据中有D个数据为前一帧数据的部分数据,其中混叠部分描述如下:
s(n)=d(m,D+n) 0≤n<L,i=1,2
其中xi表示输入带噪语音信号,i取1和2分别表示两路信号
di(m,n)=di(m-1,L+n) 0≤n<D
其中,di表示当前帧的49152点采样信号,因为任意一帧的长度为49152,重叠率为75%,所以重叠部分的采样点个数D=36864。相邻帧的带噪信号单元的第一个采样点相隔的距离L=49152-36864=12288。
本发明相邻两帧的带噪信号单元之间可以具有50%~75%的重叠率。本实施方式选取相邻两帧的带噪信号单元之间具有75%的重叠率,即以本帧的前75%(36864点)的带噪信号单元和前一帧后75%(36864点)的带噪语音信号单元一致。
降采样滤波器采用5级的梳状滤波器,梳状滤波器的传递函数形式如下:
N为级联阶数取5,r为抽取比例取16
x′1(n,m)=x1(16n,m)
x′2(n,m)=x2(16n,m)
得到第一、第二初步降采样的信号x′1,x′2,采样率降低为192kHz;
步骤S003:利用指向性形成模块接收脉冲密度调制解码器模块输出的第一、第二初步降采样的信号x′1,x′2,并对第一、第二初步降采样的信号x′1,x′2进行幅度补偿和相位补偿,得到第一、第二初步降噪的指向性信号并将第一、第二初步降噪的指向性信号相减得到初步降噪的指向性输出信号y(n,m)
经过幅度补偿,形式如下:
其中am由第一数字麦克风和第二数字麦克风的灵敏度差异决定所述相位补偿的形式如下:
其中m为帧数,n为点数,fs为采样率取192kHz,d为麦克风距离,cs为声速取344m/s
所述初步降噪的指向性输出信号y(n,m)如下:
步骤S004:利用第二脉冲密度调制解码器模块对初步降噪的指向性输出信号分帧、降采样、滤波和加重,形成第二降采样率数字信号;具体为:
对所述初步降噪的信号进行分帧后的信号为y(m),m表示帧数
降采样及滤波分为三步:
第一步:利用第一半带滤波器,并按2∶1抽取,采样率降至96kHz;
第二步:利用第二半带滤波器,并按2∶1抽取,采样率降至48kHz;
第三步:利用低通滤波器,并按3∶1抽取,采样率降至16kHz;
第一半带滤波器为14阶有限冲激响应滤波器
y1(n,m)=y′1(2n,m)
第二半带滤波器为190阶有限冲激响应滤波器
y2(n,m)=y′2(2n,m)
低通滤波器为86阶有限冲激响应滤波器
y3(n,m)=y′3(3n,m)
利用高通滤波器,进行预加重处理
高通滤波器其形式如下:
H(z)=1-αz-1
其中常数α=0.9325
步骤S005:利用语音增强处理模块对第二降采样率数字信号进行语音增强处理,形成去除背景噪声的语音信号;
由于语音信号是短时平稳的,所以对信号进行分帧处理是可行的,但分帧又会带来帧信号边界处的不连续造成的频率泄露。所以这里要进行短时傅里叶变换(STFT)。短时傅里叶变换可以理解为对帧信号先加窗再做傅里叶变换。加窗函数的目的就是为了在做短时傅里叶变换时,减少帧信号边界处的不连续造成的频率泄露。这里使用了一个长度等于帧长256点的汉明窗,它可以有效的降低吉布斯效应的震荡程度。
步骤A001:将第二降采样率数字信号经短时傅里叶变换成频域信号,并对将频域信号划分为若干频带,计算各个频带的能量并进行平滑;
短时傅里叶变换如下
其中,M为短时傅利叶变换的计算长度,f表示频率值,X表示频域信号,x表示第二降采样率数字信号;
汉明窗函数定义如下:
win(n)={
0.54-0.46cos(2*π*n/M) 0≤n≤M-1
0 其余n
}
则短时傅里叶变换如下
其中,M=256,为短时傅利叶变换的计算长度。m表示第m帧信号。
这样就将当前帧的带噪语音信号y从时域变换到为频域信号Y。
变换到频域后的带噪语音信号包括语音信号和噪声信号,该信号以帧为单位划分为若干频带,之后操作针对不同频带有不同的策略。
接着对8kHz以下信号进行频带划分,之后的信号处理均在各个频带中进行,这样既可以减少运算复杂度,又可以针对不同的频带做不同的处理,得到更好的效果。
本发明中的信号共划分为30个频带。具体见表1。
表123个频带划分
采用如下方法计算每个频带的能量并进行平滑:
E(m,k)=|X(m,k)|2 0≤k≤N-1
YE(m,k)=αYK(m-1,k)+(1-α)E(m,k) 0≤k≤N-1
其中,YE(m,k)表示经平滑后的每个频带区间的能量,m表示当前帧的序号,k表示当前的子带的序号,α=0.75表示平滑因子;N为选取的频带总数,E(m,k)表示频带能量值,X(m,k)表示第m帧第k个频带的频域信号;
步骤A002:用计算器计算先验信噪比估计值
计算当前帧信号的后验信噪比,如下
设初始的噪声能量估计值V(0,k)=0,初始的先验信噪比估计值
由各频带的能量YE(m,k)及前一帧得到的噪声能量估计值V(m-1,k),计算各频带当前帧的后验信噪比
然后基于Ephraim-Malah(伊弗雷-马拉)的先验信噪比估计公式,计算当前帧的先验信噪比估计值
表示前一帧最后得到的降噪后语音信号,E{|V(m,k)|2}表示噪声能量估计值,α为第一平滑系数;
步骤A003:对先验信噪比估计值进行修正,得到修正后的先验信噪比估计值
基于Ephraim-Malah(伊弗雷-马拉)的先验信噪比估计值,会出现对噪声的过估计,即对于高信噪比的情况下,得到的信噪比估计值偏高,造成增强后的语音失真,这里采用计权噪声估计方法进行修正。
先验信噪比估计值乘以计权因子去qθ,得到修正后的先验信噪比估计值
计权因子计算如下
其中γ1取1.5左右,γ2取200,θz取20;
步骤A004:根据修正后的先验信噪比估计值计算各个频带的衰减增益q(m,k);
各个频带的衰减增益q(m,k)基于先验信噪比估计值采用频谱相减的方法得到衰减因子,其具体公式如下
其中,对于不同频带,a为不同的常数。
这里考虑到,噪声主要集中在较低的频带,因此对于中低频段和高频,取不同的a。
本发明中对于k≤14的频带,即1.2kHz以下的信号,a=8.89
对于14<k≤18的频带,即1.2~2kHz之间的信号,a=6.44
对于18<k≤23的频带,即2~4kHz以上的信号,a=6.21
对于k>23的频带,即4kHz以上的信号,a=5.37
采用门限判决对所述衰减增益进行调整;
首先设定一阀值、调整值qmod和门限值qfloor;
其次以当前帧修正后的先验信噪比估计值为判断,小于某一阈值的增益系数均乘以调整值qmod,从而进一步抑制噪声;
接着将所有小于某阀值的增益系数调整到门限值qfloor,这样做可以避免一定的语音失真;
方法如下:
其中qmod=0.1,θG=1.2,qfloor=0.01
步骤A005:将当前帧的各频带的频域信号X(m,k),乘以相应频带的衰减增益,得到该频带的增强后的语音信号
步骤A006:利用修正后的先验信噪比估计值对当前帧进行判断,判断当前帧是否是噪声并根据判决结果对各频带的噪声能量估计值进行更新,具体为:
本发明中,每个频带的噪声能量的判决与更新采用了基于先验信噪比的语音激活检测(VAD)方法。首先判断当前帧是否是纯噪声信号
其中γ(m,k)=min[SNRpost(m,k),40],
对VAD(m)进行判断,并进行噪声更新,如下:
其中η为噪声更新判决因子,本发明中取η=0.01。
μ为平滑因子,这里取μ=0.9
如果判断为噪声,则噪声能量估计值等于前一帧的值V(m,k)=V(m-1,k),否则采用频带能量YE(m,k),对噪声能量估计值V(m,k)进行更新,并将此噪声能量估计值V(m,k),用于下一帧的步骤A002中,进行后验信噪比的估计;
V(m,k)=μV(m-1,k)+(1-μ)E(m,k)
μ表示第二平滑系数
步骤A007:将增强后的语音信号用短时傅里叶变换变换成时域信号,将该时域信号经过低通滤波器,H(z)=1+αz-1进行去加重处理,得到去除背景噪声的语音信号并输出。
第一步:逆快速傅里叶变换(FFT),把频域的语音谱变换到时间域,得到增强后的时域语音信号。
时域的变换用通用的逆离散傅利叶变换(IDFT)实现。
其中,M=256,为帧长。s为变换到时域后的全频带增强后的语音信号。
第二步:进行去加重处理。
和前面的预加重处理相反,这里将信号通过一个低通滤波器,最大程度的还原原有的信号。滤波器的频响如下;
H(z)=1+αz-1
这里的系数与前面预加重处理相对应,取α=0.9。
第三步:将增强后的语音信号的相邻帧的重叠部分进行相加操作。
具体的重叠部分相加可以用如下的方法来表示。
L=64为相邻的帧信号开始处的距离,M=256,为帧长。s’去除背景噪声的语音信号。
步骤S006:利用输出模块接收语音增强处理模块输出去除背景噪声的语音信号。
详细而言,本发明中的降噪算法基本步骤如下:
1.对第一数字麦克风和第二数字麦克风接收到的第一、第二时域带噪语音数字信号进过分帧,降采样滤波,得到初步降采样率数字信号;
2.初步降采样率数字信号通过指向性形成模块,经过幅度补偿及相位补偿,得到初步降噪的指向性输出信号;
3.前一步骤得到的初步降噪的指向性输出信号,经过多级降采样滤波处理,得到第二降采样率数字信号;
4.将第二降采样率数字信号经过加窗,预加重处理,短时傅里叶变换到频域并划分为若干频带,计算各个频带能量并进行平滑,得到经平滑后的每个频带区间的能量;
5.每个频带区间的能量及噪声能量估计值,计算各个频带当前帧的后验信噪比,并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值;
6.对得到的先验信噪比估计值,采用计权噪声估计法进行修正;
7.根据得到的修正先验信噪比估计值,计算各个频带的衰减增益因子;
8.采用门限判决对增益系数进行调整;
9.用得到的衰减增益,对划分到个频带的信号频谱进行处理;
10.由修正的先验信噪比估计值对当前帧进行判决,判断是否是噪声;
11.根据噪声判决结果对各频带的噪声估计值进行更新;
12.将处理后的频域信号变换到时间域,进行去加重处理,变成输出信号。
与相关技术比较,本发明降噪的方法与现有的算法相比,使用双麦克风阵列,采用指向性形成抑制波束外的背景噪声,并通过从语音增强算法,进一步衰减各类型的背景噪声,采用数字麦克风及相关解码算法,省去了模数转换芯片。与现有技术相比,数字麦克风采集得到的信号直接进行降噪处理,节省了系统资源。语音增强算法大大提高了对残余噪声的衰减,保证了语音可懂度。经主客观测试,性能优于现有单通道语音增强算法。
传统的ECM麦克风,信号输入后需经过模数转换的过程,占用了系统的资源。而采用数字麦克风,采集到的信号直接是数字pdm信号,这样无需模数转换,只需要简单的解码即可直接进行降噪处理,大大提高了系统性能。
本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
机译: 麦克风阵列语音增强方法和装置
机译: 利用语音缺席概率的基于码本的语音增强方法及其装置
机译: 利用语音缺席概率及其装置的基于码本的语音增强方法