首页> 中国专利> 利用频域滤波后处理进行音频暂态信号预回声抑制的方法

利用频域滤波后处理进行音频暂态信号预回声抑制的方法

摘要

本发明公开了一种利用频域滤波后处理进行音频暂态信号预回声抑制的方法,属于音频信号处理领域,特别是在音频编码中对解码后的暂态信号进行噪声整形的后处理方法。该方法由输入的音频暂态信号的离散余弦变换系数获得频域线性预测系数,并由此得到短时后滤波器,对暂态信号的离散余弦变换系数依次进行短时后滤波和谱倾斜补偿滤波,将滤波后的频域变换系数进行离散余弦逆变换恢复得到时域信号,再进行增益调整得到经后处理的暂态信号。本发明通过对音频暂态信号频域上的滤波处理达到时域上的噪声整形效果,有效抑制暂态信号编码造成的预回声失真,增强暂态信号峰值能量,能在不需要消耗额外编码比特的情况下提高解码后音频暂态信号的听音质量。

著录项

  • 公开/公告号CN101908342A

    专利类型发明专利

  • 公开/公告日2010-12-08

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN201010234864.1

  • 发明设计人 王晶;何海龙;匡镜明;

    申请日2010-07-23

  • 分类号G10L21/02(20060101);G10L19/00(20060101);

  • 代理机构

  • 代理人

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2023-12-18 01:18:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-08

    未缴年费专利权终止 IPC(主分类):G10L21/02 授权公告日:20120926 终止日期:20160723 申请日:20100723

    专利权的终止

  • 2012-09-26

    授权

    授权

  • 2011-01-19

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20100723

    实质审查的生效

  • 2010-12-08

    公开

    公开

说明书

技术领域

本发明涉及一种音频暂态信号的预回声抑制方法,尤其是一种适合于音频编码中对解码后的暂态信号进行噪声整形的后处理方法,属于音频编码技术领域。

背景技术

在感知音频编码技术中,预回声引起的失真是一个比较严重的问题,特别是当编码速率较低时,预回声失真对音质的影响将更加严重。一般地,我们可以根据时域波形上的瞬变与缓变从而将音频信号分为暂态和稳态信号。暂态信号多存在于有敲打乐器的音频序列中。在感知变换编码中,量化比特不够会带来量化失真,量化噪声会在整个时域内均匀扩散,由于人耳前向掩蔽的时间较短(一般认为0~2ms),对于暂态信号这种特殊的信号,会导致暂态之前的这段信号被量化噪声占据而无法被掩蔽,即产生所谓的预回声失真。人耳对这种失真非常敏感,它严重影响了音质。

现有的预回声抑制技术包括:(1)自适应窗切换技术。在编码端,对于稳态信号,一般采用长窗来提高频率分辨率,从而获得较高的编码效率,而当暂态信号出现的时候就切换到短窗,提高信号的时域分辨率,起到抑制预回声失真作用。该方法在很多音频编码标准中得以应用。(2)时域噪声整形技术(Temporal Noise Shaping,TNS),它是通过在编码端对信号频谱进行处理来在解码端实现时域噪声的整形。在编码端,对暂态信号的频谱系数进行线性预测分析,在解码输出端对频谱残差进行线性预测合成,可以调节误差的时域形状以适应输入信号的形状,如此便可有效地将量化噪声置于实际信号之下,起到了抑制预回声的作用。(3)比特池技术(Bit Pool)。比特池用于存储之前音频帧编码所节省下的比特,在当前音频帧的编码比特需求大于平均编码比特数时,可以使用比特池中存储的一部分或全部比特,以保证在所需编码比特数突发性增加时,编码器仍能够提供充足的比特数,实现比特的动态分配,能有效地降低预回声的影响。(4)增益调整(Gain Modification)方法。它根据暂态信号的时域采样点计算出某些增益和形状参数,利用这些参数修正时域采样点,达到对预回声的抑制作用。

Jurgen Herre和James D.Johnston在Enhancing the Performance of PerceptualAudio Coders by Using Temporal Noise Shaping(TNS)的文章中首次提出了在感知音频编码中使用TNS技术。2006年3GPP基于MPEG的AAC编码器(标准号:ISO/IEC 14496-3)提出增强的高级音频编码标准EAAC+(标准号:3GPP TS26.401),基于MDCT变换,进行暂态检测,采用长短窗切换的方法来实现稳态和暂态的可变分辨率分析,并利用TNS模块消除预回声。该模块是对暂态信号的频谱系数进行线性预测,并将预测系数编码,在解码端得到预测系数,通过对解码后的频谱残差进行合成滤波来达到时域噪声整形的目的。美国公开号为US 5781888(公开日:1998年7月14日)的专利介绍了通过频域的线性预测对时域的感知噪声整形的发明,频谱系数采用DPCM编码,滤波过程类似于TNS方法。我国公开号为CN 101388213A(公开日:2009年3月18日)的专利通过检测暂态信号中瞬变位置和瞬变强度对原始信号进行时域平坦化处理,直接对瞬变位置进行噪声抑制来控制预回声现象。

如上所述,现有的音频编码技术大多采用了时域上对音频信号帧之间进行长短窗切换的方法进行分析。而TNS技术需要在编码端将暂态信号频域的预测系数作为边信息进行编码传输,增加了编码比特数,通过对解码出的频谱残差和线性预测系数进行操作来恢复暂态信号。本发明是基于解码端的后处理,通过在解码端对音频暂态帧的频域变换系数进行后滤波处理,来达到抑制预回声的目的。

发明内容

为了解决音频暂态信号编码的预回声失真造成音频听音质量下降的问题,并且避免在编码端进行TNS噪声整形处理需要消耗额外编码比特的问题,本发明公开了一种只需要在解码端对音频暂态信号的频域变换系数进行滤波的后处理来进行预回声抑制的方法,以此改善现有音频编码对暂态信号的处理效果,相比现有的音频编码算法,能够在解码端进一步降低暂态信号的预回声失真,增强暂态峰值能量,并且相比在编码端进行TNS噪声整形的处理方法,本发明能够在不需要消耗额外编码比特的情况下提高解码后音频暂态信号的听音质量。

为了达到上述目的,本发明所述利用频域滤波后处理进行音频暂态信号预回声抑制的方法是通过下述技术方案实现的:

对输入的每帧音频暂态信号:

(1)对帧长为L的该帧音频暂态信号s1(n)进行离散余弦变换得到的离散余弦变换系数;

(2)对步骤(1)得到的离散余弦变换系数进行预设阶数p下的线性预测分析,得到频域线性预测系数ai,其中i=1,2,3,...,p;

(3)对步骤(2)得到的频域线性预测系数进行加权调整,得到如下式所示的短时后滤波器的传递函数:

Hs(z)=A(z/β)A(z/α)=1-Σi=1pβiaiz-i1-Σi=1pαiaiz-i,0<β<α<1;

其中,A(z)是线性预测多项式,α和β是预设的加权系数;

(4)用步骤(3)得到的短时后滤波器对步骤(1)得到的离散余弦变换系数进行短时后滤波操作;

(5)对步骤(4)得到的经短时后滤波的信号,按照传递函数为Ht(z)=1-μz-1,|μ|<1的滤波器进行谱倾斜补偿滤波操作,其中μ是滤波器的设计参数,μ与该帧音频暂态信号的暂态位置有关。

(6)对步骤(5)得到的进行了谱倾斜补偿滤波后的频域变换系数进行离散余弦逆变换,恢复得到时域信号s2(n);

(7)对步骤(6)恢复得到的时域信号进行增益调整,得到处理后的暂态信号帧s3(n),具体方法如下:

s3(n)=G×s2(n),n=0,1,...,L-1;

其中,G是增益调整因子,由下式获得:

G=Σn=0L-1s12(n)Σn=0L-1s22(n).

对比现有技术,本发明的有益效果在于:采用本发明所述的利用频域滤波后处理进行音频暂态信号预回声抑制的方法,通过对暂态信号进行频域上的线性预测分析来构建短时后滤波器,其频率响应可以描述时域波形的起伏形状,引入谱倾斜补偿滤波用来补偿由于短时后滤波引起的谱倾斜现象,对暂态信号的频域变换系数依次进行短时后滤波和谱倾斜补偿滤波,最后经过逆变换和增益调整获得经后处理的时域信号,这个处理过程能够抑制暂态信号编码引起的预回声失真,且增强暂态信号的峰值能量,从而提高解码后暂态信号的听音质量;采用本发明所述方法不需要消耗额外的编码比特,只需要对解码后的暂态信号进行本发明技术方案所述的操作就可以提高解码后音频暂态信号的听音质量。本发明技术方案对音频暂态信号进行后滤波处理,通过频域上的滤波处理达到时域上的噪声整形效果,有效抑制暂态信号编码造成的预回声失真,增强暂态信号峰值能量,这种方法能够在不需要消耗额外编码比特的情况下提高解码后音频暂态信号的听音质量。

附图说明

图1本发明方法的系统组成框图;

图2本发明所述后处理前后的暂态信号帧时域对比图,其中(a)为原始暂态信号帧;(b)为编解码之后的暂态帧;(c)为利用本方法后处理之后的暂态帧。

具体实施方式

下面结合附图和实施例对本发明作进一步描述。

通过对典型的音频暂态信号(响板序列,单声道、44.1kHz采样率、16bit样本精度,编码速率32kbps)进行编解码之后的信号进行后处理的实验,观察本发明所述利用频域滤波后处理方法进行音频暂态信号预回声抑制的效果。

本发明的具体实施如下:

在解码端将编解码之后的音频暂态信号进行分帧处理,帧长为20ms,帧间交叠50%;

在解码端根据编码暂态标志位来判断数据帧是否为暂态,若是稳态帧,则不作处理;若是暂态帧,则按照如下所述步骤进行后处理;

第1步:对输入的每帧音频暂态信号作离散余弦变换得到离散余弦变换系数;

第2步:对上一步中得到的离散余弦变换系数进行10阶的线性预测分析得到频域的线性预测系数;利用线性预测分析得到频域的线性预测系数的方法可参考杨行峻等所著《语音信号数字处理》一书;预设的阶数应使得到的线性预测系数能够反应谱变化的特征;

第3步:对上一步中得到的频域线性预测系数进行加权调整得到短时后滤波器如下式所示:

Hs(z)=A(z/β)A(z/α)=1-Σi=1pβiaiz-i1-Σi=1pαiaiz-i,0<β<α<1;

其中,A(z)是线性预测多项式,ai为步骤(1)得到的频域线性预测系数,p为线性预测的阶数,本实施例中p=10,α和β是加权系数,α=0.95,β=0.2;

第4步:对第三步得到的离散余弦变换系数用上面的短时后滤波器进行短时后滤波操作;

第5步:对由上一步得到的经短时后滤波的信号按照Hl(z)=1-μz-1,μ=-0.3K1的滤波器形式进行谱倾斜补偿滤波操作,所述的谱倾斜补偿滤波类似操作可参考《信号处理》2007年10月第23卷第5期《自适应后滤波技术在波形内插编码算法中的应用》一文,μ根据每帧音频暂态信号的暂态位置自适应变化,第一反射系数K1的符号与暂态的位置相关,暂态在前K1为负,暂态在后K1为正;

其中μ是滤波器的参数,其自适应于第一反射系数K1,第一反射系数的一种获得方法如下式所示:

K1=-Σn=1N-1S(n+1)S(n)Σn=1NS2(n);

其中,S(n)是第三步求得的离散余弦变换系数;第一反射系数K1也可以通过线性预测系数递推得到;

第6步:对上一步得到的滤波后的频域变换系数进行离散余弦逆变换恢复得到时域信号;

第7步:对上一步恢复得到的时域信号进行增益调整得到经后处理的暂态信号。

s3(n)=G×s2(n),n=0,1,...,L-1;

其中,s2(n)是第6步恢复得到的时域信号,s3(n)是经后处理的暂态信号,L是暂态信号的长度,G是增益调整因子如下式所示:

G=Σn=0L-1s12(n)Σn=0L-1s22(n);

其中s1(n)是第1步中输入的每帧音频暂态信号;

第7步的目的在于使后滤波的信号能量与滤波前的信号能量大致相同;

最后,将后处理的音频暂态信号帧与其他信号帧按编码顺序依次叠接相加,得到进行噪声整形后的暂态信号。

实施例测试结果如下表所示:

表1主观A-B比较测试

我们做了一个主观A-B比较测试,此测试邀请了20个听音人(10男10女),选取6段长约10s的暂态音频样本,来对本专利所提出的后处理方法进行验证。我们选择G.719编解码器在32kbps速率(低速率)下对这些暂态信号进行编解码,并将其与用本专利所提出的后处理方法处理之后的信号进行比较。向听音人展示的A、B信号是两类信号的随机排列,由听音人进行主观评价选择偏好A信号或是B信号。测试结果如表1所示,结果表明有平均55%的听音人偏好后处理之后的暂态信号,有平均19.2%的听音人偏好直接编解码之后未经处理的暂态信号。通过听音测试,可见本专利所提出的后处理方法能较好的抑制预回声,提高暂态音频信号的编码质量。

以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号