首页> 中国专利> 一种语音信号非连续传输及背景噪声生成方法

一种语音信号非连续传输及背景噪声生成方法

摘要

本发明请求保护一种语音信号非连续传输及背景噪声生成方法,此方法包括:在语音帧向静音帧转换时加入过渡帧,根据静音帧中背景噪声的波动值大小来决定发送静音描述帧的频率。在解码端,以白噪声作为激励信号,通过线性预测编码合成滤波器后,再经过增益调整得到舒适噪声。本发明在传输噪声信号时具有较好的自适应性,并且合成的背景噪声在主观听觉上具有良好的连续性和舒适性。

著录项

  • 公开/公告号CN103680509A

    专利类型发明专利

  • 公开/公告日2014-03-26

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN201310682844.4

  • 申请日2013-12-16

  • 分类号G10L19/012(20130101);

  • 代理机构50102 重庆市恒信知识产权代理有限公司;

  • 代理人刘小红

  • 地址 400065 重庆市南岸区黄桷垭崇文路2号

  • 入库时间 2023-12-17 01:14:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-04-06

    授权

    授权

  • 2014-04-23

    实质审查的生效 IPC(主分类):G10L19/012 申请日:20131216

    实质审查的生效

  • 2014-03-26

    公开

    公开

说明书

技术领域

本发明涉及语音通信领域,更具体地说,涉及一种语音编码中的非连续传输技术和舒适背景噪声的生成方法。

背景技术

在语音通信过程中,语音压缩编码技术可以减小传输语音信号所需的带宽,增加通信系统的容量。人类在进行语音通信时,大约有70%左右的时间没有讲话,如果始终用一种速率进行语音编码,这对传输信道资源是一种浪费,而信道资源在通信领域,尤其是无线通信领域,是极其宝贵的。

在现有技术中,为了减少这种资源浪费,将传输的话音信号帧分为语音帧和静音帧两类。由于接收端所关注的是有用的语音信号,因此可用相对语音信号较低的编码速率对静音帧中的背景噪声信号进行编码传输,即采用非连续传输DTX(Discontinuos Transmission mode)的方式。在接收端,虽然静音帧的背景噪声合成质量有所下降,但不会对语音信号的连续性造成影响。

图1为现有的背景噪声编解码方案示意图。发送端使用话音激活检测VAD(Voice Activity Detector)算法判断信号是语音信号还是背景噪声信号,如果VAD输出是“1”,说明当前信号是语音信号,采用正常的语音编码方法进行编码传输;如果VAD输出是“0”,说明当前信号是背景噪声信号,则以相对较低的编码速率对该信号进行编码,用产生的背景噪声帧代替语音帧进行传输。对于背景噪声信号,只提取其谱形状线性预测LP(Linear Predictive)参数和能量参数,并量化编码组成静音描述SID(Silence Descriptor)帧,然后根据DTX方案进行传输;接收端的舒适噪声产生CNG(Comfort Noise Generator)模块解码SID帧,合成出能描述发送端背景噪声特性的舒适噪声。

在目前的语音通信技术中,G.729 Annex B和3GPP AMR(Adaptive Multi Rate)是应用了DTX/CNG技术的具有代表性的语音编码标准。

G.729B标准中的DTX模块使用了自适应能量门限和频谱失真测度来判断是否发送SID帧。当频谱参数和能量参数发生较大变化时,发送SID帧。两个相邻的SID帧之间的最小间隔为2;在接收端,舒适噪声由激励信号通过LPC(Linear Predictive Coding)合成滤波器得到。而激励信号是一个伪白噪声激励ex(n),ex(n)是语音激励ex1(n)和高斯白噪声激励ex2(n)的混合。高斯白噪声信号的加入是为了改善生成舒适噪声的生动性。此DTX/CNG方法把第一个静音帧判决为SID帧,即在话音变为背景噪声时没有设置平滑过渡阶段,这让接收方在听觉上会感到不自然。另外,自适应能量门限和频谱失真测度算法比较复杂,这增大了整个系统的复杂度。G.729中SID帧参数的比特分配如表1所示。

表1 G.729中SID帧的比特分配

   特征参数描述比特数LSF量化预测器索引1一级LSF量化矢量5二级LSF量化矢量4增益(能量)5

而AMR标准中的DTX模块采用固定的编码发送方式,在经过一个8帧的缓冲后,进入背景噪声编码阶段。无论噪声的特性是否平稳,每8帧发送一个更新的SID帧。SID帧参数的计算也很简单,是最近8帧提取的参数的平均值。在解码阶段,舒适噪声的生成方法采用类似语音信号的合成算法。因此,AMR标准的DTX/CNG方法比较简单,且易于实现。但是背景噪声采用固定编码速率,当背景噪声特性变化较大时,不能及时地描述出参数的变化信息,这导致接收端生成的舒适背景噪声过于平滑。AMR中SID帧参数的分配比特情况如表2所示。

表2 AMR中SID帧的比特分配

特征参数描述比特数参考矢量索引3一级LSF量化矢量8二级LSF量化矢量9三级LSF量化矢量9能量对数形式6

 另外,目前的CNG算法都是基于简化的码激励线性预测CELP(Code Excited Linear Prediction)模型的背景噪声生成算法,不适合采用混合激励线性预测MELP(Mixed Excitation Linear Prediction)的声码器。MELP声码器于1997年成为美国联邦标准,其后产生的增强型双速率MELP编码标准MELPe(Enhanced Mixed Excitation Linear Prediction)也成为了北大西洋公约组织标准。与其它相近速率的语音编码方式相比,MELP合成的语音质量较好,常用于保密电话通信。本发明中的DTX/CNG方法也适用于采用MELP声码器的语音通信系统。

发明内容

为了解决上述技术问题,本发明提供了一种语音信号的非连续传输方法,以实现语音信号向背景噪声信号连续平滑的过渡,并提出了一种计算背景噪声波动的公式,根据计算出的背景噪声变化值大小自适应地选择SID帧的发送频率。

本发的方法包括用话音激活检测VAD算法判断输入信号是语音信号还是背景噪声信号,所述语音信号按照正常的语音编码方法进行编码传输;在语音信号向背景噪声信号转换时加入过渡帧;提取背景噪声信号中背景噪声的基本特征参数,并计算出背景噪声的波动信息,根据波动信息的大小决定SID帧的发送频率;接收端解码SID帧后,用白噪声作为激励信号,先通过线性预测滤波器,再经过增益调整,产生舒适背景噪声。 

具体地,本发明中的过渡帧为背景噪声信号从第一帧开始的连续M帧,所述过渡帧的帧格式和编码发送方式与语音信号的帧格式和编码发送方式相同。也即进行语音编码的语音帧结束后的前M帧,这些帧都当作语音帧处理,而不作为静音帧。过渡帧之后的第一帧为SID帧,其参数是前M个过渡帧参数和本帧参数的平均值。

更进一步,提取的背景噪声的基本特征参数包括谱参数和增益参数,波动信息包括谱参数波动信息和增益参数波动信息。SID帧的发送频率为,每N帧或N/2帧发送一次SID帧,SID帧的发送频率默认是每N帧发送一次。首先判断计算出的谱波动值是否大于预设门限一,若是,则进一步判断所述的增益波动值是否大于预设门限二,若是,则SID帧的发送频率设定为N/2,即每N/2帧发送一次SID帧;其余情况下,SID帧的发送频率设定为N,即每N帧发送一次SID帧。

上述方法具有通用性,不仅适用于CELP语音编解码模型,而且也适用于MELP语音编解码模型。

本发明实施例还提供了一种适用于MELP语音编解码模型的舒适噪声生成方法。此方法根据MELP算法的特点,将白噪声作为激励信号通过LPC合成滤波器,并经过增益调整得到舒适噪声,其他解码参数均采用默认值。

附图说明

图1为现有的背景噪声编解码方案示意图;

图2为本发明实施例中SID帧的编码发送方式示意图;

图3为本发明实施例中非连续传输流程示意图;

图4为本发明实施例中舒适噪声的生成原理示意图。

具体实施方式

本发明实施例1中,将输入语音信号的整个非连续传输过程分为3个阶段:语音编码阶段、过渡阶段、噪声编码阶段。每个阶段都有独自的帧类型,语音编码阶段的帧为语音帧SPEECH,过渡阶段的帧为过渡帧SPEECH_H,噪声编码阶段的帧有静音描述帧SID和不传输帧NO_TRANS两种。

SID帧的编码发送方式示意图如图2所示。在编码端,首先用VAD算法来判断信号是语音信号还是背景噪声信号。若是语音信号则进入语音编码阶段,按照正常的语音编码方式工作。若判断为背景噪声信号,那么从第一个静音帧开始的连续M帧均为过渡阶段,M≤7。过渡阶段后即进入噪声编码阶段,噪声编码阶段的第一个帧为SID帧,它的参数为前M帧和本帧参数的平均值。接下来每隔n个NO_TRANS帧编码发送一个SID帧,每个NO_TRANS帧都要计算编码参数,但是并不进行编码参数的发送,以后的每个SID帧中的参数为前n帧和本帧参数的平均值。n不是一个固定值,而是在计算背景噪声参数后,通过判断噪声的波动值大小来确定。n即为静音描述帧的发送频率N和N/2,N的取值范围是[2,8],实施例2中以N=8进行详细说明。

在解码端,解码器根据判断出的帧类型对帧进行解码,由于NO_TRANS帧中没有参数信息,因此直接使用上一个SID帧的解码参数代替,最后用白噪声作为激励信号通过LPC合成滤波器,再经过增益调整后得到舒适噪声。     

下面结合附图和实施例对本发明的技术方案进行详细说明。

本发明实施例2为采用MELP算法的2.4kbps声码器语音通信系统提供一种DTX/CNG方案,其具体流程如图3所示,包括以下步骤:

步骤301:语音帧向静音帧转换时加入过渡帧

具体可以为:输入的语音信号经过VAD算法模块,判断当前信号帧是语音帧还是静音帧。当信号帧从语音帧变为静音帧时,将从此帧开始的最多7帧连续静音帧视为过渡帧,其帧格式和编码发送方式与语音帧相同。

步骤302:提取静音帧中背景噪声的基本特征参数

具体可以为:按照MELP语音帧特征参数的提取方法,提取每个背景噪声帧的谱参数和增益参数,将连续4帧的参数分别保存到缓存lsf_hist[i]和gain_hist[i]中,并且每4帧更新一次缓存。

步骤303:分析背景噪声的波动情况

具体可以为:通过步骤302保存的4帧信号特征参数计算出谱波动值和增益波动值,也就是每4个背景噪声帧计算一次波动值。

谱波动值计算公式为:                                                ,增益波动值计算公式为:。其中,lsf[k,s]表示第s帧的lsf矢量的第k个系数,gain[s]表示第s帧的增益大小,P的值为10,表示lsf矢量的维数,L的值为4,表示选定的反映波动情况的背景噪声帧数量。

步骤304:确定静音描述帧的发送频率

具体可以为:根据步骤303计算出来的波动值大小判断当前背景噪声信号是否稳定,自适应地确定SID帧的发送频率。若谱波动值spec_wav大于设定的预设门限一,则进一步判断增益波动值gain_wav是否大于预设门限二,若是,则判定当前背景噪声信号不稳定,将SID帧的发送频率设定为每4帧发送一次,否则为每8帧发送一次。对于门限一和门限二值的估计,可通过计算大量含有稳定和非稳定背景噪声的语料信号的谱波动值和增益波动值后统计得出。

步骤305:编码静音描述帧并写入码流

具体可以为:当前SID帧的参数为最近4帧或8帧的平均值。谱参数计算公式为:;由于在MELP中,每帧有G1和G2两个增益参数,因此,SID增益参数的计算公式为:,,其中k=4或8。

SID帧中参数的编码量化方式按照语音帧的编码量化方式进行,将量化后的参数比特写入SID帧,SID帧的比特分配如表3所示。

表3 MELP中SID帧的比特分配

特征参数描述比特数LSF参数25增益一3增益二5同步1

 步骤306:解码静音描述帧,以白噪声作为线性预测滤波器的激励,经增益调整,产生舒适噪声。

具体可以为:如图4所示,接收端先对帧头进行解码,通过帧头区分出各种类型的帧:若为语音帧,则按照原来MELP的解码方法和合成方法进行处理;若为SID帧,则解码出SID帧中的LSF参数和增益参数。舒适噪声合成方法与MELP的语音合成方法类似,只需将语音合成使用的混合噪声激励改为白噪声激励,再将基音周期设定为[40,103]之间的一个固定值,其他合成参数均采用默认值。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号