首页> 中国专利> 时域听觉阈值加权滤波器的构造方法和设备、编解码器

时域听觉阈值加权滤波器的构造方法和设备、编解码器

摘要

本发明提供了一种时域听觉阈值加权滤波器的构造方法,包括步骤:根据处理输入的语音信号、音频信号的特征确定时域听觉阈值加权滤波器的频域带宽,并根据听觉模型的听觉阈值对时域听觉阈值加权滤波器的每个频谱的频谱系数赋值;根据由频谱系数确定的频谱获得线性预测滤波器的单位脉冲冲击响应;将单位脉冲冲击响应变换到频域得到频域系数的幅值数据,并比较幅值数据与听觉模型参数数据的差异程度,将满足听觉阈值要求的p阶线性预测滤波器作为p阶时域听觉阈值加权滤波器。通过构造时域听觉阈值加权滤波器实现了听觉特征的时域处理,同时使得听觉特征应用在语音编码、语音向音频扩展编码的时域处理过程中,提升了编码效率,提高了解码音质。

著录项

  • 公开/公告号CN101169934A

    专利类型发明专利

  • 公开/公告日2008-04-30

    原文格式PDF

  • 申请/专利权人 华为技术有限公司;

    申请/专利号CN200610150733.9

  • 发明设计人 马付伟;

    申请日2006-10-24

  • 分类号G10L19/00;G10L19/14;

  • 代理机构北京康信知识产权代理有限责任公司;

  • 代理人章社杲

  • 地址 518129 广东省深圳市龙岗区坂田华为总部办公楼

  • 入库时间 2023-12-17 20:02:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-15

    未缴年费专利权终止 IPC(主分类):G10L19/00 授权公告日:20110511 终止日期:20161024 申请日:20061024

    专利权的终止

  • 2011-05-11

    授权

    授权

  • 2008-06-25

    实质审查的生效

    实质审查的生效

  • 2008-04-30

    公开

    公开

说明书

技术领域

本发明涉及通信领域,并且更特别地,涉及一种时域听觉阈值加权滤波器的构造方法和构造设备,以及使用该构造方法或构造设备实现的时域听觉阈值加权滤波器,其可以应用于语音、音频编解码器中。

背景技术

现在应用比较普及的语音、音频编码器有两条技术路线,一个是以发声模式、LPC(Linear Predictive Coding,线性预测编码)时域预测处理为代表的语音编解码,另一个是以听觉模型为代表的音频编解码,前者的代表有G-723、G.729、AMR等标准,后者的代表有MPEG(Moving Picture Experts Group,活动图像专家组)的MP3、AAC(Advanced Audio Coding,高级音频率编码)等编解码标准。两个路线分别考虑人最重要的两个声音器官系统的声音特征,一个是由肺、喉咙、口腔、舌、唇、鼻组成的发声系统,它将周期冲击、腔体振荡特征提取成线性预测模型,另一个是由耳朵、听觉神经组成的听觉系统,它的最大特征就是对声音接收的频率选择性,包括听觉门限、听觉阀值、掩蔽效应等,这些特性综合成了听觉频域模型。

所有的音频、语音标准大致都属于这两大类,但目前还没有既考虑发声特征又考虑听觉特征的编解码标准或编解码器件,这可能有以下几个原因:1.这些特征分别属于时域和频域,利用这些特征要在两个处理域之间来回多次变换,复杂度很高,很难同时兼顾;2.两个路线在此之前有较强的针对性,分别用于3.4k窄带语音和听觉带宽的高保真音乐,并且取得了很好的效果,而将任何一种处理用于另一个领域,只会带来处理复杂度的提高。然而,随着业务应用的发展,两个截然不同的应用领域有逐步向中间靠拢的趋势,并且产生了交叉,窄带语音逐步向宽带语音扩展,信号带宽扩展到8k甚至12k,高保真多媒体音频也在向低码率、带宽降低的方向发展,二者之间的界限渐渐模糊,其中,3GPP的编解码AMR(AdaptiveMulti-Rate,自适应多码率)-WB+是结合了语音编解码和音频编解码的标准,它引入了TCX(Transfirm coded excitation,变换码激励)技术,考虑了复杂信号在频域进行处理、编码,但仍然未考虑听觉模型。

在这样一个音频、语音编解码技术溶合的趋势下,现有技术已经考虑如何把发声、听觉两个环节统一成一个有机整体,发声模型编码只管编码能发出的信号,而不管听觉系统能否接收,听觉模型只管听觉范围限制,而不管人发声信息是否在听觉范围均匀分布,没有把二者结合起来。

其中,G.723、G.729、AMR是比较成功的语音编码标准,编码处理思路是首先对语音信号进行LP(Linear Predictive,线性预测)预测分析,利用信号的时域相关性得到分析合成滤波器,接着搜索码表得到最佳的合成效果接近原信号的激励码本,编码主要信息就是LP预测系数和码本编号。

MPEG的MP3、AAC系列应用广泛的音频编码标准,编码思路是在变换域中根据听觉特征去除信号中的冗余信号。

然而,G.723、G.729、AMR在分析用码本合成的重建信号时,仅仅考虑在各个频点的信噪比保持一致,没有考虑是否在听觉范围内。而MPEG的MP3、AAC系列音频编码标准普遍存在编码效果很好、处理量太大的问题,难以在实时、双向移动通讯系统和终端设备上应用或实现。

发明内容

针对相关技术中存在的没有把发声模型和听觉模型相结合的问题,以及未能在时域中处理听觉特性的问题,本发明提供了一种时域听觉阈值加权滤波器的构造方法和构造设备,并进一步提供了应用该时域听觉阈值加权滤波器的编解码器。

本发明的实施例提供了一种时域听觉阈值加权滤波器的构造方法。

包括以下步骤:第一步骤,根据处理输入的语音信号、音频信号的采样频率、信号带宽确定时域听觉阈值加权滤波器的频域带宽,并根据听觉模型的听觉阈值对每个频谱的频谱系数赋值;第二步骤,根据由频谱系数确定的频谱获得线性预测滤波器的单位脉冲冲击响应;以及第三步骤,将单位脉冲冲击响应变换到频域,解出频域系数的幅值数据,并比较与听觉模型参数数据的差异程度,将满足听觉阈值要求的p阶线性预测滤波器作为p阶时域听觉阈值加权滤波器。

本发明的的实施例还提供了一种时域听觉阈值加权滤波器的构造设备。

包括:频域带宽确定部,用于根据处理输入的语音信号、音频信号的特征确定时域听觉阈值加权滤波器的频域带宽,并根据听觉模型的听觉阈值对所述时域听觉阈值加权滤波器的每个频谱的频谱系数赋值;单位脉冲冲击响应获取部,用于根据由频域带宽确定部赋值的频谱系数获得线性预测滤波器的单位脉冲冲击响应;以及p阶时域听觉阈值加权滤波器生成部,用于根据单位脉冲冲击响应获取部获得的单位脉冲冲击响应生成p阶时域听觉阈值加权滤波器。

本发明的实施例还提供了一种编解码器,包括前处理滤波器和加权滤波器;

所述前处理滤波器,用于在编解码器的预处理环节对原始信号进行预处理;

所述加权滤波器,用于在编解码器的加权处理环节对合成信号和所述原始信号的差值进行加权处理;

其中,所述前处理滤波器和加权滤波器为时域听觉阈值加权滤波器。

通过以上技术方案,本发明的实施例实现了以下有益效果:通过构造时域听觉阈值加权滤波器实现了听觉特征的时域处理,同时使得听觉特征应用在语音编码、语音向音频扩展编码的时域处理过程中,达到提升编码效率、提高解码音质的目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示例性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是现有技术的语音标准的实际编码效果的频域示意图;

图2是现有技术的线性预测的阶数与频谱包络形状关系的示意图;

图3是现有技术的线性预测的时频域对应关系的映射过程示意图;

图4是示出根据本发明第一实施例的时域听觉阈值加权滤波器的构造方法的示意图;

图5是示出根据本发明第二实施例的时域听觉阈值加权滤波器的构造设备的框图;

图6是本发明的时域听觉阈值加权滤波器的听觉阈值曲线;

图7是本发明的时域听觉阈值加权滤波器的听觉阈值加权曲线;

图8是本发明的变换到时域的信号波形;

图9是示出本发明的对变换到时域的收敛信号序列求自相关所得的数据的表格;

图10是示出本发明的用列文-杜宾算法解自相关系数矩阵得到的预测系数的表格;

图11是示出本发明的听觉滤波器的频率响应与听觉模型的听觉阀值的曲线的比较结果的曲线图;

图12-A是示出现有技术的编解码器的示意图;

图12-B是示出应用了根据本发明第三实施例的时域听觉阈值加权滤波器的编解码器的示意图;

图13-A是示出未经本发明的时域听觉阈值加权滤波器处理的语音频谱的示意图;以及

图13-B是示出经本发明的时域听觉阈值加权滤波器处理后的语音频谱的示意图。

具体实施方式

以下将参照附图来具体描述本发明的优选实施例,其中,附图构成本申请的一部分,并与本发明的实施例一起用于阐释本发明的原理。

本发明的发明原理如下:

听觉模型的一些特征(比如听觉阀值、听觉门限)可以用于时域处理的语音编码解,按听觉敏感程度对不同频率成分进行抬升或压低,减少人耳不敏感的信息,可获得更高的编码效率。图1是现有语音标准的一个实际编码效果频域示意图,图中曲线1是信号的频域包络曲线,曲线2是G.723、G.729、AMR等标准编码的噪声曲线,曲线3是MP3、AAC系列音频标准的频域听觉阀值曲线,从图1中可以看出,对低频段、高频段在听觉门限以下的信号进行编码是一种浪费。

听觉模型是频域数据形式,如何用于时域处理的语音编码中,也就是说,如何找到合适的时域表示形式和处理过程,是一个必须解决的问题。滑动卷积相关滤波器是时域信号处理的一种普遍形式,另外考虑听觉模型的频域加权处理也等效于在时域的滑动卷积处理过程,那么听觉模型用于时域语音编码的问题转化成如何构造时域听觉滤波器的问题。

如果把听觉模型直接变换到时域用来作滤波器,理论上是可以的,但由于时域响应序列很长,滤波器系数很多,导致卷积计算量太大,而不能接收,那么构造时域听觉滤波器又进一步转化成滤波器的计算简化问题。时域滤波器分为FIR(有限长度脉冲响应)和IIR(无限长度脉冲响应)两类,听觉模型直接变换到时域的数据系列就是一个FIR滤波器,简化此FIR滤波器有两种方法,一种是减少序列长度、微调保留系数使得简化滤波器的频域幅度响应最大程度逼近听觉模型,另一种方法是用一个IIR滤波器来逼近听觉模型,第二种方法的滤波器系数可能会少一些,计算量小一些。下面给出听觉滤波器的理论推导和物理意义解释。

对上述等式两边进行Z变换,所述Z变换是离散时间信号与系统的变换域分析方法,利用Z变换可以把离散系统得差分方程变换为代数方程,使其求解简化。例如一个序列X(n)的Z变换X(z)定义为:X(z)=Z[X(n)],其中,z为复变量,得到其变化域关系式:

Y(Z)=E(Z)/H(Z)

其中,使得e(n)的均方差最小的ai就是最佳线性预测(LP)系数,1/H(Z)是信号y(n)的频谱包络。线性预测的阶数与频谱包络的相似精确程度紧密相关,提高预测的距离在时域表现为预测精度的提高,在变换域则表现为拟合频谱包络的精细程度,图2是一个线性预测的阶数与频谱包络形状关系的形象表示图,其中,如图2所示,线性预测的阶数p分别为8、28、48。

从物理过程上来解释线性预测就是:时域线性预测滤波器反映了频域的信号频谱包络;从时频域对称性同样可以得出结论:频域的线性预测滤波器代表了时域信号的幅度变化曲线。图3是线性预测的时频域对应关系的映射过程示意图。

第一实施例

在本发明的第一实施例中,提供了一种时域听觉阈值加权滤波器的构造方法,以下将参照附图来描述本发明的第一实施例,其中,图4是示出该构造方法的流程图。

如图4所示,根据本发明第一实施例的时域听觉阈值加权滤波器的构造方法包括以下步骤:

步骤S402,根据处理输入的语音信号、音频信号的特征确定时域听觉阈值加权滤波器的频域带宽,即,频谱系数的个数,并根据听觉模型的听觉阈值对时域听觉阈值加权滤波器的每个频谱系数赋值;

接下来,根据由上述的频谱系数确定的频谱获得线性预测滤波器的单位脉冲冲击响应,具体包括以下的步骤S404-S408:

步骤S404,根据由频谱系数确定的频谱将频域听觉加权系数变换到时域,获得有限长度的时域序列;步骤S406,通过计算时域序列的自相关系数解出p阶线性预测系数;步骤S408,根据p阶线性预测系数计算线性预测滤波器的单位脉冲冲击响应;以及

步骤S410,将单位脉冲冲击响应变换到频域,得到频域系数的幅值数据,并比较幅值数据与听觉模型参数数据的差异程度,将满足听觉阈值要求的p阶线性预测滤波器作为p阶时域听觉阈值加权滤波器。

上文中所述的有限长度(FIR)是与无限长度(IIR)相对的概念,所谓有限长度,指的是滤波器的响应长度是有限的。

其中,在上述的步骤S410中,比较幅值数据与听觉模型参数数据的差异程度,将满足要求的p阶线性预测滤波器作为p阶时域听觉阈值加权滤波器的步骤,具体为:比较幅值数据与听觉模型参数数据的差异程度,并根据差异程度来决定是否调整参数p,如果需要调整参数p,则返回步骤S406,否则,将满足听觉阈值要求的p阶线性预测滤波器作为p阶时域听觉阈值加权滤波器。

差异程度的表现是构造滤波器的频谱与听觉阈值的近似程度,例如均方差误差、最大误差值、误差小于一定值的范围所占整个频谱的比例等,差异程度的精度要根据具体情况在滤波器的阶数(与滤波器的计算复杂度对应)和匹配听觉阈值区之间找到一个平衡点,并非一成不变,一般在实际应用中取决于经验值。例如,听觉阀值滤波器的响应、听觉阀值曲线均用dB表示,如果计算出均方值误差小于1db,则可以认为差异很小,小于2db,则可以认为差异比较小,都属于满足听觉阈值要求;大于4db,则认为差异程度不满足听觉阈值要求;如果用最大误差绝对值来反映差异程度,则最大误差绝对值小于1db,则可以认为差异程度很小,效果很好,即满足听觉阈值要求;如果大于5db,则认为差异度较大,不满足听觉阈值要求,需要调整相关参数重新计算听觉阀值滤波器。

另外,在上述步骤S402中,语音信号、音频信号的特征包括采样频率、信号带宽。并且,时域听觉阈值加权滤波器构造方法是随机设置频谱的相位。以及,时域听觉阈值加权滤波器构造方法为将频谱的相位设置为零相位。

另外,在步骤S404中,变换的频域的分辨率高于听觉特性的频率分辨率。

并且,在上述步骤S406中,时域听觉阈值加权滤波器构造方法具体为:根据时域序列的自相关系数,利用列文-杜宾算法解出线性预测系数,利用列文-杜宾算法解出线性预测系数。

用线性预测方法求出听觉模型滤波器,是个比较巧妙的解决办法,即解决了时域语音、音频信号处理不能应用听觉特性的问题,也规避了大计算量问题。

第二实施例

在本发明的第二实施例中,提供了一种时域听觉阈值加权滤波器的构造设备,以下将参照附图来描述本发明的第二实施例,其中,图5是示出该构造设备的框图。

如图5所示,根据本发明第二实施例的时域听觉阈值加权滤波器的构造设备500包括:

频域带宽确定部502,用于根据处理输入的语音信号、音频信号的采样频率、信号带宽确定时域听觉阈值加权滤波器的频域带宽,即,频谱系数的个数,并根据听觉模型的听觉阈值对每个频谱的频谱系数赋值;单位脉冲冲击响应获取部504,用于根据由频域带宽确定部502赋值的频谱系数获得线性预测滤波器的单位脉冲冲击响应;以及p阶时域听觉阈值加权滤波器生成部506,用于根据单位脉冲冲击响应获取部504获得的单位脉冲冲击响应生成p阶时域听觉阈值加权滤波器。

其中,上述的单位脉冲冲击响应获取部504包括:时域变换部504-2,用于根据由频谱系数确定的频谱变换到时域,获得有限长度的时域序列;p阶线性预测系数获取部504-4,用于通过计算来自时域变换部504-2的时域序列的自相关系数解出p阶线性预测系数;以及单位脉冲冲击响应计算部504-6,用于根据由p阶线性预测系数获取部504-4获得的p阶线性预测系数计算线性预测滤波器的单位脉冲冲击响应。

另外,p阶时域听觉阈值加权滤波器生成部506包括:频域变换部506-2,用于将来自单位脉冲冲击响应获取部504的单位脉冲冲击响应变换到频域,得到频域系数的幅值数据;比较部506-4,用于比较来自频域变换部506-2的幅值数据与听觉模型参数数据的差异程度;以及确定部506-6,将满足要求的p阶线性预测滤波器确定为p阶时域听觉阈值加权滤波器。

其中,比较部506-4根据差异程度决定是否调整参数p,其中,在比较部506-4确定调整参数p的情况下,p阶线性预测系数获取部504-4将重新计算时域序列的自相关系数,直至确定部506-6检测到满足要求的线性预测滤波器。

另外,频域带宽确定部502由听觉模型参数得到对应的频点的幅值数据,并且可以随机设置频点的相位,也可以将频点的相位设置为零相位。

时域变换部504-2变换的频域分辨率高于听觉特性的频率分辨率,以及p阶线性预测系数获取部504-4利用列文-杜宾算法解出p阶线性预测系数。

以下将详细描述采样频率20k、信号带宽10k听觉阈值加权滤波器的实际计算结果。

听觉阈值曲线(频域)如图6所示,其中,线1是听觉阈值曲线。听觉阀值加权滤波器(频域)的作用是压缩听觉阀值高的频率成分、提升听觉阀值低的成分,如图7所示,线1是理想的听觉阈值滤波器的频谱曲线,它和图6中的听觉阀值曲线的形状正好相反,听觉阀值加权滤波器与听觉阀值对应频点的幅度成倒数关系、幅度指数值相加等于0db;听觉阀值加权滤波器的相位是线性相位。

对信号带宽限制到10kHz的听觉阀值加权滤波器进行线性变换,变换可以是DCT(离散余弦变换)也可以是FFT(快速傅立叶变换),使用FFT变换要进行频谱共轭对称处理,使得变换到时域的序列虚部为零、实部序列当作一般实信号进行处理。

图8是一个变换到时域的信号波形,是一个类似脉冲冲击响应的收敛序列。对上面变换到时域的收敛信号序列求自相关,得到如图9的表格所示的相关数据。相关系数收敛比较快,到第20个数据已经衰减到不足1%,由此推断信号的自相关距离不超过20,由此解出的预测滤波器阶数也不会超过20。另外,图10的表格示出了用列文-杜宾算法解自相关系数矩阵得到的预测系数。

计算预测滤波器的单位脉冲冲击响应,得到一个振荡收敛的时间波形序列,把它变换到频率域并做归一化处理,得到频域的幅值曲线。听觉滤波器的频率响应与听觉模型的听觉阀值得曲线的比较结果如图11所示,其中,线1是理想的听觉阈值滤波器的频谱曲线,线2是实际的听觉阈值滤波器的频谱曲线。

第三实施例

在根据本发明的第三实施例中,提供了一种使用上述时域听觉阈值加权滤波器的编解码器,图12-A和图12-B分别示出了在应用本发明的时域听觉阈值加权滤波器前后的编解码器。

所述编解码器包括前处理滤波器和加权滤波器;所述前处理滤波器,用于在编解码器的预处理环节对原始信号进行预处理;所述加权滤波器,用于在编解码器的加权处理环节对合成信号和所述原始信号的差值进行加权处理;其中,所述前处理滤波器和加权滤波器为时域听觉阈值加权滤波器。

所述编解码器还包括预加重滤波器,用于和所述前处理滤波器一起对所述原始信号进行预处理。

所述编解码器还包括:感知加权滤波器,用于和所述加权滤波器一起在分析合成编码过程中,对所述合成信号和所述原始信号的差值进行加权处理。

如图12-B所示,编解码器可以将根据本发明的时域听觉阈值加权滤波器在其预处理环节中用作前处理滤波器(如图12-B所示的预处理/听觉阈值滤波)对原始信号进行预处理,或在加权处理环节中用作加权滤波器(如图12-B所示的感知加权/听觉阈值滤波)对合成信号和原始信号的差值进行加权处理。

其中,在预处理环节,时域听觉阈值加权滤波器和预加重滤波器一起对原始信号进行预处理;在加权处理环节,时域听觉阈值加权滤波器在分析合成编码中和感知加权滤波器一起对合成信号和原信号的差值进行加权处理,使得后续的误差分析、码本搜索效果更接近人的听觉特征。

时域听觉阈值加权滤波器用在预处理环节和加权处理环节的计算量不同,其中,时域听觉阈值加权滤波器在预处理环节的计算量小,用在加权处理环节的计算量大。

另外,时域听觉阈值加权滤波器可以在解码器中用作后处理滤波器进行后处理。

值得注意的是,在编码器或解码器中只能使用时域听觉阈值加权滤波器一次。

其中,图13-A和图13-B分别示出了在本发明的时域听觉阈值加权滤波器处理前后的一段语音频谱。其中,图13-A是进行听觉阈值滤波前的信号频谱,图13-B是进行听觉阈值滤波后的信号频谱,图中的线1是听觉阈值曲线,线2是信号谱线,通过比较可以看出,进行听觉阈值滤波后的信号谱线趋于平直,其效果明显由于进行听觉阈值滤波前的效果。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号