首页> 中国专利> 一种语音线性预测编码模型的缺失值非线性估算方法

一种语音线性预测编码模型的缺失值非线性估算方法

摘要

本发明实施例公开了一种语音线性预测编码模型的缺失值非线性估算方法。该方法包括如下步骤:线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;训练模型步骤;传输过程中丢失部分和收到部分概率分布计算步骤;最小均方误差最优化估计步骤。利用本发明实施例,能够在分组传输丢包的情况下,可靠的实现线性预测模型的最优估计,降低传输损失,提高语音质量,具有很大的实用价值。

著录项

  • 公开/公告号CN103824561A

    专利类型发明专利

  • 公开/公告日2014-05-28

    原文格式PDF

  • 申请/专利权人 北京邮电大学;

    申请/专利号CN201410054042.3

  • 申请日2014-02-18

  • 分类号G10L19/07(20130101);G10L25/69(20130101);

  • 代理机构

  • 代理人

  • 地址 100876 北京市海淀区西土城路10号

  • 入库时间 2024-02-20 00:02:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-03-11

    授权

    授权

  • 2014-06-25

    实质审查的生效 IPC(主分类):G10L19/07 申请日:20140218

    实质审查的生效

  • 2014-05-28

    公开

    公开

说明书

技术领域

本发明涉及在分组网络中,语音传输过程中包丢失的处理问题,着重描述了一种基于变换的线谱频率参数和狄利克雷混合模型的非线性最优化估计方法。 

背景技术

随着互联网技术的深入发展,语音通信技术得到了长足的进步,传输的语音信号已经由窄带信号传播演进到了宽带信号传播。伴随着多媒体应用的不断开发与推广,人们对于在语音通信技术中语音传输质量和实时性的要求越来越高,因此,研究高效可靠的语音通信算法,具有迫切的社会需求。 

语音通信中要解决的首要问题是语音的编码。经过数十年的发展,语音编码技术大致可以分为三种方式:波形编码技术、基于参数模型的编码技术和混合编码技术。波形编码技术针对语音波形直接进行量化和传输,不基于声学模型。基于参数模型的编码技术将语音通过线性预测模型分析后,分别传输线性预测模型,边信息和语音能量信息。混合编码技术是上述两者的结合。 

在语音编码中,基于参数模型的编码被广泛应用,其核心在于如何有效可靠的实现线性预测模型的量化和编码。在语音线性预测编码模型的研究中,一般把线性预测编码参数转化为线谱频率参数,这种表示方法较其他参数表示方法更为稳定高效,原因在于其频谱敏感区域的分布较为平均。 

在分组网络中传输语音时,语音恢复的质量很大程度上取决于网络的状况。在分组网络传输的模式下,如果能够从已知信息估计出延迟或丢失的分组,可以有效地回复出语音信号,并且避免额外的延迟,从而提高语音质量,改善用户的体验。传统的缺失的和接收到的线谱频率元素间的联合分布主要由高斯混合模型进行建模,通过高斯混合模型来模拟接收到部分和丢失部分的联合分布,从而最优估计出丢失的包的信息。最新的研究表明,对于线性预测模型的编码可以通过量化线谱频率参数差值来实现,此方法比传统的基于高斯混合模型的线谱频率参数量化更为有效。在传输线谱频率差值的时候,传统的高斯混合模型无法很好地模拟数据的分布,也就不能实现最优的预测。因此,针对线谱频率差值设计相应的统计模型并由此模型来最优估计分组传输中丢失的包就显得尤为重要。 

发明内容

针对现有语音传输过程中的丢包问题,本发明的目的是提供一种非线性最优化算法来估计所丢失的内容,最大限度恢复传输的语音质量。 

为达到上述目的,本发明提出的非线性最优化缺失值估计方法包括下列步骤: 

线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值; 

训练模型步骤:在发送端,使用狄利克雷混合模型(DMM-Dirichlet mixture model)模拟线谱频率参数差值的分布,采用期望最大化算法训练DMM中的各个参数; 

传输过程中丢失部分和收到部分概率分布计算步骤:根据线谱频率参数差值满足狄利克雷分布(Dirichlet distribution)的假设,把线谱频率参数差值分成丢失部分和收到部分,分别归一化后得到相应的狄利克雷分布; 

最小均方误差最优化估计步骤:按照最小均方误差标准,得到缺失值的最优估计。 

线谱频率参数变换步骤中,利用线谱频率参数的①非负特性,②有序特性和③有界特性将其变换为线性谱参数差值ΔLSF,此差值的特征为:①分布在(0,1)开区间内,②加和为1;此步骤具体过程如下: 

1)K维线谱频率参数表示为s=[s1,s2,...,sK]T,满足0<s1<s2<,…,sK<π; 

2)变换后的K+1维线谱频率参数差值ΔLSF为其中 

xi=s1/πi=1(si-si-1)/π1<iK(π-sK)/πi=K+1.

训练模型步骤中,传输之前,假设发送的语音信号满足狄利克雷分布,在发送端训练模型,得到混合模型中第i个混合分量的参数:αi=αiMαiR,其中,αiM=αliM...αmiM...αMiM,αiR=αliR...αriR...αRiR.在传输之前,此参数在接收端是已知的。 

传输过程中丢失部分和收到部分概率分布计算步骤,假设满足狄利克雷分布,它在传输后可以分为两部分:丢失部分和收到部分由于狄利克雷向量是中性向量(neutral vector),可以通过两者的相关特性估计其中的丢失部分。将和分别归一化后可计算得到它们的边缘概率分布,其过程如下: 

1)输入:将第一步中得到的ΔLSF参数分成丢失部分和收到部分,即x~=x~Mx~R,两部分分别包含M个和R个元素; 

2)分别对和归一化: 

a)求和,SM=Σm=1MxmM=1-SR,SR=Σr=1RxrR,M和R分别是和向量的长度; 

b)归一化得到和同理,

3)由于归一化后的加和为1,根据其符合狄利克雷分布,概率密度函数为: 

同理可得收到部分归一化后分布: 

最小均方误差最优化估计步骤:根据最小均方误差准则,丢失部分的最佳估计,是归一化丢失部分的均值与(1-SR)相乘得到的结果,即丢失部分在已知收到部分基础上的条件均值。计算结果如下式: 

其中,是由收到部分概率密度函数确定的参数。 

本发明的有益效果在于,相对于现有技术而言,本发明应用变换的线谱频率参数传输,用狄利克雷模拟传输信号的分布,又给出完整的估计系统用于应用,试验结果验证了本发明的高效性,具有很强的实用性。 

附图说明

图1为本发明一种语音线性预测模型的非线性最优化丢包估计方法的步骤流程图; 

图2为线谱频率参数变换的步骤流程图; 

图3为在发送端训练出的混合分量参数的步骤流程图; 

图4为计算传输过程中丢失部分和收到部分概率分布的步骤流程图; 

图5为最小均方误差最优化估计步骤流程图。 

具体实施方式

下面将结合附图对本发明具体实施方式进行详细说明。 

图1是本发明的流程图,包括以下步骤: 

步骤S1:将线谱频率参数转换为线谱频率参数差值步骤; 

步骤S2:在发送端训练出的混合分量参数步骤; 

步骤S3:计算传输过程中丢失部分和收到部分归一化概率分布步骤; 

步骤S4:最小均方误差最优化估计步骤。 

下面将对每个步骤进行具体的说明: 

步骤S1实现线谱频率参数变换,将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值。图2给出了该方法的具体流程如下: 

1)输入: 

a)线谱频率参数s=[s1,s2,...,sK]T; 

2)步骤11中,将i从1到K+1循环,每次得到的差值如下: 

xi=s1/πi=1(si-si-1)/π1<iK(π-sK)/πi=K+1;

3)输出: 

a)线谱频率参数x~=[x1,x2,...,xK+1]T.

步骤S2在传输之前训练模型,根据假设步骤S1得到的满足狄利克雷分布, 

其中α=[α12,...αK+1]T是参数向量。如图3,在中抽取N维目标向量如步骤31通过含有I个分量的混合狄利克雷模型,可以得到目标向量的概率: 

其中αi=[α1i2i,...αK+1,i]T是第i个混合分量的参数向量,这在接收端也是已知的。πi是第i个分量的非负权重,且如步骤33依据步骤S3中将总体线谱频率参量分为收到和丢失两部分的思想,可以将得到条件概率分布中的混合分量参数表示为: αi=αiMαiR.此参数两部分在发送端和接收端都是已知的。 

步骤S3计算传输过程中丢失部分和收到部分概率分布,如图4,将传输后分为丢失部分和收到部分两部分,将和分别归一化后可计算得到它们的边缘概率分布,其过程如下: 

1)输入:步骤41将S1中得到的ΔLSF参数分成丢失部分和收到部分,即x~=x~Mx~R.

2)步骤42分别对和归一化: 

a)求和,SM=Σm=1MxmM=1-SR,SR=Σr=1RxrR,M和R分别是和向量的长度; 

b)归一化结果:同理,

3)步骤43写出两部分的分布,由于归一化后的加和为1,根据其符合狄利克雷分布,密度函数 

为: 

同理可得收到部分归一化后分布: 

步骤S4根据最小均方误差准则最优估计即丢失部分的最佳期望值是在已知收到部分基础上得到的条件均值,如图5。步骤51求得丢失部分归一化后的期望,此期望通过混合模型中每一个成分的期望值加权求和得到;步骤52将丢失部分归一化后的期望乘以丢失部分的长度得到丢失部分的最优化估计,该长度可通过收到部分表示为

计算结果如下式: 

其中,是由收到部分分布确定的参数。 

以上结合附图对所提出的语音线性预测模型的非线性最优化丢包估计方法及各模块的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。 

依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。 

以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号