首页> 中国专利> 一种针对VoIP语音的客观评测方法

一种针对VoIP语音的客观评测方法

摘要

本发明为一种针对VoIP语音的客观评测方法,在VoIP的发送端获得原始语音;在接收端获得引入损伤的失真语音;通过预处理模块划分原始语音和失真语音,得到语句信息,利用编解码器损伤评估模块A计算对齐语句的编解码器损伤,利用编解码器损伤评估模块B计算有拉伸或压缩的语句的质量损伤,利用延时损伤评估模块评测端到端延时和内部的延时对语音的影响;利用拟合模块最终得到语音质量客观评测分值。该方法经过了网络编解码器和自适应抖动缓冲器等的语音质量,比单用PESQ更为精确,并且考虑了延时损伤,也可以对会话质量进行评测。同时,相对于由E模型得到的与主观分值的相关度,本发明更加适合于客观评测有网络损伤的语音。

著录项

  • 公开/公告号CN102044247A

    专利类型发明专利

  • 公开/公告日2011-05-04

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN200910235644.8

  • 发明设计人 杨越;谢湘;魏耀都;

    申请日2009-10-10

  • 分类号G10L19/00(20060101);G10L19/12(20060101);H04M7/00(20060101);

  • 代理机构11120 北京理工大学专利中心;

  • 代理人张利萍;高燕燕

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2023-12-18 02:05:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-11-25

    未缴年费专利权终止 IPC(主分类):G10L19/00 授权公告日:20120704 终止日期:20141010 申请日:20091010

    专利权的终止

  • 2012-07-04

    授权

    授权

  • 2011-06-15

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20091010

    实质审查的生效

  • 2011-05-04

    公开

    公开

说明书

技术领域

本发明涉及通信网络质量的评测方法领域,尤其是针对VoIP语音的一种客观评测方法。

背景技术

目前对于语音质量的测试方法有两种:传统的主观评测方法和新的客观评测方法。主观评测是以人为主体来评价语音和语音的质量。在语音质量主观评测方法中,MOS(平均意见分:Mean Option Score)评分的使用最为广泛,它以平均意见分来衡量语音质量,用五个等级来表示语音的质量等级:优(5分)、良(4分)、一般(3分)、差(2分)、坏(1分)。主观听音测试方法包括:1).ACR(Absolute Category Rating):绝对等级评定,这是最常用的一种基于语句组的听音测试方法,语句组由一组无关的短句组成,每一个语句都通过一系列的标准处理;2).DCR(Degradation Category Rating):衰减等级评定,用于小衰减情况,适于评价类似的数字语音处理算法、系统优化;3).CCR(Comparison CategoryRating):比较等级评定,用于改进输入语音质量,如加噪等。4).QRDM(Quanta-Response Detectbility Method):定量响应可检测性方法,用于定量分析;5).TM(Threshold Method):门限方法主观评价的优点是符合人对语音质量的感觉,缺点是费时费力费钱,且灵活性不够,重复性和稳定性较差,受人的主观影响较大等。因此以计算机信息处理为核心的语音质量客观评价成为大家关注的热点技术。

客观评测方法主要有以下两种:一是ITU-T P.862(感知语音质量评测),又称为PESQ(Perceptual Evaluation of Speech Quality)建议,它是ITU提出的语音质量客观评价算法之一,针对网络中出现的可变时间延迟和系统引入的线性滤波这两方面做了改进,是目前与主观分值相关度最高的语音质量评测客观算法。其主客观相关度可达到0.935,分值在0~4.5之间,通常情况下输出分值在1.0~4.5之间。当分值在2分或2分以下时,表示语音质量比较差,难于听懂。然而这种算法不能很好地评测对话语音质量,并且PESQ的听觉变换和扰动处理是基于帧到帧的比较,也就不能很好地处理VoIP的网络编解码器和自适应抖动缓冲处理器对于语音的一些优化,不能给出与主观分值相关度比较高的客观分值。另一种客观评测算法是在网络规划中获得了广泛应用的ITU-T G.107规范(E模型)。其优点是全面考虑了网络中的网络损伤因素,如噪声回音延时编码器性能抖动等,给出一个单一的具有相当的评估准确度的得分R,且其质量等级R值与客观MOS分的质量等级存在一个非线性单调的映射关系,也可用于对话测试。然而E模型却存在如下缺点:首先,对于大数量的可能输入参数的组合情况未经过足够的界内验证和充分的实验室测量,估测仍处在置疑和研究的阶段;其次,它简单地认为单个质量损伤因素(如静音回声延时和失真)是相互独立的,都采用同样的尺度来衡量;再次,其前提是假设语音质量损伤因素总是物理附加的,但研究表明这种假设的可靠性在某些情况下存在疑问;另外,它建立在300Hz-3400Hz电话语音带宽的基础上,不能准确地用于宽带语音的质量评定等。因此,目前使用比较广泛的语音客观评测算法还是感知语音质量评测——PESQ,但是它不能很好的评测经过了网络编解码器和自适应抖动缓冲器的语音,并且实验证明,其获得的主客观相关度特别的低。

发明内容

本发明要解决的技术问题是,提供一种针对VoIP语音的客观评测方法,能够客观评测现有的由编解码器、丢包、噪声等引入损伤的语音质量,而且能够客观评测网络编解码器、自适应抖动缓冲器、以及端到端的延时抖动造成的失真语音的质量。

为此,本发明提供的针对VoIP语音的客观评测方法,包括:

第一步:在VoIP的发送端获得原始语音;

第二步:在接收端获得引入损伤的失真语音;

第三步:通过预处理模块划分原始语音和失真语音,得到语句信息,并且判断失真语音中是否有拉伸或压缩语句,得到拉伸或压缩信息;

第四步:利用编解码器损伤评估模块A计算对齐语句的编解码器损伤,利用编解码器损伤评估模块B计算有拉伸或压缩的语句的质量损伤,利用延时损伤评估模块评测端到端延时和内部的延时对语音的影响;

第五步:利用拟合模块最终得到语音质量客观评测分值。

所述的发送端和接收端为固定电话、移动电话或者IP终端计算机。

所述的预处理语句间过大的延时的方法是:计算原始语音和失真语音一段间隔内的能量值,根据各自的能量值划分原始语音和失真语音,得到语句信息;根据原始语音以及失真语音的语句信息,计算出语句间的延时,根据定义的最大延时阈值以及原始语音语句间的延时值,处理VoIP失真语音语句间过大的延时,并且将语句信息存储下来,原始语句信息继续用于延时评估模块的计算。

所述的语句包含至少300ms的连续活动语音,并且包含的静音期不超过200ms,语句间的界限处于语句间隔的静默期中间。

所述的利用编解码器损伤评估模块A计算对齐语句的编解码器损伤的方法为:对原始语音与失真语音中未有拉伸或压缩的部分,采用感知语音质量评价PESQ的听觉变换、扰动处理以及感知模型来评价其编解码器的损伤,得到编解码器损伤评估模块1的评测分值。

所述的利用编解码器损伤评估模块B计算对齐语句的编解码器损伤的方法为:采用基于美尔倒谱系数MFCC的动态弯折DTW方法计算最佳路径对应的最小代价来评测未对齐语音的距离。

所述的延时损伤评估模块评测端到端延时和内部延时对语音的影响的方法为:根据存储的原始语音和失真语音的语句信息,利用基于FFT的互相关进行包络对齐,计算出原始语音和失真语音开头的延时,以及中间每一段语句的延时值和存在的位置。

所述的延时损伤评估模块评测端到端延时和内部延时对语音的影响方法还包括:将延时值和存在的位置保存在一个2维数组中,然后根据大量的主观分值的训练,得出各个位置以及延时值大小对语音损伤的影响的映射关系,由延时损伤评估模块得到客观分值。

所述PESQ计算采用下述步骤:

第一步:调整原始信号和失真信号到标准听觉电平;

第二步:用输入滤波器模拟标准听觉电话筒进行滤波;

第三步:对通过电平调整和滤波后的两个信号在时间上对齐;

第四步:行听觉变换,包括对系统中线性滤波和增益变换的补偿和均衡;

第五步:以听觉变换后的两个信号之间的不同作为扰动,分析扰动曲面,提取出两个失真参数,在频率和时间上进行累积,映射到主观意见分的预测值。

其中,时间对齐算法包括如下如下步骤:

第一步:基于参考信号和失真信号整体包络的粗略延时估计;

第二步:以参考信号的信息来划分语句;

第三步:对每一语句进行基于包络的粗略延时估计;

第四步:对每一语句进行基于帧到帧的加权直方图精细延迟估计;

第五步:重新对齐划分出来的新语句,直到延时在一个语句内没有变化;

第六步:在感知模型后,根据干扰度识别和定义出坏区间,再重新返回对齐模块进行调整对齐;

第七步:将所述的编解码器损伤评估模块1的客观分值,编解码器损伤评估模块2的客观分值以及延时损伤评估模块得到的客观分值通过拟合模块,得到最终的VoIP语音的客观评测分值的拟合公式。

本发明的有益效果:

该方法经过了网络编解码器和自适应抖动缓冲器等的语音质量,比单用PESQ更为精确,并且考虑了延时损伤,也可以对会话质量进行评测。同时,相对于由E模型得到的与主观分值的相关度,本发明方法得到的相关度要高许多,因此更加适合于客观评测有网络损伤的语音。

附图说明

图1是本发明所述方法的原理图

图2是本发明第一个应用实施例原理图

图3是本发明第二个应用实施例原理图

图4是本发明第三个应用实施例原理图

图5是本发明所述方法中的预处理模块流程图

图6是延迟调整算法流程图

图7本发明所述方法中的编解码器损伤评估模块1流程图

图8是本发明所述方法中的编解码器损伤评估模块2流程图

图9是本发明所述方法中的网络损伤评估模块流程图

具体实施方式

下面以VoWLAN(Voice over WLAN)网络为例对本发明进行说明,其模块皆采用C语言开发,方便移植。

图1是本发明所述方法的原理图,在VoIP的发送端存储步骤1的原始语音;在接收端获得由网络传输(步骤2)引入丢包、抖动、延时和由网络编解码器以及自适应抖动缓存技术等造成损伤的失真语音(步骤3);通过预处理模块(步骤4)划分原始语音和失真语音,得到语句信息,并且判断失真语音中是否有拉伸(或压缩)语句,得到拉伸(或压缩)信息,预处理语句间过大的延时;利用编解码器损伤评估模块1(步骤5)计算对齐语句的编解码器损伤,利用编解码器损伤评估模块2(步骤6)计算有拉伸(或压缩)的语句的质量损伤,利用延时损伤评估模块(步骤7)评测端到端延时和内部延时对语音的影响;得到延时损伤客观评测分值(步骤8),和编解码器损伤客观评测分值(步骤9),最后利用拟合模块(步骤10)得到语音质量客观评测分值(步骤11)。

图2是图1所述方法中的第一个应用实施例原理图。发送端(步骤12)可以为计算机(PC机)或者移动终端,其中包括了适合VoIP传输的网络编码器和自适应抖动缓存器。在发送端存储原始语音,经过接入点(Access Point)(步骤13)并通过IP网关(步骤14)接入到IP交换网(步骤15),然后再通过IP网关(步骤16),及接入点(Access Point)(步骤17)到达PC或者移动终端(步骤18),通过适合VoIP的网络解码器和自适应抖动缓存器,得到经过传输之后的失真语音。

图3是图1所述方法中的第二个应用实施例原理图。发送端(步骤19)可以为计算机或者移动终端,其中包括了适合VoIP传输的网络编码器和自适应抖动缓存器。在发送端存储原始语音,经过步骤20的接入点(Access Point)通过IP网关(步骤21)接入到IP交换网(步骤22),然后通过媒体网关(步骤23),及公共交换电话网络(PSTN网络)(步骤24),到达固定电话终端(步骤25),其中也经过了适合VoIP传输的网络解码器和自适应抖动缓存器,最后得到经过传输之后的失真语音。

图4是图1所述方法中的第三个应用实施例原理图,也为图3实施例的反向传输链路,即在发送端(步骤26)存储原始语音,发送端为固定电话终端,经过公共交换电话网络(PSTN网络)(步骤27)的传输后,通过媒体网关(步骤28)接入到IP交换网(步骤29),然后再通过IP网关(步骤30),及接入点(AP)(步骤31),到达计算机终端或者移动终端(步骤32),其中也经过了适合VoIP传输的网络解码器和自适应抖动缓存器,最后得到经过传输之后的失真语音。

图5是本发明所述方法中的预处理模块流程图。首先将原始语音和失真语音经过读入模块(步骤32),均按16kHz(或者8kHz)的采样率读入,得到原始语音及失真语音的样点值,由步骤33计算其VAD(Voice Activity Detection)信息。对经过窄带滤波后的两路语音信号均进行活动语音检测,即首先求出每4ms帧语音的平均能量,接着由一个话音检测器得到一个门限值,能量低于该门限值的帧被认为是噪声帧,其功率置为零;高于此门限值被认为是语音帧,其功率定义为:

LOG(MAX(E(k)/Ethresh,1))

其中E(k)为第k个4ms帧的能量,Ethresh是由话音检测器得到的门限值。由两路语音信号的不交迭4ms帧功率构成了它们的包络。

然后利用参考信号的VAD信息划分语句,语句指一段语音,它应该包含至少300ms的连续活动语音,并且包含的静音期不能超过200ms。比较原始语音与失真语音的每一个语句的长度信息是否一致或差值是否小于阈值,以此来判断语句是否有拉伸(或压缩)(步骤34),确定拉伸(或压缩)信息(步骤36)。

图6是图5算法中的延迟调整算法流程图,即图5的步骤35语句延迟调整的详细算法。步骤38首先计算原始语音的各个语句间隔,即得到前一个语句与后一个语句中间的延时值,步骤39计算失真语音的各个语句间隔,由步骤40判断其语句数是否相等,若相等,说明每一原始语音的语句都在失真语音中有对应的语句,接着经过步骤43看两者的语句间间隔是否相等,若相等,则经过步骤45无需调整;若不相等,则经过步骤44将较大的间隔调整为较小的间隔。若语句数不相等,经过步骤41使用固定的间隔,即步骤42对原始语音和失真语音各自调整。最后经过步骤46记录下调整后的语句的起点和终点,得到调整后的原始和失真语音。

图7是本发明所述方法中的编解码器损伤评估模块1流程图,将调整后的原始语音和失真语音,经过编解码器损伤评估模块1(PESQ),包括以下过程:经过电平调整(步骤47)和输入滤波(步骤48)后,利用时间调整模块(步骤49)消除连续和不连续延时对失真语音的影响,再经过听觉变换(步骤50)和扰动处理(步骤51),其中忽略拉伸(或压缩)语句部分的扰动,对过大的扰动经过错误间隔鉴别(步骤54),进行重新对准(步骤55),最后通过感知模型(步骤53)计算出预测分值(步骤56)。

图8是本发明所述方法中的编解码器损伤评估模块2流程图。根据拉伸(或压缩)信息(步骤57),将原始语句(步骤59)和与其对应的拉伸(或压缩)的失真语句(步骤58),经过步骤60提取其MFCC(美尔倒谱系数)参数,然后将原始语句与其对应的失真语句经过动态时间弯折(DTW)算法(步骤61),计算出原始语句和拉伸(或压缩)的失真语句对齐最佳路径对应的最小代价,并且通过主观实验MOS分值预先训练DTW的最小代价(步骤63),得到DTW最小代价到主观分值DTW-ODG的拟合公式。

图9是本发明所述方法中的网络损伤评估模块流程图。根据原始语句信息(未调整前的)(步骤64),计算原始语句(步骤66)和对应失真语句(步骤65)之间的延时值,其中包括整体语音延时(步骤67),即端到端延时Id,以及每一个延时值所在的位置,得到一个多维数据。通过主观分值训练,得到延时的大小和不同位置对于语音的损伤。然后通过拟合模块,得到VoIP语音质量的客观评测分值。该方法评测了端到端延时,因此也可以考虑用于评测对话语音的质量。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号