公开/公告号CN1645475A
专利类型发明专利
公开/公告日2005-07-27
原文格式PDF
申请/专利权人 中国电子科技集团公司第三十研究所;
申请/专利号CN200510020203.8
申请日2005-01-18
分类号G10L11/00;G10L15/10;G10L17/00;
代理机构成都天元专利事务所;
代理人刘世权
地址 610041 四川省成都市高新区创业路6号
入库时间 2023-12-17 16:25:17
法律状态公告日
法律状态信息
法律状态
2013-03-27
未缴年费专利权终止 IPC(主分类):G06F17/20 授权公告日:20070613 终止日期:20120118 申请日:20050118
专利权的终止
2007-06-13
授权
授权
2005-09-21
实质审查的生效
实质审查的生效
2005-07-27
公开
公开
技术领域
本发明涉及客观音质评价统计相关模型的建立方法,尤其涉及客观音质评价归一化主客观统计相关模型的建立方法。
背景技术
靠人耳感知完成主观音质评价,不仅费时费力,条件要求高,而且重复性差,因此,从事语音信号处理及通信的工程师们,早就希望用设备来对处理及经过传输的语音进行客观音质评价。国内(一些研究所、高校)外(如欧美、日本)进行语音客观音质评价的研究已经20来年,应该说,在学术上取得了相当大的成果,除了早期基于时域波形分析研究提出的信噪比(SNR)和分段信噪比(SNRSEG)等测度外,最近十来年的研究提出了许多性能较好的客观音质评价测度,如LPC倒谱距离(LPC-CD)、信息指数(II)、相关函数(CHF)、对数谱距离(LSD)、MEL倒谱系数距离(MEL-CD)Bark谱距离(BSD)及改进的BSD(MBSD)等。ITU-T于96年8月为电话频带语音编码器客观音质评价提出了“感知的音质测度(PSQM)”的P.861建议,而且在2001年2月,考虑传输滤波、延时、编码失真和信道误码特性,将PSQM结合感知分析测试系统(PAMS)算法,提出了ITU-T.P862建议,以图取代P.861,这就表明客观音质评价的研究,已朝实用化和标准化方向发展了。但是虽然对客观音质评价测度及方法的研究在最近十几年中开展的如火如荼,但所有文献报道的客观音质评价研究,统计分析都没有提出建立归一化相关模型的方法,因而还未达到实际应用的地步。
发明内容
本发明的目的是提供一种针对确定的语音条件类型和确定的客观失真测度,通过充分必要的失真语音条件的全程语音质量实际主观音质的MOS(平均意见分)评价测试结果,建立具有实际应用价值的客观音质评价归一化统计相关模型的方法。
本发明的实现方法包括以下步骤:
(1)确定一种语音失真类型,并设定充分必要的失真测试条件等级;在主观感觉音质从几乎没有失真,到失真严重得根本不能通信的范围内,设定不少于10种等级,而且应采取不均匀分布的等级设定,失真严重段应设置得相对密一些;
(2)选择测试发音材料,选择的测试发音材料应长于10秒钟,并至少包括3个语句,由不少于三男三女的多个发音人对步骤(1)中设定的每个语音失真测试条件(i)按8000Hz采样频率,线性16位PCM数据率完成所有失真条件的数字化采集,生成“*.WAV”格式语音数据文件;
(3)对步骤(2)中产生的每个语音数据文件进行主观评听测试,并统计出每个测试条件(i)的多个发音人的MOS平均得分(MOS(i));
(4)根据无话段的电平VUN设置去停顿的电平门限VT(一般1.3~1.5VUN),以帧为基础编制去除停顿程序,用它去除低于门限的帧信号,完成所有测试文件句子和音节间的停顿去除;
(5)用标准语音源文件和步骤(2)中产生的测试语音文件进行客观音质失真距离的计算,得到每个测试条件(i)的多个发音人的失真距离的平均值D(i);
(6)根据步骤(5)中算出的D(i),找出最大失真距离Dmax(m),并进行归一化处理Dn(i)=D(i)/Dmax(m),得到针对每个测试条件(i)的客观失真距离Dn(i);
(7)对于所有失真条件的主观MOS(i)得分和客观失真距离Dn(i),用Matlab模板程序,完成基于最小二乘法的二次函数:
(8)对拟合曲线进行归一化调整;审查拟合曲线纵横轴的交叉位置,看是否出现以下三种情况
a.如果拟合曲线与纵轴交叉位置超过5,则人为给定一组或一组以上[Dn(i)=0,MOS(i)=4.5~4.9]的主客观数值,以使曲线重新拟合纵轴交叉略小于5,;
b.如果拟合曲线与横轴交叉小于1,则人为适当增加一组或一组以上[Dn(i)接近1,MOS(i)=0]的主客观数值,以使横轴交叉接近或几乎等于1;
c.如果拟合曲线与横轴交叉大于1,则人为设定一个大于原有最大值的Dmax(m)值,以使曲线重新拟合横轴交叉接近或几乎等于1;
以上三个步骤可以重复多次,直到得到满意的结果为止。
(9)求出主客观评价之间的相关系数;对实验类型条件的结果,用如下归一化相关系数计算公式
求出主客观评价之间的相关系数ρ,得到客观评价预测主观的相关分析结果。
利用本发明建立的归一化相关模型,对语音通信中的编码技术、研制设备或信道性能进行客观音质评价测试,增强了设备或信道性能比较的可信度,提高了测试的效率,而且使用方便。本方法经用于通信干扰效果评估设备系统中,对于不同的语音系统或条件,并就不同的测度建立不同的归一化相关模型,不仅各模型之间具有具有好的可比性,而且各自具有好的实用性。
附图说明
图1是客观音质评价归一化主客观统计相关模型的建立方法实现流程框图
图2是某种语音条件的MEL-CD测度二次曲线拟合-
具体实施方式
下面结合附图详细说明本发明的实现方法
本发明可以在计算机上用Matlab编程工具实现,其流程框图如图1所示,主要步骤如下:
1、确立模型建立的条件;语音失真条件及失真测度。
确立某种类型语音失真条件,如波形编码,参数编码,信道误码、噪声调频及类语音干扰失真之类;设定既定失真语音类型充分必要的失真测试条件(主观感觉音质从几乎没有失真,到失真严重得根本不能通信)等级,一般不少于10种,而且采取不均匀分布的等级设定,失真严重段应设置得相对密一些;选择10秒左右,每个包括3个语句为测试单元的发音材料,由多个发音人(一般包括3男3女)按8000Hz采样频率,线性16位PCM数据率,完成所有失真语音条件的数字化采集,生成“*.WAV”格式语音数据文件。最好使用有关MOS测试标准SJ 20852-2002中提供的的语音材料,或2003年审定通过即将公布的新标准“基于感知测度的军用通信设备客观音质评价方法”(项目编号B25001)附录A中提供的最小化语音数据库材料,来产生测试用的失真语音数据文件;
2、获取足够的语音条件的主客观数据[MOS(i),D(i)];
对上述步骤产生的所有测试文件集合进行排序,并用随机化程序形成主观评听测试用的随机出现的文件序列。按SJ 20771-2000标准要求,完成每个文件的主观评听测试,并统计出每个测试条件(i)的多个发音人(按标准规定,一般包括3男3女)的MOS平均得分(MOS(i));根据无话段的电平VUN,设置去停顿的电平门限VT(一般1.3~1.5VUN),以帧为基础编制去除停顿程序,用它去除低于门限的帧信号,完成所有测试文件句子和音节间的停顿去除。
基于某种选定测度,用每个标准语音源文件和测试语音文件进行客观音质失真距离的计算,从而得到每个测试条件(i)的多个发音人的失真距离的平均值D(i);找到最大失真距离Dmax(m),完成归一化处理Dn(i)=D(i)/Dmax(m),得到客观失真距离Dn(i);
3、调用模板程序Matlab.m(见附录),按模板形式对编制的程序进行简要说明;并根据测试条件,修改模板中图题Tittle的文字内容;根据使用的测度,修改横轴标识文字;
4、为Matlab.m程序data语句注入数组[D(i),MOS(i)],并加注释“%”;
5、保存并运行Matlab.m程序。对于所有失真条件的主观MOS(i)得分和客观失真距离Dn(i),用模板程序Matlab.m,完成基于最小二乘法的二次函数:
6、拟合曲线归一化调整;
审查拟合曲线纵横轴的交叉位置,看是否出现以下三种情况
a.如果纵轴交叉位置超过5,则人为给定一组或一组以上[Dn(i)=0,MOS(i)=4.5~4.9]的主客观数值,以使曲线重新拟合纵轴交叉略小于5;
b.如果横轴交叉小于1,则人为适当增加一组或一组以上[Dn(i)接近1,MOS(i)=0]的主客观数值,以使横轴交叉接近或几乎等于1;
c.曲线与横轴交叉大于1,则人为设定一个大于原有最大值的Dmax(m)值,以使曲线重新拟合横轴交叉接近或几乎等于1;
以上三个步骤也许重复多次,直到满意为止。
7、从结果中记录二次曲线系数a,b,c的值;相关系数ρ,标准偏差σ及最终的Dmax(m)。对实验类型条件的结果,用如下归一化相关系数计算公式
求出主客观评价之间的相关系数ρ,从而得到客观评价预测主观的相关分析结果。
附录:Matlab.m模板程序如下:
%对MEL-CD距离及MOS得分进行二次曲线的拟合,并给出 %二次多项式的系数。 %MEL-CDMOS conditiondata=... [04.5 %列入数组 0.613 1.9784%测试条件注释 ”” ”” ”” 0.151 4.4777%SNR=-3.0 Dmax(i) ”” ””]; x=data(:,1); x=x/2.1; y=data(:,2); %m=ex(:,1); %k=ex(:,2); %m=m/1.2; n=2; coe=polyfit(x,y,n) xi=linspace(0,1,1000); z=polyval(coe,xi); plot(x,y,′bo′,xi,z,′r:′,m,k,′+′);<!-- SIPO <DP n="5"> --><dp n="d5"/> axis([0105]); %grid on title(′二次拟合曲线,QPSK调制,定频,G729,system6′); xlabel(′Bark距离′),ylabel(′MOS得分′); n=length(x); my=0;fenzi=0;fenmu=0; for i=1:n mos(i)=coe(1)*x(i)^2+coe(2)*x(i)+coe(3); my=my+y(i); end %moss=coe(1)*.547^2+coe(2)*.547+coe(3) %hold on %colstyle(′g′); %stem(.547,moss,′-.′); my=my/n; for i=1:n fenzi=fenzi+(mos(i)-my)^2; fenmu=fenmu+(y(i)-my)^2; end p=sqrt(fenzi/fenmu) delta=0; for i=1:n delta=delta+(mos(i)-y(i))^2; end delta=delta/n; delta=sqrt(delta)
机译: 记录主客观患者数据并检测相关事件的系统和方法
机译: 主客观视频质量评估相关性的视频转码优化方法
机译: Insolation概率分布分析方法,Insolation概率分布分析系统,Insolation概率分布分析程序产品,Insolation归一化统计分析方法,Isolation归一化统计分析系统和缺失归一化统计分析计划产品