首页> 中国专利> 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法

客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法

摘要

客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法,提供了一种基于听觉同时性掩蔽效应的原理的扩展巴克谱失真(EBSD)测度方法,包括听觉响度计算,噪声掩蔽门限(NMT)计算和扩展巴克谱失真(EBSD)计算,在失真距离的计算中排除被噪声掩蔽门限(NMT)掩蔽的临界频带,使用EBSD测度后客观评价与主观评价结果之间具有相对其他测度更好的一致性。

著录项

  • 公开/公告号CN1655230A

    专利类型发明专利

  • 公开/公告日2005-08-17

    原文格式PDF

  • 申请/专利号CN200510020202.3

  • 发明设计人 吴江滨;杨波;张知易;

    申请日2005-01-18

  • 分类号G10L11/00;G10L15/10;G10L17/00;

  • 代理机构成都天元专利事务所;

  • 代理人刘世权

  • 地址 610041 四川省成都市高新区创业路6号

  • 入库时间 2023-12-17 16:25:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-03-27

    未缴年费专利权终止 IPC(主分类):G10L11/00 授权公告日:20070613 终止日期:20120118 申请日:20050118

    专利权的终止

  • 2007-06-13

    授权

    授权

  • 2005-10-12

    实质审查的生效

    实质审查的生效

  • 2005-08-17

    公开

    公开

说明书

技术领域

本发明涉及客观音质评价中的失真测度方法,具体涉及基于噪声掩蔽门限算法的巴克谱失真测度方法

背景技术

目前国内外对客观音质评价方法的研究主要集中在各种测度的研究上,最终目的是研究和寻求到与主观评价特性曲线最为一致的计算测度,即主客观相关度最高的评价测度。目前较为成熟的有巴克谱失真BSD测度、对数谱距离测度LSD、MEL倒谱距离测度MEL-CD、LPC倒谱系数距离测度LPC-CD和基于瞬时掩蔽效应的改进的巴克谱测度MBSD等等。

发明内容

本发明的目的是提出了一种基于噪声掩蔽门限(NMT)算法的扩展的巴克谱失真(EBSD)测度方法,该测度依据人耳听觉系统的同时性掩蔽特性,在听觉响度域内动态地确定原始语音信号和失真语音信号的响度差掩蔽阈,对不同的语音失真条件,选取不同的掩蔽阈,以此来提高和改善测度的一致性和相关性。

本发明的测度方法分以下三步实现:

(1)计算输入信号和输出信号的响度差;

1)将输入信号和输出信号作FFT变换后得到功率谱P(k)(P(k)=Re2(k)+Im2(k)),再求得各个临界频带内的巴克谱功率能量,然后对每个巴克带抽一次样,得到临界带能量Bij >>>(>>B>ij>>=>>Σ>>k>=>>b>jl>>>>b>jh>>>>P>i>>>(>k>)>>)>>;>>>

2)应用扩展函数,扩展函数矩阵为

>>S>>(>j>,>>j>′>>)>>=>15.81>+>7.5>·>>(>j>->>j>′>>+>0.474>)>>->17.5>>1>+>>>(>j>->>j>′>>+>0.474>)>>2> >>>

对步骤1)中得到的临界带能量Bij用扩展函数进行滤波卷积 >>C>>(>j>)>>=>>Σ>>>j>′>>=>1>>17>>S>>(>j>,>>j>′>>)>>B>>(>>j>′>>)>>,>>>得到第j个Bark带的扩展巴克谱C(j);

3)然后将扩展巴克谱C(j)在话音频带内应用等响度曲线预加重得到信号的响度级,最后将响度级转换为输入信号和输出信号的响度,最后得到输入信号与输出信号的响度差dxy(i);

(2)确定输入信号的噪声掩蔽门限值(NMT);

1)将输入信号作FFT变换后得到功率谱P(k)(P(k)=Re2(k)+Im2(k)),再求得各个临界频带内的巴克谱功率能量,然后对每个巴克带抽一次样,得到临界带能量Bij >>>(>>B>ij>>=>>Σ>>k>=>>b>jl>>>>b>jh>>>>P>i>>>(>k>)>>)>>;>>>

2)应用扩展函数:扩展函数矩阵为

>>S>>(>j>,>>j>′>>)>>=>15.81>+>7.5>·>>(>j>->>j>′>>+>0.474>)>>->17.5>>1>+>>>(>j>->>j>′>>+>0.474>)>>2> >>>

对步骤1)中得到的临界带能量Bij用扩展函数进行滤波卷积 >>C>>(>j>)>>=>>Σ>>>j>′>>=>1>>17>>S>>(>j>,>>j>′>>)>>B>>(>>j>′>>)>>,>>>得到第j个Bark带的扩展巴克谱C(j);

3)计算NMT:谱平坦度量度(SFM)定义为信号功率谱的几何平均Gm与算术平均Am的比值 >>>(>SFM>=>10>log>>>G>m>>>A>m>>>)>>,>>>定义一个音调因子α作为信号音调特性的判断: >>α>=>min>>(>>SFM>>SFM>max>>>,>1>)>>>>

根据音调因子α的值可以确定一个对扩展巴克谱C(j)的修正值:

Qj=α(14.5+j)+5.5(1-α)

然后得到巴克带噪声掩蔽门限:

>>>NMT>j>>=>>10>>log>C>>(>j>)>>->0.1>·>>O>j>>>>>>

4)听阈比较,最后把得到的每个临界频带NMT与听阈比较,如果某临界频带的NMT小于听阈,则实际的掩蔽门限以听阈代替,听阈的计算公式为

(3)巴克谱失真(EBSD)计算:定义一个掩蔽矩阵符号M(i,j)(其中j表示第i帧的第j个Bark带),M(i,j)的取值由输入信号与输出信号的响度差dxy(i)与NMT比较得来

M(i,j)=1      dxy(i,j)>NMT(i,j)

M(i,j)=0      dxy(i,j)≤NMT(i,j)

计算出第i帧的巴克谱失真距离:

>>EBSD>>(>i>)>>=>>Σ>>j>=>1>>15>>>>d>xy>>2>>>(>i>,>j>)>>·>M>>(>i>,>j>)>>>>

最后计算出整个信号总的失真距离为

>>EBSD>=>>1>N>>>Σ>>i>=>1>>N>>>Σ>>j>=>1>>15>>>>d>xy>>2>>>(>i>,>j>)>>·>M>>(>i>,>j>)>>>>(其中N为总帧数)。

在BSD测度用于语音SSB调制经过不同干扰失真都已达到主客观评价高度相关的情况下,对同样的实验条件EBSD得到的结果还是进一步提高了主客观评价的相关系数百分之一到百分之三左右,标准偏差得到减小,表明这种测度是一种与主观音质评价一致性更好的语音测度。同时,基于扩展函数的EBSD测度相对于MBSD具有更好的普适性。

附图说明

图1是基于噪声掩蔽门限算法的巴克谱失真(EBSD)测度方法工作框图

图2是18个扩展函数临界带滤波器组

图3是SSB调制失真条件BSD测度归一化主客观评价二次拟合曲线

图4是SSB调制失真条件EBSD测度归一化主客观评价二次拟合曲线

具体实施方式

下面结合附图详细说明本发明的实现方法

EBSD测度主要分为三步,即听觉响度计算、噪声掩蔽门限NMT估计和EBSD计算,其工作原理框图见图1。

本发明的独创性在于将NMT算法引入广泛使用的BSD失真测度,采用SFM方法来度量噪声对纯音的掩蔽和纯音对噪声的掩蔽,比较语音信号的响度差与NMT的值作为失真距离计算的判决准则,即在失真距离的计算中考虑NMT是否掩蔽信号的响度差。其中确定输入语音的噪声掩蔽门限值NMT是计算EBSD测度的关键步骤,符合人耳听觉掩蔽特性的NMT由信号临界频带分析、对巴克谱应用谱扩展函数、计算NMT和听阈比较四步来完成。

如图1所示,要对输入语音信号和输出语音信号分别进行预处理,预处理包括将输入语音信号和输出语音信号作FFT变换后得到功率谱P(k)(P(k)=Re2(k)+Im2(k)),接着按照下面表1中的临界频带划分,

  频带  数(Bark)中心频    率    (Hz)带宽(Hz) 下限频    率    (Hz)  上限频    率    (Hz)频带数(Bark)  中心频    率    (Hz)带宽(Hz) 下限频    率    (Hz)  上限频    率    (Hz)    1    50  80    20    100    13    1850 280  1720  2000    2    150  100    100    200    14    2150 320  2000  2320    3    250  100    200    300    15    2500 380  2320  2700    4    350  100    300    400    16    2900 450  2700  3150    5    450  110    400    510    17    3400 550  3150  3700    6    570  120    510    630    18    4000 700  3700  4400    7    700  140    630    770    19    4800 900  4400  5300    8    840  150    770    920    20    5800 1100  5300  6400    9    1000  160    920    1080    21    7000 1300  6400  7700    10    1170  190    1080    1270    22    8500 1800  7700  9500    11    1370  210    1270    1480    23    10500 2500  9500  12000    12    1600  240    1480    1720    24    13500 3500  12000  15500

                         表1(临界频带的划分)

求得各个临界频带(只取前面17个)内的巴克谱功率能量,然后对每个Bark带抽一次样,即求得每个Bark带在一帧信号中的能量分布,得到临界带能量:

得到Bij后再应用扩展函数,扩展函数矩阵为

>>S>>(>j>,>>j>′>>)>>=>15.81>+>7.5>·>>(>j>->>j>′>>+>0.474>)>>->17.5>>1>+>>>(>j>->>j>′>>+>0.474>)>>2> >>>

图2为扩展函数滤波器组。

对Bij用扩展函数进行滤波卷积:

>>C>>(>j>)>>=>>Σ>>>j>′>>=>1>>17>>S>>(>j>,>>j>′>>)>>B>>(>>j>′>>)>>>>

这样得到的C(j)值就是第j个Bark带的扩展巴克谱,意味着其它各临界带对这一频带的综合影响作用。然后将扩展巴克谱C(j)在话音频带内应用等响度曲线预加重得到信号的响度级,将响度级转换为语音信号的响度,分别得到输入语音信号和输出语音信号第i帧的响度Lx(i)与Ly(i)。

然后根据Lx(i)和Ly(i)计算出输入语音信号和输出语音信号之间的响度差dxy(i)。

同时要确定输入语音信号的噪声掩蔽门限,将输入语音信号作FFT变换后得到功率谱P(k)(P(k)=Re2(k)+Im2(k)),接着按照上面表1中的临界频带划分,求得各个临界频带(只取前面17个)内的巴克谱功率能量,然后对每个Bark带抽一次样,即求得每个Bark带在一帧信号中的能量分布,得到临界带能量:

>>>B>ij>>=>>Σ>>k>=>>b>jl>>>>b>jh>>>>P>i>>>(>k>)>>>>

得到Bij后再应用扩展函数,估计临界频带之间的相互影响。扩展函数用来描述各个临界带的信号对其它临界带信号的掩蔽特性。实际应用中,可以用两条线段来保守地逼近实验中得出的掩蔽曲线。扩展函数矩阵为

>>S>>(>j>,>>j>′>>)>>=>15.81>+>7.5>·>>(>j>->>j>′>>+>0.474>)>>->17.5>>1>+>>>(>j>->>j>′>>+>0.474>)>>2> >>>

对Bij用扩展函数进行滤波卷积: >>C>>(>j>)>>=>>Σ>>>j>′>>=>1>>17>>S>>(>j>,>>j>′>>)>>B>>(>>j>′>>)>>>>

这样得到的C(j)值就是第j个Bark带的扩展巴克谱,意味着其它各临界带对这一频带的综合影响作用。语音信号的音调特性决定了掩蔽程度的大小。同时性掩蔽效应包括纯音掩蔽噪声和噪声掩蔽纯音两种情况,因此各部分的贡献大小与信号的音调特性(似噪性)有关。谱平坦度量度SFM(Spectral FlatnessMeasure)定义为信号功率谱的几何平均Gm与算术平均Am的比值

>>SFM>=>10>log>>>G>m>>>A>m>>>>>

接着定义一个音调因子α作为信号音调特性的判断:

>>α>=>min>>(>>SFM>>SFM>max>>>,>1>)>>>>

其中SFMmax=-60dB时设定信号是完全纯音特性,如果SFM=0dB,则信号几乎为完全噪声特性。

当纯音掩蔽噪声时,掩蔽值为扩展谱C(j)减去(14.5+j),即低于C(j)-(14.5+j)dB的噪声是听不见的;反之,噪声掩蔽纯音时,C(j)-5.5dB以下的语音也是听不见的。根据音调因子α的值可以确定一个对C(j)的修正值:

Oj=α(14.5+j)+5.5(1-α)

然后得到Bark带噪声掩蔽门限:

>>>NMT>j>>=>>10>>log>C>>(>j>)>>->0.1>·>>O>j>>>>>>

最后把得到的每个临界频带NMT与听阈比较,如果某临界频带的NMT小于听阈,则实际的掩蔽门限以听阈代替,听阈的计算公式为

最后得到输入语音信号的噪声掩蔽门限(NMT)。

最后根据求得语音信号响度差和输入语音信号的噪声掩蔽门限(NMT)来进行EBSD计算。为了确定某一临界带是否可以感知,定义一个掩蔽矩阵符号M(i,j),j表示第i帧的第j个Bark带。当失真可以被感知,M(i,j)为1,反之M(i,j)为0,它也是一个只包含0和1元素的矩阵。而M(i,j)的取值由dxy(i)与NMT比较得来

M(i,j)=1      dxy(i,j)>NMT(i,j)

M(i,j)=0      dxy(i,j)≤NMT(i,j)

下面把所有听觉能感知的响度差求和得到一帧信号的失真距离,即计算巴克谱失真时不考虑被掩蔽的距离:

>>EBSD>>(>i>)>>=>>Σ>>j>=>1>>15>>>>d>xy>>2>>>(>i>,>j>)>>·>M>>(>i>,>j>)>>>>

这里EBSD(i)为第i帧的失真距离,在300-3400Hz的话音频带取15Bark。最后整个测试信号总的失真距离为

>>EBSD>=>>1>N>>>Σ>>i>=>1>>N>>>Σ>>j>=>1>>15>>>>d>xy>>2>>>(>i>,>j>)>>·>M>>(>i>,>j>)>>>>(其中N为总帧数)

通过比较语音信号的响度差与NMT的值,在失真距离的计算中排除被NMT掩蔽的临界频带,得出语音信号的失真曲线。

本发明依据人耳听觉系统的同时性掩蔽特性,在听觉响度域内动态地确定原始语音信号和失真语音信号的响度差掩蔽阈,该掩蔽阈主要由信号的音调性修正得来,对不同的语音失真条件,选取不同的掩蔽阈能够得到各自最好的相关性,从客观评价与主观评价的统计相关性上表明,使用本发明EBSD测度后客观评价与主观评价结果之间具有相对其他测度更好的一致性。

在BSD测度用于语音SSB调制经过不同干扰失真都已达到主客观评价高度相关的情况下,对同样的实验条件EBSD得到的结果还是进一步提高了主客观评价的相关系数百分之一到百分之三左右,标准偏差得到减小(见表2、图3和图4),表明这种测度是一种与主观音质评价一致性更好的语音测度。同时,基于扩展函数的EBSD测度相对于MBSD具有更好的普适性。三种BSD测度的相关系数比较见下表(表2):

    SSB    BSD    MBSD    EBSD    0.918    0.918    0.923

表2三种BSD测度的相关系数

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号