首页> 中国专利> 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法

客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法，提供了一种基于听觉同时性掩蔽效应的原理的扩展巴克谱失真(EBSD)测度方法，包括听觉响度计算，噪声掩蔽门限(NMT)计算和扩展巴克谱失真(EBSD)计算，在失真距离的计算中排除被噪声掩蔽门限(NMT)掩蔽的临界频带，使用EBSD测度后客观评价与主观评价结果之间具有相对其他测度更好的一致性。

著录项

公开/公告号CN1655230A

专利类型发明专利
公开/公告日2005-08-17

原文格式PDF
申请/专利权人中国电子科技集团公司第三十研究所;
展开▼

申请/专利号CN200510020202.3
发明设计人吴江滨;杨波;张知易;
展开▼

申请日2005-01-18
分类号G10L11/00;G10L15/10;G10L17/00;
代理机构成都天元专利事务所;
代理人刘世权
地址 610041 四川省成都市高新区创业路6号
入库时间 2023-12-17 16:25:17

法律信息

法律状态公告日

法律状态信息

法律状态
2013-03-27

未缴年费专利权终止 IPC(主分类):G10L11/00 授权公告日:20070613 终止日期:20120118 申请日:20050118

专利权的终止
2007-06-13

授权

授权
2005-10-12

实质审查的生效

实质审查的生效
2005-08-17

公开

公开

说明书

技术领域

本发明涉及客观音质评价中的失真测度方法，具体涉及基于噪声掩蔽门限算法的巴克谱失真测度方法

背景技术

目前国内外对客观音质评价方法的研究主要集中在各种测度的研究上，最终目的是研究和寻求到与主观评价特性曲线最为一致的计算测度，即主客观相关度最高的评价测度。目前较为成熟的有巴克谱失真BSD测度、对数谱距离测度LSD、MEL倒谱距离测度MEL-CD、LPC倒谱系数距离测度LPC-CD和基于瞬时掩蔽效应的改进的巴克谱测度MBSD等等。

发明内容

本发明的目的是提出了一种基于噪声掩蔽门限(NMT)算法的扩展的巴克谱失真(EBSD)测度方法，该测度依据人耳听觉系统的同时性掩蔽特性，在听觉响度域内动态地确定原始语音信号和失真语音信号的响度差掩蔽阈，对不同的语音失真条件，选取不同的掩蔽阈，以此来提高和改善测度的一致性和相关性。

本发明的测度方法分以下三步实现：

(1)计算输入信号和输出信号的响度差；

1)将输入信号和输出信号作FFT变换后得到功率谱P(k)(P(k)＝Re²(k)+Im²(k))，再求得各个临界频带内的巴克谱功率能量，然后对每个巴克带抽一次样，得到临界带能量B_ij $>>>(>>B>ij>>=>>Σ>>k>=>>b>jl>>>>b>jh>>>>P>i>>>(>k>)>>)>>;>>>$

2)应用扩展函数，扩展函数矩阵为

$>>S>>(>j>,>>j>′>>)>>=>15.81>+>7.5>·>>(>j>->>j>′>>+>0.474>)>>->17.5>>1>+>>>(>j>->>j>′>>+>0.474>)>>2> >>>$

对步骤1)中得到的临界带能量B_ij用扩展函数进行滤波卷积 $>>C>>(>j>)>>=>>Σ>>>j>′>>=>1>>17>>S>>(>j>,>>j>′>>)>>B>>(>>j>′>>)>>,>>>得到第j个Bark带的扩展巴克谱C(j)；$

3)然后将扩展巴克谱C(j)在话音频带内应用等响度曲线预加重得到信号的响度级，最后将响度级转换为输入信号和输出信号的响度，最后得到输入信号与输出信号的响度差d_xy(i)；

(2)确定输入信号的噪声掩蔽门限值(NMT)；

1)将输入信号作FFT变换后得到功率谱P(k)(P(k)＝Re²(k)+Im²(k))，再求得各个临界频带内的巴克谱功率能量，然后对每个巴克带抽一次样，得到临界带能量B_ij $>>>(>>B>ij>>=>>Σ>>k>=>>b>jl>>>>b>jh>>>>P>i>>>(>k>)>>)>>;>>>$

2)应用扩展函数：扩展函数矩阵为

$>>S>>(>j>,>>j>′>>)>>=>15.81>+>7.5>·>>(>j>->>j>′>>+>0.474>)>>->17.5>>1>+>>>(>j>->>j>′>>+>0.474>)>>2> >>>$

对步骤1)中得到的临界带能量B_ij用扩展函数进行滤波卷积 $>>C>>(>j>)>>=>>Σ>>>j>′>>=>1>>17>>S>>(>j>,>>j>′>>)>>B>>(>>j>′>>)>>,>>>得到第j个Bark带的扩展巴克谱C(j)；$

3)计算NMT：谱平坦度量度(SFM)定义为信号功率谱的几何平均G_m与算术平均A_m的比值 $>>>(>SFM>=>10>log>>>G>m>>>A>m>>>)>>,>>>定义一个音调因子α作为信号音调特性的判断： >>α>=>min>>(>>SFM>>SFM>max>>>,>1>)>>>>$

根据音调因子α的值可以确定一个对扩展巴克谱C(j)的修正值：

Q_j＝α(14.5+j)+5.5(1-α)

然后得到巴克带噪声掩蔽门限：

$>>>NMT>j>>=>>10>>log>C>>(>j>)>>->0.1>·>>O>j>>>>>>$

4)听阈比较，最后把得到的每个临界频带NMT与听阈比较，如果某临界频带的NMT小于听阈，则实际的掩蔽门限以听阈代替，听阈的计算公式为

(3)巴克谱失真(EBSD)计算：定义一个掩蔽矩阵符号M(i，j)(其中j表示第i帧的第j个Bark带)，M(i，j)的取值由输入信号与输出信号的响度差d_xy(i)与NMT比较得来

M(i，j)＝1 d_xy(i，j)＞NMT(i，j)

M(i，j)＝0 d_xy(i，j)≤NMT(i，j)

计算出第i帧的巴克谱失真距离：

$>>EBSD>>(>i>)>>=>>Σ>>j>=>1>>15>>>>d>xy>>2>>>(>i>,>j>)>>·>M>>(>i>,>j>)>>>>$

最后计算出整个信号总的失真距离为

$>>EBSD>=>>1>N>>>Σ>>i>=>1>>N>>>Σ>>j>=>1>>15>>>>d>xy>>2>>>(>i>,>j>)>>·>M>>(>i>,>j>)>>>>(其中N为总帧数)。$

在BSD测度用于语音SSB调制经过不同干扰失真都已达到主客观评价高度相关的情况下，对同样的实验条件EBSD得到的结果还是进一步提高了主客观评价的相关系数百分之一到百分之三左右，标准偏差得到减小，表明这种测度是一种与主观音质评价一致性更好的语音测度。同时，基于扩展函数的EBSD测度相对于MBSD具有更好的普适性。

附图说明

图1是基于噪声掩蔽门限算法的巴克谱失真(EBSD)测度方法工作框图

图2是18个扩展函数临界带滤波器组

图3是SSB调制失真条件BSD测度归一化主客观评价二次拟合曲线

图4是SSB调制失真条件EBSD测度归一化主客观评价二次拟合曲线

具体实施方式

下面结合附图详细说明本发明的实现方法

EBSD测度主要分为三步，即听觉响度计算、噪声掩蔽门限NMT估计和EBSD计算，其工作原理框图见图1。

本发明的独创性在于将NMT算法引入广泛使用的BSD失真测度，采用SFM方法来度量噪声对纯音的掩蔽和纯音对噪声的掩蔽，比较语音信号的响度差与NMT的值作为失真距离计算的判决准则，即在失真距离的计算中考虑NMT是否掩蔽信号的响度差。其中确定输入语音的噪声掩蔽门限值NMT是计算EBSD测度的关键步骤，符合人耳听觉掩蔽特性的NMT由信号临界频带分析、对巴克谱应用谱扩展函数、计算NMT和听阈比较四步来完成。

如图1所示，要对输入语音信号和输出语音信号分别进行预处理，预处理包括将输入语音信号和输出语音信号作FFT变换后得到功率谱P(k)(P(k)＝Re²(k)+Im²(k))，接着按照下面表1中的临界频带划分，

频带数(Bark)中心频率 (Hz)带宽(Hz) 下限频率 (Hz) 上限频率 (Hz)频带数(Bark) 中心频率 (Hz)带宽(Hz) 下限频率 (Hz) 上限频率 (Hz) 1 50 80 20 100 13 1850 280 1720 2000 2 150 100 100 200 14 2150 320 2000 2320 3 250 100 200 300 15 2500 380 2320 2700 4 350 100 300 400 16 2900 450 2700 3150 5 450 110 400 510 17 3400 550 3150 3700 6 570 120 510 630 18 4000 700 3700 4400 7 700 140 630 770 19 4800 900 4400 5300 8 840 150 770 920 20 5800 1100 5300 6400 9 1000 160 920 1080 21 7000 1300 6400 7700 10 1170 190 1080 1270 22 8500 1800 7700 9500 11 1370 210 1270 1480 23 10500 2500 9500 12000 12 1600 240 1480 1720 24 13500 3500 12000 15500

表1(临界频带的划分)

求得各个临界频带(只取前面17个)内的巴克谱功率能量，然后对每个Bark带抽一次样，即求得每个Bark带在一帧信号中的能量分布，得到临界带能量：

得到B_ij后再应用扩展函数，扩展函数矩阵为

$>>S>>(>j>,>>j>′>>)>>=>15.81>+>7.5>·>>(>j>->>j>′>>+>0.474>)>>->17.5>>1>+>>>(>j>->>j>′>>+>0.474>)>>2> >>>$

图2为扩展函数滤波器组。

对B_ij用扩展函数进行滤波卷积：

$>>C>>(>j>)>>=>>Σ>>>j>′>>=>1>>17>>S>>(>j>,>>j>′>>)>>B>>(>>j>′>>)>>>>$

这样得到的C(j)值就是第j个Bark带的扩展巴克谱，意味着其它各临界带对这一频带的综合影响作用。然后将扩展巴克谱C(j)在话音频带内应用等响度曲线预加重得到信号的响度级，将响度级转换为语音信号的响度，分别得到输入语音信号和输出语音信号第i帧的响度L_x(i)与L_y(i)。

然后根据L_x(i)和L_y(i)计算出输入语音信号和输出语音信号之间的响度差d_xy(i)。

同时要确定输入语音信号的噪声掩蔽门限，将输入语音信号作FFT变换后得到功率谱P(k)(P(k)＝Re²(k)+Im²(k))，接着按照上面表1中的临界频带划分，求得各个临界频带(只取前面17个)内的巴克谱功率能量，然后对每个Bark带抽一次样，即求得每个Bark带在一帧信号中的能量分布，得到临界带能量：

$>>>B>ij>>=>>Σ>>k>=>>b>jl>>>>b>jh>>>>P>i>>>(>k>)>>>>$

得到B_ij后再应用扩展函数，估计临界频带之间的相互影响。扩展函数用来描述各个临界带的信号对其它临界带信号的掩蔽特性。实际应用中，可以用两条线段来保守地逼近实验中得出的掩蔽曲线。扩展函数矩阵为

$>>S>>(>j>,>>j>′>>)>>=>15.81>+>7.5>·>>(>j>->>j>′>>+>0.474>)>>->17.5>>1>+>>>(>j>->>j>′>>+>0.474>)>>2> >>>$

对B_ij用扩展函数进行滤波卷积： $>>C>>(>j>)>>=>>Σ>>>j>′>>=>1>>17>>S>>(>j>,>>j>′>>)>>B>>(>>j>′>>)>>>>$

这样得到的C(j)值就是第j个Bark带的扩展巴克谱，意味着其它各临界带对这一频带的综合影响作用。语音信号的音调特性决定了掩蔽程度的大小。同时性掩蔽效应包括纯音掩蔽噪声和噪声掩蔽纯音两种情况，因此各部分的贡献大小与信号的音调特性(似噪性)有关。谱平坦度量度SFM(Spectral FlatnessMeasure)定义为信号功率谱的几何平均G_m与算术平均A_m的比值

$>>SFM>=>10>log>>>G>m>>>A>m>>>>>$

接着定义一个音调因子α作为信号音调特性的判断：

$>>α>=>min>>(>>SFM>>SFM>max>>>,>1>)>>>>$

其中SFM_max＝-60dB时设定信号是完全纯音特性，如果SFM＝0dB，则信号几乎为完全噪声特性。

当纯音掩蔽噪声时，掩蔽值为扩展谱C(j)减去(14.5+j)，即低于C(j)-(14.5+j)dB的噪声是听不见的；反之，噪声掩蔽纯音时，C(j)-5.5dB以下的语音也是听不见的。根据音调因子α的值可以确定一个对C(j)的修正值：

O_j＝α(14.5+j)+5.5(1-α)

然后得到Bark带噪声掩蔽门限：

$>>>NMT>j>>=>>10>>log>C>>(>j>)>>->0.1>·>>O>j>>>>>>$

最后把得到的每个临界频带NMT与听阈比较，如果某临界频带的NMT小于听阈，则实际的掩蔽门限以听阈代替，听阈的计算公式为

最后得到输入语音信号的噪声掩蔽门限(NMT)。

最后根据求得语音信号响度差和输入语音信号的噪声掩蔽门限(NMT)来进行EBSD计算。为了确定某一临界带是否可以感知，定义一个掩蔽矩阵符号M(i，j)，j表示第i帧的第j个Bark带。当失真可以被感知，M(i，j)为1，反之M(i，j)为0，它也是一个只包含0和1元素的矩阵。而M(i，j)的取值由d_xy(i)与NMT比较得来

M(i，j)＝1 d_xy(i，j)＞NMT(i，j)

M(i，j)＝0 d_xy(i，j)≤NMT(i，j)

下面把所有听觉能感知的响度差求和得到一帧信号的失真距离，即计算巴克谱失真时不考虑被掩蔽的距离：

$>>EBSD>>(>i>)>>=>>Σ>>j>=>1>>15>>>>d>xy>>2>>>(>i>,>j>)>>·>M>>(>i>,>j>)>>>>$

这里EBSD(i)为第i帧的失真距离，在300-3400Hz的话音频带取15Bark。最后整个测试信号总的失真距离为

$>>EBSD>=>>1>N>>>Σ>>i>=>1>>N>>>Σ>>j>=>1>>15>>>>d>xy>>2>>>(>i>,>j>)>>·>M>>(>i>,>j>)>>>>(其中N为总帧数)$

通过比较语音信号的响度差与NMT的值，在失真距离的计算中排除被NMT掩蔽的临界频带，得出语音信号的失真曲线。

本发明依据人耳听觉系统的同时性掩蔽特性，在听觉响度域内动态地确定原始语音信号和失真语音信号的响度差掩蔽阈，该掩蔽阈主要由信号的音调性修正得来，对不同的语音失真条件，选取不同的掩蔽阈能够得到各自最好的相关性，从客观评价与主观评价的统计相关性上表明，使用本发明EBSD测度后客观评价与主观评价结果之间具有相对其他测度更好的一致性。

在BSD测度用于语音SSB调制经过不同干扰失真都已达到主客观评价高度相关的情况下，对同样的实验条件EBSD得到的结果还是进一步提高了主客观评价的相关系数百分之一到百分之三左右，标准偏差得到减小(见表2、图3和图4)，表明这种测度是一种与主观音质评价一致性更好的语音测度。同时，基于扩展函数的EBSD测度相对于MBSD具有更好的普适性。三种BSD测度的相关系数比较见下表(表2)：

SSB BSD MBSD EBSD 0.918 0.918 0.923

表2三种BSD测度的相关系数

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法 [P] . 中国专利： CN1321400C . 2007.06.13
2. 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法 [P] . 中国专利： CN1655230A . 2005-08-17
3. In the image formation device the noise aural masking device and the noise aural masking manner [P] . 日本专利： JP3384478B2 . 2003-03-10

机译：图像形成装置中的噪声听觉掩蔽装置和噪声听觉掩蔽方式
4. Masking noise modulation and interference noise in non-speech intervals in telecommunication system that uses echo cancellation, by inserting noise to match estimated level [P] . 德国专利： DE10119277A1 . 2002-10-24

机译：通过插入噪声以匹配估计电平，在使用回声消除的电信系统中的非语音间隔中掩蔽噪声调制和干扰噪声
5. Method for compensating barkhausen noise during measuring magnetic field by fluxgate sensor, involves demodulating voltage distribution without noise influence to maintain utilization signal and characterizing magnetic field based on signal [P] . 德国专利： DE102009045237B3 . 2011-06-09

机译：一种通过磁通门传感器补偿磁场中巴克豪森噪声的方法，包括解调不受噪声影响的电压分布以维持利用率信号并基于信号表征磁场