首页> 中国专利> 一种基于MFCC远距离差值的鲁棒语音识别方法

一种基于MFCC远距离差值的鲁棒语音识别方法

摘要

本发明公开了一种基于梅尔频率倒谱系数(MFCC)远距离差值的鲁棒语音识别方法。本发明显著特点在于选用MFCC 4个采样点和6个采样点远距离差值作为语音识别特征参数,在基本不增加计算量和存储量的基础上比本领域通常使用的MFCC参数本身及其一阶差分系数作为特征参数时提高了鲁棒语音识别系统识别率20-40个百分点。

著录项

  • 公开/公告号CN102290048A

    专利类型发明专利

  • 公开/公告日2011-12-21

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN201110258884.7

  • 发明设计人 赵斯培;邱小军;

    申请日2011-09-05

  • 分类号G10L15/06;G10L15/14;G10L11/02;

  • 代理机构

  • 代理人

  • 地址 210093 江苏省南京市鼓楼区汉口路22号

  • 入库时间 2023-12-18 04:04:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-10-24

    授权

    授权

  • 2012-02-08

    实质审查的生效 IPC(主分类):G10L15/06 申请日:20110905

    实质审查的生效

  • 2011-12-21

    公开

    公开

说明书

一、技术领域

本发明涉及语音识别技术领域。提出了一种采用梅尔频率倒谱系数(MFCC)远距离差 值作为特征参数的鲁棒语音识别方法。

二、背景技术

语音识别系统在噪声环境下性能下降的主要原因是纯净的训练数据与被噪声污染的测试 数据之间存在着不匹配,寻找一种能够减少这种不匹配的特征参数是提高语音识别系统含噪 语音识别率的一种重要方法。目前常用的语音识别特征参数有梅尔频率倒谱系数(Mel  Frequency Cepstral Coefficient,简称MFCC)和线性预测倒谱系数(Linear Predictive Cepstral  Coefficient,简称LPCC)。MFCC符合人耳的听觉特性,具有较好的抗噪性能,计算方法如 下:首先对语音信号进行端点检测、预加重、分帧、加窗等预处理,然后对每一帧信号进行 快速傅立叶变换(Fast Fourier Transform,简称FFT)后取模平方得到功率谱,采用24维梅 尔滤波器组对功率谱进行滤波,将滤波后的能量进行对数变换,最后再进行离散余弦变换 (Discrete Cosine Transform,简称DCT)得到MFCC参数,具体计算过程可以参考文献(如 韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004.)。LPCC基于人 的发声模型,假设人的发声模型为一个全极点模型,认为当前时刻的语音可以用之前若干个 时刻的语音线性组合来表示。采用最小均方误差准则和自相关法可以求出上式中的线性预测 系数,然后根据同态处理方法可以求得线性预测倒谱系数(LPCC)。具体计算过程可以参见 文献(如韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004.)。

大量实验(如Steven B.Davis,Paul Mermelstein.Comparison of Parametric Representations  for Monosyllabic Word Recognition in Continuously Spoken Sentences.[J].IEEE Trans.on ASSP, 1980,28(4):357-366.和Shang-Ming Lee,Shi-hau Fang,Jeih-weih Hung and Lin-Shan Lee. Improved MFCC feature extraction by PCA-optimized filter-bank for speech recognition.[J].IEEE Automatic Speech Recognition and Understanding,2001,49-52.)表明,MFCC比LPCC具有更 好的抗噪声性能,但是MFCC在鲁棒语音识别中仍不能取得令人满意的效果(Yeganeh H., Ahadi S.M.,Ziaei A.A new MFCC improvement method for robust ASR.[J].IEEE ICSP,2008, 643-646.)。

文献(Steven B.Davis,Paul Mermelstein.Comparison of Parametric Representations for  Monosyllabic Word Recognition in Continuously Spoken Sentences.[J].IEEE Trans.on ASSP, 1980,28(4):357-366.)中采用主成份分析(Principal Component Analysis,简称PCA)的方法 对梅尔滤波器组进行优化,提高鲁棒性;又有文献(Yeganeh H.,Ahadi S.M.,Ziaei A.A new  MFCC improvement method for robust ASR.[J].IEEE ICSP,2008,643-646.)中首先计算梅尔子 带谱减,然后对每一个子带估计信噪比,根据此估计对参数进行加权,受噪声影响较小的参 数权重较大,从而达到提高语音识别系统在噪声环境下的鲁棒性。韩国专利KR100893154B1 将加权的MFCC系数用于语音性别识别中,美国专利US2009177466将语音频谱波峰的能量 代替整个功率谱用于提取语音的梅尔频率倒谱系数,在不增加语音特征维数的情况下提高了 语音识别的抗噪稳健性。

本发明的显著特点是利用MFCC远距离差值作为语音识别特征参数,摒弃传统的MFCC 参数本身及其一阶差分系数的组合作为语音识别特征参数。实验表明,当特征参数选用MFCC 4个采样点和6个采样点远距离差值时,语音识别系统具有最好的抗噪鲁棒性。

三、发明内容

1、发明目的:提出一种基于MFCC远距离差值的鲁棒语音识别方法。该方法选用MFCC 4个采样点和6个采样点的远距离差值作为特征参数,而摒弃传统的MFCC参数本身及其一 阶差分系数。

2、技术方案:为实现上述发明目的,本发明所提出的算法在计算得到MFCC参数的基 础上,求得其4个采样点和6个采样点的远距离差值,以此作为语音识别特征参数用于训练 和识别。

标准的MFCC参数计算方法为:首先对语音信号进行预处理,即端点检测、预加重、 分帧、加窗,然后对每一帧语音计算其FFT并取模平方得到功率谱,对功率谱用Mel滤波器 组进行滤波,滤波后取对数,并计算DCT得到标准的MFCC参数。具体可参阅文献(俸云, 景新幸,叶懋.MFCC特征改进算法在语音识别中的应用.[J].计算机工程与科学,2009, 31(12):146-148.)。

MFCC 2个采样点差值的计算方法如下:

Δ2MFCC(i)=MFCC(i+1)-MFCC(i-1)                    (1)

同理,MFCC 4个采样点远距离差值的计算方法如下:

Δ4MFCC(i)=MFCC(i+2)-MFCC(i-2)                    (2)

MFCC 6个采样点远距离差值的计算方法如下:

Δ6MFCC(i)=MFCC(i+3)-MFCC(i-3)                    (3)

其中MFCC(i)为第i帧语音信号的MFCC参数,Δ2MFCC为MFCC 2个采样点差值, Δ4MFCC为MFCC 4个采样点远距离差值,Δ6MFCC为MFCC 6个采样点远距离差值。

具体语音识别系统可采用如隐式马尔科夫模型(Hidden Markov Model,简称HMM)(但 不限于)作为系统模型,对选用的特征参数(本发明公开的MFCC 4个采样点和6个采样点 的远距离差值),训练过程可采用Baum-Welch算法(但不限于),识别过程可采用Viterbi解 码算法(但不限于)。具体语音识别系统算法流程可参阅文献(如何强,何英.MATLAB扩展 编程[M].北京:清华大学出版社,2002.)。

3、有益效果:本发明显著优点在于:选用MFCC 4个采样点和6个采样点远距离差值作 为语音识别特征参数,在基本不增加计算量和存储量的基础上,比本领域通常采用的MFCC 参数本身及其一阶差分系数组合作为特征参数提高含噪语音识别率20-40个百分点。

4、附图说明

图1是计算MFCC 4个采样点远距离差值的原理框图。

图2是计算MFCC 6个采样点远距离差值的原理框图。

五、具体实施方式

本发明所提出的算法特征为:选用MFCC远距离差值作为语音识别特征参数,摒弃传统 的MFCC参数本身及其一阶差分系数组合作为特征参数。下面以孤立词鲁棒语音识别系统为 例,详细介绍其实现过程。

孤立词鲁棒语音识别系统采用隐式马尔科夫模型(Hidden Markov Model,简称HMM) 作为系统模型,训练过程采用Baum-Welch算法,识别过程采用Viterbi解码算法。语音数据 为8kHz采样,16位量化,帧长为256,帧移128,加窗采用汉明窗。语音信号预处理部分, 端点检测采用经典的短时能量-过零率双门限法。具体HMM算法流程可参阅文献(如何强, 何英.MATLAB扩展编程[M].北京:清华大学出版社,2002.)。具体过程如下:

1、计算MFCC 4个采样点和6个采样点远距离差值作为特征参数

首先对语音信号进行预处理,即端点检测、预加重、分帧、加窗,然后对每一帧语音计 算其FFT并取模平方得到功率谱,对功率谱用Mel滤波器组进行滤波,滤波后取对数,并计 算DCT得到标准的MFCC参数。最后按照上述方法计算MFCC 4个采样点和6个采样点的 远距离差值作为特征参数。

2、用纯净语音进行HMM模型训练

用HMM进行语音识别时,先要对模型参数进行训练,此处用120人(63男/57女)的 纯净语音的MFCC 4个采样点和6个采样点远距离差值作为语音识别特征参数,输入到HMM 中进行训练。HMM采用连续概率密度模型,每个HMM有4个状态,每个状态由3个高斯 元混合而成。

3、用含噪语音进行测试

用51人(31男/20女)的含有不同信噪比的语音进行测试,发现选用MFCC 4个采样点 和6个采样点远距离差值作为特征参数比本领域通常使用的MFCC参数本身及其一阶差分系 数作为特征参数时识别率高出20-40个百分点,具体结果如表1-表4所示。

表1不同特征参数不同信噪比语音识别率(高斯噪声)

表2不同特征参数不同信噪比语音识别率(苏果超市噪声)

表3不同特征参数不同信噪比语音识别率(地铁车厢内噪声)

表4不同特征参数不同信噪比语音识别率(湖南路交通噪声)

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号