法律状态公告日
法律状态信息
法律状态
2019-06-04
专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L15/02 变更前: 变更后: 申请日:20120410
专利权人的姓名或者名称、地址的变更
2018-01-26
著录事项变更 IPC(主分类):G10L15/02 变更前: 变更后: 申请日:20120410
著录事项变更
2018-01-26
专利权的转移 IPC(主分类):G10L15/02 登记生效日:20180105 变更前: 变更后: 申请日:20120410
专利申请权、专利权的转移
2017-12-29
专利权的转移 IPC(主分类):G10L15/02 登记生效日:20171211 变更前: 变更后: 申请日:20120410
专利申请权、专利权的转移
2014-07-23
授权
授权
2012-10-10
实质审查的生效 IPC(主分类):G10L15/02 申请日:20120410
实质审查的生效
2012-08-22
公开
公开
查看全部
技术领域
本发明涉及一种语音识别方法,具体涉及的是一种语音识别中的特征参数提取方法。
背景技术
语音识别技术是计算机模拟人类的认识过程,把人类的语音信号转变为相应的文本或命令的技术,其根本目的是研究出一种具有人听觉功能的机器,这种机器能够接受人的语音,理解人的意图,并做出相应的反应,从而对人类的发展提供帮助。
由于语音信号多变性,对环境的依赖性很强,这样就会导致所提取的语音特征参数有所差异,因此需要鲁棒性高的语音特征参数,才能提高语音的识别率。传统的语音特征算法主要从时域、频域等角度进行提取,主要有基于声道参数的线性预测倒谱参数及基于梅尔频率的倒谱特征参数等。
通过滤波分割的方法,分两个通道处理语音信号,低频部分主要是语音的浊音部分,采用符合人耳听觉特性的巴克滤波器组进行信号重构并提取语音特征,高频部分主要是清音及噪声部分,采用非线性动力学的最大李雅普诺夫指数来描述,最后整合为语音特征序列,进行语音识别。
发明内容
为解决上述问题,本发明提供一种语音识别中的特征参数提取方法,将数字语音样本采用低通滤波器和高通滤波器进行分割,获得低频和高频信息,使处理之后的信号更加符合人类的听觉系统,从而能够提取出性能更优秀的语音特征参数。
为实现上述技术目的,实现上述技术效果,本发明通过以下技术方案实现:
一种语音识别中的特征参数提取方法,将数字语音样本采用低通滤波器和高通滤波器进行分割,低通滤波器滤波后的信号采用基于人耳听觉特性的巴克滤波器组方法提取巴克频率倒谱参数,并进行规整化处理;高通滤波器滤波后的信号采用非线性动力学的最大李雅普诺夫参数来描述,其具体做法如下:
a.巴克频率倒谱参数的提取,包括以下步骤:
步骤1)选择巴克域子波母函数为: ,其中;
可得听觉感知域下的函数表达式:
;
其中,b代表听觉感知频率,听觉感知频率带宽为[b1,b2];
为的平移步长;
步骤2)再引入特劳恩米勒所给出的线性频率与听觉感知频率之间的函数关系:
;
步骤3)代入上式,就得到线性频率下的听觉感知子波函数的表达式:
;
为规整因子,可近似认为常数,取0.2;
步骤4)将语音能量计算出以后通过巴克滤波器组:,随后通过能量对数的离散余弦变换提取出巴克频率倒谱系数参数;
b.最大李雅普诺夫参数的提取采用wolf法,包括以下步骤:
步骤1)对语音时间序列采用虚假邻点法确定重构维数,平均互信息法确定延迟时间间隔,重构相空间,相点数为;
步骤2)以初始相点为基点,在点集中除外的其余点中选取一个与最近的点作为端点,构成初始向量,间欧氏距离可记为;
步骤3)时间步长或演化时间,初始向量沿轨线向前演化得到一新向量,其相应基点与端点间欧氏距离可记为,在相应时段内系统线度指数增长率记为:;
步骤4)如此继续,直至所有相点,然后取各指数的增长率的平均值为最大李雅普诺夫指数估计值:;
c.统一特征化,包括以下步骤:
步骤1)提取低频部分的巴克频率倒谱参数加上其一阶差分,巴克频率倒谱系数+△巴克频率倒谱系数共24阶,分别求取每阶参数的均值和方差,进行排列;
步骤2)提取高频部分的最大李雅普诺夫参数,取其前50帧;
进一步的,将所述巴克频率倒谱参数和所述最大李雅普诺夫参数分别采用K最近邻近、贝叶斯网络和支持向量机算法进行性能测试。
本发明的有益效果是:
本发明采用低通滤波器和高通滤波器进行分割,使处理之后的信号更加符合人类的听觉特性,从而能够提取出性能更优秀的语音特征参数。
附图说明
图1为本发明的流程图;
图2为所述巴克频率倒谱参数的提取流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
参见图1、图2所示,一种语音识别中的特征参数提取方法,将数字语音样本采用低通滤波器和高通滤波器进行分割,低通滤波器滤波后的信号采用基于人耳听觉特性的巴克滤波器组方法提取巴克频率倒谱参数,并进行规整化处理;高通滤波器滤波后的信号采用非线性动力学的最大李雅普诺夫参数来描述。
本实施例采用汉语数字语音库作为实验对象,每个数字语音各100个,共1000个数字语音作为实验的数据源,其具体做法如下:
a.巴克频率倒谱系数参数的提取,包括以下步骤:
步骤1)选择巴克域子波母函数为:,其中;
可得听觉感知域下的函数表达式:
;
其中,b代表听觉感知频率,听觉感知频率带宽为[b1,b2];
为的平移步长;
步骤2)再引入特劳恩米勒所给出的线性频率与听觉感知频率之间的函数关系:
;
步骤3)代入上式,就得到线性频率下的听觉感知子波函数的表达式:
;
为规整因子,可近似认为常数,取0.2;
步骤4)将语音能量计算出以后通过巴克滤波器组:,随后通过能量对数的离散余弦变换提取出巴克频率倒谱系数参数;
b.最大李雅普诺夫参数的提取采用wolf法,包括以下步骤:
步骤1)对语音时间序列采用虚假邻点法确定重构维数,平均互信息法确定延迟时间间隔,重构相空间,相点数为;
步骤2)以初始相点为基点,在点集中除外的其余点中选取一个与最近的点作为端点,构成初始向量,间欧氏距离可记为;
步骤3)时间步长或演化时间,初始向量沿轨线向前演化得到一新向量,其相应基点与端点间欧氏距离可记为,在相应时段内系统线度指数增长率记为:;
步骤4)如此继续,直至所有相点,然后取各指数的增长率的平均值为最大李雅普诺夫指数估计值:;
c.统一特征化,包括以下步骤:
步骤1)提取低频部分的巴克频率倒谱参数加上其一阶差分,巴克频率倒谱系数+△巴克频率倒谱系数共24阶,分别求取每阶参数的均值和方差,进行排列;
步骤2)提取高频部分的最大李雅普诺夫参数,取其前50帧;
步骤3)排列方式示意如下:
进一步的,将所述巴克频率倒谱参数和所述最大李雅普诺夫参数采用10折交叉验证方法,分别采用K最近邻近、贝叶斯网络和支持向量机算法进行性能测试。
实验结果见下表:
综合识别率为97.5%。
机译: 语音识别装置和方法,以先于先声语音的特征参数作为主辅音的特征参数进行语音识别
机译: 语音识别装置和方法,以先于铅浊声的特征参数作为主辅音的特征参数进行语音识别
机译: 修改用于语音识别的特征参数的方法,语音识别方法和语音识别装置