首页> 中国专利> 基于遗传算法的基音频率检测方法

基于遗传算法的基音频率检测方法

摘要

本发明提供一种极低信噪比环境下的基音频率检测方法。其特征在于利用PEFAC算法提取语音帧信号的特征波形,然后利用最佳优化因子对特征波形进行优化从而构造新的特征波形,最后找出特征波形最大峰值所对应的频率值作为基音频率的估计值。其中最佳优化因子依靠GA算法搜索得到。

著录项

  • 公开/公告号CN107045875A

    专利类型发明专利

  • 公开/公告日2017-08-15

    原文格式PDF

  • 申请/专利权人 重庆工商职业学院;

    申请/专利号CN201610077797.4

  • 发明设计人 张小恒;

    申请日2016-02-03

  • 分类号

  • 代理机构

  • 代理人

  • 地址 400052 重庆市九龙坡区九龙科技园华龙大道1号

  • 入库时间 2023-06-19 03:00:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-06

    授权

    授权

  • 2017-09-08

    实质审查的生效 IPC(主分类):G10L25/39 申请日:20160203

    实质审查的生效

  • 2017-08-15

    公开

    公开

说明书

技术领域

本发明涉及基音频率检测方法,特别是一种极低信噪比环境下的基音频率检测方法。

背景技术

基音频率检测作为语音的基本参数,在语音分析合成以及语音分离等语音处理领域有着广泛的用途。准确可靠地估计并提取基音频率对语音信号处理至关重要。高信噪比的基音频率检测已经十分成熟,但这些方法在低信噪比环境下难以较好效果,特别是极低信噪比环境下的检测效果很差。鉴于此,本发明提供一种极低信噪比环境下的基音频率检测方法。

发明内容

针对现有技术在极低信噪比环境下的进行基音频率检测有着明显不足,本发明提供了一种极低信噪比环境下的基音频率检测方法。

该方法包括以下步骤:

1.训练过程:

(1)对语音数据库按时间顺序作语音分帧{frm(1),frm(2),…,frm(N)},并利用标准算法提取语音帧的基音频率F0作为基音频率真实值,并构成序列{F0(1),F0(2),…,F0(N)},其中N为语音帧的总数;

(2)在纯净语音帧基础上叠加噪声制作新的语音分帧序列{frmnoise(1),frmnoise(2),…,frmnoise(N)},并利用PEFAC算法将语音帧信号转化为相对应的特征波形序列

(3)利用优化因子与特征波形一起构造GA适应度函数,并进行全局搜索,直至得到最佳优化因子。其中优化因子为未知的M维向量α=[α12,…,αM],优化因子优化之后的特征波形构成新的特征波形序列提取特征波形的最大峰值peak和其所对应的频率值fpeak作为基音频率估计值,并形成序列{(peakmax(1),fpeak(1)),(peakmax(2),fpeak(2)),…,(peakmax(N),fpeak(N))}GA适应度函数即基音频率估计值与真实值误差不超过5%的概率。然后设置GA算法的相关参数进行搜索,最终找出最佳的优化因子αoptimal

2.测试过程:

(1)对测试语音信号进行分帧处理,并提取其基音特征波形

(2)利用最佳优化因子αoptimal优化,即构造优化后的基音特征波形

(3)识别并找出的最大峰值所对应的频率值作为基音频率的估计值。

本发明的上述技术方案与现有技术方案相比较,具有以下优点:

A、采用PEFAC算法提取特征波形,继承了其低信噪比环境下抑制噪声的优点;

B、采用GA进化算法搜索最佳优化因子,使得优化之后的所得到的基音频率估计值在低信噪比环境下更接近于真实基音频率值。

附图说明

图1是根据本发明的一个实施例构成的方法流程图;

具体实施方式

本发明提出的极低信噪比环境下的基音频率检测方法结合附图及实施例进一步说明如下:

本发明的方法流程如图1所示,包括以下步骤:

1.训练过程:

(1)对语音数据库按时间顺序分帧;

(2)并利用标准算法提取语音帧的基音频率作为基音频率真实值;

(3)对叠加有噪声的语音库信号按时间顺序分帧并利用PEFAC算法将语音帧信号转化为相对应的基音特征波形;

(4)利用优化因子作为未知参数与基音特征波形一起构造GA适应度函数,并进行全局搜索,直至得到最佳优化因子。

2.测试过程:

(1)对特测试的语音信号分帧;

(2)将语音帧信号转化为其相对应的基音特征波形;

(3)利用已训练好的最佳优化因子对基音特征波形进行优化,从而生成优化后的基音特征波形,并计算出优化后的基音特征波形的最大峰值所对应的频率作为基音频率的估计值。

本发明上述方法各步骤的具体实施例详细说明如下:

上述训练过程步骤(1)中的语音库实施例为TIMIT国际标准数据库,30名男性和30名女性的语音,每人语音时长20分钟,总时长为20小时。按时间分帧的采样率为16KHZ,每帧数据的为160个采样点;上述训练过程步骤(2)提取语音库基音频率的标准方法为praat算法工具;

上述训练过程步骤(3)叠加的噪声信号类型为高斯白噪声,且语音分帧方法与步骤(1)一致,将帧格式语音信号转化为基音特征波形的算法为PEFAC算法,其算法流程如下:

(a)将语音帧信号通过短时傅里叶变换映射到频域,并作标准化处理成为Xt′(q),其中q为对数化频率,即q=log(f);

(b)对Xt′(q)卷积运算生成基音特征波形其中滤波器定义为:

其中β的选取为满足∫h(q)dq=0,而γ设置为1.8;

上述训练过程步骤(4)中的优化因子的实施例为10维向量,且每一维的取值范围为0.5~1.5。基音特征波形为维度为250维的频域向量信号,频域跨度为60~400Hz的基音频域最大范围;

优化因子α与基音特征波形的维度不一致,因此在作优化运算即点乘运算时,α须扩展为250向量,其扩展方法将250维分为10段且每25维完全相同即可;

其中GA适应度函数的实施例为GA的训练过程步骤的实施例为:

1)令优化因子α=[α12,…,α10],首先根据求解精度的要求,确定使用二进制的长度。设优化因子每一维即值域的取值范围为[0.5,1.5],要求精确到小数点后3位,则由10n<2m-1,求得m的最小长度,进而可求出位于区间的任一数,最大迭代次数为30,优化因子任一维度其中j=1,2,…,10

2)利用二进制随机数发生器产生种群popu=rand2(popsize,10,m),即popsize×10×m的随机二进制数阵列,种群中染色体个数popsize为100,即每个染色体用10×m的二进制矩阵表达;

3)对种群中每一染色体(即优化因子)α(i),计算其对应的适应度函数值eval(α(i)),i=1,2,…,popsize为染色体(即优化因子)编号;

4)计算种群适应度之和F:

5)计算每个α(i)的选择概率Pi

其中i=1,2,…,popsize

6)计算每个α(i)的累加概率qi

其中i=1,2,…,popsize

7)产生一个位于[0,1]区间的随机数序列,如果其中任意一数r<qi,则选择第一个染色体,若qi-1<r<qi,则选择第i个染色体,i=1,2,…,popsize,这样可以获得新一代种群;

8)对新一代种群进行交叉运算:设交叉概率Pc为0.8,首先产生一个位于区间[0,1]内的随机数序列,如果其中任意一数r<Pc,则对应染色体被选中(如果选中奇数个,则可以去掉一个),然后在[1,m-1]区间中产生随机数,个数为选中的染色体数的一半,然后根据随机数在对应位置进行交换操作,从而构成新的染色体;

9)变异操作:设变异概率Pm为0.1,产生m×N个位于区间[0,1]上的随机数,如果某一随机数r<Pm则选中对应位变异,构成新的种群;

10)第一代计算完毕,返回继续计算(3),直到达到最大迭代次数为止。此时的最佳染色体值即为αoptimal

上述测试过程步骤(1)中的分帧方法与训练过程步骤(1)中保持一致;上述测试过程步骤(2)中的基音特征波形转化方法与训练过程步骤(3)保持一致。

上述测试过程步骤(3)中的基音特征波形优化运算与上述训练过程步骤(4)保持一致,且优化因子采用训练产生的最佳优化因子αoptimal

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号