法律状态公告日
法律状态信息
法律状态
2020-05-19
专利权的转移 IPC(主分类):G10L17/20 登记生效日:20200430 变更前: 变更后: 申请日:20131212
专利申请权、专利权的转移
2020-04-03
专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L17/20 变更前: 变更后: 申请日:20131212
专利权人的姓名或者名称、地址的变更
2016-12-21
专利权的转移 IPC(主分类):G10L17/20 登记生效日:20161201 变更前: 变更后: 申请日:20131212
专利申请权、专利权的转移
2016-06-22
授权
授权
2014-05-07
实质审查的生效 IPC(主分类):G10L17/20 申请日:20131212
实质审查的生效
2014-04-09
公开
公开
查看全部
技术领域
本发明属于语音信号处理领域,尤其涉及一种基于噪声屏蔽核的说话人识别方法。
背景技术
说话人识别技术可以通过语音识别说话人的身份,它在远程身份认证、信息安全等领域有着广泛的应用。目前在说话人识别领域,GSV-SVM(基于高斯混合模型均值超矢量的支持向量机)是一种常用的方法,它先利用UBM(通用背景模型)生成GSV(高斯混合模型均值超矢量),然后再用SVM(支持向量机)进行说话人识别。该方法容易受噪声的影响,为了解决这一问题,一般在前端进行语音增强,或者建模时采用信道补偿技术。但这些方法都需要引入额外的模块来处理噪声,实现时较为复杂。
发明内容
针对上述现有技术存在的问题,本发明提出一种基于噪声屏蔽核的说话人识别方法,其特征在于,所述方法具体包括以下步骤:
步骤1:输入音频数据,对音频数据逐帧提取短时特征;
步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;
步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;
步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;
步骤5:用混合GMM生成噪声屏蔽超矢量;
步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。
所述步骤1中短时特征采用短时倒谱特征,短时倒谱特征类型是线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。
所述步骤1中短时特征还能够采用短时能量、短时过零率、短时相关系数。
所述步骤2和步骤3中GMM模型训练方法采用EM算法。
所述步骤2中M取值是几百至几千,所述步骤3中N取值是几十至几百,M取值为10N以上。
所述步骤4中GMM拼接方法为:设语音GMM参数为
>
所述步骤5中噪声屏蔽超矢量的产生方法为仅计算前M个混元对应的维,屏蔽掉噪声对应的维。
所述步骤5中噪声屏蔽超矢量的具体产生方法如下:
步骤501:假设一段音频的短时倒谱特征为{xt,t=1,…,T},其中x为一帧特征,下标t为帧标号,T为总帧数,逐帧计算各个高斯混元的后验概率,t=1,…,T,m=1,…,M:
>
其中pm(xt)是第m个高斯混元的高斯概率密度,其计算公式为:
>
步骤502:计算各个高斯混元更新均值矢量,m=1,…,M:
>
步骤503:利用GMM权重和方差对其各个高斯混元更新均值矢量进行规整,m=1,…,M:
>
步骤504:对M个规整后的矢量进行拼接,生产噪声屏蔽超矢量:
>
所述SVM的训练和测试中核函数采用线性核。
本发明的有益效果是:噪声屏蔽超矢量可以对音频中含有的噪声进行自动屏蔽,且采用GSV-SVM方法的框架进行处理,实现简单。采用该方法,可以有效提高噪声条件下说话人识别的性能。
附图说明
图1是本发明中训练混合GMM的流程图;
图2是本发明中生成噪声屏蔽超矢量的流程图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
图1是本发明提供的训练混合GMM的流程图。所述方法具体包括以下步骤:
步骤1:对音频数据逐帧提取短时特征;
短时特征可以采用短时倒谱特征,短时倒谱特征提取方法(如一般语音信号处理教科书所述)中特征类型是为线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。
短时特征还能够采用短时能量、短时过零率、短时相关系数等。
步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;M一般取值是几百至几千,这里列举典型取值2048、1024、512;
步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;N一般取值是几十至几百,这里列举典型取值128、64、32;
GMM模型训练方法(如一般语音信号处理教科书所述)采用EM(期望最大)算法。
步骤4:将语音GMM和噪声GMM拼接成一个混合GMM,具体拼接方法如下:设语音GMM参数为
>
步骤5:用混合GMM生成高斯混合模型均值超矢量,但仅计算前M个混元对应的维,即屏蔽掉噪声对应的维,称为噪声屏蔽超矢量;
生成噪声屏蔽超矢量的具体流程如图2所示,包括以下步骤:
步骤501:假设一段音频的短时倒谱特征为{xt,t=1,…,T},其中x为一帧特征,下标t为帧标号,T为总帧数,逐帧计算各个高斯混元的后验概率,t=1,…,T,m=1,…,M:
>
其中pm(xt)是第m个高斯混元的高斯概率密度,其计算公式为:
>
步骤502:计算各个高斯混元更新均值矢量,m=1,…,M:
>
步骤503:利用GMM权重和方差对其各个高斯混元更新均值矢量进行规整,m=1,…,M:
>
步骤504:对M个规整后的矢量进行拼接,生产噪声屏蔽超矢量:
>
最后利用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。
在本发明中,由于混合GMM含有噪声混元,它们可以自动吸收噪声。遇到噪声时,噪声混元的高斯概率密度较大,而语音混元的高斯概率密度较小,这会使步骤501中语音混元的后验概率偏小,从而使其在步骤502中的矢量所占比重较小,达到噪声屏蔽的目的。
步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。
SVM的训练和测试方法(一般模式识别教科书中所述方法)中核函数采用线性核。
采用噪声屏蔽的超矢量,用于SVM的训练和测试,可以有效提高噪声条件下说话人识别的性能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
机译: 融合了人工智能秘书服务中基于文本的说话人识别和基于文本的说话人识别的说话人识别方法及其中使用的语音识别装置
机译: 基于深度神经网络的特征增强和经修正的损失函数对说话人识别鲁棒噪声环境的组合学习方法和装置
机译: 噪声屏蔽装置及噪声屏蔽方法