首页> 中国专利> 基于噪声屏蔽核的说话人识别方法

基于噪声屏蔽核的说话人识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括：步骤1：输入音频数据，对音频数据逐帧提取短时特征；步骤2：采用语音数据的短时特征训练一个含M个高斯混元的GMM模型，记为语音GMM；步骤3：采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型，记为噪声GMM；步骤4：将语音GMM和噪声GMM拼接成一个混合GMM；步骤5：用混合GMM生成噪声屏蔽超矢量；步骤6：采用生成的噪声屏蔽超矢量进行SVM的训练和测试，完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽，且实现简单，可以有效提高噪声条件下说话人识别的性能。

著录项

公开/公告号CN103714818A

专利类型发明专利
公开/公告日2014-04-09

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN201310681894.0
发明设计人张卫强;刘加;
展开▼

申请日2013-12-12
分类号G10L17/20(20130101);
代理机构11246 北京众合诚成知识产权代理有限公司;
代理人黄家俊
地址 100084 北京市海淀区北京市100084-82信箱
入库时间 2024-02-19 22:57:46

法律信息

法律状态公告日

法律状态信息

法律状态
2020-05-19

专利权的转移 IPC(主分类):G10L17/20 登记生效日:20200430 变更前: 变更后: 申请日:20131212

专利申请权、专利权的转移
2020-04-03

专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L17/20 变更前: 变更后: 申请日:20131212

专利权人的姓名或者名称、地址的变更
2016-12-21

专利权的转移 IPC(主分类):G10L17/20 登记生效日:20161201 变更前: 变更后: 申请日:20131212

专利申请权、专利权的转移
2016-06-22

授权

授权
2014-05-07

实质审查的生效 IPC(主分类):G10L17/20 申请日:20131212

实质审查的生效
2014-04-09

公开

公开

查看全部

说明书

技术领域

本发明属于语音信号处理领域，尤其涉及一种基于噪声屏蔽核的说话人识别方法。

背景技术

说话人识别技术可以通过语音识别说话人的身份，它在远程身份认证、信息安全等领域有着广泛的应用。目前在说话人识别领域，GSV-SVM（基于高斯混合模型均值超矢量的支持向量机）是一种常用的方法，它先利用UBM（通用背景模型）生成GSV（高斯混合模型均值超矢量），然后再用SVM（支持向量机）进行说话人识别。该方法容易受噪声的影响，为了解决这一问题，一般在前端进行语音增强，或者建模时采用信道补偿技术。但这些方法都需要引入额外的模块来处理噪声，实现时较为复杂。

发明内容

针对上述现有技术存在的问题，本发明提出一种基于噪声屏蔽核的说话人识别方法，其特征在于，所述方法具体包括以下步骤：

步骤1：输入音频数据，对音频数据逐帧提取短时特征；

步骤2：采用语音数据的短时特征训练一个含M个高斯混元的GMM模型，记为语音GMM；

步骤3：采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型，记为噪声GMM；

步骤4：将语音GMM和噪声GMM拼接成一个混合GMM；

步骤5：用混合GMM生成噪声屏蔽超矢量；

步骤6：采用生成的噪声屏蔽超矢量进行SVM的训练和测试，完成说话人的训练和识别。

所述步骤1中短时特征采用短时倒谱特征，短时倒谱特征类型是线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。

所述步骤1中短时特征还能够采用短时能量、短时过零率、短时相关系数。

所述步骤2和步骤3中GMM模型训练方法采用EM算法。

所述步骤2中M取值是几百至几千，所述步骤3中N取值是几十至几百，M取值为10N以上。

所述步骤4中GMM拼接方法为：设语音GMM参数为噪声GMM参数为其中w为高斯混元的权重，μ为高斯混元的均值向量，Σ为高斯混元的方差矩阵，下标m为高斯混元的标号，上标s表示语音，上标n表示噪声，则混合GMM的参数为：

$> {w_{m}, μ_{m}, Σ_{m}} = (\begin{matrix} {\frac{1}{2} w_{m}^{s}, μ_{m}^{s}, Σ_{m}^{s}}, & m = 1, . . ., M \\ {\frac{1}{2} w_{m - M}^{n}, μ_{m - M}^{n}, Σ_{m - M}^{n}}, & m = M + 1, . . ., M + N \end{matrix})$ >

所述步骤5中噪声屏蔽超矢量的产生方法为仅计算前M个混元对应的维，屏蔽掉噪声对应的维。

所述步骤5中噪声屏蔽超矢量的具体产生方法如下：

步骤501：假设一段音频的短时倒谱特征为{x_t,t=1,…,T}，其中x为一帧特征，下标t为帧标号，T为总帧数,逐帧计算各个高斯混元的后验概率，t=1,…,T，m=1,…,M：

$> γ_{m} (t) = \frac{w_{m} p_{m} (x_{t})}{Σ_{m^{'} = 1}^{M + N} w_{m^{'}} p_{m^{'}} (x_{t})}$ >

其中p_m(x_t)是第m个高斯混元的高斯概率密度,其计算公式为：

$> p_{m} (x_{t}) = \frac{1}{{(2 π)}^{D / 2} | Σ_{m} |^{1 / 2}} \exp {- \frac{1}{2} {(x_{t} - μ_{m})}^{T} Σ_{m}^{- 1} (x_{t} - μ_{m})};$ >

步骤502：计算各个高斯混元更新均值矢量，m=1,…,M：

$> ξ_{m} = \frac{Σ_{t = 1}^{T} γ_{m} (t) x_{t}}{Σ_{t = 1}^{T} γ_{m} (t)};$ >

步骤503：利用GMM权重和方差对其各个高斯混元更新均值矢量进行规整，m=1,…,M：

$> ξ_{m}^{'} = \sqrt{w_{m}} Σ_{m}^{- 1 / 2} ξ_{m};$ >

步骤504：对M个规整后的矢量进行拼接，生产噪声屏蔽超矢量：

$> ζ = (\begin{matrix} ξ_{1}^{'} \\ ξ_{2}^{'} \\ . \\ . \\ . \\ ξ_{M}^{'} \end{matrix})$ >

所述SVM的训练和测试中核函数采用线性核。

本发明的有益效果是：噪声屏蔽超矢量可以对音频中含有的噪声进行自动屏蔽，且采用GSV-SVM方法的框架进行处理，实现简单。采用该方法，可以有效提高噪声条件下说话人识别的性能。

附图说明

图1是本发明中训练混合GMM的流程图；

图2是本发明中生成噪声屏蔽超矢量的流程图。

具体实施方式

下面结合附图，对优选实施例作详细说明。应该强调的是下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

图1是本发明提供的训练混合GMM的流程图。所述方法具体包括以下步骤：

步骤1：对音频数据逐帧提取短时特征；

短时特征可以采用短时倒谱特征，短时倒谱特征提取方法（如一般语音信号处理教科书所述）中特征类型是为线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。

短时特征还能够采用短时能量、短时过零率、短时相关系数等。

步骤2：采用语音数据的短时特征训练一个含M个高斯混元的GMM模型，记为语音GMM；M一般取值是几百至几千，这里列举典型取值2048、1024、512；

步骤3：采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型，记为噪声GMM；N一般取值是几十至几百，这里列举典型取值128、64、32；

GMM模型训练方法（如一般语音信号处理教科书所述）采用EM（期望最大）算法。

步骤4：将语音GMM和噪声GMM拼接成一个混合GMM，具体拼接方法如下：设语音GMM参数为噪声GMM参数为其中w为高斯混元的权重，μ为高斯混元的均值向量，Σ为高斯混元的方差矩阵，下标m为高斯混元的标号，上标s表示语音，上标n表示噪声，则混合GMM的参数为：

步骤5：用混合GMM生成高斯混合模型均值超矢量，但仅计算前M个混元对应的维，即屏蔽掉噪声对应的维，称为噪声屏蔽超矢量；

生成噪声屏蔽超矢量的具体流程如图2所示，包括以下步骤：

$> γ_{m} (t) = \frac{w_{m} p_{m} (x_{t})}{Σ_{m^{'} = 1}^{M + N} w_{m^{'}} p_{m^{'}} (x_{t})}$ >

其中p_m(x_t)是第m个高斯混元的高斯概率密度,其计算公式为：

$> p_{m} (x_{t}) = \frac{1}{{(2 π)}^{D / 2} | Σ_{m} |^{1 / 2}} \exp {- \frac{1}{2} {(x_{t} - μ_{m})}^{T} Σ_{m}^{- 1} (x_{t} - μ_{m})};$ >

步骤502：计算各个高斯混元更新均值矢量，m=1,…,M：

$> ξ_{m} = \frac{Σ_{t = 1}^{T} γ_{m} (t) x_{t}}{Σ_{t = 1}^{T} γ_{m} (t)};$ >

步骤503：利用GMM权重和方差对其各个高斯混元更新均值矢量进行规整，m=1,…,M：

$> ξ_{m}^{'} = \sqrt{w_{m}} Σ_{m}^{- 1 / 2} ξ_{m};$ >

步骤504：对M个规整后的矢量进行拼接，生产噪声屏蔽超矢量：

$> ζ = (\begin{matrix} ξ_{1}^{'} \\ ξ_{2}^{'} \\ . \\ . \\ . \\ ξ_{M}^{'} \end{matrix})$ >

最后利用生成的噪声屏蔽超矢量进行SVM的训练和测试，完成说话人的训练和识别。

在本发明中，由于混合GMM含有噪声混元，它们可以自动吸收噪声。遇到噪声时，噪声混元的高斯概率密度较大，而语音混元的高斯概率密度较小，这会使步骤501中语音混元的后验概率偏小，从而使其在步骤502中的矢量所占比重较小，达到噪声屏蔽的目的。

步骤6：采用生成的噪声屏蔽超矢量进行SVM的训练和测试，完成说话人的训练和识别。

SVM的训练和测试方法（一般模式识别教科书中所述方法）中核函数采用线性核。

采用噪声屏蔽的超矢量，用于SVM的训练和测试，可以有效提高噪声条件下说话人识别的性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于噪声屏蔽核的说话人识别方法 [P] . 中国专利： CN103714818B . 2016.06.22
2. 基于内嵌GMM核的支持向量机模型的说话人识别方法 [P] . 中国专利： CN100570710C . 2009.12.16
3. Speaker Identification Method Converged with Text Dependant Speaker Recognition and Text Independant Speaker Recognition in Artificial Intelligence Secretary Service and Voice Recognition Device Used Therein [P] . 韩国专利： KR101993827B1 . 2019-06-27

机译：融合了人工智能秘书服务中基于文本的说话人识别和基于文本的说话人识别的说话人识别方法及其中使用的语音识别装置
4. COMBINED LEARNING METHOD AND APPARATUS USING DEEPENING NEURAL NETWORK BASED FEATURE ENHANCEMENT AND MODIFIED LOSS FUNCTION FOR SPEAKER RECOGNITION ROBUST TO NOISY ENVIRONMENTS [P] . 韩国专利： KR20200116225A . 2020-10-12

机译：基于深度神经网络的特征增强和经修正的损失函数对说话人识别鲁棒噪声环境的组合学习方法和装置
5. A NOISE MASKING DEVICE AND A METHOD FOR MASKING NOISE [P] . 世界知识产权组织专利： WO2020126777A1 . 2020-06-25

机译：噪声屏蔽装置及噪声屏蔽方法