首页> 中国专利> 一种基于张量子空间分析的说话人识别方法及其装置

一种基于张量子空间分析的说话人识别方法及其装置

摘要

本发明涉及自动语音识别领域,特别是一种基于张量子空间分析的说话人识别方法和装置。该方法包括:通过语音数据,训练通用背景高斯混合模型和通用投影矩阵。随后,利用训练好的通用模型和目标说话人的语音建立说话人模型。最后,计算目标说话人模型和测试语音的低维嵌入矩阵的相关系数,并依此作为说话人识别的依据。该装置包括:语音预处理模块、特征提取模块、训练通用背景高斯混合模型模块、自适应模块、训练通用投影矩阵模块、计算低维嵌入模块、计算相关系数模块、分数判决模块和存储模块。本发明能够明显降低说话人建模时的运算量,并且具有模型自由度低、鲁棒性强等特点,适用于语音长度有限情况下的文本无关说话人识别。

著录项

  • 公开/公告号CN102737633A

    专利类型发明专利

  • 公开/公告日2012-10-17

    原文格式PDF

  • 申请/专利权人 北京华信恒达软件技术有限公司;

    申请/专利号CN201210212597.7

  • 发明设计人 刘加;何亮;孙贻滋;

    申请日2012-06-21

  • 分类号G10L15/28(20060101);G10L15/02(20060101);G10L15/22(20060101);

  • 代理机构北京清亦华知识产权代理事务所(普通合伙);

  • 代理人廖元秋

  • 地址 100083 北京市海淀区学院路20号炼化楼三层330(石油大院)

  • 入库时间 2023-12-18 06:57:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-10

    专利权的转移 IPC(主分类):G10L15/28 登记生效日:20171023 变更前: 变更后: 申请日:20120621

    专利申请权、专利权的转移

  • 2013-12-25

    授权

    授权

  • 2012-12-12

    实质审查的生效 IPC(主分类):G10L15/28 申请日:20120621

    实质审查的生效

  • 2012-10-17

    公开

    公开

说明书

技术领域

本发明涉及语音识别、模式识别和子空间分析领域,具体地说,是一种基于张量子 空间分析的说话人识别方法与装置。

背景技术

说话人识别,也称为声纹识别,是利用计算机,根据语音自动判断说话人身份的生物 特征识别技术。根据不同的应用场景,说话人识别技术有多种分类方法:根据语音内容是 否已知,说话人识别可分为文本相关的和文本无关的。根据识别任务的不同,说话人识别 可分为说话人辨识和说话人确认。说话人识别技术主要应用在安全监控、刑侦司法和电子 商务等领域。

近年来,主流的文本无关的说话人辨识(以下简称说话人识别)技术均基于Douglas A. Reynolds在2000年提出的高斯混合模型-通用背景模型(Gaussian mixture model-universal  background models,GMM-UBM)说话人识别系统。GMM-UBM系统从说话人识别角度, 提出了衡量两段语音相似程度的理论框架和实施方法,具有里程碑式的意义。随后十一年 中,围绕GMM-UBM系统,诸多学者和业内人士提出了各种改进技术,例如,高斯混合 模型-支持向量机(Support vector machine,SVM)、无用分量投影(Nuisance attribute  projection,NAP)、联合因子分析(Joint factor analysis,JFA)和I-vector技术等。这些技术 的本质都是将说话人高斯混合模型向一个高维向量空间进行映射。该高维空间又可称为再 生核希尔伯特空间(Reproducing kernel Hilbert space,RKHS)。通过在RKHS中选取合适 的度量,计算两段高维矢量的相似程度,从而达到衡量两段语音相似程度的目的。

将说话人高斯混合模型映射成为一个超矢量有如下的问题:(1)计算复杂度大。令F代 表频谱特征维数,M代表高斯混合模型数,则映射的高维矢量维数为F×M。为了在RKHS 中,选择合适的度量,一般要求解(F×M)×(F×M)对称实矩阵的特征值和特征向量。 在一个典型场景中,M=1024、F=39。求解39936×39936维实对称矩阵的特征值和特 征向量是难以在现有通用计算平台上实现的。虽然采用核主成分分析(Kernel principle  component analysis,KPCA)和迭代求解算法能在一定程度上缓解计算压力,但也具有相 当的计算量;(2)需要较多数据才能训练出稳健的模型。令上述技术所求的信道子空间维 数为R,则训练出的投影矩阵(正交投影或近似的斜投影)是(M×F)×R维矩阵。投影 矩阵所含的参数较多,进而要求有较多训练数据才能稳健估值。

以基于无用分量空间投影(Nuisance attribute projection,NAP)说话人识别系统为例, NAP系统需要的数据,按功能划分有如下五个部分:(1)训练通用背景高斯混合模型的语 音数据;(2)训练NAP矩阵的语音数据;(3)训练目标说话人的语音数据;(4)SVM反 模型语音数据;(5)待识别语音数据。

已有的基于NAP的文本无关说话人识别方法的主要流程如图1所示,包括训练通用 模型阶段、训练说话人模型阶段和测试阶段,其中:

1)训练通用模型阶段,包括以下步骤:

1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频 谱特征;

1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型 初始化;

1-c)利用最大期望算法(Expectation maximum,EM)更新步骤1-b)初始化的通用背 景高斯混合模型,一般而言,迭代8次即可;

1-d)通过语音预处理和特征提取,将训练NAP矩阵的语音数据转化为频谱特征;

1-e)通过最大后验概率(Maximum A Posterior,MAP)算法,利用步骤1-c)更新所得 的通用背景高斯混合模型,将训练NAP矩阵的频谱特征先转化为高斯混合模型,再转化成 超矢量;

1-f)通过NAP矩阵求解算法,利用步骤1-e)所得的超矢量训练NAP矩阵;至此, 通用背景高斯混合模型和NAP矩阵合称为通用模型。

2)训练说话人模型阶段:

2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据和SVM反模型 语音数据转化为频谱特征;

2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为高斯混合模型;

2-c)利用步骤1-f)训练好的NAP矩阵,将步骤2-b)的高斯混合模型展成超矢量, 并进行投影;

2-d)对步骤2-c)所得的超矢量,利用SVM训练算法,训练目标说话人模型。

3)测试阶段:

3-a)通过语音预处理和特征提取模块,将待识别语音转化为频谱特征;

3-b)通过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;

3-c)利用步骤1-f)训练好的NAP矩阵,将步骤3-b)的高斯混合模型展成超矢量, 并利用NAP矩阵进行投影;

3-d)利用步骤2-d)训练所得的目标人模型和步骤3-c)中所得的、投影后的超矢量, 根据SVM测试表达式计算相似分数;

3-e)将步骤3-d)计算所得的分数与预先估计好的阈值(该阈值可以在一开发集上估 计得到)进行比较,并给出识别结果。

上述步骤中,最为关键的一个步骤是NAP矩阵求解算法,即步骤1-f)。该算法具体过程 如下:

NAP矩阵的目标函数是:经过投影,同一个说话人对应的多段超矢量之间的方差应尽 量小

minUc1SΣs=1S{2Cs(Cs+1)Σc,c,ccCs||Psms,c-Psms,c||2}

=minUc1SΣs=1S{2Cs(Cs+1)Σc,c,ccCstr[(ms,c-ms,c)T(I-UcUcT)(ms,c-ms,c)]}---(1)

式(1)中s代表说话人索引,S代表训练NAP矩阵的语音数据中说话人的总数;c和c′代表 属于同一说话人s的两段不同语音,Cs代表对于说话人s,共有Cs段语音;Ps代表NAP投影 矩阵,Uc是线性矩阵;ms,c代表上述步骤中所提到的超矢量。忽略式(1) 中的常数项,可得

maxUctr[UcT1SΣs=1S{2Cs(Cs+1)Σc,c,ccCs(ms,c-ms,c)(ms,c-ms,c)T}Uc]---(2)

为了求解Ps,需要求解

1SΣs=1S{2Cs(Cs+1)Σc,c,ccCs(ms,c-ms,c)(ms,c-ms,c)T}---(3)

的特征值和特征向量。由于式(3)中,是高维 的实对称矩阵(例如,上面列举的一组典型参数(F×M)×(F×M)=39936×39936), 求解的运算量很大。

基于NAP的文本无关说话人识别装置主要包含如下几个模块:

1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号;

2)特征提取模块:用于从预处理后的语音中,提取频谱特征;

3)训练通用背景高斯混合模型模块:根据提取的频谱特征,训练通用背景高斯混合 模型;

4)自适应模块:根据提取出的频谱特征和通用背景高斯混合模型,采用MAP自适应 算法,计算一段语音对应的高斯混合模型;

5)训练NAP投影矩阵模块:根据自适应的高斯混合模型和对应的说话人标签,采用 NAP求解算法,训练NAP矩阵;

6)计算投影模块:根据模块4)输出的高斯混合模型和模块5)输出的NAP矩阵,计 算投影后的超矢量;

7)SVM训练模块:根据标准SVM训练算法和计算投影模块6)输出的超矢量,建立目 标说话人模型;

8)SVM判决模块:根据目标说话人模型和投影后的超矢量,计算相似分数;

9)存储模块。

在上述训练NAP投影矩阵模块5)中,涉及到求解高维的实对称矩阵过程,不仅需要 较多的训练数据才能准确估计,更要消耗大量的运算。说话人识别的正确率和训练语音的 长短、测试语音的长短都是有很密切的关系。语音越长,识别任务就越简单,识别率就越 高。在实际应用过程中,都会要求用户提供尽可能长的语音。然而,在很多应用场景,用 户能提供的语音长度是有限的。其语音长度,既达不到期望的长度,其长度也不是很短, 通常为30-90秒,故称这种语音是一种有限长度的语音。

张量子空间分析(Tensor subspace analysis)起源于人脸识别,假设一副人脸图像可以 用二维矩阵X′s,c表示,其中下标s代表该图像与某人s相关,下标c代 表该图像是该人的第c个照片,F′和M′代表一张图片的两个维度。张量子空间分析的目标 函数是使得同一个人多幅人脸图像的低维嵌入Y′s,c(R′F<F′, R′M<M′,R′F和F′M是降秩后的维数)尽可能近。

假设高维张量矩阵向低维嵌入的映射是线性的,令通用投影矩阵为U和V, Y′s,c=UX′s,cV。根据上述的目标函数,

minΣs=1SΣcc,1c,cCs||Ys,c-Ys,c||F2---(5)

其中,||·||F是Frobenius范数。将Y′s,c=UX′s,cV带入上式,可得

minU,VΣs=1SΣcc,1c,cCs||UXs,cV-UXs,cV||F2---(6)

由于U和V都是变量,使得上式求解存在一定的难度。一般通过迭代法解决上述问题。具 体做法是:先固定U,根据目标函数求解V;再固定V,根据目标函数求解U。当一个矩阵 固定,求解另一个矩阵是广义特征值、特征向量求解问题。

以固定矩阵U为例,考虑V的求解算法。为了求解式(6),需要将X′s,c进行重排,其下标索 引为1≤i≤N,并引入A矩阵。A矩阵中各元素定义如下:如果X′i和X′j源 于同一个人,Aij=1;如果X′i和X′j源于不同人,Aij=0。则式(6)可以重写为

minVΣi,j||UXiV-UXjV||F2Ai,j

=Σi,jtr((UTXiV-UTXjV)T(UTXiV-UTXjV))Aij---(7)

=2tr(VT(Du-Au)V)

其中,

Du=ΣinXiTUUTXiDii---(8)

Au=Σi,jnXiTUUTXjAij---(9)

Dii=Σj=1NAij---(10)

为了保证投影后,不同类之间的差异尽量大,需要最大化投影后各类之间的方差,即

maxVΣi||UXiV-UXiV||F2Dii---(11)

=tr(VT(Du-Au)V)

将式(7)和式(11)联合求解,

minVVT(Du-Au)VVTDuV---(12)

通过求解式(12),即可得到对V的估计。公示(12)表明,对V的估计是求解M×M实 对称矩阵的广义特征值和广义特征向量。

对U的估计与对V的估计方法类似。

发明内容

本发明的目的是为了解决已有技术的不足,公开提供了一种基于张量子空间分析的说 话人识别方法与装置。本发明可以有效降低运算量,降低训练数据的要求,使得利用相对 较少的训练数据和更低的计算复杂度,就能达到去除信道影响的目的,适用于有限长度的 语音识别任务,适用于实际的应用需求。

本发明提出的一种基于张量子空间分析的说话人识别方法,其特征在于,该方法包括: 训练通用模型阶段、训练说话人模型阶段和测试阶段;其特征在于,

1)训练通用模型阶段包括以下步骤:

1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频 谱特征;

1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型 初始化;

1-c)利用最大期望算法更新步骤1-b)初始化的通用背景高斯混合模型;

1-d)通过语音预处理和特征提取,将训练通用投影矩阵的语音数据转化为频谱特征;

1-e)通过最大后验概率算法,将频谱特征转化为高斯混合模型;将高斯混合模型的矩 阵按照索引排列成为矩阵,采用张量子空间分析算法,求解通用投影矩阵;

2)训练说话人模型阶段包括以下步骤:

2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据转化为频谱特征;

2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为说话人高斯混合模型;

2-c)利用通用投影矩阵,计算说话人高斯混合模型的低维嵌入,并作为说话人模型;

3)测试阶段包括以下步骤:

3-a)通过语音预处理和特征提取模块,将待识别语音数据转化为频谱特征;

3-b)过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;

3-c)利用通用投影矩阵,计算待识别的语音对应的高斯混合模型的低维嵌入,并计算 该低维嵌入与说话人模型的相关系数;

3-d)将该相关系数与预先估计好的阈值进行比较,并给出识别结果。

本发明还提出采用上述方法的基于张量子空间分析的说话人识别装置,其特征在于, 该装置包括以下9个模块:

(1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号;

(2)特征提取模块:用于从语音预处理模块预处理后的语音中,提取频谱特征,包 括梅尔频率倒谱系数,或线性预测倒谱系数,或感知线性预测;

(3)训练通用背景高斯混合模型模块:根据特征提取模块提取的频谱特征,训练通 用背景高斯混合模型;

(4)自适应模块:根据特征提取模块提取出的频谱特征和训练通用背景高斯混合模 型模块训练的通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯 混合模型;

(5)训练通用投影矩阵模块:根据自适应模块自适应计算的的高斯混合模型和对应 的说话人标签,采用张量子空间分析算法,训练通用投影矩阵;

(6)计算低维嵌入模块:根据训练通用投影矩阵模块训练的通用投影矩阵,计算高 斯混合模型对应的低维嵌入矩阵;

(7)计算相关系数模块:用于计算目标说话人语音对应的低维嵌入矩阵和待识别语 音的低维嵌入矩阵的相关系数;

(8)分数判决模块:将计算相关系数模块计算所得的相关系数与某个阈值进行比 较,并给出识别结果;

(9)存储模块:用于存储训练通用背景高斯混合模型模块、训练通用投影矩阵模块 和计算低维嵌入模块的数据并将相应数据传给相应模块。

本发明的特点及有益效果:

(1)与传统方法相比,本发明方法将张量子空间分析应用到说话人识别系统上。只 需要求解低维实对称矩阵的特征值和特征向量,避免了求解高维实对称矩阵的特征值和特 征向量,可以大幅度降低计算量。

(2)建模方法复杂度低,用较少的数据就能稳健的建立模型。适用于有限长度语音 的文本无关的说话人辨识问题。在训练语音和测试语音较少的情况下,本发明方法能更好 的完成说话人辨识任务,符合实际应用的需求。

附图说明

图1是已有的基于NAP的文本无关说话人识别方法的流程框图。

图2是本发明的方法流程框图。

图3是本发明的装置结构框图。

具体实施方式

本发明提出的一种基于张量子空间分析的说话人识别方法及其装置,结合附图及实施 例详细说明如下。

本发明提出的一种基于张量子空间分析的说话人识别方法,如图2所示,该方法包 括:训练通用模型阶段、训练说话人模型阶段和测试阶段;其特征在于,

1)训练通用模型阶段包括以下步骤:

1-a)通过语音预处理和特征提取,将训练通用背景高斯混合模型的语音数据转化为频 谱特征;

1-b)基于所提取的频谱特征,采用K-means或LBG算法,对通用背景高斯混合模型 初始化;

1-c)利用最大期望算法(Expectation maximum,EM)更新步骤1-b)初始化的通用背 景高斯混合模型;

1-d)通过语音预处理和特征提取,将训练通用投影矩阵的语音数据转化为频谱特征;

1-e)通过最大后验概率(Maximum A Posterior,MAP)算法,将频谱特征转化为高斯 混合模型;将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间分析算法,求 解通用投影矩阵;

2)训练说话人模型阶段包括以下步骤:

2-a)通过语音预处理和特征提取模块,将训练目标说话人的语音数据转化为频谱特征;

2-b)通过MAP算法,将步骤2-a)中的频谱特征转化为说话人高斯混合模型;

2-c)利用通用投影矩阵,计算说话人高斯混合模型的低维嵌入,并作为说话人模型;

3)测试阶段包括以下步骤:

3-a)通过语音预处理和特征提取模块,将待识别语音数据转化为频谱特征;

3-b)过MAP算法,将步骤3-a)中的频谱特征转化为高斯混合模型;

3-c)利用通用投影矩阵,计算待识别的语音对应的高斯混合模型的低维嵌入,并计算 该低维嵌入与说话人模型的相关系数;

3-d)将该相关系数与预先估计好的阈值(在开发数据语音集上估计的阈值)进行比较, 并给出识别结果。

上述步骤1-d)中,训练通用投影矩阵的语音数据有如下要求:(1)语音数据中有S个 说话人;(2)对于每个说话人,对应Cs段语音。

上述步骤1-e)中,将高斯混合模型的矩阵按照索引排列成为矩阵,采用张量子空间 分析算法,求解通用投影矩阵是本发明的重要部分。具体方法如下:

假设高斯混合模型的数学表示

λ={λi|ω,μi,∑i,1≤i≤M}    (1)

其中,ωi、μi和∑i分别是第i个混合分量的权重、均值和协方差矩阵。将λ各分量的均值向 量按照序号排列成矩阵X=[μ1,μ2,…,μM](MAP算法中,从鲁棒性角度考虑,往往仅高 斯混合模型的均值进行自适应。在自适应后的高斯混合模型中,仅均值蕴含用于区分说话 人的信息,所以利用均值排列成矢量)。

采用张量子空间分析算法,求解通用投影矩阵{U,V}。具体步骤如下:

步骤1-e-1)随机初始化U矩阵;

步骤1-e-2)根据

Du的计算方法如下

Du=ΣiXiTUUTXiDii

其中,Dii是中间变量,Dii的定义如下

Dii=ΣjAij

A矩阵中各元素定义如下:如果Xi和Xj源于同一个说话人,Aij=1;如果Xi和Xj源于不同 说话人,Aij=0。下标i,j代表语音段索引,其范围是1≤i≤N,1≤j≤N。N代表语 音段数总数,N=Σs=1SCs.

步骤1-e-3)求解前RM个最小的广义特征值Λ和对应的特征向量V,其中RM是矩阵V的秩

(Du-Au)V=ΛuDuV

得到V。

步骤1-e-4)根据V矩阵,计算Au和Du。Au的计算方法如下

Av=Σi,jXiVVTXjTAij

Du的计算方法如下

Dv=ΣiXiVVTXiTDii

步骤1-e-5)求解前RF个最小的特征值Λu和对应的特征向量U,其中RF是U矩阵的秩

(Du-Au)U=ΛuDuU

得到U。

步骤1-e-6)将步骤1-e-5)计算所得的U带入步骤1-e-2),迭代更新U和V,3至6次后, 得到通用投影矩阵U和V。

所述步骤2-c)和步骤3-c)中,高斯混合模型的低维嵌入的计算方法如下:

Y=UXV

其中,Y代表低维嵌入。

所述步骤3-c)中,低维嵌入与说话人模型的相关系数ρ的计算方法如下:

ρ=Σi=1RFΣj=1RMyt,iys,i,j||Yt||F||Ys||F

下标s代表说话人s,下标t代表测试,||·||F代表Frobenius范数,yi,j是Y中第i行第j列的元 素。

本发明还提出实现上述方法一种基于张量子空间分析的说话人识别装置,如图3所示, 该装置包括以下9个模块:

1)语音预处理模块:用于对语音降噪,分帧,预加重,输出相对纯净的语音信号。

2)特征提取模块:用于从语音预处理模块预处理后的语音中,提取频谱特征,包括 梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC),或线性预测倒谱系数(Linear  prediction coding cepstrum,LPCC),或感知线性预测(Perceptual linear predictive,PLP)。

3)训练通用背景高斯混合模型模块:根据特征提取模块提取的频谱特征,训练通用 背景高斯混合模型。

4)自适应模块:根据特征提取模块提取出的频谱特征和训练通用背景高斯混合模型 模块训练的通用背景高斯混合模型,采用MAP自适应算法,计算一段语音对应的高斯混 合模型。

5)训练通用投影矩阵模块:根据自适应模块自适应计算的的高斯混合模型和对应的 说话人标签,采用张量子空间分析算法,训练通用投影矩阵。

6)计算低维嵌入模块:根据训练通用投影矩阵模块训练的通用投影矩阵,计算高斯 混合模型对应的低维嵌入矩阵。

7)计算相关系数模块:用于计算目标说话人语音对应的低维嵌入矩阵和待识别语音 的低维嵌入矩阵的相关系数。

8)分数判决模块:将计算相关系数模块计算所得的相关系数与某个阈值进行比较, 并给出识别结果。

9)存储模块,用于存储训练通用背景高斯混合模型模块、训练通用投影矩阵模块和 计算低维嵌入模块的数据并将相应数据传给相应模块。

上述各模块均可用常规的数字集成电路实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号