首页> 中国专利> 一种简单有效的短语语音识别方法

一种简单有效的短语语音识别方法

摘要

本发明公开了一种简单有效的基于GMM Token配比相似度的短语语音识别方法,该方法利用测试语音和样本短语语音在背景模型上的GMM token配比向量的相似度来识别短语,该方法算法复杂度低,进一步还可以仅根据短语发音的起始片段完成短语识别,而无需等待完整的短语发音过程结束,因此可适用于实时性要求较高的场合。

著录项

  • 公开/公告号CN104240699A

    专利类型发明专利

  • 公开/公告日2014-12-24

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201410462400.4

  • 发明设计人 杨莹春;吴朝晖;邓立才;

    申请日2014-09-12

  • 分类号G10L15/06(20130101);G10L15/10(20060101);

  • 代理机构33224 杭州天勤知识产权代理有限公司;

  • 代理人胡红娟

  • 地址 310027 浙江省杭州市西湖区浙大路38号

  • 入库时间 2023-12-17 04:53:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-05-10

    授权

    授权

  • 2015-01-14

    实质审查的生效 IPC(主分类):G10L15/06 申请日:20140912

    实质审查的生效

  • 2014-12-24

    公开

    公开

说明书

技术领域

本发明属于语音识别技术领域,具体涉及一种简单有效的短语语音识别方 法。

背景技术

短语语音识别技术是指利用信号处理技术和模式识别方法,通过采集短语 语音来识别短语内容的技术。目前,短语语音识别采用的主要特征包括梅尔倒 谱系数(MFCC)、线性预测编码倒谱系数(LPCC)、感觉加权的线性预测系数 (PLP)。主要采用隐马尔可夫模型、动态时间规划等方法。而这些方法的复杂 度较高,不适合实时性要求较高的场合。

发明内容

针对现有技术所存在的上述技术问题,本发明提供了一种简单有效的短语 语音识别方法,通过利用测试语音和目标短语的训练语音的GMM Token配比相 似度识别短语。

一种简单有效的短语语音识别方法,包括如下步骤:

(1)搜集一定数量的待识别短语发音的语音特征训练生成一个语音背景模 型SBM(Speech Background Model);

(2)针对任一个目标短语,计算其训练语音特征在语音背景模型SBM上 的GMM Token配比向量GTR;依此遍历所有目标短语;

(3)接收测试语音,计算测试语音特征在语音背景模型SBM上的GMM  Token配比向量GTR;

(4)计算测试语音特征与每一目标短语的训练语音特征关于GMM Token 配比向量GTR之间的相似度,根据相似度生成对应的目标短语得分;

(5)对最高目标短语得分进行阈值过滤后,识别确定最高目标短语得分所 对应的目标短语即为测试语音的真实内容。

所述的步骤(1)中采用EM算法(Expectation-maximization algorithm,简称 期望最大算法)训练生成语音背景模型SBM,其为混合阶数为M的高斯混合模 型,并以λ表示,M为大于1的自然数。

所述的步骤(2)和(3)中,计算特定语音特征在语音背景模型SBM上的 GMM Token配比向量GTR的具体过程如下;特定语音为训练语音或测试语音, 特定语音特征以X={x1,x2,...,xn}表示,xi为特定语音的第i帧特征向量;

首先,将特定语音特征转换成一个GMM Token序列T如下:

T={t1,t2,...,tn}ti∈{1,2,...,M}

其中:ti为GMM Token序列T中第i个Token元素,其取值为语音背景模型SBM 中的一高斯分量标号,M为语音背景模型SBM的混合阶数,i为自然数且1≤i ≤n,n为特定语音的总特征帧数;

然后,根据以下公式统计语音背景模型SBM中每一个高斯分量标号在 GMM Token序列T中出现的频率,即GMM Token配比分量fm

fm=Nmn

其中:Nm为高斯分量标号m在GMM Token序列T中出现的次数,fm为高斯分 量标号m在GMM Token序列T中出现的频率,m为自然数且1≤m≤M;

最后,根据GMM Token配比分量fm,构建特定语音特征在语音背景模型 SBM上的GMM Token配比向量GTR如下:

GTR=[f1,f2,...,fM]T

对于N个目标短语的训练语音特征,则依据上述流程计算出对应的GMM  Token配比向量GTRt1,GTRt2,…,GTRtN,N为大于1的自然数;对于任一测试语 音特征Xe,则依据上述流程计算出对应的GMM Token配比向量GTRe

所述的Token元素ti表示为最有可能生成对应帧特征向量xi的高斯分量标 号,其表达式如下:

ti=argmax1mMωmpm(xi)

其中:ωm为语音背景模型SBM中第m个高斯分量对应的权重,pm(xi)为特征 向量xi在语音背景模型SBM中第m个高斯分量上的似然得分,即特征向量xi由 语音背景模型SBM中第m个高斯分量生成的概率。

所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语 训练语音特征的GMM Token配比向量GTR之间的夹角余弦值,或采用测试语 音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token 配比向量GTR之间的欧式距离。

当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短 语训练语音特征的GMM Token配比向量GTR之间的夹角余弦值时,则对应的 目标短语得分即为该夹角余弦值;当所述的相似度采用测试语音特征的GMM  Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之 间的欧式距离,则对应的目标短语得分等于1减去该欧式距离。

所述的步骤(5)中使最高目标短语得分与预设的得分阈值进行比较,若最 高目标短语得分小于等于该得分阈值,则表明测试语音的内容不属于任一目标 短语;若最高目标短语得分大于该得分阈值,则确定该最高目标短语得分所对 应的目标短语为测试语音的真实内容。

本发明方法通过计算测试语音和目标短语训练语音在SBM上的GMM  Token配比相似度来识别短语,该方法算法复杂度低,进一步还可以仅根据短语 发音的起始片段完成短语识别,而无需等待完整的短语发音过程结束,因此可 适用于实时性要求较高的场合。

附图说明

图1为本发明方法的执行流程示意图。

具体实施方式

为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技 术方案进行详细说明。

本实施方式中的实验数据采用的是两个数据库,一个是中文情感语音数据 库(MASCCCNT),该数据库是在安静的环境下采用奥林巴斯DM-20录音笔 录制的,该数据库由68个母语为汉语的68个说话人组成,其中男性说话人45 人,女性说话人23人。本实施方式所提供的识别方法中,可以有多种选择,本 实施例中为了便于描述以及提供具体的测试结果,选取了每个说话人中性情绪 下的15句短语语音(包含5个不同的短语,每个短语3遍录音)。另一个数据库 是一个语音指令数据集,该指令集包括“前”,“左”,“右”三个指令;数据集 中包含7个人的录音数据,其中2名女性,5名男性。每个人的“前”,“左”, “右”分别录制了20遍。

如图1所示,本实施方式的步骤如下:

(1)搜集一定数量的待识别短语发音的语音特征训练生成一个语音背景模 型SBM。

对于“前左右”指令识别,SBM的训练语音包括每个说话人的“前”,“左”, “右”的前3遍语音,模型阶数为6阶,每个说话人剩余的“前左右”的后17 段录音作为测试集。对于MASCCCNT短语库中的每个说话人,其5个短语 的三遍录音中选择前两遍用于训练SBM,第三遍用于测试。

该步骤中的SBM训练过程如下:

1-1、对SBM训练语音信号进行预处理,预处理的步骤包括采样量化,去 零漂,预加重(加重信号的高频部分)和加窗(将一段语音信号分为若干段),

并对每段语音信号提取短时语音特征,可以是梅尔倒谱系数(MFCC)或线性预 测编码倒谱系数(LPCC)或感觉加权的线性预测系数(PLP),本实施例的实验 中,特征选用13维的MFCC特征以及一维能量特征,再加上一阶delta,总共 28维。

1-2、将所有SBM训练语音的短时语音特征MFCC通过EM算法训练出语 音背景模型SBM,是混合阶数M的高斯混合模型GMM,以λ=(ωmmm)表示。

一般性的,对任一M阶高斯混合模型GMM,以λ=(ωmmm)表示。由模 型λ生成语音特征序列X={x1,…,xn}的似然得分计算如下:

logp(X|λ)=Σi=1nlogp(xi|λ)---(1)

p(xi|λ)=Σm=1Mωmpm(xi)---(2)

pm(xi)=1(2π)D/2|Σm|1/2e-(1/2)(xi-μm)T(Σm)-1(xi-μm)---(3)

其中:ωm表示第m个高斯分量的权重;pm(xi)表示第m个高斯分布函数;μm表 示第m个高斯分量的均值;Σm表示第m个高斯分量的方差;xi表示第i帧短时 语音特征;n为语音特征序列长度;M为混合阶数,表示高斯分量的个数,可以 依据需要调整,本实施方式中的实验中取64。D为语音特征向量维数,本实施 方式中的实验中取13。

(2)针对每个目标短语,利用其训练语音在步骤(1)中训练得到的SBM 上的GMM Token配比向量。

2-1、该步骤中,GMM Token配比向量计算方法如下:

将每个目标短语的训练语音转换为相应的GMM Token序列,每一帧特征帧 都对应一个Token,而每一个Token代表GMM中使得该特征帧获得最高后验概 率的高斯分量的标号值。即对于一帧特征向量xi,它的GMM Tokenti如下式所 示:

ti=argmax1mMp(m|xi,λ)=argmax1mMωmpm(xi)p(xi|λm)=argmax1mMωmpm(xi)

其中:λ表示高斯混合模型,其阶数为M;λm表示该高斯混合模型的第m个高 斯分量;ωm为第m个高斯分量在模型中的权重;pm(xi)为特征向量在模型的第m 个高斯分量上的似然得分,通过公式(2)计算得到。

通过以上方式,一段语音的特征帧序列X={x1,x2,...,xn}经过计算便可得到其 GMM Token序列T={t1,t2,...,tn},其中ti∈{1,2,...,M},M为GMM模型阶数,本实 施例中取值为64。我们通过统计GMM Token序列中每个token出现的频率,得 到GMM Token配比因子(GTR)。对于一段语音的GMM Token序列T={t1,t2,...,tn} 而言,token i的频率fi通过下式计算得到:

fi=Nin

其中:Ni为GMM Token序列中,Token i出现的次数,n为语音的总帧数,即 GMM Token序列的长度。通过上式我们便能够得到一段语音的GMM Token配 比向量GTR如下:

GTR=[f1,f2,...,fM]T

其中:Token配比向量GTR中第i维即表示这段语音特征帧序列中,最 高后验概率得分为第i个高斯分量的特征帧占总帧数的比例。

本实施例中,对于3和5个目标短语训练语音特征,则可依据上述流程计 算出对应的GMM Token配比向量GTRt1,GTRt2,GTRt3和GTRt1,…,GTRt5

(3)采集测试语音,并提取测试语音特征,计算该测试语音特征在步骤(1) 中得到的SBM上的GMM Token配比向量GTRe

在该步骤中,本实施方式首先计算测试语音和所有目标短语语音在SBM上 的GMM Token配比的相似度值GTRS。

该步骤中,GMM Token配比向量的相似度可以利用多种方法计算,如向量 的欧式距离和向量的夹角余弦,以向量的夹角余弦为例,GMM Token配比向量 的相似度值GTRS计算如下式所示:

GTRSi,jcos=Σk=1M(GTRi,k×GTRj,k)||GTRi||×||GTRj||

其中:GTRi和GTRj为两个GMM token配比向量。

(4)根据相似度生成目标短语得分Scoretk。当相似度采用测试语音的GTR 与目标短语训练语音的GTR之间的夹角余弦值时,则目标短语得分Scoretk即采 用该夹角余弦值。

(5)比较测试语音的每一目标短语得分,识别确定最高得分所对应的目标 短语即为测试语音对应的短语。

对于一个包含N个目标短语的系统而言,比较测试语音测试语音的每一目 标短语得分Scoretk,选择最大得分对应的目标短语序号,作为最终的识别结果, 如下式所示:

id=argkmaxScoretk

式中,id为得分最大的值所对应的目标短语的序号。

例如,某一段待识别语音的第20个目标短语Scoretk最大,则识别结果为待 识别语音是由第20个目标短语。

以下我们对评测集中所有语句进行测试,“前左右”指令集测试语音共计357 句(7个评测人×3个短语×17遍(3个短语,每个短语重复17遍),MASCCCNT 短语库测试语音共计340句(68个评测人×5个短语×1遍(3个短语,每个短 语重复1遍)。实验结果如表1所示:

表1

从表1中可以看出,本发明取得了较好的识别结果。我们进一步提出根据 指令起始语音片段进行短语识别的方法。在实验中,我们针对每一个指令,只 选取了每个指令开始的前100ms的语音片段,然后利用基于GMM token配比相 似度的短语识别方法对指令进行识别,识别准确率为94.8%,虽然相对采取完整 的指令帧的准确率要略低一些,但指令的平均识别时间由原来的235.6毫秒降至 112.8毫秒,这大大的降低了指令识别所需的时间,因此这种方法可适用于实时 性要求较高的场合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号