公开/公告号CN105321518A
专利类型发明专利
公开/公告日2016-02-10
原文格式PDF
申请/专利权人 中国科学院声学研究所;北京中科信利技术有限公司;
申请/专利号CN201410387404.0
申请日2014-08-05
分类号G10L15/26(20060101);
代理机构北京方安思达知识产权代理有限公司;
代理人王宇杨;王敬波
地址 100190 北京市海淀区北四环西路21号
入库时间 2023-12-18 14:21:19
法律状态公告日
法律状态信息
法律状态
2018-12-04
授权
授权
2016-03-09
实质审查的生效 IPC(主分类):G10L15/26 申请日:20140805
实质审查的生效
2016-02-10
公开
公开
技术领域
本发明属于语音识别领域,具体地说,本发明涉及一种低资源嵌入式识别的拒 识方法。
背景技术
在语音识别系统的应用中,经常出现集外词,噪声等非正确语音,因此对识别 结果的拒识非常重要。一般来说,为保证识别结果有比较高的识别率,系统往往给 出尽可能多的候选;如何拒识错误的候选成为关键问题。置信度判别技术就是这个 问题的有效解决办法。可靠的置信度计算在很多应用场合十分有效。例如,在噪音 或背景音乐环境下,识别结果会出现一些错误,对于这些错误的识别结果,应该分 配较低的置信度加以拒识,从而有效地降低虚警。
目前,语音识别中有很多置信度计算方法(文献[1]:WesselF.WordPosterior ProbabilitiesforLargeVocabularyContinuousSpeechRecognition.PHDDissertation, 2002.)。基于声学模型的置信度计算方法就是常用的一种方法,这种方法可以在整个 声学空间上计算命令词的置信度,对于命令词语音的每一帧观测序列,首先计算出 其后验概率,然后通过计算对数域的算术均值就可以得到整个命令词的置信度(文 献[2]:刘镜.语音识别中置信度分析的理论和应用.硕士学位论文,2000.),通过合 适的置信度域值,那些错误的识别结果就可以被拒识。然而,传统的置信度计算方 法对计算速度和存储空间都有比较高的要求,致使其在低资源应用上遇到了一定的 障碍,很难达到实时识别的要求。
伴随着个人移动通信和移动计算的迅猛发展,资源受限的小型手持设备迫切需 要带有拒识功能的语音识别技术为其提供方便高效的输入平台。针对资源受限环境 下的语音识别这一特殊应用,研究一种低资源下的拒识算法尤为重要。
发明内容
本发明的目的在于克服已有语音识别拒识方法占用资源过多,集外词拒识率不 高等缺陷,提出一种低资源条件下简单高效的二次判别拒识方法。
为了实现上述目的,本发明提出一种低资源嵌入式语音识别的拒识方法,包括:
基于命令词表,构建命令词的解码网络;基于垃圾音素(filler)列表,构建垃 圾音素解码网络;将垃圾音素解码网络并联到命令词解码网络中,形成完整的解码 网路空间;生成语音背景概率得分表;
采用二次判别拒识方法对待识别语音进行识别,其中所述的二次判别拒识方法 为:对待识别语音进行第一次识别,对第一次识别结果中的垃圾因素拒识,再对第 一次识别结果中的命令词进行第二次判别,得到最终识别结果。
上述技术方案中,所述第一次识别进一步包括:
101)对待识别语音进行预处理,得到若干个语音特征帧;
102)将一个语音特征帧输入解码网络空间,在语音背景概率得分表中查询该语 音特征帧的背景概率得分,并进行记录;
103)如果当前语音特征帧为第一个语音特征帧,转入104);否则,转入105);
104)计算所有与根节点相连节点的似然概率得分;转入102);
105)获取当前语音特征帧之前的所有语音特征帧在解码网络中的活跃节点;
106)判断当前语音特征帧是否到达词尾节点,如果判断结果是肯定的,转入 108);否则,转入107);
107)计算当前语音特征帧中所有节点的似然概率得分,转入114);
108)创建新令牌,将词尾节点持有的有效令牌连接到新令牌上;
109)判断新令牌持有路径中的最高概率得分是否大于门限;如果判断结果是肯 定的,转入111);否则,转入110);
110)删除新令牌,转入114);
111)判断新令牌对应的单词是否为垃圾音素,如果判断结果是肯定的,转入 112);否则,转入114);
112)获取重入次数,所述重入次数等于新令牌持有路径的长度;判断重入次数 是否超过门限;如果判断结果是肯定的,转入114);否则,转入113);
113)构建重入令牌;用重入令牌替换重入节点上似然概率得分最低的令牌;转 入114);
114)判断当前语音特征帧是否为最后一帧;如果判断结果是肯定的,转入115); 否则,转入102);
115)第一次识别结束,根据解码路径判断识别结果是否为命令词,如果判断结 果是肯定的,输出命令词;否则,输出拒识信息。
上述技术方案中,所述113)中,所述构建重入令牌包括:计算重入节点的似然 概率得分,以似然概率得分作为重入令牌的得分,路径为令牌持有的路径,生成重 入令牌。
上述技术方案中,所述第二次判别进一步包括:
201)计算命令词中每一个语音特征帧的后验概率得分,所述每一个语音特征帧 的后验概率得分等于该语音特征帧的似然概率得分除以该语音特征帧的背景概率得 分;
202)计算命令词中每一个音素的置信度得分,所述每一个音素的置信度得分等 于该音素包含的所有语音特征帧的后验概率得分的平均值;
203)计算命令词的置信度得分,所述命令词的置信度得分等于该命令词包含的 所有音素的置信度得分的平均值;
204)将命令词置信度得分与预先设定的门限进行比较,如果得分大于该门限, 则接受该命令词,否则就拒识。
本发明优点在于:
1、在语音解码识别过程中,通过控制垃圾音素解码网络的规模,降低内存占用;
2、采用二次判别拒识方法,降低虚警,提高对集外词的拒识率,满足了低资源 条件嵌入式语音识别的应用需求。
附图说明
图1:本发明的命令词识别路径示意图;
图2:本发明的垃圾音素识别路径示意图;
图3:本发明的二次判别拒识方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步详细地描述。
首先对本文涉及的专业术语进行解释;
状态:语音识别中使用隐马尔可夫模型(HMM)对识别单元进行建模,其最小描 述单位就是状态。一般来说,一个音素就是一个三至五状态的HMM。一个词就是构成 词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音 组合起来的HMM。
三音子:是考虑一个音素左右两方面的语音环境,通常包括这个音素与它跟左 邻音素之间的过渡段、这个音素本身以及它跟右邻音素之间的过渡段。
音素上下文:是指一个音素的左邻音素和右邻音素。
令牌:从起始语音帧到当前语音帧的一条活动搜索路径,它包含路径标识信息 以及路径与声学模型以及语言模型匹配的分值。
有效令牌:是指某个节点上,在当前帧保存下来的令牌。
根节点:是解码网络的开始节点,所有解码路径都是从根节点开始的。
初始节点:是指解码网络中,与根节点相连接的节点。
活跃节点:是指当前帧上累计概率得分超过一定阈值而没有被剪枝掉的节点。
词尾节点:是解码网络中标识一个词结束的节点。
重入节点:特指与根节点连接的垃圾网络中的节点。
现结合附图对本发明的具体实施作进一步的描述:
(1)参考图1,基于命令词表,构建命令词的解码网络;
采用图结构,以状态作为图节点,构造解码网络空间;由于不同的三音子可共 享某一相同状态,系统采用一种前向、后向归并算法,在以三音子为单元的音素上 下文描述中提取这种共享模式,并利用图结构有效表示这种共享结构,从而生成了 紧致的可精细描述声学上下文的解码网络空间。
(2)参考图2,基于垃圾音素(filler)列表,构建垃圾音素解码网络,从而获 得与命令词网络竞争的网络路径;
为了让垃圾音素可以描述非命令词外的任何语音现象,尽量挑选包含各种声韵 现象的音素;在本实施例中挑选了19个垃圾音素构建垃圾解码网络,所述的19个垃 圾音素是a1、ay_en、ah_en、at4、au1、b、ch、d、e4、ea4、er_en、h、ix4、iy_en、 l、nn、o3、s、u4。
(3)将垃圾音素解码网络并联到命令词解码网络中,形成完整的解码网路空 间;
所述并联是指将两个解码网络的开始节点和结束节点合并到一起,形成一个解 码网络。
(4)生成语音背景概率得分表;
(5)采用二次判别拒识方法对待识别语音进行识别,其中所述的二次判别拒识 方法为:对待识别语音进行第一次识别:解码识别,对第一次识别结果中的垃圾因 素拒识,再对第一次识别结果中的命令词进行第二次判别:置信度判决,得到最终 识别结果。
参考图3,上述技术方案中,所述步骤(5)进一步包括:
501)对待识别语音进行预处理,得到T(T>1)个语音特征帧,令t=1;
所述预处理包括:检测待识别语音的起始位置,并对待识别语音进行提取特征 以及码本量化处理。
502)将第t个语音特征帧输入解码网络空间,在语音背景概率得分表中查询该语 音特征帧的背景概率得分,并进行记录;
503)判断t是否等于1;如果判断结果是肯定的,转入504);否则,转入505);
504)计算所有与根节点相连节点的似然概率得分,t=2;转入502);
所述概率得分可作为解码剪枝策略的判断依据。
505)获取所有t-1个语音特征帧在解码网络中的活跃节点;
所述活跃节点是指截止到t-1帧,累计似然概率得分超过一定阈值的节点,在活 跃节点上可以往下继续拓展网络路径。
506)判断第t个语音特征帧是否到达词尾节点,如果判断结果是肯定的,转入 508);否则,转入507);
507)计算第t个语音特征帧中所有节点的似然概率得分,转入517);
508)获取该词尾节点持有的有效令牌数tknum个;
509)创建新令牌newP,并将tknum个令牌持有路径连接到newP上;
510)判断新令牌newP的持有路径中的最高似然概率得分是否大于门限;如果判 断结果是肯定的,转入512);否则,转入511);
511)删除新令牌newP,转入517);
512)判断新令牌newP对应的单词是否为垃圾音素,如果判断结果是肯定的,转 入513);否则,转入517);
513)获取重入次数;
所述重入次数为新令牌newP持有路径的长度;
514)判断重入次数是否超过门限;如果判断结果是肯定的,转入517);否则, 转入515);
对于低资源条件下的语音识别中,由于用户的发音不会太长,通过限制重入次 数,可以进一步降低内存占用。
515)构建重入令牌;包括:
计算重入节点的似然概率得分,以似然概率得分作为重入令牌的得分,路径为 新令牌newP持有的路径,生成重入令牌。
516)用重入令牌替换重入节点上得分最低的令牌;
所述重入令牌替换是指为了限制初始节点的个数,用重入令牌去替换原来得分 较低的令牌,而不是插入新的重入令牌,这样可减少垃圾网络的路径规模,降低内 存占用。
517)判断t是否等于T;如果判断结果是肯定的,转入519);否则,转入518);
518)t=t+1,转入502);
519)第一次识别结束,根据解码路径判断识别结果是否为命令词,如果判断结 果是肯定的,转入520);否则,转入521);
520)对命令词进行置信度判别,包括:
520-1)计算命令词中每一个语音特征帧的后验概率得分;所述每一个语音特征 帧的后验概率得分等于该语音特征帧的似然概率得分除以该语音特征帧的背景概率 得分;
520-2)计算命令词中每一个音素的置信度得分,所述每一个音素的置信度得分 等于该音素包含的所有语音特征帧的后验概率得分的平均值;
520-3)计算命令词的置信度得分,所述命令词的置信度得分等于该命令词包含 的所有音素的置信度得分的平均值;
520-4)将命令词置信度得分与预先设定的门限进行比较,如果得分大于该门限, 则接受该命令词,否则就拒识。
521)输出识别结果。
如果识别结果为命令词,则输出命令词;否则,输出拒识信息。
本发明的优选实施例的实验数据包括两部分:集内数据和集外数据。集内数据 包含13个命令词的298个语音样本,集外数据包含2217个的语音样本(不包含13个命 令词)。测试语音为采样率8000HZ、单声道、16bit的语音数据。测试结果见表1:
表1
由表中结果可以看出,不采用本发明的二次判别拒识策略的识别方法对集外语 音的拒识性能是非常差的,集外拒识率只有1.6%,这远远达不到实际应用的要求。 采用本发明提出的二次判别拒识方法后,虽然集内识别率下降了3%,但对集外词的 拒识有了显著的提高,集外词拒识率达到89.3%。另外,考虑到低资源条件下的应用, 采用二次判别拒识方法后,动态申请的内存增长非常有限,集内数据内存增长8.9K 字节,而集外数据内存增长22.8K字节,这表明本发明提出的方法对内存的占用满足 了低资源条件下实际应用的需求。
机译: 基于对话识的语音识别
机译: 一种改善无纺布抗静电性能而又不对拒酒织物和纱线织物的性能产生不利影响的方法,同时还改善了抗静电性能和拒酒性能。
机译: 具有低动态表面张力的拒水拒油组合物和拒水拒油的处理过程