首页> 中国专利> 语言模型得分前瞻值赋值设备、语言模型得分前瞻值赋值方法和程序存储介质

语言模型得分前瞻值赋值设备、语言模型得分前瞻值赋值方法和程序存储介质

摘要

一种通过使用语言模型得分前瞻值来执行帧同步集束搜索的话音识别装置防止了正确答案假设的删减,同时抑制假设数目的增长。一种语言模型得分前瞻值赋值设备108被设置有定义词语音素串的词语词典203、赋值词语的出现容易度得分的语言模型202、以及平滑化语言模型得分前瞻值计算装置201。平滑化语言模型得分前瞻值计算装置201从由词语词典203定义的词语的音素串以及由语言模型202定义的语言模型得分获得词语中每个音素处的语言模型得分前瞻值,使得防止语言模型得分前瞻值集中在词语的开头。

著录项

  • 公开/公告号CN102027534A

    专利类型发明专利

  • 公开/公告日2011-04-20

    原文格式PDF

  • 申请/专利权人 日本电气株式会社;

    申请/专利号CN200980117762.7

  • 申请日2009-03-27

  • 分类号G10L15/08;

  • 代理机构中原信达知识产权代理有限责任公司;

  • 代理人孙志湧

  • 地址 日本东京

  • 入库时间 2023-12-18 02:09:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-11

    未缴年费专利权终止 IPC(主分类):G10L15/08 专利号:ZL2009801177627 申请日:20090327 授权公告日:20130731

    专利权的终止

  • 2013-07-31

    授权

    授权

  • 2011-06-08

    实质审查的生效 IPC(主分类):G10L15/08 申请日:20090327

    实质审查的生效

  • 2011-04-20

    公开

    公开

说明书

技术领域

本发明涉及通过使用语言模型得分前瞻值来执行帧同步集束搜索的话音识别装置,以及适用于该话音识别装置的语言模型得分前瞻值赋值设备。

背景技术

诸如大词汇量连续话音识别装置的高性能话音识别装置将从声学模型的知识、词语词典和语言模型所预测的各种假设(识别候选)和未知输入话音之间的声学相似度和语言相似度计算为声学模型得分和语言模型得分,并且输出最可能的假设作为识别结果。此外,为了限制装置中保持的假设的数目以消除计算量和存储器容量,每次都对声学模型得分和语言模型得分进行综合评估。然后,得分低的假设由于较小的概率而被删减(pruned),由此防止随后的假设被采用。该方法被称为帧同步集束搜索方法(下文中简单称为集束搜索方法)。

图6中示出了话音识别装置的一个示例。在图6中,作为话音识别目标的话音波形被输入到话音输入装置301,并且被传送到声学分析装置302。声学分析装置302以帧为单位计算声学特征量,并且将该声学特征量输出到距离计算装置303。距离计算装置303计算输入声学特征量和声学模型304中的每个模型之间的距离,并且根据该距离将声学模型得分输出到搜索装置305。搜索装置305通过将声学模型得分和由语言模型402从语言模型得分前瞻值赋值设备308获得的语言模型得分相加获得要搜索的所有假设的累计得分,并且删减累计得分低的假设。对其余假设进行处理,并且从识别结果输出装置309输出最优识别结果。

图7示出了词语词典403的一部分的一个示例。该示例中的词语词典403是树形结构词典。此外,在图7中,对语言模型402所给出的每个词语中的语言模型得分进行相加。例如,词语“握手”(日语发音:“akusyu”)具有音素串“a-k-u-sy-u”,并且其语言模型得分为80。此外,词语“红色”(日语发音:“akai”)具有音素串“a-k-a-i”,并且其语言模型得分为50。在该示例中,较小的语言模型得分表示高得分。

当使用这样的树形结构词典时,树形结构的根部被连接到词语间迁移中先前的假设。然而,由于这时无法指定连接的词语,所以语言模型得分无法被添加到累计得分。如果语言模型得分在假设到达任何的词语末端时第一次被添加到累计得分,则得分会由于词语间迁移的假设而大幅变化。因此,需要使得集束宽度很大以即使在正确答案假设的得分大幅变化时也防止进行删减,这抑制了有效的集束搜索。

为了尽可能早地添加语言模型得分,语言模型得分前瞻值赋值设备308包括最优语言模型得分获得装置401,其获得与树形结构词典的每个分支相对应的词语的语言模型得分的最优值作为该分支中的最优语言模型得分。

更具体地,最优语言将模型得分获得装置401获得属于词语集合W(s)的词语w中的语言模型得分的最优值-log{p(w|h)},如表达式(1)所示,对于具有词语历史h的音素s的假设的语言模型得分前瞻值πh(s),其能够使用词语词典403和语言模型402在词典中从音素s进行追溯。当假设迁移到搜索装置305进行的搜索过程中的音素s时,如表达式(2)所示的先前音素s~的语言模型得分前瞻值和当前音素s的语言模型得分前瞻值之间的差值δh(s)被添加到该假设的累计得分。

πh(s)=min w∈W(s){-log p(w|h)}     ...(1)

δh(s)=πh(s)-πh(s~)       ...(2)

图8中示出了通过以上操作所给出的语言模型得分前瞻值的示例。末端音素右侧的值表示每个词语的语言模型得分,并且每个分支中的值表示赋值给分支的语言模型得分前瞻差值。在该示例中,当树形结构的根部被连接到先前的假设时,语言模型得分50可以被添加到累计得分。因此,与其中语言模型得分在假设到达词语末端时第一次被添加到累计得分的情况相比,能够执行有效的集束搜索。

在非专利文献1中公开了以上的最优语言模型得分获得装置401。非专利文献1公开了一元语言模型得分的前瞻和二元语言模型得分的前瞻两种方法。一元语言模型得分的前瞻使用一元语言模型得分作为语言模型得分前瞻差值。在该方法中,当假设到达树形结构词典的词语末端并且定义了该词语时,丢弃已经使用的一元语言模型得分,并且添加定义的二元语言模型得分。在假设到达词语末端时执行的该处理被称作词语末端处理。另一方面,二元语言模型得分的前瞻使用前瞻步骤中的二元语言模型得分。除了执行原始搜索的原始搜索装置306之外,图6所示的搜索装置305包括词语末端处理装置307,并且与使用一元语言模型得分的前瞻方法的示例相对应。

参考文献列表

非专利文献1

S.Ortmanns等人的“LANGUAGE-MODEL LOOK-AHEAD FORLARGE VOCABULARY SPEECH RECOGNITION”ICSLP 1996

发明内容

技术问题

在上述由最优语言模型得分获得装置401进行的语言模型得分的前瞻中,与树形结构词典中的每个分支相对应的词语的语言模型得分的最优值被设置为该分支中的语言模型得分。当与每个分支相对应的词语的所有语言模型得分低时,大多数低语言得分在较早的点被添加到这些词语,并且即使在假设是正确的答案假设时,也可能被删减。以下将描述特定的示例。

图9示出了使用树形结构词典作为词语词典403的语言模型得分前瞻值和词语词典的示例。在图9中,识别目标词语包括“点心”(日语发音:“okasi”),并且除了“okasi”(意思为:“点心”)之外没有词语以音素“o”和“k”的链(chain)开始。在该情况下,最优语言模型得分获得装置401向指向“o”的分支赋值语言模型得分前瞻值“50”。由于音素“k”和随后进行分支的音素中没有音素,所以对指向“k”的分支赋值语言模型得分前瞻值“90”(差值为40)。通常,在话音识别中,在考虑到周围上下文的情况下,三音素(三组音素)被用作识别单元。因此,关于“okasi”(意思为:“点心”)的假设,在“o-k-a-s-i”(意思为:“点心”)的音素串开头的音素“o”处也考虑右侧的上下文“k”,并且添加所有低语言模型得分“90”。因此,通过检测音素“k”和随后音素的一致性,即使在获得高的声学模型得分并且“okasi”(意思为:“点心”)为正确的答案假设时,在较早阶段添加大的语言模型得分前瞻值也会促进删减,这导致了识别错误。

此外,图10示出了使用树形结构词典作为词语词典403的语言模型得分前瞻值和词语词典的示例。在图10中,识别目标词语包括“取消”(日语发音:“kyanseru”)。虽然存在多个以音素“ky”和“a”的链开始的识别目标词语,但是每个语言模型得分都像“100”那么低。在该情况下,最优语言模型得分获得装置401对指向“ky”的分支赋值语言模型得分前瞻值“50”,并且对指向“a”的分支赋值语言模型得分前瞻值“100”(差值为50)。以该方式,低的语言模型得分“100”在音素“ky”处于词语开头时全部被添加到以音素“ky”和“a”的链开始的词语假设。因此,通过检测音素“a”和随后音素的一致性,即使在获得高的声学模型得分并且“kyanseru”(意思为“取消”)是正确的回答假设时,在较早阶段添加大的语言模型得分前瞻值也会促进删减,这导致了识别错误。

以上的示例是树形结构词典。同样的问题也会在使用线性词典被用作词语词典403时出现。图11是使用线性词典作为词语词典403的语言模型得分前瞻值和词语词典的示例。在图11中,识别目标词语包括“带”(日语发音:“beruto”)。在线性词典中,词语的语言模型得分可以被赋值为每个词语的词头中的语言模型得分前瞻值。然而,如示例中所示,当“beruto”(意思为“带”)的语言模型得分像“100”那么低时,所有的语言模型得分都在词语的头部被连接到先前假设时被添加到累计得分,这促进了删减。

用于防止正确答案假设被删减的方法之一是加宽集束宽度。然而,通过加宽集束宽度所产生的另一个问题是假设的数目增加并且计算量增加。

本发明的目标是提供一种防止正确答案假设删减同时抑制假设的数目的增加的语言模型得分前瞻值赋值设备、语言模型得分前瞻值赋值方法和程序存储介质。

问题解决方案

根据本发明的语言模型得分前瞻值赋值设备包括:定义词语的音素串的词语词典;赋值词语的出现容易度的得分的语言模型;以及平滑化语言模型得分前瞻值计算装置,所述平滑化语言模型得分前瞻值计算装置从由词语词典定义的词语的音素串和由语言模型定义的得分来获得词语中每个音素处的语言模型得分前瞻值,使得防止语言模型得分前瞻值集中在词语的开头。

本发明的有益效果

根据本发明,能够防止正确答案假设的删减同时抑制假设数目的增加。其原因在于获得词语中每个音素处的语言模型得分前瞻值,使得防止了语言模型得分前瞻值集中在词语的开头。

附图说明

图1是示出本发明第一示例性实施例的配置的框图;

图2是示出本发明第一示例性实施例的操作的流程图;

图3是平滑化语言模型得分前瞻值计算装置的第一示例的操作示图;

图4是平滑化语言模型得分前瞻值计算装置的第二示例的操作示图;

图5是平滑化语言模型得分前瞻值计算装置的第三示例的操作示图;

图6是示出涉及本发明的话音识别装置的配置的框图;

图7是示出树形结构词典的一个示例的示图;

图8是示出通过使用最优语言模型得分获得装置给出语言模型得分前瞻值的一个示例的示图;

图9是示出通过使用最优语言模型得分获得装置给出语言模型得分前瞻值的另一个示例的示图;

图10是示出通过使用最优语言模型得分获得装置给出语言模型得分前瞻值的另一个示例的示图;以及

图11是示出线性词典和语言模型得分前瞻值的示例的示图。

附图标记列表

101  话音输入装置

102  声学分析装置

103  距离计算装置

104  声学模型

105  搜索装置

106  原始搜索装置

107  词语末尾处理装置

108  语言模型得分前瞻值赋值设备

109  识别结果输出装置

201  平滑化语言模型得分前瞻值计算装置

202  语言模型

203  词语词典

301  话音输入装置

302  声学分析装置

303  距离计算装置

304  声学模型

305  搜索装置

306  原始搜索装置

307  词语末尾处理装置

308  语言模型得分前瞻值赋值设备

309  识别结果输出装置

401  最优语言模型得分获得装置

402  语言模型

403  词语词典

具体实施方式

将参考附图来对本发明的特定示例性实施例进行具体描述。

[第一示例性实施例]

参考图1,根据本发明第一示例性实施例的话音识别装置包括:话音输入装置101、声学分析装置102、距离计算装置103、声学模型104、搜索装置105、语言模型得分前瞻值赋值设备108和识别结果输出装置109。此外,搜索装置105包括原始搜索装置106和词语末尾处理装置107。此外,语言模型得分前瞻值赋值设备108包括平滑化语言模型得分前瞻值计算装置201、语言模型202和词语词典203。这些部件中的每一个具有以下功能。

声学模型104向音素或音素串赋值音素或音素串的声学特征量。词语词典203定义词语的音素串,并且在第一实施例中使用树形结构词典。树形结构词典记录词语及其音素串的对应关系。在树形结构词典中,通过在词语之间共享共用的头部音素串来形成树形结构。语言模型202向词语或词语串赋值该词语或词语串的出现容易度的得分。在第一示例性实施例中,语言模型202包括一元语言模型和二元语言模型。

平滑化语言模型得分前瞻值计算装置201从由词语词典203定义的词语的音素串和由语言模型202定义的语言模型得分(第一示例性实施例中的一元语言模型得分)获得词语中每个音素处的语言模型得分前瞻值,使得防止语言模型得分前瞻值集中在词语的开头。更具体地,基于词语中音素的出现顺序获得词语中每个音素处的语言模型得分前瞻值,以便于防止头部音素处或接近词语头部音素的音素的语言模型得分前瞻值基本上等于该词语的语言模型得分。需要针对所有词语防止语言模型得分前瞻值集中于词语开头并不是必要手段。仅需要针对部分词语或者与其它词语相比具有相对低的语言模型得分的所有词语来防止语言模型得分前瞻值集中于词语的开头。

话音输入装置101提供作为话音识别目标的话音波形。声学分析装置102针对每个帧从输入的话音波形来计算声学特征。距离计算装置103针对每个帧根据声学模型和输入话音波形的声学特征量之间的距离来计算声学模型得分。

搜索装置105根据通过合并词语词典203中的词语所获得的候选词语串(假设)来搜索和输出词语串,该词语串具有使用声学模型104计算为声学模型得分的每个词语的发音输出输入话音波形的概率值和使用语言模型202计算为语言模型得分的词语链的概率值的最大累计得分。搜索装置105包括执行词语末尾处理的词语末尾处理装置107和执行其它搜索处理的搜索装置106。

识别结果输出装置109输出从搜索装置105输出的识别结果。

将参考图1以及图2所示的流程图来对第一示例性实施例的整体操作进行详细描述。

首先,在步骤S1,使用话音输入装置101提供话音波形。

接下来,在步骤S2,声学分析装置102接收话音波形、计算诸如倒谱的声学特征量,并且输出该声学特征量。

接下来,在步骤S3,距离计算装置103接收声学特征量、从每个模型计算声学模型104的距离,并且输出声学模型得分。

接下来,在步骤S4,平滑化语言模型得分前瞻值计算装置201计算要搜索的所有假设中的语言模型得分前瞻值。

接下来,在步骤S5,原始搜索装置106针对每个假设将声学模型得分和语言模型得分前瞻值添加到的累计得分,以便于更新累计得分。

接下来,在步骤S6,确定假设是否为词语末尾。当假设是词语末尾时,在步骤S7,词语末尾处理装置107通过将一元语言模型添加到从语言模型203获得的二元语言模型得分来更正语言模型得分前瞻值。

接下来,在步骤S8,删减累计得分低的假设。例如,通过丢弃低于可能性阈值的假设的方法或者留下特定数目的高级别假设并且丢弃其它假设的方法来执行删减。

接下来,在步骤S9,确定话音输入是否被终止。当输入仍然继续时,该过程返回步骤S1,以便于对新的输入执行类似处理。当输入被终止时,该过程前进到步骤S10。

最后,在步骤S10,识别结果输出装置109接受来自搜索装置105的结果,并且输出最优识别结果。替选地,识别结果输出装置109可以输出除了最优识别结果之外的一些好的识别结果。

接下来,将对第一示例性实施例的有利效果进行描述。

根据第一示例性实施例,可以防止正确的答案假设被删减,从而降低识别错误率。其原因在于,因为防止了语言模型得分前瞻值集中于词语的开头,所以防止了由于语言模型得分前瞻值集中于词语开头而导致的正确答案假设的过早删减。

此外,根据本发明,与加宽集束宽度的情况相比,可以抑制假设数目的增加。其原因在于,虽然由于防止语言模型得分前瞻值集中于词语开头的操作而导致计算量有所增加,但是仅由于语言模型得分前瞻值集中于词语开头而被删减的假设的计算量有所增加,这仅是略有增加而已。另一方面,在加宽集束宽度的方法中,即使声学模型得分低的假设和词语末尾得分低的词语保留在搜索空间中而没有被删减,这也进一步增加了假设的计算量。

接下来,将详细描述平滑化语言模型得分前瞻值计算装置201的示例。

[平滑化语言模型得分前瞻值计算装置201的第一示例]

第一示例的平滑化语言模型得分前瞻值计算装置201基于从词语头部到该音素的音素数目来计算词语的每个音素中的语言模型得分前瞻值。更具体地,通过定义如表达式(3)和(4)中所表达的平滑化语言模型得分前瞻值来执行计算。

π’h(s)=min w∈W(s){-log p(w|h)}     ...(3)

πh(s)=π’h(s)如果π’h(s)<=T(d(s))或s∈E

=T(d(s))其它             ...(4)

在表达式(3)中,如表达式(1)中获得语言模型得分的最优值π’h(s)。在表达式(4)中,根据音素s是从头部起的(第n个音素)的音素数目来确定阈值T(n)。当音素s是从头部起的第d(s)个音素时,如果π’h(s)超过T(d(s)),则仅将语言模型得分前瞻值添加最多阈值T(d(s))的值。这里,确定阈值,使得T(n)随n的减小而减小。相应地,可以防止语言模型得分前瞻值集中于词语的开头。符号E是词语的最后音素的集合。

图3示出了当第一示例使用树形结构词典进行操作时的语言模型得分前瞻值的特定示例。

首先,针对从词语头部起的多个音素中的每一个来确定语言模型前瞻值的阈值T(d)。例如,阈值按顺序从第一音素到第四音素被确定为“45”、“70”、“90”和“100”。阈值T(d)可以在平滑化语言模型得分前瞻值计算装置201、词语词典203或语言模型202中被预先确定和设置。替选地,阈值T(d)可以在计算平滑化语言模型得分前瞻值时由平滑化语言模型得分前瞻值计算装置201来确定。

接下来,当第一音素的最优语言得分超过第一音素的阈值时,指向第一音素的分支的语言模型得分前瞻差值为第一音素的阈值,并且超过第一音素阈值的值被带到指向下一个音素的分支。例如,第一音素“a”的最优语言得分为“50”,其比第一音素的阈值“45”超出了“5”。因此,指向第一音素“a”的分支的语言模型得分前瞻差值被设置为“45”,其等于第一音素的阈值,而超出阈值的值“5”则被带到指向下一个音素的分支。此外,还针对指向下一个音素的分支重复类似的处理。在词语的末尾音素,赋值语言模型得分前瞻差值,使得最优语言得分即使在得分超过音素阈值时也为语言模型得分前瞻值。例如,第二音素“k”的最优语言得分为“90”,其比第二音素的阈值“70”超出了“20”。因此,第二音素的阈值“70”是第二音素“k”的语言模型得分前瞻值。通过从该值“70”减去添加到第一音素“a”的语言模型得分前瞻值“45”所获得的值“25”为指向第二音素“k”的分支的语言模型前瞻差值,并且超过阈值的值“20”被带到指向下一个音素的分支。根据以上的过程,可以防止过多超过阈值的语言模型前瞻值被添加。

[平滑化语言模型得分前瞻值计算装置201的第二示例]

第二示例的平滑化语言模型得分前瞻值计算装置201基于能够从音素追溯的词语音素数目来计算词语中每个音素中的语言模型得分前瞻值。更具体地,通过定义如表达式(5)和(6)中所表达的平滑化语言模型得分前瞻值来执行计算。

δh(s)=min w ∈W(s)[{-log p(w|h)-πh(s~)}/{N(w)-d(s)+1}]  ...(5)

πh(s)=πh(s~)+δh(s)      ...(6)

符号N(w)表示词语w的音素数目。与第一示例类似,符号d(s)指示音素s是第d(s)个音素。

在第二示例中,通过词语的音素数目来对语言模型得分进行均分所获得的值被用作语言模型前瞻差值。表达式(5)中的分子是通过从语言模型得分减去在先前音素s~前添加的语言模型得分前瞻值所获得的值,并且分母是词语w中的音素s和后续音素的音素的数目。因此,语言模型得分通过音素的数目来进行均分,并且将能够从s追溯的词语w中的最小数值赋值给指向音素s的分支,作为语言模型得分前瞻差值δh(s)。根据表达式(6),能够通过将差值添加到先前音素s~的语言模型得分前瞻值来获得语言模型得分前瞻值πh(s)。

图4示出了当第二示例使用树形结构词典进行操作时的语言模型得分前瞻值的特定示例。

在图4所示的第一音素中,能够追溯四个词语。词语“a-k-u-sy-u”(意思为:“握手”)具有五个音素,并且其语言模型得分为“50”。因此,由于按5对“50”进行均分而导致每个分支具有值“10”。此外,词语“a-k-a-i”(意思为:“红色”)具有四个音素,并且其语言模型得分为“60”。因此,由于按4对“60”进行均分而导致每个分支具有值“15”。当对所有词语进行计算时,最小值为“10”,其是通过对“a-k-u-sy-u”(意思为:“握手”)的语言模型得分进行均分而得到的。因此,语言模型得分前瞻差值“10”被赋值给指向第一音素“a”的分支。接下来,关于音素“s”和后续的音素“a-s-o-b-i”(意思为:“玩耍”),没有在“a”处添加的语言模型得分为“80”,其是通过从语言模型得分“90”减去音素“a”的语言模型得分前瞻差值“10”来计算的,并且音素“s”和后续音素的数目为4。当值“80”按4进行均分时,每个分支具有值“20”。也对下一个音素重复执行该处理,以便于确定语言模型得分前瞻值。

根据以上的描述,由于语言模型得分前瞻值从词语的头部到末端进行分布,所以语言模型前瞻值被平滑化,并且没有在词语头部添加过多的语言模型前瞻值。

[平滑化语言模型得分前瞻值计算装置201的第三示例]

在第三示例的平滑化语言模型得分前瞻值计算装置201中,基于没有进行分支并且包括音素的音素串的音素数目来获得词语中每个音素的语言模型得分前瞻值。更具体地,通过定义如表达式(7)中所表达的平滑化语言模型得分前瞻值来执行计算。

δh(s)={πh(s)-πh(s~)}/m(s)如果s~∈B

=δh(s~)其它       ....(7)

符号B是在树形结构词典中进行分支的音素的集合。符号m(s)指示始于在s之后首次出现的在树形结构中进行分支的音素头部的音素数目和从头部到先前音素s~的音素数目之间的差。当树形结构中在s之后没有进行分支时,符号m(s)指示从头部到词语末尾的音素的音素数目和从头部到先前音素s~的音素数目之间的差。

首先,以与现有技术类似的方式通过表达式(1)获得语言模型得分的最优值πh(s)。在第三示例中,当存在没有进行分支的分支时,作为赋值最优值的差值的代替,按指示没有进行分支的分支的数目的m(s)对其进行均分,以便于对语言模型得分前瞻值进行平滑化。

图5示出了当第三示例使用树形结构词典进行操作时的语言模型得分前瞻值的特定示例。

在相关方法中,关于图5中的最低部分“a-s-o-b-i”(意思为“玩耍”),连接“a”和“s”的分支“a-s”具有语言模型得分前瞻差值“40”。在第三示例中,“s”、“o”和“b”中的每一个仅具有一个分支,并且不进行分支。因此,赋值给分支“a-s”的语言模型得分前瞻差值也被分配给这些分支。由于在音素“s”之后和其中不进行分支,所以使用从头部到词语末端的音素的数目。由于词语末尾的音素“i”是从头部音素起的第五个音素,并且s~是第一音素“a”,所以差m(s)为“4”。因此,分支“a-s”的语言模型得分前瞻差值“40”被等同分配到四个分支“a-s”、“s-o”、“o-b”和“b-i”中的每一个,使得每个分支都具有语言模型得分前瞻差值“10”。

类似地,语言模型得分前瞻差值也在“k-u-sy-u”和“a-r-i”中进行分配。根据以上描述,语言模型得分前瞻值被平滑化,并且能够防止过多语言模型前瞻值被添加在词语的开头。

[其它示例性实施例]

虽然在以上示例性实施例中,利用一元语言模型执行前瞻,并且一元语言模型在词语末尾处理中由二元语言模型所替代,但是前瞻中所使用的语言模型或在词语末尾处理中被替代的语言模型可以进行各种变化。例如,可以利用二元语言模型来执行前瞻,并且二元语言模型可以通过词语末尾处理由三元语言模型所替代。此外,这样的实施例可能不执行词语末尾处理,并且从前瞻的时间点起使用二元语言模型或三元语言模型。

虽然在示例性实施例以及第一至第三示例中使用树形结构词典作为词语词典203,但是即使在使用线性词典作为词语词典203时也可以使用相同的方法。

在上述示例性实施例中,每次都计算平滑化语言模型得分前瞻值。然而,例如,平滑化语言模型得分前瞻值可以事先被计算并存储在词语词典203或语言模型202中。然后,平滑化语言模型得分前瞻值计算装置201可以在搜索过程中从所存储的平滑化语言模型得分前瞻值中搜索并获得相应数值。

此外,除了硬件之外,平滑化语言模型得分前瞻值计算装置201、话音输入装置101、声学分析装置102、距离计算装置103、搜索装置105和识别结果输出装置109可以通过计算机和程序来执行。程序被记录在计算机可读记录介质中,诸如在开机时由计算机提供、读取的磁盘、半导体存储器等,并且程序控制计算机的操作,以便于按照装置的每一个来操作计算机,并且使得计算机执行以上所描述的处理。

虽然已经参考示例性实施例(和示例)对本发明进行了描述,但是本发明不局限于上述示例性实施例(和示例)。可以在本发明的范围内对本发明的结构和细节进行本领域技术人员所能够理解的各种改变。

本申请要求于2008年5月16日提交的日本专利申请No.2008-129937的优先权,并且通过引用其全部内容结合于此。

工业实用性

本发明适用于诸如话音转换系统的一般话音识别系统、信息搜索和使用话音识别的声学解释。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号