法律状态公告日
法律状态信息
法律状态
2017-10-31
专利权有效期届满 IPC(主分类):G06F17/20 授权公告日:20040204 申请日:19970919
专利权的终止
2009-10-21
专利申请权、专利权的转移(专利权的转移) 变更前: 变更后: 登记生效日:20090911 申请日:19970919
专利申请权、专利权的转移(专利权的转移)
2004-02-04
授权
授权
1999-03-31
公开
公开
1998-05-13
实质审查请求的生效
实质审查请求的生效
本发明一般涉及汉字语音识别技术,更具体地说,涉及在中文语音识别系统中识别字母/数字串的技术。
随着现代科学和计算机技术的发展,人与机器之间的信息交换变得越来越更重要了。传统的信息交换方式主要是通过键盘输入,通过显示器或打印机输出。在进行汉字输入时,还得记住汉字编码。这种传统的方式非常不方便。如果计算机能获得象人一样的用声音进行信息交流的能力,那么,人与计算机之间便可以通过声音进行对话,这将使人机之间的信息交流发生根本性的变化,能大大提高信息处理的效率。目前在计算机工作者的努力下,已开发各种该音识别系统,特别是汉字语音识别系统。
因为汉字通常具有多个同音或近音字,所以在现有的汉字语音识别系统中人们借助词、词组或高层语言信息来解决汉字级上的歧义性,以便正确识别出每个汉字。人们一般使用声音模型来确定对应于输入的音节的最大可能汉字是什么,而且储存有高层语音使用模式信息和概率信息的字典或语言模型来解决汉字级上的歧义性。
然而,在脱离上下文环境的情况下,识别单个汉字是非常困难的,其识别结果通常是给出一些具有相同或相似发音的汉字。特别是,在汉字语音识别系统中通过语音输入随机阿拉伯数字或单个英文字母时,无法将其与同音或近音的汉字区分开来。一般来说,汉字语音识别系统通常没有受过识别英文字母的训练,且人们对英文字母的发音也各不相同。
综上所述,需要一种在汉字语音识别系统中能可靠识别字母/数字串的方法。
根据本发明的在中文语音识别系统中识别字母/数字串方法,包括以下步骤:
·选取一种编码方案,在该方案中用由多个汉字组成的、便于记忆和识别的成语或词,在此称为编码词,来表示要输入的每个字母、数字或命令;
·建立特殊的词汇表,表中每一个词是一个数字、字母或命令,而该词的注音则是其对应编码词的拼音;
·接收一个通过编码词的语音S输入的字母数字或命令,并记录该语音所处的上下文H;
·根据声学模型和语言模型,对照特殊的词汇表确定出输入的字母、数字或命令。
这样当通过语音输入字母数字串时,就可以对其进行可靠识别,并对这种由中文成语、词表示的字母/数字串进行恢复。
通过以下对具体实施例的描述,可以更好地理解本发明的优点。
图1为一方框图,示出了根据本发明的中文语音识别系统;
图2为一流程图,示出本发明在图1所示的中文语音识别系统中识别字母、数字或命令的过程。
根据本发明的一个具体实施例所选取的特殊编码方案提供了一种标准的用汉字串表示36个字母-数字的方法。这样的汉字串应具有以下特点:
·抗噪声:这样的汉字串长度应至少等于3,以提供充分的语言鉴别能力。
·声音距离:这样的汉字串在发音上应不相近。
·便于使用:成语是具有独特含义和用法的特殊类型的词。
对于每个阿拉伯数字,用起始为该数字所对应的汉字的成语/词来表示;
对于每个英文字母,用起始汉字的汉语拼音头拼(拼音的第一字母)为该英文字母的成语/词来表示。
有三个英文字母不会用作任何汉字的汉语拼音的头拼:
·“I”:使用以“yi”为拼音开头字母的汉字;
·“U”:使用以“Wu”为拼音开头字母的汉字;
·“V”:使用以“Yu”为拼音开头字母的汉字;
为了避免混淆,在以Y和W为其拼音头拼的汉字中使用除以“Yi”和“Yu”为拼音开头字母的汉字代表“Y”,而使用除以“Wu”为拼音开头字母的汉字代表“W”。
表1中示出了36个数字-字母和与其对应的由4个汉字组成的成语或由3个汉字组成的词。表1中还示出了两个控制符及其对应的成语。
在此,我们将以上成语或词称为字母、数字或命令所对应的编码词。
在选取了以上的编码方案之后,要对现有的中文语音识别系统进行改造,以便可靠地识别出字母、数字或命令。
图1分别示出了普通的中文语音识别系统和用于本发明的语音识别系统。它们都是由词汇表、声学模型和语言模型三部分组成,声学模型用于计算输入语音S和词汇表中词在声音上的相似程度,而语言模型用于计算在输入语音S所处的上下文H中词汇表中词出现的可能性。用于本发明的中文语音识别系统中包括了一个特殊的构造的词汇表,表中每个词是一个数字、字母或命令,而该词的注音则是其对应的编码词的拼音。这样当人们通过一个编码词的语音输入字母、数字或命令时,在图1所示的用于本发明的中文语音识别系统中就可以通过以下步骤将其识别出来。如图2所示,当人们通过编码词的语音输入字母、数字或命令时,用于本发明的语音识别系统记录下发音S和该发音所处的上下文H。对特殊构造的词汇表中的每个词Wi,它的注音是它的编码词Ci的拼音,记作Py(Ci)。用语音模型计算S和Py(Ci)在声音上的相似程度,记为P(S|py(Ci))。对特殊构造的词汇表中的每个词Wi,用语言模型计算Wi在该上下文H中出现的可能性,记在P(Wi|H)。对特殊构造的词汇表中每个词Wi,计算P(S|py(Ci))×P(Wi|H),即计算每个词的语音模型和语言模型的综合得分,找出得分最高者Wmax,Wamx即为发音S在上下文为H时的识别结果。
从以上可以看出,本发明的用于在中文语音识别系统中识别字母、数字或命令串的方法,可以解决随机字母/数字串的不可靠:识别问题。
机译: 中文语音识别系统中字母数字字符串的识别方法
机译: 语音拨号系统用于呼叫移动部门中的地址,具有语音识别系统,用于识别为单个字母提供的每个单词
机译: 语音拨号系统用于呼叫移动部门中的地址,具有语音识别系统,用于识别为单个字母提供的每个单词