首页> 中国专利> 语音识别词典制作支持系统、语音识别词典制作支持方法以及语音识别词典制作支持用程序

语音识别词典制作支持系统、语音识别词典制作支持方法以及语音识别词典制作支持用程序

摘要

提供一种语音识别词典制作支持系统,其利用可低成本获得的文本数据,能够有效地制作、更新可降低语音识别错误的语音识别用词典、语言模型。语音识别词典制作支持系统包括识别词典存储部(105)、语言模型存储部(106)和声音模型存储部(107)。虚拟语音识别处理部(102)针对由文本解析部(101)生成的解析完毕文本数据,参照识别词典、语言模型及声音模型,生成虚拟语音识别结果文本数据,并与最初的解析完毕文本数据进行比较。更新处理部(103)能够以降低两文本数据不同之处的方式更新识别词典、语言模型。

著录项

  • 公开/公告号CN101432801A

    专利类型发明专利

  • 公开/公告日2009-05-13

    原文格式PDF

  • 申请/专利权人 日本电气株式会社;

    申请/专利号CN200780006299.X

  • 发明设计人 越仲孝文;

    申请日2007-02-02

  • 分类号G10L15/06;G10L15/18;

  • 代理机构中科专利商标代理有限责任公司;

  • 代理人李香兰

  • 地址 日本东京都

  • 入库时间 2023-12-17 21:53:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-04-18

    授权

    授权

  • 2009-07-08

    实质审查的生效

    实质审查的生效

  • 2009-05-13

    公开

    公开

说明书

技术领域

本发明涉及语音识别词典制作支持系统、语音识别词典制作支持方法及语音识别词典制作支持用程序,特别地,涉及用于制作存储语音识别处理的构成要素即词汇的语音识别词典、和对字词的排列进行规则化后的语言模型的语音识别词典制作支持系统、语音识别词典制作支持方法以及语音识别词典制作支持用程序。

背景技术

下面对现有技术的语音识别词典制作支持系统的概要进行说明。如图6所示,由文本解析机构201、出现频率计数机构202、更新机构203、背景词典存储机构204、识别词典存储机构205、及语言模型存储机构206构成。

具有这种结构的现有技术的语音识别词典制作支持系统按照如下方式工作。

即,文本解析机构201从外部接收包含语音识别对象词汇的文本数据,利用存储于背景词典存储机构204中的单词词典进行语素(morpheme)解析处理,从而,将文本数据分割成一个一个的单词的系列,赋予其读音文字列,另外根据需要而赋予其词类标签,将其结果送至出现频率计数机构202中。出现频率计数机构202从文本解析机构201接收单词系列,针对各单词对出现频率进行计数,将结果送至更新机构203。更新机构203根据由出现频率计数机构202接收的单词出现频率,计算出各单词的出现概率,与存储于该语言模型存储机构206中的单词的出现概率进行对照,修正存储于后者即语言模型存储机构206中的出现概率,以便接近由前者即文本数据计算出的出现概率。另外,在出现于文本数据中的单词中,针对具有一定以上的出现概率值的单词,确认其是否被登录在识别词典存储机构205中存储的识别词典中,未登录时认定该单词为未知语,将该单词和出现概率分别登录于识别词典存储机构205和语言模型存储机构206中。

另外,在上述出现频率计数机构202中,除了单词的出现频率之外,通常以连续的2个单词或3个单词的出现次数为单位进行计数。另外,在文本解析机构201的语素解析处理中,为了与错误进行单词的分割和给予错误的读音的情况相对应,也在更新机构203等中设置修正单词边界、人工输入读音的界面(参照后述专利文献1等)。

现有技术语音识别词典制作支持系统的另外一个例子在专利文献1中记载。图7是更新专利文献1的语音识别词典制作支持系统后的图,以便能够与图6对比,由文字列比较机构301、未知语提取机构302、更新机构303、识别词典存储机构305、和语言模型存储机构306构成,突出特征在于,不是利用统计手段检测未知语,而是利用修正误识别后的结果。

具有这种结构的现有技术的语音识别词典制作支持系统按照如下方式工作。

即,文字列比较机构301从外部接收利用未图示的语音识别机构对识别对象语音进行识别后的结果即识别结果文本数据、和对含于该识别结果文本数据中的识别错误以人工进行修正后的误识别修正完毕文本数据,按每一个产生差别的地方,即每一个产生识别错误的地方,以包含识别错误的形式提取单词或者单词列,并送至未知语提取机构302,其中,上述语音识别机构包括存储于识别词典存储机构305中的识别词典、和存储于语言模型存储机构306中的语言模型作为构成要素。未知语提取机构302按从文字列比较机构301接收到的每一个单词或单词列,确认该单词或单词列是否登录在存储于识别词典存储机构305中的识别词典中,未登录时,将该单词或单词列作为新单词登录于识别词典存储机构305中。进一步地,将登录后的新单词和规定的出现概率也登录于语言模型存储机构306中。

另外,在专利文献2~4中,记载了其他的对语音识别词典的未知语的提取/登录方法。在专利文献2中公开了一种未知语登录装置,能够对含未知语的文书文件,进行语素解析等来提取单词,将语音识别词典中不存在的单词在参照背景词典赋予读音和词类后进行登录的未知语登录装置。另外,在专利文献3、4中公开有具有上述未知语的词类和发音的推断功能并自动登录未知语的未知语登录装置。

另外,在专利文献5中,公开了一种对由互联网站点所广泛收集的网页的单词的出现频率进行计数,并对单词语音识别词典中的同一读音的单词中的选择顺序进行更新的方法。

另外,在专利文献6中,公开了一种声音模型管理服务器和语言模型管理服务器,对于语音识别装置,发送在与输入语音进行对照中使用的语音的模型(声音模型和语言模型),具有定期更新声音模型和语言模型的功能。

另外,作为本发明的背景技术,列举专利文献7。专利文献7虽然涉及语音识别装置,但是记载有涉及来自未登录于背景词典(语素解析词典)的未知语的音韵列的产生方法的技术。

专利文献1:JP特开2002-229585号公报

专利文献2:JP特开2003-316376号公报

专利文献3:JP特开2004-265440号公报

专利文献4:JP特开2002-014693号公报

专利文献5:JP特开2005-099741号公报

专利文献6:JP特开2002-091477号公报

专利文献7:JP特开2004-294542号公报

发明内容

采用前者统计手段检测未知语的方式的问题之处在于:文本数据收集需要成本,并且,要挑选用于得到良好结果的文本数据需要高度的技巧。尤其是,提供类似于识别对象语音的文本数据未必容易。

上述“类似于识别对象语音”指的是关于内容和话题的类似性、以及发声风格的类似性的两方面。例如,在采用语音识别给出新闻播放的字幕时,通常准备最近的报纸报道作为文本数据。此时,识别对象语音(新闻报导员的发音)和报纸报道其话题尽管一致,但是发声风格即说话言词特有的措词不同。例如,对于新闻报导员的语音为“です·ます”风格的句子而言,报纸报道用“だ·であゐ”风格的句子。另外,语音中诸如“え—”、“あの—”这样的补白词频繁出现,这一点也是不同的。所以,如果忽视这样的发声风格的差异而制作词典、语言模型,将会产生对说话言词特有的发声风格不能正确进行语音识别这样的弊病。

如上所述,为构建能得到正确的语音识别结果的环境,需要经验丰富的人特别小心地精挑细选要使用的文本数据,而且,需要花费人工和时间正确写入识别对象语音的过去的积累,结果就不可避免运用成本的增加。

同样,在上述专利文献3、5、6中,提案有从互联网及多媒体播放收集文本的方案,但对这些方案当然也能想到,会产生上述与“识别对象语音”之间的偏差,在识别结果中也自然地显示出限度。

现有技术的第2个问题点在于,在存在音韵类似单词或单词列的情况下的识别错误没有反映在词典、语言模型中。例如,参见专利文献2~5,仅考虑文本数据中各个单词出现与否以及出现次数,没有考虑在进行涉及音韵信息的实际的语音识别处理的情况下是怎样的。某单词是否包含在词典中必须考虑与词典中的其他单词在音韵上是否不同或不相类似,如果存在类似的单词,则必须将一方的单词从词典中排除或降低在语言模型中的优先级(出现概率),在现有技术中,被认为不能否认2重登录的可能性。

现有技术的第3个问题在于,要想构建词典、语言模型以便能够正确地语音识别连接多个单词的复合语不一定容易。即使构成复合语的各个单词为已经在词典中登录的已知语,如果在用于语音识别的语音模型中的各单词的连接概率低,则能够正确识别作为单词的总体的复合语的概率也变低。另外,大量含复合语的文本数据收集本身,如前所述是很困难的,存在成本的问题。

现有技术中的第4个问题在于,作为以上的结果,难以将识别错误正确反馈在词典、语言模型中,预先防止识别错误。这一点,在上述专利文献1记载的方式中,由于利用了运用的语音识别系统中实际发生的识别错误,虽然可以准确地反映识别错误,但是,为此会产生下述这样其他的不便,即,对应用中的语音识别系统中产生的识别错误必须实际地进行观测。

另外,在上述专利文献1记载的方式中,还遗留有不能排除词典、语言模型原因之外的识别错误这样的其他的问题。语音识别系统中产生的识别错误中,除了由于词典、语言模型导致的识别错误之外,存在主要由声音所导致的识别错误。例如,将大音量的背景杂音重叠后的语音作为识别的结果而导致错误的情形、将电话语音这样一般识别困难的窄频带语音作为识别结果而导致错误的情形、以及发音不清楚而难以辨听而导致的识别错误的情形等等。在这些情形中,能想到即使具有上述专利文献1记载的方式,也难以进行有意义的词典、语言模型的修正。

鉴于上述的情形,本发明的目的在于提供一种语音识别词典制作支持系统、语音识别词典制作支持方法及语音识别词典制作支持用程序,其能够利用低成本的文本数据产生最佳化的词典、语言模型,该词典、语言模型能够考虑单词之间的音韵的类似性,并且能够有效降低主要由语言的原因所导致的语音识别错误。

根据本发明的第1观点,提供一种语音识别词典制作支持系统、采用该系统进行的语音识别词典制作支持方法及用于实现该系统的程序,其中,上述语音识别词典制作支持系统的特征在于,具有:存储部,存储词典、语言模型及声音模型;文本解析部,针对文本数据进行语素解析处理;虚拟语音识别处理部,针对由上述文本解析部所解析的解析完毕文本数据,利用上述词典、语言模型及声音模型产生虚拟语音识别结果文本数据,并且提取上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处;更新处理部,基于上述不同之处,对上述词典或者上述语言模型中的至少一方进行修正。

由上述构成的语音识别词典制作支持系统,产生所给的文本数据的虚拟语音识别结果文本数据,利用该虚拟语音识别结果文本数据和最初的文本数据相比较的结果,对词典、语言模型进行更新处理。

根据本发明,利用能够比较容易得到的文本数据,可以预测运用中的语音识别处理中的识别错误,并且能够制作反映该预测结果的词典、语言模型。理由在于,采用上述词典、语言模型和声音模型进行虚拟语音识别,并且采用该结果进行词典和语言模型的更新。

附图说明

图1为表示本发明第1实施方式涉及的语音识别词典制作支持系统的概略结构的图。

图2为以功能块的形式表示本发明第1实施方式涉及的语音识别词典制作支持系统的框图。

图3为表示本发明第1实施方式涉及的语音识别词典制作支持系统的虚拟语音识别处理部的一构成例的图。

图4为表示本发明第1实施方式涉及的语音识别词典制作支持系统的运行的流程图。

图5为用于说明本发明第1实施方式涉及的语音识别词典制作支持系统的运行具体例的图。

图6为以功能块的形式表示现有技术的语音识别词典制作支持系统的框图。

图7为以功能块的形式表示现有技术的语音识别词典制作支持系统的框图。

符号说明

61   读音/音素列转换部

62   音素/状态列转换部

63   状态/特征列转换部

64   最佳单词列搜索部

65   文本数据比较部

71   输入装置

72   语音识别词典制作支持程序

73   数据处理装置

74   存储装置

101  文本解析部

102  虚拟语音识别处理部

103  更新处理部

104、741   背景词典存储部

105、742   识别词典存储部

106、743   语言模型存储部

107、744   声音模型存储部

108  文本数据

201  文本解析机构

202  出现频率计数机构

203  更新机构

204  背景词典存储机构

205  识别词典存储机构

206  语言模型存储机构

301  文字列比较机构

302  未知语提取机构

303  更新机构

305  识别词典存储机构

306  语言模型存储机构

具体实施方式

接下来参照附图对用于实施本发明的最佳方式进行详细地说明。图1表示本发明第1实施方式涉及的语音识别词典制作支持系统的概略结构的图。参照图1,示出由包括输入装置71和存储装置74的数据处理装置(计算机)73构成的语音识别词典制作支持系统。

存储装置74由具有背景词典存储部741、识别词典存储部742、语言模型存储部743和声音模型存储部744的硬盘等构成,可分别保存背景词典、识别词典、语言模型及声音模型。

上述结构的数据处理装置(计算机)73中,通过执行语音识别词典制作支持程序72,从而实现后述的各种处理机构(图2的文本解析部101~更新处理部103)。

图2为以功能块的形式示出上述语音识别词典制作支持系统的框图。参照图2,本实施方式涉及的语音识别词典制作支持系统由文本解析部101、虚拟语音识别处理部102、更新处理部103、背景词典存储部104、识别词典存储部105、语言模型存储部106、和声音模型存储部107构成。

文本解析部101进行下述处理,即,将从外部输入的文本(文字列)数据108分割成单词并赋予词类标签和读音。更具体地,文本解析部101进行下述处理,即,读入文本数据108,读入存储于背景词典存储部104中的背景词典,解析文本数据108,并输出解析完毕文本数据。

虚拟语音识别处理部102通过不含于识别词典、给予其在语言模型中较低的优先级的方式将发生语音识别错误可能性较高的词句等提取出来。更具体地,虚拟语音识别处理部102进行如下处理,即,读入分别存储于识别词典存储部105、语言模型存储部106和声音模型存储部107中的识别词典、语言模型及声音模型,针对由文本解析部101输出的解析完毕文本数据虚拟地进行识别处理,产生对应解析完毕文本数据的虚拟识别结果文本数据,进一步地,在比较最初的解析完毕文本数据和虚拟识别结果文本数据的基础上,提取不同之处并输出。

更新处理部103进行如下处理,即,考虑通过虚拟语音识别处理部102判定的、发生识别错误的可能性较高的词句,对识别词典、语言模型进行变更。更具体地,更新处理部103进行如下处理,即,基于由虚拟语音识别处理部102所输出的不同之处,对分别存储于识别词典存储部105和语言模型存储部106中的识别词典和语言模型进行修正。

背景词典存储部104和识别词典存储部105分别存储背景词典和识别词典。背景词典也称为语素解析词典,保持有与识别词典相比数10~数100倍规模的词汇。因此,大多数情况下,基本上对所有提供的文本数据都能够给予读音等信息。另外,即使在出现了背景词典中仍未登录的未知语的情况下,也可以利用如专利文献5中记载的技术等,给予读音信息。

语言模型存储部106和声音模型存储部107分别存储语言模型和声音模型。

另外,上述识别词典存储部105和语言模型存储部106中分别于初期存储的识别词典和语言模型,与实际要应用的语音识别系统中使用的一样,采用相同的内容。同样,存储于声音模型存储部107中的声音模型也优选采用与实际要应用的语音识别系统中使用的声音模型原则相同的内容。

下面,对利用上述识别词典、语言模型、以及声音模型,从解析完毕文本数据中制作虚拟识别结果文本数据的虚拟语音识别处理部102的详细结构进行更详细的说明。

图3为示出虚拟语音识别处理部102的一结构例的图。参照图3,虚拟语音识别处理部102由读音/音素列转换部61、音素/状态列转换部62、状态/特征列转换部63、最佳单词列搜索部64、和文本数据比较部65构成。

读音/音素列转换部61,以每个适当单位、例如一个句子一个句子地读入按每个单词分割并赋予读音的解析完毕文本数据,按照预先存储的音节/音素列转换表,将通常以平假名或片假名表示的读音文字列转换成音素列,并依次输出。其中,音素指的是语音识别中的识别的最小单位,即识别单位,单独的音素用元音a、i、u、...,辅音k、s、t、...这样的记号表示。

例如在给出“おはようございます(ohayoogozaimasu:早上好)”这样的读音文字列的情况下,读音/音素列转换部61输出“/#/o/h/a/y/o/o/g/o/z/a/i/m/a/s/u/#/”这样的音素列(这里“#”是表示发音始末端的空音的记号)。

另外,通过更常用的、由前后的音素环境来划分音素的3组音素(triphone)而产生的声音模型的情况下,读音/音素列转换部61对于上述“おはようございます(ohayoogozaimasu)”这样的读音文字列,输出“/#/#-o+h/o-h+a/h-a+y/a-y+o/y-o+o/o-o+g/o-g+o/g-o+z/o-z+a/z-a+i/a-i+m/i-m+a/m-a+s/a-s+u/s-u+#/#/”这样的音素列。

另外,由于以前的大部分语音识别系统采用音素作为识别单位,因此本发明的实施方式也仿照这样,然而,尽管采用音素作为识别单位,但也可以采用音素之外的识别单位,例如音节、半音节作为识别单位,本发明原则上只要可实施即可,作为识别单位则无特别限制。

音素/状态列转换部62,针对由读音/音素列转换部61接收的音素列,参照存储于声音模型存储部107中的声音模型的构成信息,输出将各音素展开成状态的系列的状态列。

这里,所谓“状态”是语音识别中通常作为声音模型来使用的隐马尔科夫模型(Hidden Markov Model,以下记为“HMM”)中附随的概念。在采用HMM将各音素进行模型化的情况下,“状态”可以为将音素进一步细分化的单位。声音模型作为每个音素的HMM的集合来构成,音素的HMM分别由多个“状态”构成。总之,通过参照声音模型,能够很容易将音素转换成状态列。例如,在各音素一律由3个状态构成的声音模型的情况下,上述的音素列转换成#[1],o[1],o[2],o[3],h[1],h[2],h[3],a[1],a[2],a[3],y[1],y[2],y[3],o[1],...,i[3],m[1],m[2],m[3],a[1],a[2],a[3],s[1],s[2],s[3],u[1],u[2],u[3],#[1]。其中括弧数字表示状态号码。声音模型由上述3组音素(triphone)构成的情况也是同样。另外,空音模型“#”通常作为1个状态进行模型化。

状态/特征列转换部63读入存储于声音模型存储部107中的声音模型,顺次接收音素/状态列转换部62输出的状态列,并输出含语音识别用声音特征参数的特征向量的系列。即,根据声音模型中按每个状态定义的概率分布,例如混合高斯分布,基于随机数而生成特征向量。另外,按每1状态生成的特征向量的个数同样基于按每个状态定义的状态转移概率(statetransition probability)由随机数决定。

最佳单词列搜索部64读取分别存储于识别词典存储部105、语言模型存储部106及声音模型存储部107中的识别词典、语言模型及声音模型,依次接收状态/特征列转换部63的输出的特征向量列,采用语音识别系统中通常采用的帧同步束搜索(beam search)等搜索方法,搜索并输出特征向量列中最匹配的单词列,即虚拟的语音识别结果文本数据(通常是汉字假名混杂的句子)。

文本数据比较部65将由最佳单词列搜索部64输出的虚拟识别结果文本数据与虚拟语音识别处理部102的输入即解析完毕的文本数据的对应部分做比较,作为不同之处的文字列的对即虚拟正解文字列和虚拟识别结果文字列的对来提取,按每同一文字列统计出现频率之后,作为图5例示的虚拟识别错误实例数据送至更新处理部103。

接下来,参照附图对本实施方式的整体工作进行详细说明。图4为示出本实施方式涉及的语音识别词典制作支持系统的工作的流程图。

参照图4,首先,文本解析部101读入存储于背景词典存储部104中的背景词典(步骤A1),对给出的文本数据进行语素解析处理(步骤A2)。通过该语素解析处理,文本数据被分割成单词,对各单词根据需要给予词类标签和读音(表现单词发音的符号串)。

另外,如上所述,背景词典由于与识别词典相比存储有数10~数100倍规模的词汇,因此基本上对于所给出的全部文本数据都能够给予读音等信息。另外,即使在出现没有登录于背景词典中的未知语的情况下,例如,也可以采用专利文献5中记载的技术等来给予读音信息。

接着,虚拟语音识别处理部102读入分别存储于识别词典存储部105、语言模型存储部106和声音模型存储部107中的识别词典、语言模型及声音模型(步骤A3~A5),基于文本解析部101输出的文本来执行虚拟的语音识别处理,制作虚拟识别结果文本数据(步骤A6)。

然后,虚拟语音识别处理部102将解析完毕文本数据和对应的虚拟识别结果文本数据做比较,将产生差别的地方即作为虚拟的识别错误实例的单词或单词列从两文本数据中取出,生成虚拟识别错误实例数据(参照图5)(步骤A7)。

此时,含产生差别的地方的单词的一系列单词列在可以判断为由名词连续等形态构成汇总的短语的情况下,也可以按照短语单位进行提取。例如,解析完毕文本数据中有“.../地上波/デジタル/...”这样的单词列,在虚拟识别结果文本数据中的对应处变成“.../地上波/デッキ/足ゐ/...”的情况下,可以提取“デジタル”“デッキ/足ゐ”作为单词级的配对,也可以提取“地上波/デジタル”、“地上波/デッキ/足ゐ/...”的文字列对作为名词短语级的配对,或者还可以双方都提取。

最终,虚拟语音识别处理部102将单词级和/或短语级的文字列对和其读音与各自的出现频率一起送至更新处理部103。图5示出虚拟语音识别处理部102送至更新处理部103的虚拟识别错误实例数据信息的一个例子。

下面,更新处理部103接收由虚拟语音识别处理部102输出的虚拟识别错误实例数据,一个一个地按顺序取出,对应其内容,对识别词典存储部105和语言模型存储部106中分别存储的识别词典和语言模型进行如下的变更(步骤A8~A10)。

例如,如果按照图5的例子来说明,取出最初的条目(HTML,栄一/低迷),在与语音识别中的正解文字列相当的解析完毕文本的单词“HTML”不存在于识别词典的情况下,更新处理部103在识别词典中追加“HTML”,并设置默认值(适当确定的中级的优先级)作为语言模型中的单词“HTML”的优先级。

另外,在“HTML”已经存在于识别词典中的情况下,更新处理部103不进行识别词典的更新,仅将语言模型中的单词“HTML”的优先级增加预定的适当的规定值。

针对下面的条目(地上波/デジタル,地上波/デッキ/足ゐ)也同样,如果识别词典中没有“地上波デジタル”则追加于识别词典中,语言模型中的优先级中设定适当的默认值。另外,“地上波デジタル”如果已经存在于识别词典中,则增加语言模型中的优先级的值。

下面,针对所有的条目,通过重复进行上述的处理,采用容易获得的低成本的文本数据,也可以得到能够预先防止语音识别错误的最佳的词典、语言模型。

另外,在上述实施方式中,虽然利用虚拟识别错误实例数据全部的条目对识别词典和语言模型进行更新,但是,例如,针对出现频率极端低的条目,不使用于识别词典、语言模型的变更这样的设定也是有效的。另外,也可以是,利用出现频率信息等对被反映到识别词典、语言模型中的条目反复进行选择,直到与虚拟识别结果文本数据中识别错误相当的部分比一定的比例更少为止。

另外,在上述实施方式中,尽管是作为利用了对应正解文字列的解析完毕文本“HTML”、“地上波デジタル”的识别词典、语言模型的变更的情况进行了说明,但是,除此之外,还可以是利用了对应识别错误的虚拟识别结果文本的识别词典、语言模型的变更。

例如,如果采用图5的例子说明,更新处理部103也可以变更语言模型,以使得针对条目(HTML,栄一/低迷),在提高单词“HTML”的语言模型中的优先级的同时,降低“栄一”和“低迷”的优先级,进一步地,降低与“栄一”和“低迷”这2个单词的并列相关的优先级。

进一步地,在上述识别词典的更新处理中,也可以针对优先级比规定的域值小的单词,进行从识别词典中删除的处理。

另外,在这些一系列的优先级的值的变更时,还可以根据出现频率控制变更量。即,可以进行控制,针对出现频率高的条目使得对应单词或者单词列的优先级升高,反之,针对出现频率低的条目使得优先级只变更一点。

进一步地,优选为,在适当设计向系统操作者预先提示词典、语言模型的更新内容的界面、以及向系统操作者询问更新可否的界面,对词典、语言模型进行更新时,构成为能够避免不合适的变更。

另外,在上述虚拟识别错误实例数据中,最好包含对应各单词的词类。通过这种方式,参照该词类的信息,可以判断是否需要变更识别词典、语言模型。例如,在识别词典、语言模式的变更中仅使用包含名词或动词词干等的实义词的条目,其中,通常认为上述名词或动词词干等的实义词在识别词典、语言模型的更新时较为重要。

另外,至此在语言模型的变更中,尽管叙述了对与单词和单词的并列相关的“优先级”的值进行变更,但是,这里的优先极可以解释为例如公知的N-gram语言模型中的概率值。即,例如unigram(N=1)中的概率值为忽略单词的并列的情况下的单独的单词的出现概率,形式上为如Pr(“HTML”)这样表现的量。另外,bigram(N=2)中的概率值为将之前的1个单词假定作为历史记录的情况下的单词的条件出现概率,表现如Pr(“デジタル”|“地上波”)或Pr(“低迷”|“栄一”)。同样,在trigram(N=3)中的概率值为将之前的2个单词假定作为历史记录的情况下的单词的条件出现概率。

另外,还可以将图3例示的虚拟语音识别处理部102构成为更简单的结构。例如,考虑如下构成,除去状态/特征列转换部63,将音素/状态列转换部62直接与最佳单词列搜索部64连接。

此时,最佳单词列搜索部64针对由音素/状态列转换部62接收的HMM的状态列的各要素,计算与声音模型内的全部状态之间的类似度或者距离,根据由识别词典和语言模型已确定的语言上的制约,求得最佳的单词列。状态间的距离可以采用附随状态的概率分布间的距离尺度例如相对熵(Kullback-Leibler divergence)等尺度来计算。另外,事先计算声音模型内的全部状态之间的距离并以表格形式存储于声音模型存储部107中是很有效的。

另外,为处理的高速化,还可以适当进行类似于上述帧同步束搜索的搜索范围的限定(剪枝)。在图3所例示的虚拟语音识别处理部102的方式中,以特征向量和状态之间的距离计算为基础构成帧同步束搜索,与此相对的,在省去状态/特征列转换部63的本方式中,是将状态间的距离计算作为基础而构成搜索的,虽然这点是不同的,但是原理基本上是相同的。

另外,还可以将图3所例示的虚拟语音识别处理部102构成得更简单。例如,可以考虑如下构成,除去音素/状态列转换部62和状态/特征列转换部63,将读音/音素列转换部61直接与最佳单词列搜索部64连接。

此时,最佳单词列搜索部64,针对由读音/音素列转换部61接收的音素列的各要素,计算与声音模型内的全部音素之间的类似度或者距离,根据由识别词典和语言模型已确定的语言的制约,求得最佳的单词列。音素间的距离可以作为彼此对应的状态间的距离的总和等来计算。

以上尽管针对本发明各实施方式进行了说明,但本发明技术上的范围不限于上述实施方式,根据语音识别对象的语言、或者语音识别系统的各种应用场面能够对其进行各种的变形。

权利要求第11项—第17项分别是追加与权利要求第2项—第8项的各发明相对应的方法发明的权利要求。

权利要求第18项是伴随上述权利要求第11项—第17项的追加,对申请时权利要求第10项的权项号码作出改变的权利要求。

权利要求第19项—第25项分别是追加与权利要求第2项—第8项的各发明相对应的程序发明的权利要求。

本补正内容基于申请时提交的说明书的记载,不含任何新添入的事项。

权利要求书(按照条约第19条的修改)

1.一种语音识别词典制作支持系统,具有:

存储部,存储词典、语言模型及声音模型;

文本解析部,针对文本数据进行语素解析处理;

虚拟语音识别处理部,针对由上述文本解析部所解析的解析完毕文本数据,利用上述词典、语言模型及声音模型生成虚拟语音识别结果文本数据,并且提取上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处;以及

更新处理部,基于上述不同之处,对上述词典或者上述语言模型的至少其中一方进行修正。

2.根据权利要求1所述的语音识别词典制作支持系统,其特征在于,

上述虚拟语音识别处理部从上述解析完毕文本数据中生成以声音参数为要素的特征向量系列,通过虚拟地执行语音识别处理来生成语音识别结果文本数据。

3.根据权利要求1或2所述的语音识别词典制作支持系统,其特征在于,

上述存储部存储构成识别单位的状态等要素间的距离或类似度表,

上述虚拟语音识别处理部由上述解析完毕文本数据生成上述识别单位的系列,从上述词典和语言模型中,通过搜索距离总和最小或类似度总和最大的单词列,生成上述虚拟语音识别结果文本数据。

4.根据权利要求1或2所述的语音识别词典制作支持系统,其特征在于,

上述存储部存储构成识别单位的状态等要素间的距离或类似度表,

上述虚拟语音识别处理部由上述解析完毕文本数据生成上述要素的系列,从上述词典和语言模型中,通过搜索距离总和最小或类似度总和最大的单词列,生成上述虚拟语音识别结果文本数据。

5.根据权利要求1至4中任一项所述的语音识别词典制作支持系统,其特征在于,

上述更新处理部基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,在上述词典中追加出现于上述解析完毕文本数据侧的词句。

6.根据权利要求1至4中任一项所述的语音识别词典制作支持系统,其特征在于,

上述更新处理部基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,修正上述语言模型,以提高出现于上述解析完毕文本数据侧的单词或单词列的优先级。

7.根据权利要求1至4中任一项所述的语音识别词典制作支持系统,其特征在于,

上述更新处理部基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,修正上述语言模型,以降低出现于上述虚拟语音识别结果文本数据侧的单词或单词列的优先级。

8.根据权利要求6或7所述的语音识别词典制作支持系统,其特征在于,

上述更新处理部按照上述解析完毕文本数据和虚拟语音识别结果文本数据中的单词或单词列的出现频率控制上述优先级的增减量。

9.一种采用计算机的语音识别词典制作支持方法,包括:

上述计算机针对文本数据进行语素解析处理的文本解析步骤;

上述计算机基于由上述文本解析步骤输出的解析完毕文本数据,利用存储于规定存储装置中的词典、语言模型及声音模型生成虚拟语音识别结果文本数据的步骤;

上述计算机对上述解析完毕文本数据和上述虚拟语音识别结果文本数据进行比较,并提取不同之处的步骤;以及

上述计算机基于上述不同之处修正上述词典或上述语言模型中的至少一方的更新步骤。

10.(删除)

11.(追加)根据权利要求9所述的语音识别词典制作支持方法,其特征在于,

上述计算机从上述解析完毕文本数据中生成以声音参数为要素的特征向量系列,通过虚拟地执行语音识别处理来生成上述虚拟语音识别结果文本数据。

12.(追加)根据权利要求9或11所述的语音识别词典制作支持方法,其特征在于,

上述计算机基于构成识别单位的状态等要素间的距离或类似度表,由上述解析完毕文本数据生成上述识别单位的系列,从上述词典和语言模型中,通过搜索距离总和最小或类似度总和最大的单词列,生成上述虚拟语音识别结果文本数据。

13.(追加)根据权利要求9或11所述的语音识别词典制作支持方法,其特征在于,

上述计算机基于构成识别单位的状态等要素间的距离或类似度表,由上述解析完毕文本数据生成上述要素的系列,从上述词典和语言模型中,通过搜索距离总和最小或类似度总和最大的单词列,生成上述虚拟语音识别结果文本数据。

14.(追加)根据权利要求9、11至13中任一项所述的语音识别词典制作支持方法,其特征在于,

上述计算机基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,在上述词典中追加出现于上述解析完毕文本数据侧的词句。

15.(追加)根据权利要求9、11至13中任一项所述的语音识别词典制作支持方法,其特征在于,

上述计算机基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,修正上述语言模型,以提高出现于上述解析完毕文本数据侧的单词或单词列的优先级。

16.(追加)根据权利要求9、11至13中任一项所述的语音识别词典制作支持方法,其特征在于,

上述计算机基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,修正上述语言模型,以降低出现于上述虚拟语音识别结果文本数据侧的单词或单词列的优先级。

17.(追加)根据权利要求15或16所述的语音识别词典制作支持方法,其特征在于,

上述计算机按照上述解析完毕文本数据和虚拟语音识别结果文本数据中的单词或单词列的出现频率控制上述优先级的增减量。

18.(追加)一种用于使得在构成语音识别词典制作支持系统的计算机中执行如下处理的程序:

针对文本数据进行语素解析处理的文本解析处理;

基于由上述文本解析处理输出的解析完毕文本数据,利用存储于规定存储装置中的词典、语言模型及声音模型生成虚拟语音识别结果文本数据的处理;

对上述解析完毕文本数据和上述虚拟语音识别结果文本数据进行比较,并提取不同之处的虚拟语音识别处理;以及

基于上述不同之处修正上述词典或上述语言模型中的至少一方的更新处理。

19.(追加)根据权利要求18所述的程序,其特征在于,

从上述解析完毕文本数据中生成以声音参数为要素的特征向量的系列,通过虚拟地执行语音识别处理,在上述计算机中生成上述虚拟语音识别结果文本数据。

20.(追加)根据权利要求18或19所述程序,其特征在于,

基于构成识别单位的状态等要素间的距离或类似度表,由上述解析完毕文本数据生成上述识别单位的系列,从上述词典和语言模型中,通过搜索距离总和最小或类似度总和最大的单词列,在上述计算机中生成上述虚拟语音识别结果文本数据。

21.(追加)根据权利要求18或19所述的程序,其特征在于,

基于构成识别单位的状态等要素间的距离或类似度表,由上述解析完毕文本数据生成上述要素的系列,从上述词典和语言模型中,通过搜索距离总和最小或类似度总和最大的单词列,在上述计算机中生成上述虚拟语音识别结果文本数据。

22.(追加)根据权利要求18至21中任一项所述的程序,其特征在于,

作为上述更新处理,在上述计算机中,基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,在上述词典中追加出现于上述解析完毕文本数据侧的词句。

23.(追加)根据权利要求18至21中任一项所述的程序,其特征在于,

作为上述更新处理,在上述计算机中,基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,进行上述语言模型的修正,以提高出现于上述解析完毕文本数据侧的单词或单词列的优先级。

24.(追加)根据权利要求18至21中任一项所述的程序,其特征在于,

作为上述更新处理,在上述计算机中,基于上述解析完毕文本数据和上述虚拟语音识别结果文本数据之间的不同之处,进行上述语言模型的修正,以降低出现于上述虚拟语音识别结果文本数据侧的单词或单词列的优先级。

25.(追加)根据权利要求23或24所述的程序,其特征在于,

作为上述更新处理,在上述计算机中,按照上述解析完毕文本数据和虚拟语音识别结果文本数据中的单词或单词列的出现频率进行上述优先级的增减量的控制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号