首页> 中国专利> 提高文字、语音识别的准确率的方法和装置及自动翻译系统

提高文字、语音识别的准确率的方法和装置及自动翻译系统

摘要

本发明提供了提高文字和语音识别的准确率的方法及装置、自动翻译方法及系统。其中提高文字识别的准确率的方法,包括:文字识别得到一个字集串A1,A2,...,Ak,其中Ai={ai 1,ai 2,...,ai ni},ai j是字,i=1,2,...,k,j=1,2,...,ni;根据语义单元表示树索引库,为该字集串中每个字集Ai中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集Ai对应的语义单元表示树集Bi,其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元,求出句义表达式;以及将所述句义表达式展开。

著录项

  • 公开/公告号CN1716240A

    专利类型发明专利

  • 公开/公告日2006-01-04

    原文格式PDF

  • 申请/专利权人 高庆狮;高小宇;

    申请/专利号CN200410062566.3

  • 发明设计人 高小宇;高庆狮;

    申请日2004-06-30

  • 分类号G06F17/27(20060101);G06F17/28(20060101);

  • 代理机构11247 北京市中咨律师事务所;

  • 代理人李峥

  • 地址 100083 北京市海淀区学院路30号北京科技大学51栋707

  • 入库时间 2023-12-17 16:50:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2010-09-01

    未缴年费专利权终止 IPC(主分类):G06F17/27 授权公告日:20070822 申请日:20040630

    专利权的终止

  • 2007-08-22

    授权

    授权

  • 2006-03-01

    实质审查的生效

    实质审查的生效

  • 2006-01-04

    公开

    公开

说明书

技术领域

本发明涉及数据处理技术,特别涉及文字识别和语音识别技术。

背景技术

文字识别和语音识别技术已经被人们熟知和广泛使用。目前市场上可以买到文字识别工具,例如,有众多厂家和版本的OCR软件、手写识别系统等等;和语音识别软件,例如,有IBM公司的ViaVoiceTM、Microsoft的Office XPTM中的语音识别功能等等。

在以往的文字和语音识别技术中,往往是根据字(word)的字形或发音特征(或者对于西文根据字母或单词字形或发音特征),进行识别从而提取出最接近的一个或多个候选字(或单词),然后由用户选择或自动选择形成识别结果。

但是,由于自然语言中许多字/词的字形和发音非常接近、或者由于用户的发音或书写不清楚、作为被处理的原始图像或语音质量低等等原因,以往的文字和语音识别技术无法非常准确地进行识别,识别率都不是非常高。

发明内容

为此,本发明的一个方面,提供了一种提高文字识别的准确率的方法,包括:文字识别得到一个字集串A1,A2,…,Ak,其中Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni;根据语义单元表示树索引库,为该字集串中每个字集Ai中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集Ai对应的语义单元表示树集Bi,其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元,求出句义表达式;以及将所述句义表达式展开。

本发明的另一个方面,提供了一种提高语音识别的准确率的方法,包括:语音识别得到一个字集串A1,A2,…,Ak,其中Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni;根据语义单元表示树索引库,为该字集串中每个字集Ai中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集Ai对应的语义单元表示树集Bi,其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元,求出句义表达式;以及将所述句义表达式展开。

本发明的另一个方面,提供了一种自动翻译的方法,包括:文字识别得到一个字集串A1,A2,…,Ak,其中Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni;根据语义单元表示树索引库,为该字集串中每个字集Ai中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集Ai对应的语义单元表示树集Bi,其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元,求出句义表达式;以及用一个或多个目标语种的语义单元表示,将所述句义表达式展开。

本发明的另一个方面,提供了一种自动翻译的方法,包括:语音识别得到一个字集串A1,A2,…,Ak,其中Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni;根据语义单元表示树索引库,为该字集串中每个字集Ai中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集Ai对应的语义单元表示树集Bi,其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元,求出句义表达式;以及用一个或多个目标语种的语义单元表示,将所述句义表达式展开。

本发明的另一个方面,提供了一种提高文字识别的准确率的装置,用于提高文字识别结果的准确率,所述文字识别结果包含一个字集串,该提高文字识别的准确率的装置包括:语义单元表示树索引库,用于记录按照语义单元表示库中原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的语义单元表示树;语义单元表示树提取装置,用于根据语义单元表示树索引库,为上述字集串中的字集中的每个字提取以该字为实量开始的语义单元表示树集;语义表示树剪枝装置,用于逐字集地对所述提取出的语义单元表示树集进行剪枝;句义表达式生成装置,用于根据所述提取出的语义单元表示树集中经所述语义表示树剪枝装置剪枝后剩余的语义单元,求出句义表达式;以及句义表达式展开装置,用于将上述求出的句义表达式用原始语种的语义表示展开,从而得到准确的识别结果。

本发明的另一个方面,提供了一种提高语音识别的准确率的装置,用于提高语音识别结果的准确率,所述语音识别结果包含一个字集串,该提高语音识别的准确率的装置包括:语义单元表示树索引库,用于记录按照语义单元表示库中原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的语义单元表示树;语义单元表示树提取装置,用于根据语义单元表示树索引库,为上述字集串中的字集中的每个字提取以该字为实量开始的语义单元表示树集;语义表示树剪枝装置,用于逐字集地对所述提取出的语义单元表示树集进行剪枝;以及句义表达式生成装置,用于根据所述提取出的语义单元表示树集中经所述语义表示树剪枝装置剪枝后剩余的语义单元,求出句义表达式;以及句义表达式展开装置,用于将上述求出的句义表达式用原始语种的语义表示展开,从而得到准确的识别结果。

本发明的另一个方面,提供了一种自动翻译系统,包括:文字识别装置,用于识别原始语种的文字信息,生成包含字集串的识别结果;语义单元表示库,至少记录有原始语种和目标语种的语义单元表示;语义单元表示树索引库,用于记录按照语义单元表示库中原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的语义单元表示树;语义单元表示树提取装置,用于根据语义单元表示树索引库,为上述字集串中的字集中的每个字提取以该字为实量开始的语义单元表示树集;语义表示树剪枝装置,用于逐字集地对所述提取出的语义单元表示树集进行剪枝;句义表达式生成装置,用于根据所述提取出的语义单元表示树集中经所述语义表示树剪枝装置剪枝后剩余的语义单元,求出句义表达式;以及句义表达式展开装置,用于将上述求出的句义表达式用一个或多个目标语种的语义单元表示展开,从而得到译文。

本发明的另一个方面,提供了一种自动翻译系统,包括:语音识别装置,用于识别输入的语音信息,生成包含字集串的识别结果;语义单元表示库,至少记录有原始语种和目标语种的语义单元表示;语义单元表示树索引库,用于记录按照语义单元表示库中原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的语义单元表示树;语义单元表示树提取装置,用于根据语义单元表示树索引库,为上述字集串中的字集中的每个字提取以该字为实量开始的语义单元表示树集;语义表示树剪枝装置,用于逐字集地对所述提取出的语义单元表示树集进行剪枝;句义表达式生成装置,用于根据所述提取出的语义单元表示树集中经所述语义表示树剪枝装置剪枝后剩余的语义单元,求出句义表达式;以及句义表达式展开装置,用于将上述求出的句义表达式用一个或多个目标语种的语义单元表示展开,从而得到译文。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明的一个实施例的提高文字识别的准确率的方法的流程图;

图2是根据本发明的一个实施例的提高文字识别的准确率的方法中剪枝过程的详细流程图;

图3是根据本发明的一个实施例的提高文字识别的准确率的方法中剪枝过程的详细流程图;

图4是展示根据本发明的一个实施例的提高文字识别的准确率的装置的结构的方块图;

图5是根据本发明的一个实施例的自动翻译的方法的流程图;

图6是根据本发明的一个实施例的提高语音识别的准确率的方法的流程图;

图7是展示根据本发明的一个实施例的自动翻译的方法的结构的方块图;以及

图8是根据本发明的一个实施例的自动翻译系统的流程图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

本发明的实施例中涉及到的一些技术术语和技术内容在以下的参考文献中已经进行了描述,它们的全部内容被包含于此,以供参考。

(1)2001年12月27日提交的发明名称为“基于语义语言的机器翻译系统及方法”的中国专利申请No.01131689.6。

(2)2003年11月14日提交的发明名称为“句义表达式的生成方法、机器翻译及电子词典”的中国专利申请No.200310114331.X。

提高文字识别的准确率的方法

图1是根据本发明的一个实施例的提高文字识别的准确率的方法的流程图。下面就参照该图对该实施例的提高文字识别的准确率的方法进行说明。

首先在步骤101,文字识别得到一个字集串A1,A2,…,Ak,其中一个字集Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni。如前面所述,现有的文字识别工具(例如,OCR软件、在线手写识别系统等)都是利用字形特征、笔划及笔顺特征等对扫描得到的或用户在线输入得到的特征数据进行识别,从而得到一个字集串A1,A2,…,Ak。其中,每一个字集Ai={ai1,ai2,…,aini},(aij是字,i=1,2,…,k,j=1,2,…,ni)是针对被处理的特征数据中一个字的最接近的一个或多个候选字。并且,通常通过调节参数可以增加或减少候选字的个数。这些对于本领域技术人员是已知的。在此,上述字集串A1,A2,…,Ak应当是表示一个句子的字集串。

接着在步骤105,从字集串中取出一个字集Ai。在本实施中,按照字集串A1,A2,…,Ak的顺序,依次取出字集。

接着在步骤110,根据语义单元表示树索引库,为该字集提取以该字为实量开始的语义单元表示树集。

下面,先对语义单元表示树索引库进行说明。如中国专利申请No.01131689.6中说明的那样,语义单元表示库是记录一种或多种自然语言的语义表示的数据集合。通常在语义单元表示库中包含有每个语义单元对应的两个或两个以上语种的语义单元表示、语义单元类型以及语义单元的虚量(参数部分)的类型要求(如果有虚量的话),下面的表1示例性地列举了一个多语种语义单元表示库的内容,当然,本领域技术人员可以作出各种变化,本发明对此没有特别限定。在本实施例中,作为语义单元表示,只由于被识别的语种对应的一种语义表示即可。

表1.多语种语义单元表示库的示例

相对地址语义单元表示类型+参量数目和类型第1语种表示.....第K语种表示类型参量数类012--N-1

语义单元表示树索引库则是按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序,为所述语义单元表示库编制的语义单元表示树。下面的表2示例性地展示了在语义单元表示树索引库中内容的示例,其中包含了一个以“more”为实量开始的语义单元表示树。

表2.语义单元表示树索引库的示例

语义单元表示                                      (*=语义单元ID,类型等等)V    more N*J,    more J*    more thanSL*    more thanN2$′s*    more thanJ*    more than<hesitated>toV*    more thanN$candescribe*    more thanN$canshakeastickat*    more andmore*    more andmore<a>*    more andbetter*    more andless*    more aredrownedinthewine-cupthanin the ocean*    more beef*    more beingsto marriagethanfourbarelegsin a bed*    more bravethanwise*    more crythanwool*    more deadthanalive*    more frightenedthanhurt*    more harmthangood*    more holythanrighteous*    more innamethaninreality*    more ismeantthantheear*    more ismeantthanmeetstheear*    more oftenthannotJ*SL,    more orless*    more saucethanfig*    more scaredthanburt*    more thanenough*    more thanonce*    more thanordinarilyV*    more thanpleased*
再V一些N;VN2J,而且J;JSL多;SL比N2的多;S比J的多;毫不<犹疑>地V;非N所能描述;N数不清的;越来越多;越来越<a>;更多更好地位高贵和低贱的人死于酒者多于溺于水者;加油干;贫贱夫妻;有勇无谋;空喊而不做实事;疲劳不堪;伤不重,吓倒不小;杞人忧天害多益少;破烂不堪;名不符实;言外有意;意在言外;S大半都J-S;SL左右;十分无礼|非常勇敢;杞人忧天;太多了;不只一次;特别会V;非常高兴;more than satisfied*more than seven*more than twelve*more than sufficientforN*more the merrier,thefewerthebettercheer*more or less*more haste ,thelassspeed*more laws ,themoreoffenders*more war *more like *more of yourbusiness*more fire inN$′sbedstraw*more fire inthebedstraw*more power toyourelbow*more sacks tothemill*more F $thannot*more N $thanN2$′s*more N $thanJ*more A $thanA2*
出乎意外地令人满意完全没有睡着;完全没有睡着;比N卓卓有余;人多热闹,人少多吃或多或少;欲速而不达;法律愈多,犯人就愈多;口角;大约;不关你的事;N的前途暗礁重重;前途暗礁重重;加油干;加油堆上去;相当F;比N2多的N;比J多的N;A比A2多;

根据本发明的一个优选实施例,为了提高在后面描述的剪枝过程的效率,在编制语义单元表示树索引库时,对于那些语义单元表示中包含由一个虚量隔开的两个或多个实量串的语义单元,或者换句话说对于那些在语义单元表示中虚量和实量交替出现的语义单元,进一步以该语义单元表示中后面一个实量串开始的部分作为“子树”加到语义单元表示树索引库中。

具体地说明,下面的表3列举了一些语义单元表示的可能形式。

表3.语义单元表示可能形式的示例

S-X排列类型例子注解Sboy:男孩SXinvalid<Nwill>:无效的<Nwill>;<Nwill>∷=will/deceased’swill/check/<Ndocument>/<Nlaw>//<Nargument>/<Ndecision>/<Ncontract>法律,遗嘱合同文件SXS对<N>大加赞扬:bestow<Nraise>on/upon<N>;SXSXbestow<Nraise>on/upon<N>:对<N>大加赞扬;<Nraise>∷=praise/applause/overpraise/SXS...XS对<N>赞扬引起<N>的不满;
SXS...XSXthe semi-final of<N运动>between<N>and<N>:<N>和<N>之间的<N运动>半决赛;<N运动专>∷=女子双打|男子单打|....XAN:AN;XS<Nofficer>invalid:<Nofficer>因伤病而退伍;<Nofficer>∷=officer/private/lieutenant/colonel/.....XSX<N>consists of<N>:<N>由<N>组成;XSXS<N>由<N>组成:<N>consists of<N>;XSXSX<N>give<N>to<N>:<N>把<N>给<N>;XSXS...XS<N>在<NP>拍许多<N>的照片:<N>takes pictures of<N>on<Np>;XSXS...XSX<N>move<N>from<Np>to<Np>:<N>把<N>从<NP>搬到<Np>

(其中实量串-S,虚量串-X,不同语言的语义单元表示形式可能一样)

下面的表4~6举例说明了以语义单元表示中后面一个实量串开始的部分作为“子树”加到语义单元表示树索引库中的情况。

表4.需要进一步处理的语义单元

more than N2$′s*more than N$candescribe*more than N$canshakea stickat*more fire inN$′sbed straw*more N $thanN2$′s*more N $thanJ*more A $thanA2*
比N2的多;非N所能描述;N数不清的;N的前途暗礁重重;比N2多的N;比J多的N;A比A2多;

将表4的各个语义单元处理成为以下一棵主树和一个子树集:

表5.主树集

more than N2$1*more than N$2*more than N$3*more fire inN$4*more N $5*more N $6*more A $7*
比N2的多;非N所能描述;N数不清的;N的前途暗礁重重;比N2多的N;比J多的N;A比A2多;

表6.子树集(若干棵子树)

内部编号子树集处理过程(子树的实量处理后,立即检查子树之前的主树的虚量)
  1  $′s  *  $′s*  2  $can  describe  *  $can describe*  3  $can  shake  a  stick  at  *  $can shake a stick at*  4  $′s  bed  straw  *  $′s bed straw*  5  $than  N2  $8  *  $than=>$5前的虚量=>先$8的实量=>$8之前的虚量(N2)=>后$8的  虚量(空)*  6  $than  J  *  $than J*  7  $than  A2  *  $thanA2*  8  $′s  *  $′s*

进而,在本发明中,语义单元表示库也可以由语义单元表述树索引库所代替(如果语义单元表述树中包含了足够的属性的话)。

在本步骤中,具体地,在语义单元表示树索引库中将以该字集Ai={ai1,ai2,…,ain}为实量开始的所有语义单元连续提取出即可。

接着在步骤115,对于已经提取出的语义单元表示树集进行剪枝,从而减少各个提取出的语义单元表示树集中剩余的语义单元,并且随着该字集串中更多字被用于剪枝处理,最终希望每个字集对应的语义单元表示树集中都只剩下一个语义单元。具体地,剪枝过程分为实量剪枝和虚量剪枝,在后面将逐个进行详细说明。

接着在步骤120,判断是否该字集串中的全部字集已经被取出处理过了。如果没有全部处理完,则返回到步骤105取出该字集串中下一个字集;如果全部处理完毕,则进行到步骤125。

在步骤125,根据剪枝剩下的语义单元求出句义表达式。具体地,通过将剩下的语义单元的语义表示进行代入,如果可以得到覆盖全部字集的句子,则将相应的语义单元进行相同的代入就可以得到句义表达式。后面还将结合具体例子对本步骤进行详细描述。

最后在步骤130,将得到的句义表达式用原始语种的语义表示展开,便可以得到准确的识别结果。

图2和图3是根据本发明的一个实施例的提高文字识别的准确率的方法中剪枝过程的详细流程图。如图2和3所示,剪枝过程包括虚量剪枝(步骤201)和实量剪枝(步骤205)。

所谓实量剪枝,就是将字集串中后面取出的字集与前面已经提取出的表述树集中语义单元表示的实量进行比较,如果一致则保留,如果不一致则剪掉。

所谓虚量剪枝,就是将提取出的表示树集中语义单元表示的虚量类型要求与相应位置已经确定的语义单元的类型进行比较,将不匹配的语义单元从表示树集中剪掉。由于一个语义表示中可能在一个实量的前面和后面出现虚量,所以虚量剪枝,如图3所示,包括前侧虚量剪枝(步骤305)和后侧虚量剪枝(步骤310)。

下面,就以“我下星期一写信给你。”为例,说明上述剪枝过程。假设通过文字识别得到与“我下星期一写信给你。”这句话对应的字集串为:(我|找|拢|)(下|卜)(星|早|甲)(期)(一)(写|万|叼)(信)(给)(你|称)。也就是说,对于“我”这个字识别出了“我”、“找”、“拢”三个最接近的候选字;对于“下”这个字识别出了“下”、“卜”  两个最接近的候选字;依此类推。下面的表7列出了逐个字集地提取语义单元表示树集和剪枝的过程。表7字集串(我|找|拢|)(下|卜)(星|早|甲)(期)(一)(写|万|叼)(信)(给)(你|称)的剪枝过程

第一个字集的语义单元表示树集。。。。。。,J。。。。。。。。。。。。。。  第一个字集的语义单元表示树集剪枝后N星期  第二个字集的语义单元表示树集
SN。。。。。。。。S。。。。。。。。  前第二个字集的语义单元表示树集剪枝后N星期SN  第三个字集的语义单元表示树集。。。。。。  划  原。。。。。。  。。。。。。。。  。。。。。。。。  。。  前三个字集的语义单元表示树集剪枝后N星期SN。。。。。。  第四个字集的语义单元表示树集
  期  望  。。  。。  。。  我  前四个字集的语义单元表示树集剪枝  后  下  N星期  S  下  N  星  期  星  期  一  早  期  一  第五个字集的语义单元表示树集  一  一  对  应  一  竿  子  到  底  S  一  J-S,S  就  J-S  。。  。。  。。  。。  。。  。。  我  前五个字集的语义单元表示树集剪枝  后  下  N星期  S  下  N  星  期  星  期  一  早  期  一  S  (T,U,  F,...)  写  N  第六个字集的语义单元表示树集  S  (T,U,  F,...)  写  N  给  N  写  作  写  生  。。  。。  。。  万  万  一  万  万  万  万  不  可  。。  。。  。。  。。  叼  我  前六个字集的语义单元表示树集剪枝  后  下  N星期  星  期  一  S  (T,U,  F,...)  写  N  S  (T,U,  F,...)  写  N  给  N  信  第七个字集的语义单元表示树集  信  用  信  用  卡  信  封  信  誉  信  仰
。。。。。。前七个字集的语义单元表示树集剪枝后N星期S(T,U,F,...)NN第八个字集的语义单元表示树集NNN。。。。。。前八个字集的语义单元表示树集剪枝后N星期S(T,U,F,...)NN第九个字集的语义单元表示树集全部九个字集的语义单元表示树集剪枝后的结果N星期S(T,U,F,...)NN解:识别出的句子。

如表7所示,首先取出第一个字集(我|找|拢|),并在语义单元表示树索引库中找出以“我”、“找”或“拢”为实量开始的语义单元表示树集。接着对该表示树集剪枝,将实量前面还包含虚量的语义单元表示剪掉。

接着取出下一个字集(下|卜),并在语义单元表示树索引库中找出以“下”或“卜”为实量开始的语义单元表示树集。接着,对前面字集(我|找|拢|)的表示树集进行实量剪枝,将其中实量与“下”或“卜”不匹配的语义单元剪掉;同时对字集(下|卜)的表示树进行剪枝,将实量前面的虚量与字集(我|找|拢|)的表示树集中确定的语义单元类型不一致的语义表示剪掉。

依次类推,直到取出最后一个字集(你|称)并进行剪枝后,最终剩下七个语义单元,如表7末尾处所示。

在此需要指出,在进行虚量剪枝时,确定两个或多个连续的语义单元时需要进行类型流转换处理。例如,“漂亮”和“花瓶”两个语义单元连续出现的情况下,根据类型处理规则,将形容义A(“漂亮”的类型)+事物义N(“花瓶”的类型)转换为事物义N。

具体的语义单元类型处理规则有多个,下面的表8示例性地列举了一些,以供参考。

表8.类型处理规则举例

处理前处理后数S+度量单位义N度量单位数量义SL数量义SL+事物义N事物义N形容义A+事物义N事物义N程度副词义F+形容义A形容义A

下面说明,根据剪枝剩下的语义单元求出句义表达式的步骤125。在剪枝结束后,理想的话,如果剩下的语义单元表示代入能够得到覆盖字集串的全部元素位置的句子,则只需将语义单元也按照其原始语种表示代入作相应的代入,即可得到句义表达式。

但是,也有可能经过剪枝处理之后,从剩下的语义单元表示,通过代入得不到覆盖字集串的全部元素位置的句子,即“无解”;或者得到多个句子,即“多解”,在多解的情况下,最终的识别结果也会是多个。

提高文字识别的准确率的装置

在同一发明构思下,本发明还提供了一种提高文字识别的准确率的装置。图4是展示根据本发明的一个实施例的提高文字识别的准确率的装置的结构的方块图。

如图4所示,该提高文字识别的准确率的装置400包括:语义单元表示树索引库401,用于记录按照语义单元表示库中原始语种(被识别文字的语种)语义单元的表示中实量的顺序、为语义单元表示库编制的索引;语义表示树集提取装置405,用于根据语义单元表示树索引库405,为字集提取以该字集为实量开始的语义单元表示树集;语义表示树集剪枝装置410,用于逐字集地对提取出的语义单元表示树集进行剪枝,具体地,执行前面描述的实量剪枝和虚量剪枝的过程;句义表达式生成装置415,用于根据提取出的语义单元表示树集中经语义表示树集剪枝装置410剪枝后剩余的语义单元,求出该句子的句义表达式,具体地,执行前面描述的步骤125;句义表达式展开装置420,用于将求出的句义表达式用原始语种的语义表示展开,从而得到准确的识别结果。

优选地,该提高文字识别的准确率的装置400的语义表示树集剪枝装置410还包括:实量剪枝装置,用于根据所述提取出的语义单元表示树集中各个语义单元的原始语种语义表示的实量,对所述提取出的语义单元表示树集剪枝;虚量剪枝装置,用于根据所述提取出的语义单元表示树集中各个语义单元的原始语种语义表示的虚量,对所述提取出的语义单元表示树集剪枝。

进而,实量剪枝装置,从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示的实量与所述字集串中后续字集不匹配的分支去掉。

优选地,该虚量剪枝装置,从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示的虚量的类型与所述字集串的对应部分中确定的语义单元的类型不匹配的分支去掉。

优选地,该虚量剪枝装置,从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示中在实量之前的虚量的类型与前面确定的语义单元的类型不匹配的分支去掉(前侧剪枝),并且从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示中在实量之后的虚量的类型与后面确定的语义单元的类型不匹配的分支去掉(后侧剪枝)。

优选地,该虚量剪枝装置,当出现两个或多个连续的语义单元时进行类型流转换处理。

自动翻译的方法(一)

在同一发明构思下,本发明还提供了一种自动翻译的方法,用于将原始语种的句子翻译成一个或多个目标语种的译文。图5是根据本发明的一个实施例的自动翻译的方法的流程图。下面结合该图对该实施例的自动翻译的方法进行说明,图中与前面实施例相同的部分被标以相同的标号,并适当地省略说明。

本实施例与前面实施例的区别在于,本实施中所使用的语义单元表示库应当至少包含原始语种和目标语种的语义单元表示。如图5所示,在步骤125求出句义表达式后,执行步骤530,用一个或多个目标语种的语义单元表示将句义表达式展开,从而得到目标语种的译文。

然后,在步骤535,将目标语种的译文输出,例如,可以是显示在屏幕上、打印出来或者经由语音合成装置合成为语音输出。

提高语音识别的准确率的方法

在同一发明构思下,本发明还提供了一种提高语音识别的准确率的方法。图6是根据本发明的一个实施例的提高语音识别的准确率的方法的流程图。下面就参照该图对该实施例的提高语音识别的准确率的方法进行说明,图中与前面实施例相同的部分被标以相同的标号,并适当地省略说明。

本实施例与前面图1所描述的实施例的不同之处在于,不同于图1的步骤101,本实施例首先在步骤601,通过语音识别得到一个字集串A1,A2,…,Ak,如前面所说明的那样,其中一个字集Ai={ai1,ai2,…,aini},(aij是字,i=1,2,…,k,j=1,2,…,ni)中包含的都是语音特征与输入的原始语音最接近的候选字。

接着与前面实施例相同执行步骤105至125,在步骤125根据剪枝剩下的语义单元求解句义表达式。然后,在步骤627判断是否得到句义表达式,如果没有得到则保留上述剪枝剩下的语义单元,返回到步骤601识别下一段语音,重复步骤601到125。

如果在步骤627判断为得到句义表达式,则进行到步骤130,与前面实施例相同,将该句义表达式展开为准确的识别结果。

下面,就以“我喝啤酒。”为例,说明本实施例的上述剪枝过程。假设通过语音识别得到与“我喝啤酒。”这句话对应的字集串为:(我|窝|涡|卧|)(和|河|何|合|赫|贺|鹤|)(批|砒|皮|脾|琵|疲|劈|辟|臂|啤|)(酒|纠|九|就|救|久|旧|韭|舅|)。下面的表8列出了逐个字集地提取语义单元表示树集和剪枝的过程。

表8字集串(我|窝|涡|卧|)(和|河|何|合|赫|贺|鹤|)(批|砒|皮|脾|琵|疲|劈|辟|臂|啤|)(酒|纠|九|就|救|久|旧|韭|舅|)的剪枝过程

第一个字集对应的表示树集。窝v卧v卧v卧v在N地第二个字集出现后进行剪枝后的第一个字集对应的表示树集第二个字集对应的表示树集
  有  名  N动物喝vN饮料  我  第三个字集出现后进行剪枝后的第一,二个字集  对应的表示树集  窝  N动物喝vN饮料N批v  N  第三个字集对应的表示树集  语  评v  件  霜  毛  袄  大  衣  夹  克  气  琶  劳  倦劈v  材  喻  酒  我  第四个字集出现后进行剪枝后的第一,二,三个  字集对应的表示树集  窝  N动物喝vN饮料N批v  N
N劈vN第四个字集对应的表示树集救v句号出现后进行剪枝后的第一,二,三,四个字集对应的树集N动物喝vN饮料N批vNN劈vN以上是剪枝后的过程和结果。但是只有一个句义能满足:喝(N动物,N饮料),即只有一个句子能满足:‘我喝啤酒。’N动物喝vN饮料求解解

自动翻译的方法(二)

在同一发明构思下,本发明还提供了一种自动翻译的方法,用于将原始语种的语音输入翻译成一个或多个目标语种的译文。图7是根据本发明的一个实施例的自动翻译的方法的流程图。下面结合该图对该实施例的自动翻译的方法进行说明,图中与前面图6的实施例相同的部分被标以相同的标号,并适当地省略说明。

本实施例与前面图6所描述的实施例的区别在于,本实施中所使用的语义单元表示库应当至少包含原始语种和目标语种的语义单元表示。如图7所示,在步骤627判断为得到句义表达式后,执行步骤730,用目标语种的语义单元表示将句义表达式展开,从而得到目标语种的译文。

然后,在步骤735,将目标语种的译文输出,例如,可以是显示在屏幕上、打印出来或者经由语音合成装置合成为语音输出。

当利用语音合成装置将译文合成为语音输出时,本实施例就成为一种同声传译的方法。

提高语音识别的准确率的装置

在同一发明构思下,本发明还提供了一种提高语音识别的准确率的装置。根据本发明的一个实施例提高语音识别的准确率的装置的机构与前面图4描述的提高文字识别的准确率的装置400基本相同,在此省略其图示。

本实施例的提高语音识别的准确率的装置包括:语义单元表示树索引库,用于记录按照语义单元表示库中原始语种(被识别文字的语种)语义单元的表示中实量的顺序、为语义单元表示库编制的索引;语义表示树集提取装置,用于根据语义单元表示树索引库,为字集提取以该字集为实量开始的语义单元表示树集;语义表示树集剪枝装置,用于逐字集地对提取出的语义单元表示树集进行剪枝,具体地,执行前面描述的实量剪枝和虚量剪枝的过程;句义表达式生成装置,用于根据提取出的语义单元表示树集中经语义表示树集剪枝装置剪枝后剩余的语义单元,求出覆盖该字集串的句义表达式,具体地,执行前面描述的步骤;句义表达式展开装置,用于将求出的句义表达式用原始语种的语义表示展开,从而得到准确的识别结果。进而,当句义表达式生成装置对剪枝后剩余的语义单元没有求出句义表达式时,保留剩下的语义单元继续处理后面的字集串。

优选地,该提高语音识别的准确率的装置的语义表示树集剪枝装置还包括:实量剪枝装置,用于根据所述提取出的语义单元表示树集中各个语义单元的原始语种语义表示的实量,对所述提取出的语义单元表示树集剪枝;虚量剪枝装置,用于根据所述提取出的语义单元表示树集中各个语义单元的原始语种语义表示的虚量,对所述提取出的语义单元表示树集剪枝。

进而,实量剪枝装置,从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示的实量与所述字集串中后续字集不匹配的分支去掉。

优选地,该虚量剪枝装置,从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示的虚量的类型与所述字集串的对应部分中确定的语义单元的类型不匹配的分支去掉。

优选地,该虚量剪枝装置,从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示中在实量之前的虚量的类型与前面确定的语义单元的类型不匹配的分支去掉(前侧剪枝),并且从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示中在实量之后的虚量的类型与后面确定的语义单元的类型不匹配的分支去掉(后侧剪枝)。

优选地,该虚量剪枝装置,当出现两个或多个连续的语义单元时进行类型流转换处理。

自动翻译系统

在同一发明构思下,本发明还提供了一种自动翻译系统。图8是根据本发明的一个实施例的自动翻译系统的流程图。本实施的实施例自动翻译系统与前面图4描述的提高文字识别的准确率的装置400具有相同的技术特征,在图8中标以相同的标号,在此适当省略其说明。

如图8所示,该自动翻译系统800包括:语音识别装置801、语义单元表示树索引库401、语义表示树集提取装置405、语义表示树集提取装置405、语义表示树集剪枝装置410、句义表达式生成装置415、句义表达式展开装置820和语音合成装置825。其中语义单元表示树索引库401、语义表示树集提取装置405、语义表示树集提取装置405、语义表示树集剪枝装置410和句义表达式生成装置415与图4中的相应部分相同。

本实施中所使用的语义单元表示库应当至少包含原始语种和目标语种的语义单元表示。本实施例中的句义表达式展开装置820,将由句义表达式生成装置415生成的句义表达式按照目标语种的语义单元表示展开,从而得到译文。进而,当句义表达式生成装置415无法由剪枝剩下的语义表示生成句义表达式时,保留剩下的语义表示,由语音识别装置801继续识别下一段语音,与这些剩下的语义表示一起进行剪枝处理。

本实施例中的语音识别装置801可以是任何的语音识别装置,用于将输入的语音信息识别为字集串。本实施例中的语音合成装置825可以是任何的语音合成装置,用于将有句义表达式展开装置820生成的译文转换为相应的语音,作为目标语音输出。

优选地,该自动翻译系统800的语义表示树集剪枝装置410还包括:实量剪枝装置,用于根据所述提取出的语义单元表示树集中各个语义单元的原始语种语义表示的实量,对所述提取出的语义单元表示树集剪枝;虚量剪枝装置,用于根据所述提取出的语义单元表示树集中各个语义单元的原始语种语义表示的虚量,对所述提取出的语义单元表示树集剪枝。

进而,实量剪枝装置,从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示的实量与所述字集串中后续字集不匹配的分支去掉。

优选地,该虚量剪枝装置,从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示的虚量的类型与所述字集串的对应部分中确定的语义单元的类型不匹配的分支去掉。

优选地,该虚量剪枝装置,从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示中在实量之前的虚量的类型与前面确定的语义单元的类型不匹配的分支去掉(前侧剪枝),并且从所述提取出的语义单元表示树集中,将语义单元的原始语种语义表示中在实量之后的虚量的类型与后面确定的语义单元的类型不匹配的分支去掉(后侧剪枝)。

优选地,该虚量剪枝装置,当出现两个或多个连续的语义单元时进行类型流转换处理。

另外,根据本发明的另一实施例,图8中的语音识别装置801可以替换为一个文字识别装置,例如,前面描述的现有技术中的任意一个文字识别装置。

另外,根据本发明的再另一实施例,图8中的语音合成装置801也可以是显示器、打印机等其它输出装置。

本领域技术人员应当理解,本发明中的根据上下文缩小词义解释范围的电子词典、机器翻译系统及它们的组成部分可以用硬件或软件的形式实现,并且,物理地各个组成部分也可以不在一起,而是操作上互相配合完成上述实施例中描述的功能。

以上虽然通过一些示例性的实施例对本发明的生成句义表达式的方法及装置、机器翻译系统、自动根据上下文缩小词义解释范围的词语解释方法和根据上下文缩小词义解释范围的电子词典进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号