公开/公告号CN102165435A
专利类型发明专利
公开/公告日2011-08-24
原文格式PDF
申请/专利权人 金格软件有限公司;
申请/专利号CN200980138185.X
发明设计人 Y·卡罗夫赞格威尔;
申请日2009-02-04
分类号G06F17/20(20060101);
代理机构72002 永新专利商标代理有限公司;
代理人刘瑜;王英
地址 美国马塞诸塞州
入库时间 2023-12-18 03:04:41
法律状态公告日
法律状态信息
法律状态
2019-01-18
未缴年费专利权终止 IPC(主分类):G06F17/20 授权公告日:20141224 终止日期:20180204 申请日:20090204
专利权的终止
2014-12-24
授权
授权
2011-10-05
实质审查的生效 IPC(主分类):G06F17/20 申请日:20090204
实质审查的生效
2011-08-24
公开
公开
相关申请的引用
在此引用在2007年8月1日提交的、标题为“METHODS FOR CONTEXT SENSITIVE ERROR DETECTION AND CORRECTION”的美国临时专利申请No.60/953,209和在2008年7月31日提交的PCT专利申请PCT/IL2008/001051,特此通过引用并入它们的公开,并且特此按照37CFR1.78(a)(4)和(5)(i)来要求它们的优先权。
技术领域
本发明总体上涉及计算机辅助语言产生和校正,并且更具体地涉及适用于机器翻译的计算机辅助语言产生和校正。
背景技术
认为以下公布表示现有技术:
美国专利No.5,659,771;No.5,907,839;No.6,424,983;No.7,296,019;No.5,956,739和No.4,674,065
美国公布的专利申请No.2006/0247914和No.2007/0106937
发明内容
本发明寻求提供用于计算机辅助语言产生的改进的系统和功能。
根据本发明的优选实施例,提供了一种计算机辅助语言产生系统,包括:
语句检索功能,其基于包含词的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。
优选地,所述语句检索功能包括:
独立短语产生器,用于将所述输入文本划分为一个或多个独立短语;
词干产生器和分类器,用于对每一个独立短语进行操作,以产生词中出现的词干,并且向其分配重要性权重;以及
替换产生器,用于产生与所述词干对应的替换词干。
根据本发明的优选实施例,所述计算机辅助语言产生系统并且还包括词干到语句索引,所述词干到语句索引与所述因特网语料库交互,以检索所述多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词。
优选地,所述语句产生功能包括:
语句简化功能,用于简化从所述因特网语料库检索的所述语句;
简化语句分组功能,用于对由所述语句简化功能提供的类似的简化语句进行分组;以及
简化语句组分级功能,用于对所述类似的简化语句的组进行分级。
根据本发明的优选实施例,所述简化语句组分级功能使用下面的准则中的至少一些来操作:
A.在组中包含的简化语句的数量;
B.在所述组中的词的词干与在独立短语中的词干及其替换的对应度;
C.所述组包括不与在所述独立短语中的词及其替换对应的词的程度。
优选地,所述简化语句组分级功能使用下面的过程的至少一部分来操作:
定义词干的权重,以指示词在语言中的重要性;
计算与准则B对应的正匹配分级;
计算与准则C对应的负匹配分级;
基于以下项来计算复合分级:
在组中包含的简化语句的所述数量,并且所述数量对应于准则A;
所述正匹配分级;以及
所述负匹配分级。
根据本发明的实施例,所述计算机辅助语言产生系统还包括机器翻译功能,用于提供所述输入文本。
根据本发明的优选实施例,提供了一种机器翻译系统,包括:
机器翻译功能;
语句检索功能,其基于由所述机器翻译功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述机器翻译功能产生的所述输入文本的至少一个正确的语句。
优选地,所述机器翻译功能提供与在所述输入文本中的词对应的多个替换,并且所述语句检索功能用于从所述因特网语料库检索包括对应于所述替换的词的多个语句。
根据本发明的实施例,语言产生包括文本校正。
根据本发明的优选实施例,提供了一种文本校正系统,包括:
语句检索功能,其基于由所述文本校正功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句校正功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。
优选地,所述系统还包括语句搜索功能,用于基于用户输入的查询词来提供所述输入文本。
根据本发明的优选实施例,提供了一种语句搜索系统,包括:
语句搜索功能,用于基于用户输入的查询词来提供输入文本;
语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语句搜索功能产生的所述输入文本的至少一个正确的语句。
优选地,所述计算机辅助语言产生系统还包括语音至文本转换功能,用于提供所述输入文本。
根据本发明的优选实施例,提供了一种语音至文本转换系统,包括:
语音至文本转换功能,用于提供输入文本;
语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及
语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语音至文本转换功能产生的所述输入文本的至少一个正确的语句。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少部分地基于因特网语料库来至少在所述语句的所述多个词的每一个的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
优选地,所述选择器用于基于以下校正功能中的至少一个来作出所述选择:拼写校正;误用词校正;语法校正;以及词汇增强。
根据本发明的优选实施例,所述选择器用于基于以下校正功能中的至少两个来作出所述选择:拼写校正;误用词校正;语法校正;以及词汇增强。
另外,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择:在误用词校正、语法校正和词汇增强的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。
附加地或可替换地,通过下面的功能之一来提供所述输入语句:词处理器功能;机器翻译功能;语音至文本转换功能;光学字符识别功能;以及即时消息传送功能;并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:误用词校正;语法校正;以及词汇增强。
优选地,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。附加地或可替换地,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。
根据本发明的优选实施例,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。
优选地,所述选择器包括基于上下文的评分功能,所述基于上下文的评分功能用于至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率来对所述多个替换进行分级。另外,所述基于上下文的评分功能也用于至少部分地基于在所述因特网语料库中的标准化的CFS出现频率来对所述多个替换进行分级。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括拼写校正功能、误用词校正功能、语法校正功能以及词汇增强功能中的至少一个;以及上下文特征序列功能,其与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少一个协同工作,并且使用因特网语料库。
优选地,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。附加地或可替换地,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。
根据本发明的优选实施例,所述计算机辅助语言校正系统包括所述拼写校正功能、所述误用词校正功能、所述语法校正功能以及所述词汇增强功能中的至少两个,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少两个协同工作,并且使用因特网语料库。
优选地,所述计算机辅助语言校正系统还包括所述拼写校正功能、所述误用词校正功能、所述语法校正功能以及所述词汇增强功能中的至少三个,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少三个协同工作,并且使用因特网语料库。
根据本发明的优选实施例,所述计算机辅助语言校正系统还包括所述拼写校正功能;所述误用词校正功能;所述语法校正功能;以及所述词汇增强功能,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能协同工作,并且使用因特网语料库。
优选地,所述校正产生器包括校正语言产生器,所述校正语言产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用产介入。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:替换产生器,用于基于语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少部分地基于在所述语言输入中的所述多个词的至少一些的多个替换中选择的一些之间的关系,来至少在所述语言输入中的所述多个词的每一个的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
优选地,所述语言输入包括输入语句和输入文本中的至少一个。附加地或可替换地,所述语言输入是语音,并且所述产生器将语音形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。
根据本发明的优选实施例,所述语言输入是以下项中的至少一个:文本输入;光学字符识别功能的输出;机器翻译功能的输出;以及词处理功能的输出,并且所述产生器将文本形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。
优选地,所述选择器用于基于以下校正功能中的至少两个来作出所述选择:拼写校正;误用词校正;语法校正;以及词汇增强。另外,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择:在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。
根据本发明的优选实施例,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:误用词校正;语法校正;以及词汇增强。
优选地,所述选择器用于通过执行以下功能中的至少两个来作出所述选择:选择第一词集合或词组合,所述第一词集合或词组合包括的词少于在所述语言输入中用于初始选择的所有所述多个词;其后,对所述第一词集合或词组合的元素进行排序,以建立选择的优先级;并且其后,当在所述第一词集合的元素的多个替换中进行选择时,选择所述多个词中的其他词但是不是所有词来作为上下文,以影响所述选择。附加地或可替换地,所述选择器用于通过执行以下功能来作出所述选择:当对于具有至少两个词的元素进行选择时,结合所述至少两个词彼此的另一个词的多个替换的每一个替换来对所述至少两个词的每一个词的多个替换的每一个替换进行评估。
根据本发明的优选实施例,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:误用词怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来评估所述至少大多数词;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
优选地,所述计算机辅助语言校正系统还包括:替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择;并且其中所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。附加地或可替换地,所述计算机辅助语言校正系统还包括:可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为误用词的程度。
根据本发明的优选实施例,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出,而不要求用户介入。
优选地,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:误用词校正;语法校正;以及词汇增强。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:误用词怀疑器,用于评估在语言输入中的词;替换产生器,用于产生所述语言输入中被所述怀疑器评估为可疑词的词中的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在因特网语料库中的所述语言输入中的所述词的上下文特征一致;选择器,用于至少在所述多个替换之间进行选择;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:误用词怀疑器,用于评估在语言输入中的词,并且识别可疑词;替换产生器,用于产生所述可疑词的多个替换;选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:替换产生器,用于基于输入来产生在所述输入中的至少一个词的多个替换;选择器,用于根据多个选择准则来对每一个所述至少一个词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述至少一个词的偏置,所述偏置是用于指示人提供所述输入的不确定性的输入不确定性度量的函数;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:错误词怀疑器,用于对语言输入中的至少大多数词进行评估,所述怀疑器至少部分地对用于指示人提供所述输入的不确定性的输入不确定性度量进行响应,所述怀疑器提供可疑错误词输出;以及替换产生器,用于产生由所述可疑错误词输出识别的可疑错误词的多个替换;选择器,用于在每一个可疑错误词和由所述替换产生器产生的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,用于接收多词输入并且提供校正输出,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个的每一个包括替换词候选产生器,所述替换词候选产生器包括:语音相似度功能,用于基于与在所述输入中的词的语音相似度来提出替换词,并且指示语音相似度的度量;以及字符串相似度功能,用于基于与在所述输入中的词的字符串相似度来提出替换词,并且指示每一个替换词的字符串相似度的度量;以及选择器,用于通过将所述语音相似度的度量和字符串相似度的度量与基于上下文的选择功能一起使用,来选择在所述输出中的词或由所述替换词候选产生器提出的替换词候选。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:可疑词识别功能,用于接收多词语言输入,并且提供指示可疑词的可疑词输出;特征识别功能,用于识别包括所述可疑词的特征;替换选择器,用于识别对于所述可疑词的替换;特征出现功能,用于使用语料库并提供出现输出,所述出现输出按照包括所述替换的各个特征在所述语料库中的使用频率将所述各个特征进行分级;以及选择器,用于使用所述出现输出来提供校正输出,所述特征识别功能包括特征过滤功能,所述特征过滤功能包括下述功能中的至少一个:用于消除包含可疑错误的特征的功能;用于对包含在所述多词输入的早期校正迭代中引入的词并且具有小于置信度预定阈值的置信度的特征进行负偏置的功能;以及用于消除被包含在具有大于预定频率阈值的出现频率的另一个特征中的特征的功能。
优选地,所述选择器用于基于以下校正功能中的至少两个来作出所述选择:拼写校正;误用词校正;语法校正;以及词汇增强。另外,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择:在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。
根据本发明的优选实施例,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择:语法校正;和误用词校正;以及词汇增强。
优选地,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
根据本发明的优选实施例,所述选择器也用于至少部分地基于用户输入不确定性度量来作出所述选择。另外,所述用户输入不确定性度量是基于人提供所述输入的不确定性测量的函数。附加地或可替换地,所述选择器也使用用户输入历史学习功能。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:可疑词识别功能,用于接收多词语言输入并且提供指示可疑词的可疑词输出;特征识别功能,用于识别包括所述可疑词的特征;替换选择器,用于识别对于所述可疑词的替换;出现功能,用于使用语料库并且提供出现输出,所述出现输出按照包括所述替换的特征在所述语料库中的使用频率将包括所述特征进行分级;以及校正输出产生器,用于使用所述出现输出来提供校正输出,所述特征识别功能包括下述功能中的至少一个:N元语法识别功能和共现识别功能,以及略过语法识别功能、转换语法识别功能以及用户先前使用特征识别功能中的至少一个。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:语法错误怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来对所述至少大多数词进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
优选地,所述计算机辅助语言校正系统还包括:替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择,并且其中所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。
根据本发明的优选实施例,所述计算机辅助语言校正系统还包括:可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为包含语法错误的程度。
优选地,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出,而不要求用户介入。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:语法错误怀疑器,用于对语言输入中的词进行评估;替换产生器,用于产生所述语言输入中被所述怀疑器评估为可疑词的词的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在所述语言输入中的所述词的上下文特征一致;选择器,用于至少在所述多个替换中进行选择;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:语法错误怀疑器,用于评估在语言输入中的词并且识别可疑词;替换产生器,用于产生所述可疑词的多个替换;选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
优选地,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率对各个替换校正进行基于上下文的评分。
优选地,所述计算机辅助语言校正系统还包括与所述基于上下文的评分协同工作的下述功能中的至少一个:拼写校正功能;误用词校正功能;语法校正功能;以及词汇增强功能。
根据本发明的优选实施例,所述基于上下文的评分也至少部分地基于在因特网语料库中的标准化的CFS出现频率。附加地或可替换地,所述基于上下文的评分也至少部分地基于CFS重要性评分。另外,所述CFS重要性评分是以下项中的至少一个的函数:词性标注和语句分析功能的操作;CFS长度;在CFS中的每一个词的出现频率和CFS类型。
根据本发明的另一优选实施例,提供了一种计算机辅助语言校正系统,包括词汇增强功能,所述词汇增强功能包括:词汇受挑战词识别功能;替换词汇增强产生功能;以及基于上下文的评分功能,其至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率,所述替换词汇增强产生功能包括用于产生替换词汇增强的同义词词典预处理功能。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少在所述语句的所述多个词的每一个的所述多个替换中进行选择;置信度分配器,用于向从所述多个替换选择的替换分配置信度;以及校正产生器,用于基于由所述选择器作出的选择和至少部分地基于所述置信度来提供校正输出。
优选地,基于上下文特征序列(CFS)来评估所述多个替换,并且所述置信度基于以下参数中的至少一个:所选择的CFS的数量、类型和评分;在所述CFS的上下文中,所述多个替换的出现频率的统计显著性的测量;在基于所述CFS的每一个的偏好度量和基于所述多个替换的词相似度评分而对所述多个替换之一进行的选择上的一致度;在第一预定最小阈值之上的所述多个替换中的所述一个的非上下文相似度评分;以及上下文数据的可获得的程度,所述程度由具有大于第二预定最小阈值的CFS评分并且具有在第三预定阈值之上的偏好评分的所述CFS的数量指示。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:标点错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率,基于所述语言输入中的至少一些词和标点在所述语言输入的上下文内的适合性来对所述至少一些词和标点进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
优选地,所述校正产生器包括下述功能中的至少一个:丢失标点校正功能、多余标点校正功能和标点替代校正功能。
上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括:语法元素错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率,基于所述语言输入中的至少一些词在所述语言输入的上下文内的适合性来对所述至少一些词进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
优选地,所述校正产生器包括下述功能中的至少一个:丢失语法元素校正功能、多余语法元素校正功能和语法元素替代校正功能。附加地或可替换地,所述语法元素是冠词、介词和连词之一。
附图说明
根据下面结合附图的详细描述,将更全面地理解和认识本发明,在附图中:
图1是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言校正的系统和功能的简化框图图示;
图2是图示优选地在图1的系统和功能中使用的拼写校正功能的简化流程图;
图3是图示优选地在图1的系统和功能中使用的误用词和语法校正功能的简化流程图;
图4是图示优选地在图1的系统和功能中使用的词汇增强功能的简化流程图;
图5是图示优选地在图1的系统和功能中使用的上下文特征序列(CFS)功能的简化框图。
图6A是图示根据本发明的一个优选实施例的、形成图2的功能的一部分的拼写校正功能的简化流程图;
图6B是图示根据本发明的一个优选实施例的、形成图3的功能的一部分的误用词和语法校正功能的简化流程图;
图6C是图示根据本发明的一个优选实施例的、形成图4的功能的一部分的词汇增强功能的简化流程图;
图7A是图示在图2和3的功能中有用的、用于产生替换校正的功能的简化流程图;
图7B是图示在图4的功能中有用的、用于产生替换增强的功能的简化流程图;
图8是图示用于对各个替换校正进行基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分的功能的简化流程图,该功能是在图2的拼写校正功能中有用的;
图9是图示用于对各个替换校正进行基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分的功能的简化流程图,该功能是在图3、10和11的误用词和语法校正功能中和在图4的词汇增强功能中有用的;
图10是图示丢失冠词、介词和标点校正功能的操作的简化流程图;
图11是图示多余冠词、介词和标点校正功能的操作的简化流程图;
图12是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言翻译和产生的系统和功能的简化框图图示;
图13是优选地形成图12的系统和功能的一部分的语句检索功能的简化流程图;
图14A和14B一起作为图示优选地形成图12的系统和功能的一部分的语句产生功能的简化流程图;以及
图15是图示在图13、14A和14B的功能中有用的用于产生替换的功能的简化流程图。
具体实施方式
现在参考图1,图1是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言校正的系统和功能的简化框图图示。在图1中看出,用于校正的文本被从一个或多个来源提供到语言校正模块100,所述一个或多个来源非限制性地包括词处理器功能102、机器翻译功能104、语音至文本转换功能106、光学字符识别功能108和任何其他文本来源110,诸如即时消息或因特网。
语言校正模块100优选地包括拼写校正功能112、误用词和语法校正功能114和词汇增强功能116。
本发明的一个具体特征是拼写校正功能112、误用词和语法校正功能114和词汇增强功能116的每一个与上下文特征序列(CFS)功能118交互,CFS功能118使用因特网语料库120。
为了在此描述的目的,上下文特征序列或CFS被定义为包括N元语法(N-gram)、略过语法(skip-gram)、转换语法(switch-gram)、共现(co-occurrence)、“用户先前使用特征”及其组合,它们又在后文中参考图5来定义。注意,为了描述的简单和清楚,随后的大多数示例仅使用n元语法。应当理解,本发明不限于此。
因特网语料库的使用是重要的,因为它提供了用于极大数量的上下文特征序列的重要统计数据,产生高度鲁棒的语言校正功能。实际上,超过两个词的组合在传统的非因特网语料库中具有很差的统计,但是在因特网语料库中具有可接受的或良好的统计。
因特网语料库是通常通过在因特网上抓取(crawl)并且从网页收集文本而从万维网收集的自然语言文本的大代表采样。优选地,也收集动态文本,诸如聊天副本、来自网络论坛的文本和来自博客的文本。所收集的文本用于累积关于自然语言文本的统计。与多达二十亿词的更通常的语料库大小相比,因特网语料库的大小可以例如是1万亿(1,000,000,000,000)词或几万亿词。诸如网络语料库的网络小采样包括100亿词,这远远小于由诸如GOOGLE的搜索引擎编入索引的网络文本的百分之一。本发明可以用诸如网络语料库的网络采样来工作,但是优选地使用大得多的网络采样来用于文本校正任务。
优选地,以下面两种方式之一来使用因特网语料库:
通过将CFS用作搜索查询来使用一个或多个因特网搜索引擎。每一个这样的查询的结果的数量提供了该CFS的出现频率。
通过对因特网进行抓取和编索引,随着时间过去而建立本地索引。每一个CFS的出现次数提供了CFS频率。本地索引以及搜索查询可以基于因特网的可选部分,并且可以用这些选择的部分来标识。类似地,因特网的部分可以被排除或被适当地加权,以便校正在因特网使用和一般语言使用之间的异常。以这种方式,在语言使用上可靠的网站(诸如新闻和政府网站)可以被赋予比其他网站(诸如聊天或用户论坛)更大的权重。
优选地,输入文本首先被提供到拼写校正功能112,之后被提供到误用词和语法校正功能114。输入文本可以是任何适当的文本,并且在词处理的环境中,优选地是文档的一部分,诸如语句。词汇增强功能116优选地按照用户选项对已经被提供到拼写校正功能112和误用词和语法校正功能114的文本进行操作。
优选地,语言校正模块100提供包括校正后的文本的输出,所述校正后的文本伴随有针对每一个被校正词或每一组被校正词的一个或多个建议的替换。
现在参见图2,图2是图示优选地在图1的系统和功能中使用的拼写校正功能的简化流程图。如图2中所示,拼写校正功能优选地包括下面的步骤:
优选地使用传统的词典来识别在输入文本中的拼写错误,该词典具有丰富的在因特网上常用的正确的名称和词;
将拼写错误分组为簇(cluster),该簇可以包括具有拼写错误的单个或多个词(连续或几乎连续),并且选择要校正的簇。该选择试图找到包含最大量正确上下文数据的簇。优选地,选择在其附近具有最长的一个或多个正确拼写词序列的簇。后文中参考图6A更详细地描述上述步骤。
优选地基于后文参考图7A描述的算法来产生针对每一个簇的一个或优选地多个替换校正;
优选地,基于后文参考图8描述的拼写校正替换评分算法,对各个替换校正进行至少部分基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分;
对于每一个簇,基于上述评分,选择单个拼写校正,并且给出最优选的替换拼写校正;以及
提供校正后的文本输出,该校正后的文本输出包含针对每一个误拼写的簇的单个拼写校正,该单个拼写校正替代误拼写的簇。
根据对以下示例的考虑,可以更好地理解图2的功能的操作:
接收下面的输入文本:
Physical ecudation can assits in strenghing muscles.Some students should eksersiv daily to inprove their strenth and helth becals thay ea so fate。
下面的词被识别为拼写错误:
ecudation,assits;strenghing;eksersiv;inprove;strenth;helth;becals;thay,ea。
注意,“fate”未被识别为拼写错误,因为它出现在词典中。
选择下面的簇,如表1中所示:
表1
关于簇2,注意“their”被正确地拼写,但仍被包括在簇中,因为它被误拼写的词包围。
簇1“eksersiv”被选择来进行校正,因为它在其附近具有最长的一个或多个正确拼写词序列。
对于误拼写的词“eksersiv”产生下面的替换校正:
excessive,expressive,obsessive,assertive,exercise,extensive,exclusive,exertion,excised,exorcism。
基于与误拼写的词的发音和字符串的相似度,向每一个替换校正赋予非上下文词相似度评分,例如如表2中所示:
表2
可以以各种方式得到非上下文评分。一个示例是通过使用在http://en.wikipedia.org/wiki/Levenshtein_distance上可获得的Levelnshtein距离算法。该算法可以被施加到词串、词语音表示或两者的组合。
还基于每一个替换在输入语句上下文中的适合性向其赋予上下文评分,如表3中所示。在该示例中,所使用的上下文是“Some students should<eksersiv>daily”
表3
上下文评分优选地如后文参考图8所描述的那样得到,并且基于在因特网语料库中的上下文特征序列(CFS)频率。
基于如后文参考图8所描述的上下文评分和非上下文词相似度评分,词“exercise”被选择为最佳的替换。
以类似的方式来校正所有簇。在根据本发明的一个优选实施例的拼写校正后,拼写校正后的输入文本是:
Physical education can assist in strengthening muscles.Some students should exercise daily to improve their strength and health because they are so fate.
注意,在拼写校正后的输入文本中仍然有误用的词。词“fate”需要通过后文参考图3所描述的误用词和语法校正算法来进行校正。
现在参见图3,图3是图示优选地在图1的系统和功能中使用的误用词和语法校正功能的简化流程图。误用词和语法校正功能提供了对正确拼写但是在输入文本的上下文中误用的词的校正和对语法错误的校正,该语法错误包括使用语法上不正确的词取代了语法上正确的词、使用了多余的词以及丢失了词和标点。
如图3中所示,误用词和语法校正功能优选地包括下面的步骤:
优选地,通过评估至少大多数词在输入语句的上下文内的适合性,在从图2的拼写校正功能输出的拼写校正后的输入文本中识别可疑的误用词和具有语法错误的词;
将可疑的误用词和具有语法错误的词分组为簇,该簇优选地是不重叠的;以及
选择要校正的簇。所述识别、分组和选择步骤优选地基于后文参考图6B所描述的算法。
优选地,基于后文参考图7A所描述的替换校正产生算法,为每一个簇产生一个或优选地多个替换校正;
基于后文参考图10描述的丢失冠词、介词和标点校正算法,为每一个簇产生一个或优选地多个替换校正;
基于后文参考图11描述的多余冠词、介词和标点校正算法,为每一个簇产生一个或优选地多个替换校正;
优选地,基于后文参考图9描述的误用词和语法校正替换评分算法,对各个替换校正进行至少部分基于上下文的评分和基于词相似度的评分;
对于每一个簇,基于也在后文参考图9描述的上述评分,选择单个误用词和语法校正,并且给出最优选的替换误用词和语法校正;以及
提供拼写、误用词和语法校正后的文本输出,该文本输出包含每一个簇的单个误用词和语法校正,所述校正替代了不正确的簇。
优选地,所述评分包括:相对于可疑词的多个替换的一些应用有利于该可疑词的偏置,该偏置是用于指示人提供该输入的不确定性的输入不确定性度量的函数。
通过考虑下面的示例,可以更好地理解图3的功能的操作:
接收到下面的输入文本:
I have money book
下面的词被识别为可疑的误用词:
money,book
产生下面的簇:
money book
下面是对于该簇产生的替换校正的示例(部分列表):
money books;money back;money box;money bulk;money Buick;money ebook;money bank;mini book;mummy book;Monet book;honey book;mannerly book;mono book;Monday book;many books;mini bike;mummy back;monkey bunk;Monday booked;Monarchy back;Mourned brook
在表4中给出了使用因特网语料库的基于上下文的至少部分上下文评分和基于非上下文词相似度的评分的结果:
表4
应当意识到,存在得出总体评分的各种方式。优选的总体评分基于后文参考图9描述的算法。
基于上面的评分,选择替换“many books”。因此,校正后的文本是:
I have many books.
现在参考图4,图4是图示在图1的系统和功能中使用的词汇增强功能的简化流程图。如图4中所示,词汇增强功能优选地包括下面的步骤:
在从图3的误用词和语法校正功能输出的拼写、误用词和语法校正后的输入文本中识别具有可疑的欠佳词汇使用的词汇挑战(vocabulary-challenged)词;
将词汇受挑战词分组为簇,该簇优选地是不重叠的;
选择要校正的簇。所述识别、分组和选择步骤优选地基于后文参考图6C所描述的算法。
优选地,基于后文参考图7B所描述的词汇增强产生算法,为每一个簇产生一个或优选地多个替换词汇增强;
优选地,基于后文参考图9描述的词汇增强替换评分算法,对各个替换词汇增强进行基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分;
对于每一个簇,基于也在后文参考图9描述的上述评分,选择单个词汇增强,并且给出最优选的替换词汇增强;以及
为每一个欠佳词汇簇提供词汇增强建议。
通过考虑下面的示例,可以更好地理解图4的功能的操作:
提供下面的拼写、误用词和语法校正后的输入文本:
Wearing colorful clothes will separate us from the rest of the children in the school.
使用后文参考图6C描述的功能,选择下面的簇来进行词汇增强:
separate
使用后文参考图7B描述的功能,基于在图7B中描述的预处理的词典数据库来产生下面的替换簇校正,如表5中所示(部分列表):
表5
至少部分地基于各个替换词汇增强在输入文本的上下文内的适合性,并且也基于它们与词汇受挑战词“separate”的含义相似度,使用因特网语料库对该各个替换词汇增强进行评分。
使用后文参考图5描述的功能,产生下面的CFS(部分列表):
′will separate′,′separate us′,′clothes will separate′,′will separate us′,′separate us from′
使用后文参考图9的阶段IIA描述的功能,为在上面的CFS列表中的替换簇校正的部分列表产生在表6中所示的在因特网语料库中的出现频率矩阵:
表6
所有替换校正具有0出现频率的所有CFS被消除。在该示例中,下面的特征语法被消除:
′clothes will separate′
其后,整体包括在至少具有最低阈值出现频率的其他CFS中的所有CFS被消除。例如,下面的特征语法被消除:
′will separate′,′separate us′
在该示例中,剩余的CFS是特征语法:
′will separate us′,′separate us from′
使用后文参考图9在阶段IID和IIE中描述的最后的偏好评分,选择替换“differentiate”,并且增强的语句是:
Wearing colorful clothes will differentiate us from the rest of the children in the school.
现在参见图5,图5是图示在本发明的优选实施例的、用于计算机辅助语言校正的系统和功能中有用的上下文特征序列(CFS)功能118(图1)的简化框图。
CFS功能118优选地包括特征提取功能,该特征提取功能包括N元语法提取功能,并且可选地包括下述功能中的至少一个:略过语法提取功能;转换语法提取功能;共现提取功能;以及用户先前使用特征提取功能。
作为本领域的已知术语的术语N元语法指的是在输入文本中的N个连续词的序列。该N元语法提取功能可以使用传统的词性标注和语句分析功能,以避免产生基于语法考虑预期不以高频率出现在语料库(优选地为因特网语料库)中的特定N元语法。
为了本描述的目的,术语“略过语法提取功能”表示用于提取“略过语法”的功能,该“略过语法”是修改的N元语法,其省去了特定的非必要词或短语,诸如形容词、副词、形容词短语和副词短语,或仅包含具有预定语法关系的词,诸如主谓、谓宾、副词动词或动词时间短语。略过语法提取功能可以使用传统的词性标注和语句分析功能,以有助于决定可以在给定上下文中略过哪些词。
为了本描述的目的,术语“转换语法提取功能”表示识别“转换语法”的功能,“转换语法”是修改的N元语法,其中转换特定词的出现顺序。转换语法提取功能可以使用传统的词性标注和语句分析功能,以有助于决定可以在给定上下文中转换哪些词的出现顺序。
为了本描述的目的,术语“共现提取功能”表示在滤除诸如介词、冠词、连词和其功能主要是语法功能的其他词的常见词后识别输入语句或包含许多输入语句的输入文档中的词组合的功能,对于输入文本中与N元语法、转换语法或略过语法中包括的词不同的所有词而言,所述词组合具有输入文本词共现以及与输入词的距离和方向的指示。
为了本描述的目的,术语“由用户先前使用的特征提取功能”表示在滤除诸如介词、冠词、连词和其功能主要是语法功能的其他词的常见词后,识别由用户在其他文档中使用的词的功能。
为了本描述的目的,N元语法、略过语法、转换语法及其组合被称为特征语法。
为了本描述的目的,N元语法、略过语法、转换语法、共现、“由用户先前使用的特征”及其组合被称为上下文特征序列或CFS。
图5的功能优选地对输入文本中的单独的词或词簇进行操作。
通过考虑下面的示例,可以更好地理解图5的功能的操作:
提供下面的输入文本:
Cherlock Homes the lead character and chief inspecter has been cold in by the family doctor Dr Morti
对于在输入文本中的簇“Cherlock Homes”,产生下面的CFS:
N元语法:
2元语法:Cherlock Homes;Homes the
3元语法:Cherlock Homes the;Homes the lead
4元语法:Cherlock Homes the lead;Homes the lead character
5元语法:Cherlock Homes the lead character
略过语法:
Cherlock Homes the character;Cherlock Homes the chief inspecter;Cherlock Homes the inspecter;Cherlock Homes has been cold
Switch gram:
The lead character Cherlock Home
在输入文本中的共现:
Character;inspector;investigate;death
在包含输入文本的文档中的共现:
Arthur Conan Doyle;story
在用户的其他文档中的共现:
mystery
对于在输入文本中的簇“cold”,产生下面的CFS:
N元语法:
2元语法:been cold;cold in
3元语法:has been cold;been cold in;cold in by
4元语法:inspector has been cold;has been cold in;been cold in by;cold in by the
5元语法:chief inspector has been cold;inspector has been cold in;has been cold in by;been cold in by the;cold in by the family
略过语法:
cold in to investigate;Cherlock has been cold;cold by the doctor;cold by Dr Mortimer;character has been cold
基于以下项至少之一,优选地基于以下项中的不止一项,并且最优选地基于以下项的全部,向每一个CFS赋予“重要性评分”:
a.传统词性标注和语句分析功能的操作。向包括多个分析树节点的多个部分的CFS赋予相对低的评分。在CFS中包括的分析树节点的数量越大,该CFS的评分越低。
b.CFS的长度。CFS越长,评分越高。
c.CFS中与输入词不同的每个词的出现频率。这样的词的出现频率越高,评分越低。
d.CFS的类型。例如,N元语法比共现优选。在输入语句中的共现比在输入文档中的共现优选,并且在输入文档中的共现比“由用户先前使用的特征”优选。
参见上面的示例,典型的评分如表7中所示:
表7
这些CFS和它们的重要性评分在后文参考图8和9描述的功能中,用来基于在因特网语料库中的CFS出现频率,对各种替换簇校正进行基于上下文的评分。
现在参考图6A,图6A是图示用于进行以下操作的功能的简化流程图:识别在输入文本中的误拼写的词;将误拼写的词分组为簇,该簇优选地是不重叠的;以及选择要校正的簇。
如图6A中所示,识别误拼写的词优选地通过使用传统的词典来进行,该传统的词典具有丰富的在因特网上常用的正确的名称和词。
将误拼写的词分组为簇优选地通过下述方式来进行:将连续或几乎连续的误拼写的词以及具有语法关系的误拼写的词分组为单个簇。
选择要校正的簇优选地通过下述方式来进行:试图找到包含最大数量的非可疑上下文数据的簇。优选地,选择在其附近具有最长的一个或多个正确拼写词序列的簇。
现在参考图6B,图6B是图示用于进行以下操作的功能的简化流程图:识别在拼写校正后的输入文本中可疑的误用词和具有语法错误的词;将可疑的误用词和具有语法错误的词分组为簇,该簇优选地是不重叠的;以及选择要校正的簇。
识别可疑的误用词优选地进行如下:
为拼写校正后的输入文本中的每一个词产生特征语法;
记录每一个特征语法在语料库中(优选地在因特网语料库中)的出现频率;
记录每一个词的可疑特征语法的数量。可疑特征语法具有比它们的预期频率低得多或者在最小频率阈值之下的频率。基于特征语法的构成元素及其组合的频率来估计特征语法的预期频率。
如果包含一词的可疑特征语法的数量超过预定阈值,则该词是可疑的。
根据本发明的一个优选实施例,判定拼写校正后的输入文本中的每一个特征语法在语料库中(优选地在因特网语料库中)的出现频率(FREQ F-G)。还确定拼写校正后的输入文本中的每一个词在该语料库中的出现频率(FREQ W),并且另外确定没有该词的每一个特征语法的出现频率(FREQ FG-W)。
每一个特征语法的预期出现频率(EFREQ F-G)被计算如下:
EFREQ F-G=FREQ F-G-W*FREQ W/(所有词在语料库中的频率总和)
如果拼写校正后的输入文本中的每一个特征语法在语料库中(优选地在因特网语料库中)的出现频率与每一个特征语法的预期出现频率的比率FREQ F-G/EFREQ F-G小于预定阈值,或如果FREQ F-G小于另一个预定阈值,则认为该特征语法是可疑特征语法。在可疑特征语法中包括的每一个词被认为是可疑的误用词或具有可疑的语法错误的词。
通过考虑下面的示例,可以更好地理解图6B中用于识别在拼写校正后的输入文本中的可疑的误用词和具有语法错误的词的功能的操作:
提供下面的拼写校正后的输入文本:
I have money book
特征语法包括下面的部分:
I;I have;I have money;I have money book
表8指示上面的特征语法在因特网语料库中的出现频率:
表8
为每一个2元语法计算预期出现频率如下:
EFREQ F-G=(FREQ F-G-W*FREQ W)/(所有词在语料库中的频率总和)
例如,对于2元语法
2元语法(x,y)的预期2元语法频率=(x的1元语法频率*y的1元语法频率)/在因特网语料库中的词的数量。例如,一万亿(1,000,000,000,000)词。
拼写校正后的输入文本中的每一个特征语法在语料库中(优选地在因特网语料库中)的出现频率与每一个特征语法的预期出现频率的比率被计算如下:
FREQ F-G/EFREQ F-G
拼写校正后的输入文本中每一个上面的2元语法在语料库中(优选地在因特网语料库中)的出现频率与每一个上面的2元语法的预期出现频率的比率如表9中所示。
表9
可以看出,“money book”的FREQ F-G比其预期频率低得多,因此,可以认为FREQ F-G/EFREQ F-G小于诸如1的预定阈值,因此“money book”簇是可疑的。
可以看出,包括词“money book”的3元语法和4元语法在因特网语料库中都具有0频率。这也可以是认为“money book”可疑的基础。
将可疑的误用词和具有语法错误的词分组为簇优选地执行如下:将连续或几乎连续的可疑的误用词分组为单个簇;以及将其间具有语法关系的可疑的误用词分组到同一簇内。
选择要校正的簇优选地通过下述方式来进行:试图找到包含最大数量的非可疑上下文数据的簇。优选地,选择在其附近具有最长的一个或多个非可疑词序列的簇。
现在参见图6C,图6C是图示用于进行以下操作的功能的简化流程图:识别在拼写、误用词和语法校正后的输入文本中具有可疑的欠佳词汇使用的词汇受挑战词;将词汇受挑战词分组为簇,该簇优选地是不重叠的;以及选择要校正的簇。
识别词汇受挑战词优选地进行如下:
预处理同义词词典(thesaurus),以向每一个词分配语言丰富度评分,该评分指示该词在一层级中的等级,其中,书面语言比口头语言优选;并且其中,在因特网来源中,文章和书籍例如比聊天和论坛优选,并且其中,较少使用的词比较频繁使用的词优选;
进一步预处理该同义词词典,以基于前面的预处理步骤的结果和语法规则来消除不可能成为词汇增强的候选的词;
进行另外的预处理,以为每一个剩余的词指示词汇增强的候选,该候选具有比输入词更高的语言丰富度评分;以及
检查在拼写、误用词和语法校正后的输入文本中的每一个词是否在多个经预处理的同义词词典中显现为剩余的词,并且将显现为剩余的词的每一个这样的词识别为词汇增强的候选。
将词汇受挑战词分组为优选地不重叠的簇是可选的,并且优选地进行如下:
将连续的词汇受挑战词分组为单个簇;以及
将具有语法关系的词汇受挑战词分组到同一簇内。
选择要校正的簇优选地通过下述方式来进行:试图找到包含最大数量的非词汇受挑战词的簇。优选地,选择在其附近具有最长的一个或多个非词汇受挑战词序列的簇。
现在参见图7A,图7A是图示在图2和3的功能中有用的、用于产生簇的替换校正的功能的简化流程图。
如果原始输入词拼写正确,则将其视为替换。
如图7A中所示,首先以下面的方式为簇中的每一个词产生多个替换校正:
检索(retrieve)类似于簇中的每一个词的多个词,该多个词是基于它们以字符串相似度表达的书写外观并且基于发音或语音相似度而从词典获取的。该功能是已知的,并且是在因特网上可获得的免费软件,诸如GNU Aspell和GoogleGspell。检索到并被优先化的词提供了第一多个替换校正。例如,给定输入词feezix,基于类似发音将从词典检索到词“physics”,尽管它仅具有一个共同的字符,即“i”。基于其字符串相似度将检索到词“felix”,尽管它没有类似的发音。
通过使用基于已知的替换使用以及累积的用户输入的规则,可以产生另外的替换。例如,u→you,r→are,Im→I am。
基于语法规则,优选地使用预定义的列表,可以产生另外的替换。一些示例如下:
单数/复数规则:如果输入语句是“ fall off trees in the autumn”,则产生复数替换“leaves”。
冠词规则:如果输入文本是“ old lady″”,则产生替换冠词“an”和“the”。
介词规则:如果输入文本是“I am interested football”,则产生替换介词“in”、“at”、“to”、“on”、“through”……。
动词屈折变化(inflection)规则:如果输入文本是“He the room”,则产生替换的动词屈折变化“left”、“leaves”、“had left”……。
合并词和划分词规则:如果输入文本是“get fitter”,则产生替换“a lot”。
如果输入文本是“we have to out”,则产生替换“watch”。
如果输入文本是“do many ”,则产生替换“sit ups”。
本发明的一个优选实施例的特定特征是使用诸如CFS(并且更具体地诸如特征语法)的上下文信息来产生替换校正,而不仅用于对这样的“上下文检索”的替换校正评分。可以从诸如因特网语料库的现有语料库检索频繁出现的词组合,诸如CFS,并且更具体地诸如特征语法。
下面的示例描述本发明的该方面:
如果输入语句是“The cat has ”,则词“kts”在发音或书写上与词“kittens”不足够地类似,使得在没有本发明的该方面的情况下,“kittens”不可能是一个替换。
根据本发明的该方面,通过在因特网语料库中查找在N元语法“cat has”后通常出现的词,即在查询“cat has *”中作为*找到的所有词,检索到下面的替换:
nine lives;left;fleas;dandruff;kittens;tapeworms;adopted;retractile claws;been;urinated;diarrhea;eaten;swallowed;hairballs;gone;always been
根据本发明的一个优选实施例,然后过滤“上下文检索”的替换,使得仅剩下与原始词(在本示例中为“kts”)具有一定的语音或书写相似度的上下文检索的替换。在该示例中,检索到具有最高语音和书写相似度的替换“kittens”。
在通过诸如光学字符识别、语音至文本或机器翻译系统的外部系统来自动地产生输入文本的情况下,可以从这样的系统直接地接收另外的替换。通常在这样的系统的操作过程中产生这些另外的替换。例如,在机器翻译系统中,外语词的替换翻译可以被提供到本系统以用作替换。
一旦已经为簇中的每一个词产生了所有替换,则通过下述方式来产生整个簇的簇替换:判定各个替换的所有可能组合,并且随后基于它们在语料库(优选地为因特网语料库)中的出现频率来过滤这些组合。
下面的示例是说明性的:
如果输入簇是“money book”,并且词“money”的替换是:
Monday;many;monkey
并且词“book”的替换是:
books;box;back
则产生下面的簇替换:
money books;money box;money back;Monday books;Monday box;Monday back;many books;many box;many back;monkey books;monkey box;monkey back;many book;monkey book;Monday book
现在参考图7B,图7B是图示在图4的功能中有用的、用于产生簇的替换增强的功能的简化流程图。
如图7B中所示,首先以下面的方式来产生多个替换增强:
如果正确地拼写了原始输入词,则将其考虑为替换。
从在因特网上可免费获得的、诸如Princeton WordNet的同义词词典或其他词汇数据库获取的多个词被检索到,该多个词作为同义词、超集或子集与在簇中的每一个词在词法上相关。检索到并被优先化的词提供了第一多个替换增强。
通过基于已知的替换使用以及累积的用户输入而使用规则来产生另外的替换。
本发明的优选实施例的一个特定特征是使用诸如CFS(并且更具体地诸如特征语法)的上下文信息来产生替换增强,而不仅用于对这样的“上下文检索”的替换增强评分。可以从诸如因特网语料库的现有语料库检索频繁出现的词组合,诸如CFS,并且更具体地诸如特征语法。
一旦已经为簇内的每一个词产生了所有替换,则通过下述方式来产生整个簇的替换:判定各个词替换的所有可能组合,并且基于产生的多词组合在诸如因特网的现有语料库中的出现频率来过滤这些组合。
下面的示例说明了图7B的功能:
提供下面的输入文本:
it was nice to meet you
通过诸如Princeton WordNet的词汇数据库来产生词“nice”的以下替换(部分列表):
pleasant、good、kind、polite、fine、decent、gracious、courteous、considerate、enjoyable、agreeable、satisfying、delightful、entertaining、amiable、friendly、elegant、precise、careful、meticulous
通过应用预定规则来产生词“nice”的以下替换:
cool
例如响应于诸如“it was * to meet”的查询来产生针对词“nice”的以下上下文检索的替换:
great;a pleasure;wonderful;lovely;good;impossible;fun;awesome;refreshing;exciting;agreed;fantastic;decided;inspiring
现在参见图8,图8是图示用于对各个替换增强进行基于上下文和基于词相似度的评分的功能的简化流程图,该功能是在图2的拼写校正功能中有用的。
如图8中所示,对各个替换校正进行的基于上下文和基于词相似度的评分以以下一般阶段而进行:
I.非上下文评分-根据各个簇替换的书写外观和发音相似度,基于与输入文本中簇的相似度来对各个簇替换评分。该评分不考虑在给定簇之外的任何上下文相似度。
II.使用因特网语料库的上下文评分-也基于所提取的上下文特征序列(CFS)来对各个簇替换中的每一个评分,该上下文特征序列(CFS)是如上文参考图5所描述那样而提供的。该评分包括下面的子阶段:
IIA.在如上文参考图5所描述那样提取的CFS的上下文中,对于由图7A的功能产生的各个替换簇校正,优选地使用因特网语料库来执行出现频率分析。
IIB.其中基于子阶段IIA的出现频率分析的结果来执行CFS选择和对各个CFS的加权。加权也基于各个CFS的相对固有重要性。应当意识到,可以向一些CFS赋予为0的权重,并因此不选择该一些CFS。所选择的CFS优选地被赋予相对权重。
IIC.向在子阶段IIB中所选择的每一个CFS的每一个替换校正分配出现频率度量。
IID.其中基于子阶段IIA的出现频率分析的结果、子阶段IIC的出现频率度量和子阶段IIB的CFS选择和加权来产生减小的替换簇校正集合。
IIE.从在子阶段IID中的减小的集合选择在阶段I中具有最高非上下文相似度评分的簇,以用作参考簇校正。
IIF.向在阶段IIB中选择的每一个CFS的子阶段IIE的参考簇校正分配出现频率度量。
IIG.向在子阶段IIB中选择的每一个CFS分配比率度量,该比率度量表示该特征的每一个替换校正的出现频率度量与向子阶段IIE的参考簇分配的出现频率度量之比。
III.基于阶段I的结果和阶段II的结果来选择最优选的替换簇校正。
IV.向最优选的替换簇校正分配置信度评分。
以下给出上文在阶段II-IV中描述的功能的更详细的描述:
参考子阶段IIA,如上文在图5中所描述的那样来产生包括要校正的簇的所有CFS。包含可疑错误(除了在输入簇中的错误之外)的CFS被消除。
产生矩阵,该矩阵指示在每一个CFS中的簇的每一个替换校正在语料库(优选地为因特网语料库)中的出现频率。针对其的所有替换校正都具有为0的出现频率的所有CFS被消除。其后,被整体包括在至少具有最低阈值出现频率的其他CFS中的所有CFS被消除。
下面的示例说明了出现频率矩阵的产生:
提供了下面的输入文本:
I lik tw play outside a lot
使用上文参考图6A所描述的功能,选择下面的簇来用于校正:
lik tw
使用上文参考图7A所描述的功能,产生下面的替换簇校正(部分列表):
like to;like two;lick two;lack two;lack true;like true
使用上文参考图5所描述的功能,产生下面的CFS(部分列表):
‘lik tw’;‘I Lik tw’;‘Lik tw play’;‘I Lik tw play’;‘Lik tw play outside’;‘I Lik tw play outside’;‘Lik tw play outside a’
使用上文参考阶段IIA所描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表10中所示的在因特网语料库中的出现频率矩阵:
表10
针对其的所有替换校正具有为0的出现频率的所有CFS被消除。在该示例中,消除了下面的特征语法:
‘lik tw play outside a’
其后,被整体包括在至少具有最小阈值出现频率的其他CFS中的所有CFS被消除。在该示例中,下面的特征语法被消除:
‘lik tw’;‘I lik tw’;‘lik tw play’;‘I lik tw play’;‘lik tw play outside’
在该示例中,仅剩余的CFS是特征语法:
′I lik tw play outside′。
产生的矩阵如表11中所示:
表11
上述示例说明了根据本发明的一个优选实施例的矩阵的产生。在该示例中,很清楚,“like to”是优选的替换校正。应当意识到,在实际中,选择通常不如此直截了当。因此,在下面给出的另外的示例中,提供了用于在替换校正中进行困难得多的选择的功能。
返回对子阶段IIB的考虑,可选地,每一个剩余的CFS被赋予上文参考图5所描述的评分。另外,包含在多词输入的早期校正迭代中引入的词并且具有小于预定置信度阈值的置信度的CFS被负偏置。
在一般情况下,与上文在子阶段IIC中描述的情况类似,产生标准化的频率矩阵,用于指示每一个CFS在因特网语料库中的标准化的出现频率。通常通过下述方式来从频率矩阵产生标准化的频率矩阵:将每一个CFS频率除以相关簇替换的出现频率的函数。
该标准化用于削弱在各个替换校正的整体中基本差异的影响。适当的标准化因子基于各个替换校正在语料库中作为整体的整体出现频率,而与具体的CFS无关。
下面的示例说明了标准化的出现频率矩阵的产生:
提供了下面的输入文本:
footprints of a mysterious haund said to be six feet tall
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
haund
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
hound;hand;sound
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘a mysterious haund’;‘haund said’
在此使用上文参考阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生如表12中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表12
从上述示例可以意识到,因为在各个替换校正的整体中的基本差异,所以具有最高出现频率的词可能并不一定具有最高的标准化的出现频率。在上述的示例中,“hound”具有最高的标准化的出现频率,并且从输入文本的上下文显而易见的是,正确的词是“hound”,而不是在因特网语料库中具有更高出现频率的“hand”。
本发明的一个特定特征是在替换校正中进行选择时优选地使用标准化的出现频率,该标准化的出现频率削弱了各个替换校正的整体中的基本差异。应当意识到,与标准化的出现频率不同的出现频率的其他度量可以替换或附加地被用作度量。在出现频率相对低或特别高的情况下,附加或可替换的度量是有益的。
将从随后的讨论意识到,在各个替换校正中进行选择时,另外的功能经常是有用的。下面描述这些功能。
在子阶段IID中,根据下面的两个度量,与另一个替换簇校正相比,更不优选的每一个替换簇校正被消除:
i.与另一个替换簇校正相比,具有更低的词相似度评分;以及
ii.与另一个替换簇校正相比,对于所有CFS具有更低的出现频率,并且优选地也具有更低的标准化的出现频率。
下面的示例说明了如上所述的替换校正的消除:
提供下面的输入文本:
I leav un a big house
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
leav un
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
leave in;live in;love in
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘I leav un a’;‘leav un a big’
在此使用上文参考阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生如表13中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表13
在该示例中,替换簇校正的非上下文相似度评分如表14中所示:
表14
替换簇校正“love in”被消除,因为它比“live in”具有更低的相似度评分以及更低的出现频率和更低的标准化的出现频率。在该阶段,不消除替换簇校正“leave in”,因为其相似度评分比“live in”更高。
从上面的内容可以意识到,阶段IID的功能的操作结果是对于减少的多个CFS的每一个的减小的频率矩阵,并且优选地也是减小的标准化频率矩阵,该减小的频率矩阵用于指示减少的多个替换校正的每一个的出现频率,该减小的标准化频率矩阵优选地用于指示减少的多个替换校正的每一个的标准化的出现频率,其中每一个替换校正具有相似度评分。减小的替换簇校正集合优选地用于如从随后的示例看到的所有另外的替换簇选择功能。
对于在减小的频率矩阵中和优选地也在减小的标准化频率矩阵中的每一个替换校正,产生最后的偏好度量。可以使用下面的替换度量的一个或多个来产生每一个替换校正的最后偏好评分。
下面使用术语“频率函数”来指代频率、标准化频率或频率和标准化频率两者的函数。
A.一种可能的偏好度量是在减小的一个或多个矩阵中的任何CFS的减小的一个或多个矩阵中的每一个替换簇校正的最高出现频率函数。例如,各个替换簇校正将被评分如下:
提供下面的输入文本:
A big agle in the sky
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
agle
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
ogle;eagle;angel
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘big agle’;‘agle in the sky’
在此使用上文参考阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表15中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表15
在该示例中,替换簇校正的非上下文相似度评分如表16中所示:
表16
选择替换“eagle”,因为它包括具有最大出现频率的CFS。
B.另一种可能的偏好度量是每一个替换校正的所有CFS的平均出现频率函数。例如,各个替换校正将被评分如下:
提供下面的输入文本:
A while ago sthe lived 3 dwarfs
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
sthe
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
the;they;she;there
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘ago sthe lived’;‘sthe lived 3’
在此使用上文参考阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表17和18中所示的在因特网语料库中的出现频率矩阵、标准化的出现频率矩阵和平均出现频率矩阵:
表17
表18
注意,基于平均出现频率而选择“there”。
在该示例中,替换簇校正的非上下文相似度评分如表19中所示:
表19
注意,具有最高相似度评分的替换簇校正未被选择。
C.另一种可能的偏好度量是每一个CFS的出现频率函数乘以由上文参考图5描述的功能计算的该CFS的评分在每一个替换校正的所有CFS上的加权和。
D.通过对在减小的一个或多个矩阵中的替换校正的以下操作中的任何一个或多个操作、更优选地大多数操作并且最优选地所有操作,如上文参考子阶段IIE-IIG所描述的,产生特定的替换校正/CFS偏好度量:
i.将具有最高非上下文相似度评分的替换簇校正选择为参考簇。
ii.产生修改的矩阵,其中,在每一个偏好矩阵中,将在每一个特征语法中的每一个替换校正的出现频率函数替代为每一个替换校正的出现频率函数与参考簇的出现频率函数之比。
iii.上文在ii中描述的类型的修改的矩阵被进一步修改,以将在每一个偏好度量中的比率替代为比率的函数:该比率的函数减小了比率中很大差异的的计算重要性。适当的此类函数是对数函数。该操作的目的是在保持最不优选的替换校正的最后偏好评分中出现频率的大差异的重要性并且因此消除最不优选的替换校正的同时,降低在最优选的替换校正的最后偏好评分中出现频率的大差异的重要性。
iv.通过将在每一个偏好度量中的适用比率或比率函数乘以适当的CFS评分来另外修改上文在ii或iii中描述的类型的修改的矩阵。这提供了基于在CFS评分中反映的正确的语法使用和其他因素的重点。
v.通过产生适用比率、比率函数、出现频率和标准化的出现频率的函数来另外修改上文在ii、iii或iv中描述的类型的修改的矩阵。通过将在每一个偏好度量中的适用比率或比率函数乘以该CFS的出现频率来产生优选函数。
E.基于如上在D中描述的特定替换校正/CFS偏好度量,通过将替换校正的相似度评分乘以该替换校正的所有CFS的特定替换校正/CFS偏好度量之和,为每一个替换校正计算最后偏好度量。
说明此类修改的矩阵的使用的示例如下:
提供下面的输入文本:
I will be able to tach base with you next week
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
tach
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
teach;touch
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘able to tach’;‘to tach base’
使用上文参考上面的子阶段IIA和IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表20中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表20
注意,对于一个特征,“teach”的出现频率和标准化的出现频率均大于“touch”的频率,但是对于另一个特征,“touch”的出现频率和标准化的出现频率均大于“teach”的频率。为了进行替换校正的正确选择,优选地如下所述那样使用上文参考子阶段IIG描述的比率度量。
在该示例中,替换簇校正的非上下文相似度评分如表21中所示:
表21
可以看出,参考簇是“teach”,因为它具有最高的相似度评分。尽管如此,基于如上文所描述的最后偏好评分而选择“touch”。如可以从对指示“teach”具有最高出现频率和最高标准化的出现频率的上面的矩阵的考虑所意识到的,这并不是直观的。在该示例中,最后偏好评分指示选择“touch”而不是“teach”,因为其中有利于“touch”的特征的出现频率的比率比其中有利于“teach”的另一特征的出现频率的比率大得多。
F.可选地,可以使用下面的判决规则的一个或多个,基于替换校正的频率函数值和偏好度量与参考簇的频率函数值和偏好度量的比较来滤除该替换校正:
1.对于具有大于预定阈值的CFS评分的至少一个特征,滤除具有比预定阈值低的相似度评分并且具有比参考簇的CFS频率函数小的CFS频率函数的替换校正。
2.对于具有大于另一预定阈值的CFS评分的至少一个特征,滤除具有比预定阈值低的相似度评分并且具有比预定阈值小的偏好度量的替换校正。
3.a.判定每一个CFS的CFS评分;
b.对于每一个CFS,判定参考簇和替换校正的CFS频率函数,由此判定是参考簇还是替换校正具有针对该CFS的更高的频率函数;
c.对具有比参考簇更高的频率的替换校正的CFS的CFS评分求和;
d.对具有比替换校正更高的频率的参考簇的CFS的CFS评分求和;以及
e.如果在c中的和小于在d中的和,则滤除该替换校正。
下面的示例说明了如上所述的过滤功能。
提供下面的输入文本:
I am faelling en love
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
faelling en
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
falling on;falling in;feeling on;feeling in
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘am faelling en’;‘faelling en love’;‘am faelling en love’;‘I am faelling en’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表22中所示的在因特网语料库中的出现频率矩阵:
表22
被整体包括在至少具有最低阈值出现频率的其他CFS中的所有CFS被消除。例如,下面的特征语法被消除:
‘am faelling en’;‘faelling en love’
在该示例中,剩余的CFS是特征语法:
‘am faelling en love’;‘I am faelling en’
在该示例中,替换簇校正的非上下文相似度评分如表23中所示:
表23
替换校正“falling on”、“feeling on”和“feeling in”被滤除,因为它们对于CFS之一具有为0的出现频率。
G.如上文参考阶段III所讨论的,基于如上文在A-E所描述那样得到的最后偏好度量,对在F中的过滤中保留下来的替换校正建立分级。具有最高最后偏好评分的替换校正被选择。
H.如上文参考阶段IV所讨论的,向所选择的替换校正分配置信度。基于以下参数中的一个或多个来计算该置信度:
a.在上面的子阶段IIB中提供的所选择的CFS的数量、类型和评分;
b.在所述CFS的上下文中,各个替换簇校正的出现频率的统计显著性;
c.在基于每一个CFS的偏好度量和各个替换校正的词相似度评分而对替换校正进行的选择上的一致度;
d.在预定最小阈值之上的所选择的替换簇校正的非上下文相似度评分(阶段I);
e.上下文数据的可获得的程度,该程度由具有大于预定最小阈值的CFS评分并且具有超过另一个预定阈值的偏好评分的减小的矩阵中的CFS的数量指示。
如果置信度大于预定阈值,则在没有用户交互的情况下实现所选择的替换校正。如果置信度小于预定阈值但是大于较低的预定阈值,则实现所选择的替换校正,但是邀请用户交互。如果置信度小于该较低的预定阈值,则邀请基于替换校正的优先化列表的用户选择。
下面的示例说明了置信度评分的使用:
提供下面的输入文本:
He was not feeling wehl when he returned
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
wehl
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
wale、well
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘was not feeling wehl’;‘not feeling wehl when’;‘feeling wehl when he’;‘wehl when he returned’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表24中所示的在因特网语料库中的出现频率矩阵:
表24
上面的示例说明:根据上面在H中给出的所有准则,“well”而不是“wale”的选择具有高置信度。
在下面的示例中,置信度在一定程度上较小,因为在CFS‘bech in the summer’中,替换校正‘back’具有比‘beach’更高的出现频率,但是在CFS‘on the beech in’和‘the bech in the’中‘beach’具有比‘back’更高的出现频率。基于准则H(c)选择具有中间置信度的替换校正‘beach’。
提供下面的输入文本:
I like to work on the bech in the summer
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
bech
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
beach;beech;back
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘on the bech in’;‘the bech in the’;‘bech in the summer’
使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表25中所示的在因特网语料库中的出现频率矩阵:
表25
基于准则H(c)选择具有中间置信度的替换校正‘beach’。
在下面的示例中,基于准则H(a),置信度更小:
接收下面的输入文本:
Exarts are restoring the British Museum′s round reading room
使用上文参考图6A描述的功能,选择下面的簇来用于校正:
Exarts
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
Experts;Exerts;Exits
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘Exarts are’;‘Exarts are restoring’;‘Exarts are restoring the’;‘Exarts are restoring the British’
使用上文参考阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表26中所示的在因特网语料库中的出现频率矩阵:
表26
针对其的所有替换校正具有为0的出现频率的所有CFS被消除。在该示例中,消除下面的特征语法:
‘Exarts are restoring’;‘Exarts are restoring the’;‘Exarts are restoring the British’
在该示例中,仅剩余的CFS是特征语法:
‘Exarts are’
可以从上述示例看出,在过滤处理中保留下来的唯一CFS是“exarts are”。结果,置信度相对低,因为该选择仅基于单个CFS,该单个CFS相对短,并且除了可疑词之外仅包括一个词,而该词为频繁出现的词。
现在参见图9,图9是图示用于对各个替换校正进行基于上下文评分和基于词相似度评分的功能的简化流程图,该功能是在图3、10和11的误用词和语法校正功能中和在图4的词汇增强功能中有用的。
如图9中所示,对各个替换校正的基于上下文和基于词相似度的评分以下面的一般阶段进行:
I.非上下文评分-根据各个簇替换的书写外观和发音相似度,基于与输入文本中簇的相似度来对各个簇替换评分。该评分不考虑在给定簇之外的任何上下文相似度。
II.使用因特网语料库的上下文评分-也基于所提取的上下文特征序列(CFS)来对各个簇替换中的每一个评分,该上下文特征序列(CFS)是如上文参考图5所描述那样而提供的。该评分包括下面的子阶段:
IIA.在如上文参考图5所描述那样提取的CFS的上下文中,对于由图7A或7B的功能产生的各个替换簇校正,优选地使用因特网语料库来执行出现频率分析。
IIB.其中基于子阶段IIA的出现频率分析的结果来执行CFS选择和对各个CFS的加权。加权也基于各个CFS的相对固有重要性。应当意识到,可以向一些CFS赋予为0的权重,并因此不选择该一些CFS。所选择的CFS优选地被赋予相对权重。
IIC.向在子阶段IIB中所选择的每一个CFS的每一个替换校正分配出现频率度量。
IID.其中基于子阶段IIA的出现频率分析的结果、子阶段IIC的出现频率度量和子阶段IIB的CFS选择和加权来产生减小的替换簇校正集合。
IIE.输入簇被选择来用作参考簇校正。
IIF.向在阶段IIB中选择的每一个CFS的子阶段IIE的参考簇校正分配出现频率度量。
IIG.向在子阶段IIB中选择的每一个特征分配比率度量,该比率度量表示该特征的每一个替换校正的出现频率度量与向子阶段IIB的参考簇分配的出现频率度量之比。
III.基于阶段I的结果和阶段II的结果来选择最优选的替换簇校正。
IV.向最优选的替换簇校正分配置信度评分。
以下给出上文在阶段II-IV中描述的功能的更详细的描述:
参考子阶段IIA,如上文在图5中所描述的那样来产生包括要校正的簇的所有CFS。包含可疑错误(除了在输入簇中的错误之外)的CFS被消除。
产生矩阵,该矩阵指示在每一个CFS中的簇的每一个替换校正在语料库(优选地为因特网语料库)中的出现频率。针对其的所有替换校正都具有为0的出现频率的所有CFS被消除。其后,被整体包括在至少具有最低阈值出现频率的其他CFS中的所有CFS被消除。
下面的示例说明了出现频率矩阵的产生:
提供了下面的输入文本:
I lick two play outside a lot
使用上文参考图6A所描述的功能,选择下面的簇来用于校正:
lick two
使用上文参考图7A所描述的功能,产生下面的替换簇校正(部分列表):
like to;like two;lick two;lack two;lack true;like true
使用上文参考图5所描述的功能,产生下面的CFS(部分列表):
‘lick two’;‘I lick two’;‘lick two play’;‘I lick two play’;‘lick two play outside’;‘I lick two play outside’;‘lick two play outside a’
使用上文参考子阶段IIA所描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表27中所示的在因特网语料库中的出现频率矩阵:
表27
针对其的所有替换校正具有为0的出现频率的所有CFS被消除。在该示例中,消除了下面的特征语法:
‘lick two play outside a’
其后,被整体包括在至少具有最小阈值出现频率的其他CFS中的所有CFS被消除。例如,下面的特征语法被消除:
‘lick two’;‘I lick two’;‘lick two play’;‘I lick two play’;‘lick two play outside’
在该示例中,仅剩余的CFS是下面的特征语法:
′I lick two play outside′.
产生的矩阵如表28中所示:
表28
上述示例说明了根据本发明的一个优选实施例的矩阵的产生。在该示例中,很清楚,“like to”是优选的替换校正。应当意识到,在实际中,选择通常不如此直截了当。因此,在下面给出的另外的示例中,提供了用于在替换校正中进行困难得多的选择的功能。
返回对子阶段IIB的考虑,可选地,每一个剩余的CFS被赋予上文参考图5所描述的评分。另外,包含在多词输入的早期校正迭代中引入的词并且具有小于预定置信度阈值的置信度的CFS被负偏置。
在一般情况下,与上文在子阶段IIC中描述的情况类似,产生标准化的频率矩阵,用于指示每一个CFS在因特网语料库中的标准化的出现频率。通常通过下述方式来从频率矩阵产生标准化的频率矩阵:将每一个CFS频率除以相关簇替换的出现频率的函数。
该标准化用于削弱在各个替换校正的整体中基本差异的影响。适当的标准化因子基于各个替换校正在语料库中作为整体的整体出现频率,而与CFS无关。
下面的示例说明了标准化的出现频率矩阵的产生:
典型地,通过语音识别提供了下面的输入文本:
footprints of a mysterious[hound/hand]said to be six feet tall
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
hound
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
hound;hand;sound
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘a mysterious hound’;‘hound said’
在此使用上文参考子阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生如表29中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表29
从上述示例可以意识到,因为在各个替换校正的整体中的基本差异,所以具有最高出现频率的词可能并不一定具有最高的标准化的出现频率。在上述的示例中,“hound”具有最高的标准化的出现频率,并且从输入文本的上下文显而易见的是,正确的词是“hound”,而不是在因特网语料库中具有更高出现频率的“hand”。
本发明的一个特定特征是在替换校正中进行选择时使用标准化频率,该标准化频率削弱了各个替换校正的整体中的基本差异。应当意识到,与标准化的出现频率不同的出现频率的其他度量可以替换或附加地被用作度量。在出现频率相对低或特别高的情况下,附加或可替换的度量是有益的。
将从随后的讨论意识到,在各个替换校正中进行选择时,另外的功能经常是有用的。下面描述这些功能。
在子阶段IID中,根据下面的两个度量,与另一个替换簇校正相比,更不优选的每一个替换簇校正被消除:
i.与另一个替换簇校正相比,具有更低的词相似度评分;以及
ii.与另一个替换簇校正相比,对于所有CFS具有更低的出现频率,并且优选地也具有更低的标准化的出现频率。
下面的示例说明了如上所述的替换校正的消除:
提供下面的输入文本:
I leave on a big house
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
leave on
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
leave in;live in;love in;leave on
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘I leave on a’;‘leave on a big’
在此使用上文参考阶段IIE描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生如表30中所示在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表30
在该示例中,替换簇校正的非上下文相似度评分如表31中所示:
表31
替换簇校正“love in”被消除,因为它比“live in”具有更低的相似度评分以及更低的出现频率和更低的标准化的出现频率。在该阶段不消除替换簇校正“leave in”,因为其相似度评分比“live in”更大。
从上面的内容可以意识到,子阶段IID的功能的操作结果是对于减少的多个CFS的每一个的减小的频率矩阵,并且优选地也是减小的标准化频率矩阵,该减小的频率矩阵用于指示减少的多个替换校正的每一个的出现频率,该减小的标准化频率矩阵优选地用于指示减少的多个替换校正的每一个的标准化的出现频率,其中每一个替换校正具有相似度评分。减小的替换簇校正集合优选地用于如从随后的示例看到的所有另外的替换簇选择功能。
对于在减小的频率矩阵中和优选地也在减小的标准化频率矩阵中的每一个替换校正,产生最后的偏好度量。可以使用下面的替换度量的一个或多个来产生每一个替换校正的最后偏好评分。
下面使用术语“频率函数”来指代频率、标准化频率或频率和标准化频率两者的函数。
A.一种可能的偏好度量是在减小的一个或多个矩阵中的任何CFS的减小的一个或多个矩阵中的每一个替换簇校正的最高出现频率函数。例如,各个替换簇校正将被评分如下:
提供下面的输入文本:
I am vary satisfied with your work
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
vary
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
vary;very
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘am vary’;‘vary satisfied’;‘I am vary satisfied with’
在此使用上文参考子阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表32和33中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表32
表33
在该示例中,可以从出现频率和标准化的出现频率二者看出,“very”具有最高的出现频率函数。
B.另一种可能的偏好度量是每一个替换校正的所有CFS的平均出现频率函数。例如,各个替换校正将被评分如下:
提供下面的输入文本:
A while ago the lived 3 dwarfs
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
the
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
the;they;she;there
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘ago the lived’;‘the lived 3’
在此使用上文参考子阶段IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表34和35中所示的在因特网语料库中的出现频率矩阵、标准化的出现频率矩阵和平均出现频率矩阵:
表34
表35
注意,基于平均出现频率而选择“they”,尽管“there”具有其出现频率是在矩阵中的最大出现频率的CFS。
在该示例中,替换簇校正的非上下文相似度评分如表36中所示:
表36
注意,具有最高相似度评分的替换簇校正未被选择。
C.另一种可能的偏好度量是每一个CFS的出现频率函数乘以由上文参考图5描述的功能计算的该CFS的评分在每一个替换校正的所有CFS上的加权和。
D.通过对在减小的一个或多个矩阵中的替换校正的以下操作中的任何一个或多个操作、更优选地大多数操作并且最优选地所有操作,如上文参考子阶段IIE-IIG所描述的,产生特定的替换校正/CFS偏好度量:
i.从原始输入文本中选择来校正的簇被选择为参考簇。
ii.产生修改的矩阵,其中,在每一个偏好矩阵中,将在每一个特征语法中的每一个替换校正的出现频率函数替代为每一个替换校正的出现频率函数与参考簇的出现频率函数之比。
iii.上文在ii中描述的类型的修改的矩阵被进一步修改,以将在每一个偏好度量中的比率替代为比率的函数:该比率的函数减小了比率中很大差异的的计算重要性。适当的此类函数是对数函数。该操作的目的是在保持最不优选的替换校正的最后偏好评分中出现频率的大差异的重要性并且因此消除最不优选的替换校正的同时,降低在最优选的替换校正的最后偏好评分中出现频率的大差异的重要性。
iv.通过将在每一个偏好度量中的适用比率或比率函数乘以适当的CFS评分来另外修改上文在ii或iii中描述的类型的修改的矩阵。这提供了基于在CFS评分中反映的正确的语法使用和其他因素的重点。
v.通过将在每一个偏好度量中的适用比率或比率函数乘以用户不确定性度量的函数来另外修改上文在ii、iii或iv中描述的类型的修改的矩阵。用户输入不确定性度量的一些示例包括:在词处理器中执行的与输入词或簇相关的、相对于对文档的其他词的编辑行为的编辑行为的数量;在词处理器中执行的输入词或簇的、相对于文档的其他词的写入定时的写入定时;以及在语音识别输入功能中执行的输入词或簇的、相对于该用户对于其他词的讲出定时的讲出定时。用户输入不确定性度量提供了用户对于词的该选择有多确定的指示。该步骤将所计算的偏置用于参考簇,并且通过关于该簇的用户确定性或不确定性的函数来对其进行修改。
vi.通过产生适用比率、比率函数、出现频率和标准化的出现频率的函数来另外修改上文在ii、iii或iv中描述的类型的修改的矩阵。通过将在每一个偏好度量中的适用比率或比率函数乘以该CFS的出现频率来产生优选函数。
E.基于如上在D中描述的特定替换校正/CFS偏好度量,通过将替换校正的相似度评分乘以该替换校正的所有CFS的特定替换校正/CFS偏好度量之和,为每一个替换校正计算最后偏好度量。
这样的修改的矩阵的示例如下:
提供下面的输入文本:
I will be able to teach base with you next week
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
teach
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
teach;touch
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘able to teach’;‘to teach base’
使用上文参考上面的子阶段IIA和IIC描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表37中所示的在因特网语料库中的出现频率矩阵和标准化的出现频率矩阵:
表37
注意,对于一个特征,“teach”的出现频率和标准化的出现频率均大于“touch”的频率,但是对于另一个特征,“touch”的出现频率和标准化的出现频率均大于“teach”的频率。为了进行替换校正的正确选择,优选地如下所述那样使用上文参考子阶段IIG描述的比率度量。
在该示例中,替换簇校正的非上下文相似度评分如表38中所示:
表38
可以看出,参考簇是“teach”,因为它具有最高的相似度评分。尽管如此,基于如上文所描述的最后偏好评分而选择“touch”。如可以从对指示“teach”具有最高出现频率和最高标准化的出现频率的上面的矩阵的考虑所意识到的,这并不是直观的。在该示例中,最后偏好评分指示选择“touch”而不是“teach”,因为其中有利于“touch”的特征的出现频率的比率比其中有利于“teach”的另一特征的出现频率的比率大得多。
F.可选地,可以使用下面的判决规则的一个或多个,基于替换校正的频率函数值和偏好度量与参考簇的频率函数值和偏好度量的比较来滤除该替换校正:
1.对于具有大于预定阈值的CFS评分的至少一个特征,滤除具有比预定阈值低的相似度评分并且具有比参考簇的CFS频率函数小的CFS频率函数的替换校正。
2.对于具有大于另一预定阈值的CFS评分的至少一个特征,滤除具有比预定阈值低的相似度评分并且具有比预定阈值小的偏好度量的替换校正。
3.a.判定每一个CFS的CFS评分;
b.对于每一个CFS,判定参考簇和替换校正的CFS频率函数,由此判定是参考簇还是替换校正具有针对该CFS的更高的频率函数;
c.对具有比参考簇更高的频率的替换校正的CFS的CFS评分求和;
d.对具有比替换校正更高的频率的参考簇的CFS的CFS评分求和;以及
e.如果在c中的和小于在d中的和,则滤除该替换校正。
下面的示例说明了如上所述的过滤功能。
通常通过语音识别功能来提供下面的输入文本:
I want[two/to/too]items,please.
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
[two/to/too]
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
too;to;two
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘I want two’;‘want two items’
在此使用上文参考阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表39中所示的在因特网语料库中的出现频率矩阵:
表39
替换校正“too”和“to”被滤除,因为它们对于CFS之一具有为0的出现频率,尽管它们具有另一个CFS的高出现频率。因此,在此,保留下来的CFS是“two”。
G.如上文参考阶段III所讨论的,基于如上文在A-E所描述那样得到的最后偏好度量,对在F中的过滤中保留下来的替换校正建立分级。具有最高最后偏好评分的替换校正被选择。
H.如上文参考阶段IV所讨论的,向所选择的替换校正分配置信度。基于以下参数中的一个或多个来计算该置信度:
a.在上面的子阶段IIB中提供的所选择的CFS的数量、类型和评分;
b.在所述CFS的上下文中,各个替换簇校正的出现频率的统计显著性;
c.在基于每一个CFS的偏好度量和各个替换校正的词相似度评分而对替换校正进行的选择上的一致度;
d.在预定最小阈值之上的所选择的替换簇校正的非上下文相似度评分(阶段I);
e.上下文数据的可获得的程度,该程度由具有大于预定最小阈值的CFS评分并且具有超过另一个预定阈值的偏好评分的减小的矩阵中的CFS的数量指示。
如果置信度大于预定阈值,则在没有用户交互的情况下实现所选择的替换校正。如果置信度小于预定阈值但是大于较低的预定阈值,则实现所选择的替换校正,但是邀请用户交互。如果置信度小于该较低的预定阈值,则邀请基于替换校正的优先化列表的用户选择。
下面的示例说明了置信度评分的使用:
提供下面的输入文本:
He was not feeling wale when he returned
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
wale
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
wale;well
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘was not feeling wale’;‘not feeling wale when’;‘feeling wale when he’;‘wale when he returned’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表40中所示的在因特网语料库中的出现频率矩阵:
表40
上面的示例说明:根据上面在H中给出的所有准则,“well”而不是“wale”的选择具有高置信度。
在下面的示例中,置信度在一定程度上较小,因为在CFS‘bech in the summer’中,替换校正‘back’具有比‘beach’更高的出现频率,但是在CFS‘on the beech in’和‘the bech in the’中‘beach’具有比‘back’更高的出现频率。基于准则H(c)选择具有中间置信度的替换校正‘beach’。
提供下面的输入文本:
I like to work on the beech in the summer
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
beech
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
beach;beech;back
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘on the beech in’;‘the beech in the’;‘beech in the summer’
使用上文参考阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表41中所示的在因特网语料库中的出现频率矩阵:
表41
基于准则H(c)选择具有中间置信度的替换校正‘beach’。
在下面的示例中,基于准则H(a),置信度更小:
接收下面的输入文本:
Exerts are restoring the British Museum′s round reading room
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
Exerts
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
Expert;Exerts;Exits
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘Exerts are’;‘Exerts are restoring’;‘Exerts are restoring the’;‘Exerts are restoring the British’
使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表42中所示的在因特网语料库中的出现频率矩阵:
表42
针对其的所有替换校正具有为0的出现频率的所有CFS被消除。在该示例中,消除下面的特征语法:
‘Exerts are restoring’;‘Exerts are restoring the’;‘Exerts are restoring the British’
在该示例中,仅剩余的CFS是特征语法:
‘Exerts are’
可以从上述示例看出,在过滤处理中保留下来的唯一CFS是“Exerts are”。结果,置信度相对低,因为该选择仅基于单个CFS,该单个CFS相对短,并且除了可疑词之外仅包括一个词,而该词为频繁出现的词。
下面的示例说明了在上面的阶段D和E中描述的最后偏好评分度量的使用。
提供下面的输入文本:
Some kids don′t do any sport and sit around doing nothing and getting fast so you will burn some calories and get
使用上文参考图6B描述的功能,选择下面的簇来用于校正:
fast
使用上文参考图7A描述的功能,产生下面的替换簇校正(部分列表):
fat;fast
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘and getting fast’;‘getting fast so’;‘fast so you’;‘fast so you will’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表43中所示的在因特网语料库中的出现频率矩阵:
表43
在该示例中,替换簇校正的非上下文相似度评分如表44中所示。
表44
使用在上面的阶段D和E中所述的最后偏好评分度量,选择具有低置信度的替换校正“fat”。
现在参见图10,图10是图示丢失项目校正功能的操作的详细流程图。丢失项目校正功能用于校正丢失的冠词、介词、标点和在输入文本中主要具有语法功能的其他项目。该功能优选地对从图1的拼写校正功能输出的拼写校正后的输入文本进行操作。
优选地以下面的方式执行可疑丢失项目的识别:
首先针对拼写校正后的输入文本产生特征语法。判定拼写校正后的输入文本中的每一个特征语法在语料库(优选地为因特网语料库)中的出现频率(FREQ F-G)。
计算每一个特征语法的预期出现频率(EFREQ F-G)如下:
假定特征语法包含被识别为W1-Wn的n个词。
Wi指示在特征语法中的第i个词。
给定特征语法的预期出现频率被取为:该特征语法的基于特征语法中的词被划分为跟随词W1、...、Wn-1的每一个的两个连续部分而得到的预期频率中的最高者。
特征语法基于在该特征语法中的词被划分为跟随词Wi的两个连续部分的划分的预期频率可以被表达如下:
关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(所有词在语料库中的频率的总和)
计算每一个特征语法基于在该特征语法中的词被划分为两个连续部分的所有可能划分的预期频率。
如果关于Wi的FREQ F-G/EFREQ F-G小于预定阈值,则认为关于Wi的特征语法在以下方面是可疑的:在该特征语法的Wi和Wi+1之间存在丢失的冠词、介词或标点。
优选地通过试图找到被最大数量的非可疑上下文数据围绕的词连接(word junction),来选择在拼写校正后的输入文本中的两个连续词之间的可疑词连接来校正。优选地,选择在其附近具有最长的一个或多个非可疑词连接序列的词连接。
优选地基于预定义的可能丢失的标点、冠词、介词、连词或其他项目(通常不包括名词、动词或形容词)的集合,对于每一个词连接产生一个或优选地多个替换插入。
下文中,优选地基于如上参考图9所述的校正替换评分算法来提供对各个替换插入的至少部分基于上下文和基于词相似度的评分。
下面的示例是说明性的:
提供下面的输入文本:
I can′t read please help me
使用上文参考图5描述的功能,产生下面的特征语法(部分列表):
I can′t read;can′t read please;read please help;please help me
使用如上所述的功能,针对上面的特征语法列表产生在因特网语料库中的出现频率矩阵,该出现频率矩阵典型地如表45所示:
表45
根据下面的表达式,对于每一个特征语法,计算关于在该特征语法中的每一个词Wi的预期出现频率:
关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(所有词在语料库中的频率的总和)
这些计算的一些的示例性结果如表46和47中所示:
表46
表47
从上面的结果看出,每一个特征语法的实际出现频率小于其预期出现频率。这指示怀疑存在诸如标点的项目缺失。
产生跟随词“read”的替换插入列表。该列表优选地包括标点、冠词、连词和介词的预定列表。具体地说,它将包括句号“.”。
替换的部分列表是:
‘read please’;‘read.Please’;‘read of please’;‘read a please’
使用上文参考图5描述的功能,产生下面的CFS:
‘I can’t read[?]’;‘read[?]please help’;‘[?]please help me’
使用在图9的阶段IIA中所述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表48中所示的在因特网语料库中的出现频率矩阵:
当在簇中包括‘.’时,针对在‘.’前后的文本分别检索包括具有‘.’的簇的CFS出现频率,即,将不产生特征语法“can’t read.Please”,因为它包括两个独立的分析短语。
表48
*注意:当计算特征语法在语料库中的出现频率时,从该特征语法的开头忽略‘.’。例如,“.Please help me”的频率与“Please help me”的频率相同。
使用在图9的阶段D和E中所述的功能,最后偏好度量选择替换校正“read.Please”,并且校正后的输入文本是:
I can′t read.Please help me.
下面的示例说明了添加丢失的介词的功能。
提供下面的输入文本:
I sit the sofa
使用下面描述的功能,选择下面的簇来用于校正:
‘sit the’
使用下面描述的功能,产生下面的替换簇校正(部分列表):
sit on the;sit of the;sit the
使用上文参考图5描述的功能,产生下面的CFS:
‘I sit the’;‘sit the sofa’
使用参考图9在阶段IIA中所述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表49中所示的在因特网语料库中的出现频率矩阵:
表49
使用在图9的阶段IID和IIE中所述的功能,最后偏好度量选择替换校正“sit on the”,并且校正后的输入文本是:
I sit on the sofa.
现在参考图11,图11是图示多余项目校正功能的操作的详细流程图。多余项目校正功能用于校正多余冠词、介词、标点和在输入文本中主要具有语法功能的其他项目。该功能优选地对从图1的拼写校正功能输出的拼写校正后的输入文本进行操作。
应当意识到,图11的功能可以与图10的功能组合,或可替换地与其并行地被执行、在其之前被执行或在其操作之后被执行。
优选地以下面的方式来执行可疑多余项目的识别:
对于拼写校正后的输入文本执行搜索,以识别属于预定义的可能多余标点、冠词、介词、连词和其他项目(通常不包括名词、动词或形容词)的集合的项目。
对于每一个这样的项目,针对包含该项目的误用词和语法校正后、拼写校正后的输入文本的所有部分产生特征语法。对于每一个这样的特征语法并且对于其中省略该项目的对应特征语法计算出现频率。
如果其中省略了该项目的特征语法的出现频率超过其中存在该项目的对应特征语法的出现频率,则该项目被认为可疑。
优选地通过试图找到由最大量的非可疑上下文数据围绕的项目,来选择在误用词和语法校正后、拼写校正后的输入文本中的可疑项目以进行校正。优选地,在其附近具有最长的一个或多个非可疑词序列的项目被选择。
对于每一个可疑项目产生可能的项目删除。下面优选地基于上文参考图9描述的校正替换评分算法,来提供各个替换(即删除项目或不删除项目)的至少部分地基于上下文和基于词相似度的评分。
下面的示例是说明性的。
提供下面的输入文本:
It is a nice,thing to wear.
搜索输入文本以识别属于常见的多余项目的预定列表的任何项目,该常见的多余项目例如是标点、介词、连词和冠词。
在该示例中,逗号“,”被识别为属于这样的列表。
使用上文参考图5描述的功能,产生包括逗号“,”的在表50中所示的特征语法,并且也产生没有逗号的相同特征语法(部分列表)。
表50
使用如上文所描述的功能,针对上面的特征语法列表产生在因特网语料库中的出现频率矩阵,典型地如表51所示:
表51
如在上面的矩阵中所示,省略了“,”的特征语法的出现频率超过具有“,”的对应特征语法的出现频率。因此,将“,”认为可疑多余。
基于下面的保持逗号和省略逗号的替换的基于上下文的评分来考虑逗号的可能删除:
‘nice,’;‘nice’
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘a nice,’;‘nice,thing’;‘is a nice,’;‘a nice,thing’;‘nice,thing to’
使用上文参考图9的阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表52中所示的在因特网语料库中的出现频率矩阵。
表52
被整体包括在至少具有最小阈值出现频率的其他CFS中的所有CFS被消除。例如,消除下面的特征语法:
‘a nice,’;‘nice,thing’
在该示例中,剩余的CFS是特征语法:
‘is a nice,’;‘a nice,thing’;‘nice,thing to’
使用在上面的图9的阶段D和E中所述的最后偏好评分,选择没有逗号的替换校正“nice”。在逗号删除后的输入文本是:
It is a nice thing to wear.
下面的示例说明了移除多余冠词的功能。
提供下面的输入文本:
We should provide them a food and water.
使用上文参考图11描述的功能,选择下面的簇来用于校正:
a food
使用上文参考图11描述的功能,产生下面的替换簇校正(部分列表):
a food;food
使用上文参考图5描述的功能,产生下面的CFS(部分列表):
‘provide them a food’;‘them a food and’;‘a food and water’
在此使用上文参考子阶段IIA描述的功能,针对上面的CFS列表中的上面的替换簇校正列表产生在表53中所示的在因特网语料库中的出现频率矩阵:
表53
使用在图9中所述的评分功能,最后偏好度量选择替换校正“food”,并且校正后的输入文本是:
We should provide them food and water.
现在参考图12,图12是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言翻译和产生的系统和功能的简化框图图示。如图12中所示,输入文本从一个或多个来源被提供到语言产生模块200,该一个或多个来源包括但不限于:
语句搜索功能201,其通过使得用户能够输入包括几个词的查询并且接收包含这些词的完整语句来帮助用户构造语句;
机器文本产生功能202,其从诸如知识库或逻辑形式的机器表示系统产生自然语言语句;
词处理器功能203,其可以产生任何适当的文本,优选地产生文档的一部分,诸如语句;
机器翻译功能204,其将源语言的文本转换为目标语言的文本,并且能够提供目标语言的多个替换翻译文本、短语和/或词,该目标语言的多个替换翻译文本、短语和/或词可以被语言产生模块处理为替换输入文本、替换短语和/或替换词;
语音至文本转换功能205,其将语音转换为文本,并且能够提供多个替换词,该多个替换词可以被语言产生模块处理为具有每一个词的替换的输入文本;
光学字符识别功能206,其将字符转换为文本,并且能够提供每一个词的多个替换,该每一个词的多个替换可以被语言产生模块处理为具有每一个词的替换的输入文本;以及
任何其他文本源210,诸如在因特网上传送的即时消息或文本。
语言产生模块200优选地包括语句检索功能212和语句产生功能214。
本发明的一个具体特征是语句检索功能212与使用因特网语料库220的词干到语句索引216交互。
因特网语料库的使用重要在:它提供了极大数量的语句,导致高度鲁棒的语言产生功能。
因特网语料库是通常通过在因特网上抓取(crawl)并且从网页收集文本而从万维网收集的自然语言文本的大代表采样。优选地,也收集动态文本,诸如聊天副本、来自网络论坛的文本和来自博客的文本。所收集的文本用于累积关于自然语言文本的统计。与多达二十亿词的更通常的语料库大小相比,因特网语料库的大小可以例如是1万亿(1,000,000,000,000)词或几万亿词。诸如网络语料库的网络小采样包括100亿词,这远远小于由诸如GOOGLE的搜索引擎编入索引的网络文本的百分之一。本发明可以用诸如网络语料库的网络采样来工作,但是优选地使用大得多的网络采样来用于文本产生任务。
优选地,以下面两种方式之一来使用因特网语料库:
通过将修改的输入文本用作搜索查询来使用一个或多个因特网搜索引擎。可以从搜索结果提取包括在搜索查询中包含的词的语句。
通过对因特网进行抓取和编索引,随着时间过去而建立词干到语句索引216。优选地,这是通过下述方式进行的:将在因特网语料库中出现的屈折变化词缩小到它们各自的词干,并且列出在语料库中包括具有这样的词干的词的所有语句。词干到语句索引以及搜索查询可以基于因特网的可选部分,并且可以使用这些所选择的部分来标识。类似地,因特网的部分可以被排除或被适当地加权,以便校正在因特网使用和一般语言使用之间的异常。以这种方式,在语言使用上可靠的网站(诸如新闻和政府网站)可以被赋予比其他网站(诸如聊天或用户论坛)更大的权重。
优选地,输入文本被首先提供到语句检索功能212。下面另外参考图13来描述语句检索功能212的操作。
语句检索功能212用于将输入文本划分为独立短语,该独立短语然后在语句产生模块214中被独立地处理。对于在每一个独立短语中的所有词产生词干。可替换地,对于在每一个独立短语中的一些或所有词产生词干,并且在该情况下,在词至语句索引中使用词本身来从因特网语料库检索语句。
词干然后被分类为强制词干或可选词干。可选词干是形容词、副词、冠词、介词、标点和在输入文本中主要具有语法功能的其他项目以及在可选词的预定义列表中的项目的词干。强制词干是不作为可选词干的所有词干。可选词干可以针对它们在输入文本中的重要程度而被分级。
对于每一个独立短语,使用词干到语句索引216来在因特网语料库220中检索包括所有词干的所有语句。
对于每一个独立短语,如果检索到的语句数量小于预定阈值,则使用词干到语句索引216来在因特网语料库220中检索包括所有强制词干的所有语句。
对于每一个独立短语,如果检索到的包括所有强制词干的语句数量小于另一个预定阈值,则使用词干替换产生器来产生所有强制词干的替换,如下文参考图15所描述。
其后,对于每一个独立短语,使用词干到语句索引216在因特网语料库220中检索所有这样的语句,该语句包括尽可能多的强制词干,但是不少于一个强制词干,并且还包括所有剩余强制词干的替换。
语句检索功能212的输出优选地如下:
独立短语;
对于每一个独立短语:
强制和可选词干以及它们的分级;
从因特网语料库212检索的语句。
语句检索功能212的上面的输出被提供到语句产生功能214。下面另外参考图14A和14B来描述语句产生功能214的操作。
对于每一个独立短语,如下文所描述那样执行对从因特网语料库212获取的语句的简化:
如图14A中所示,首先优选地使用用于分类在独立短语中的词干的相同准则,来将从因特网语料库获取的语句中的所有词分类为强制的或非必需的。删除非必需的词,除非它们的词干出现在对应的独立短语中或是替换词干之一。
使用标准分析功能来从所有的语句提取短语。删除不包括在对应的独立短语中出现或为替换词干的任何词干的短语。
对于每一个独立短语,从上述步骤产生的如此简化的语句被分组为至少具有预定相似度的组,并且在每组中的简化语句的数量被计数。
如图14B中所示,使用下面的准则来对每一个这样的组分级:
A.其中包含的简化语句的数量;
B.在组中的词的词干与在独立短语中的词干及其替换的匹配度;
C.组包括不与在独立短语中的词及其替换匹配的词的程度。
优选地提供基于准则A、B和C的适当复合分级。
根据所有准则A、B和C单独获取的分级低于预定阈值的组被消除。另外,根据所有准则A、B和C的分级低于另一个组的分级的组被消除。
剩余的组被串接,以对应于输入文本,并且以其加权的复合分级的顺序优选地与该分级的指示一起被呈现给用户。
如果最高分级组的复合分级大于预定阈值,则它被确认用于自动文本产生。
现在参见图15,图15是图示在图12和13的功能中有用的用于产生词干替换的功能的简化流程图。
如图15中所示,对于每一个词干,首先以下面的方式来产生多个替换:
检索类似于每一个词干的多个词,该多个词是基于以字符串相似度表达的书写外观并且基于发音或语音相似度而从词典获取的。该功能是已知的,并且是在因特网上可获得的免费软件,诸如GNU Aspell和GoogleGspell。检索到并被优先化的词提供了第一多个替换。
通过使用基于已知的替换使用以及累积的用户输入的规则,可以产生另外的替换。例如,u→you,r→are,Im→I am。
从在因特网上可免费获得的、诸如Princeton WordNet的同义词词典或其他词汇数据库获取的多个词被检索到,该多个词例如作为同义词、超集或子集与词干在词法上相关。
本发明的优选实施例的一个特定特征是使用诸如CFS(并且更具体地诸如特征语法)的上下文信息来产生替换。经常在同一上下文中出现的词干可以是有效的替换。可以从诸如因特网语料库的现有语料库检索频繁出现的词组合,诸如CFS,并且更具体地诸如特征语法。
在通过诸如光学字符识别、语音至文本或机器翻译系统的外部系统来自动地产生输入文本的情况下,可以从这样的系统直接地接收另外的替换。通常在这样的系统的操作过程中产生这些另外的替换。例如,在机器翻译系统中,外语词的替换翻译可以被提供到本系统以用作替换。
下面的示例说明了图12-15的功能:
从词处理器或机器翻译功能接收下面的输入文本:
Be calling if to problem please
在该情况下,输入文本由单个独立短语构成。强制/可选词干的词干产生和分类提供了下面的结果:
强制词干:call,if,problem,please
可选词干:be,to
在下文的表中给出了对于上面的结果从因特网语料库检索的语句、对应的简化语句、简化语句的组和组分级信息中的一些但是不是全部。
在该示例中,使用下面的分级过程,应当理解,本发明不限于使用该过程,该过程仅是一个示例:
限定词干的权重,以指示该词在语言中的重要性。对于在独立短语中的词干,如果词干是强制的,则权重等于1,而如果词干的可选的,则权重等于或小于1。
在表中,在每一个词干后的括号中指示权重。例如,“you(0.5)”表示词干‘you’具有0.5的重要性权重。
计算正匹配分级(对应于准则B(图14B)),该正匹配分级等于在独立短语中和在对应的简化语句组中出现的词干的上面的权重之和除以在独立短语中出现的所有词干的权重之和。
计算负匹配分级(对应于准则C(图14B)),该负匹配分级等于1-在对应的简化语句组中出现但是未在独立短语中出现的词干的上面的权重之和除以在对应的简化语句组中出现的所有词干的权重之和。
基于组计数(准则A(图14B))和基于正负匹配分级来计算复合分级(对应于2(图14B))。通过下面的一般表达式来给出优选的复合分级:
复合分级=组计数乘以正负匹配分级的加权和的函数。
通过下面的表达式来给出的更具体的示例,应当理解,本发明不限于上面的一般表达式或下面的具体表达式:
复合分级=SquareRoot(组计数)*(0.8*正匹配分级+0.2*负匹配分级)
基于复合分级,选择第二组。
从上面可以意识到,如上参考图12-15所描述的本发明能够将下面的输入文本:
Be calling if to problem please
转换为下面的语句:
If you have any problems,please call
尽管该语句未以此精确形式出现在从因特网语料库检索的语句中。
本领域内的技术人员将意识到,本发明不限于以上具体示出和描述的内容。相反,本发明的范围包括以上描述和示出的各种特征的组合和子组合,以及本领域内的技术人员在阅读了以上描述后将对其作出的并且未在现有技术中的修改。
机译: 特别是对于小键盘设备,使用因特网语料库自动进行上下文敏感的语言校正
机译: 特别是对于小键盘设备,使用因特网语料库自动进行上下文敏感的语言校正
机译: 使用互联网语料库自动进行上下文相关的语言校正,尤其是小型键盘设备