首页> 中国专利> 以多重评分函数为基础的语言处理系统

以多重评分函数为基础的语言处理系统

摘要

一种语言处理系统,可完成评估句子的词汇、语法及语意结构的方法,以及根据这种评估方法削除分数较低的结构的方法。在一种特别的实施方式中,本发明依据各处理阶段所产生的复合分数,提供一种评分函数,可解决模糊现象及削减模糊分析。

著录项

  • 公开/公告号CN1073290A

    专利类型发明专利

  • 公开/公告日1993-06-16

    原文格式PDF

  • 申请/专利权人 致远科技股份有限公司;

    申请/专利号CN92114377.X

  • 发明设计人 王重乃;苏美惠;张景新;苏克毅;

    申请日1992-12-10

  • 分类号G10L5/00;G06F15/38;

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人张志醒;王忠忠

  • 地址 中国台湾

  • 入库时间 2023-12-17 12:23:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2007-02-07

    专利权的终止未缴年费专利权终止

    专利权的终止未缴年费专利权终止

  • 2002-06-12

    其他有关事项

    其他有关事项

  • 2001-04-11

    授权

    授权

  • 1994-06-22

    实质审查请求的生效

    实质审查请求的生效

  • 1994-06-15

    实质审查请求的生效

    实质审查请求的生效

  • 1993-06-16

    公开

    公开

查看全部

说明书

本发明一般适用于自然语言处理领域,具体可应用在自动处理语言材料的系统上,如机器翻译系统及语言辨认系统等。

全自动化的自然语言辨认系统及翻译系统有很多实际的应用,众所周知的例子有语音辨认及机器翻译等。例如,语音辨认是处理口语输入的自动化程序,这种程序可让使用者免于使用费力的输入装置(如键盘)而能与机器(如电脑)直接交谈。

本发明特别涉及在机器翻译上的使用。所谓机器翻译(machine    translation,简称MT)是将一种原始自然语言(source    language)翻译成另一种目标语言(target    language)的自动化流程,例如,将英翻译成中文。机器翻译有其重要的全球性应用,例如,为了进行全球性的国际贸易,跨国公司必须收集及处理大量的资料;而这些资料大半都是用外国语言所撰写的。同时,这些跨国公司也必须与海外的公司、客户、政府机关联系,而人工翻译通常是非常昂贵和费时的,因此,任何自动化的流程,都是人们热切期待的。

在进行自然语言自动翻译的过程中,系统所要处理的信息不仅在数量上极为庞大,而且信息的内涵也有高度的模糊性(ambiguity)及不确定性(uncertainty)。一个词汇在文章中的真实意义通常只有透过上下文才能显现出来。例如,“fruit    flies    like    a    banana”一句中的“flies”和“time    flies    like    an    arrow”中的“flies”有截然不同的意义;前者代表一个名词,而后者则代表一个动词。因此,单独检视“flies”这个词的时候,并不能清楚了解其真实含义,因为该词是模糊的。故系统在翻译一段文章的时候,必须解决上述及其它各种可能的模糊现象。亦即由所有可能的分析中,找出最佳的分析;由检视上下文来决定各字词的含义。即使只是一段普通长短的文章,这个过程也可能需要相当程度的处理时间及处理成本。

为了改善机器翻译的速度及品质,一般可采取数种方法。例如,将翻译系统不断地移植到较高速的电脑系统,以便获取更高的计算能力。此外,便是专注于改善翻译过程中的处理方法。例如,人工智能中的自然语言处理技巧,即被广泛应用在包括机器翻译在内的语言处理系统上,以改善翻译的品质。以下将对自然语言处理的一般方法及步骤,包括输入、词汇分析、语法剖析、翻译及输出等提出较详细的说明。

就MT系统的整体效果及品质而言,快速而正确的文法剖析具有极关键的地位。一般而言,所谓文法剖析是指将每一个要翻译的句子剖析或分解成较简单的语言处理单位。例如,在一个简单语法剖析结构中,句中的每个词之间的文法关联性可由一个称为语法树(syntax    tree)的树状图形表达出来;每一个词所处的地位是由它的词类(part    of    speech,lexical    category)和它与句中其他词的关系来决定。为了能快速而正确地剖析文句,从而得到适当的翻译,系统应能快速而正确地找出具有最佳语意解释的语法树及输出分析(这里所指的最佳解释,严格说是指具有统计意义的最佳解释)。

利用增进剖析过程来改善MT的速度及品质是众所周知的手段。本发明所关注的,则是一种称为“评分式削除法”(scored    truncation)剖析技术。这种技术主要是利用机率统计的技术,给予各种不同的分析以不同的评分,进而消除或放弃不太可能的分析结果。由于所需要搜寻的空间缩小,使得剖析时间也相对缩短。然而,在一个“评分式消除除法”的系统结构中,系统成效及品质与所用的评分方法,包括评分依据及搜寻策略,有着非常密切的关系。

一般而言,可依据所用文法规则(即一套表明语法及语意结构的规则)的使用频率,对不同分析给予不同的分数。更具体说,语法规则使用的频率可以在分析过程中用来决定最好的语法分析。目前广为人知的语法理论主要来自几个学派,包括一般化词组结构语法(Generalized    Phrase    Structure    Grammar,GPSG),及辞汇功能语法(Lexical-Functional    Grammar,LFG)等;可参考Peter    Sells教授的Lectures    on    Contemporary    Syntactic    Theories:An    Introduction    to    Govermment-Binding    Theory,Generalized    Phrase    Struture    Grammar    and    Lexical-Functional    Grammar(1985)一书(“现代语法理论演讲集:管束理论、一般化语组结构语法及辞汇功能语法简介”)。

然而,纯粹利用语法规则的使用频率有显着的缺点。由于只考虑局部现象,而未顾及前后文语情况及相关的时态、动貌、语态及高层的语意等信息,一量应用于整体结构分析,往往会导致不适当的甚至于不正确的处理或翻译结果。另一个纯粹利用语法规则使用频率(及其他以规则为基础的评分机制)的缺点是不容易对各种具有不同柘朴结构的语法结构作规一化处理(normalization)。例如,某一句子可能可以分析出两种不同的语法结构树,其中一棵语法结构树比另一棵语法结构树具有更多的节点,由于每一节点对应一条语法规则,且各有相对应的机率值,而每个机率值恒小于或等于1.0,因此,具有较多节点的语法结构树通常会被指派较小的机率或分数。在此情况下,一个分析可能只因为具有较多节点,即被视为不太好的分析,而这种评分并不是基于任何文法上的理由。

虽然过去已有少数不同的评分机制被提出来企图改善机器翻译系统的效果,然而这些方法各有各的缺点,使得其实际应用受到相当的限制。尤其明显的是,以前所提出的方法经常忽略某些有鉴别力而可用于快速产生正确翻译的语意、语法及词汇的信息。例如,这些系统通常只是利用一些经验式的假设和经验法则,以致无法一般化到一般情况,也不能对不同的语言一概适用。

因此,真正需要的是一种能够有系统执行的且在不同领域及场合都具有一致性的机制及方法。而这样的方法必须能广泛地应用到任何语言处理环境。此外,此系统应尽可能尽早消减或消除不合适的分析,从而缩小系统找寻正确解答时所需的搜寻空间。在这样的系统中,仅有最好的一两个分析(或数个分数较高的可能分析结果)才须要进一步处理或最后交由译后修缮人员校正。通过消除不太可能而最终会被排除的模糊结构,快速处理及高品质输出的目标才可望达成。本发明即在于实现上述之需求。

依据本发明,一套语言处理系统,将包含可产生预备要被翻译或处理的句子的语法结构树的方法的部分,以及根据词汇、语法及语意信息而消除不可能的语法结构树的方法的部分。消除的方法(称为“评分式消除法”)包含依据在每一词项位置的评分,循序消减不可能的语法结构树的方法。所给的评分可与静态或动态的执行期阈值(runing    threshold)或一个累计分数的下限值(lower    bound)相比较。

依照本发明,与特定领域相关的信息(包含词汇、语法及语意信息的统计资料)可由分析大量与准备翻译材料主题相关的文件或语料库而获取。在其中一种实际过程中,我们提供一套“评分函数”(score    function)利用不同处理阶段的复合分数为基础,用以解决模糊或消除模糊。在各不同处理阶段,词汇、语法或语意分数可以单独使用,或组成一个复合分数,以符合不同阶段解决模糊问题上的特殊需要。

以下为附图的简要说明:

图1    为一个传统机器翻译系统的一般操作流程图。

图2    为可用来实际完成本发明的电脑系统方块图。

图3A为利用本发明所制作的语言处理系统方块图。

图3B为另一种可用来完成本发明的电脑系统方块图。

图3C为另一种利用本发明来制作语言处理系统的可行方式。

图4为一棵语法结构树的示意图,该图可用以说明一个只有四个词的假想句的可能语法结构及词组阶层(Phrase    level)。

图5为一棵标注语意特征的结构树示意图,该图可用以说明“saw    the    boy    in    the    park”这个词组经语意注释后的语意结构。

图6为本发明的整体系统操作流程图。

图7为一张说明辞汇模糊现象的示意表。

图8为代表图7中所有各种可能的词类组合的示意表。

图9所示流程图说明如何画出图7的模糊表及如何评估词汇分数。

图10A和10B说明在进行“深度优先”式的分析时如何消除较不可能导致合法语法结构的搜寻途径。

首先请参阅图1。该图代表一个传统的机器翻译系统的整体流程1。该流程包括输入101、词汇分析102、语法剖析103、翻译104、显示/编辑105及输出106等步骤。以下进一步详述各步骤的细节。

在步骤101中,翻译的材料被输入到翻译系统。这些输入文字可以利用任何已知的传统方式进入系统中。

在步骤102中,系统执行词汇分析,将输入的每一句子分解成小单元(tokens)。更确切地说,每个句子都被拆成较简单而又有语言学意义的处理单位或单元。首先,由空白字元(如空白键、定位键及回位键等)及标点符号之类的定位元的位置,打出这些包括单词、成语等等的小单元。

然后,每个单元的词汇信息可由一个或数个语汇来决定。特别是对每一个小单元都会查过一次词典,以决定其词类或所有可能的词类。

在步骤103中,按照各元素间的文法合法性关系,可对每一句子作语法剖析。更确切地说,利用原始输入句子与已知文法规则及语意限制的比较,可对每一句子作语法及语意分析。系统会辨认出每一个句子中的主语及宾语等角色,其属性或动作则以各种适当的结构(如树状图)表示出来。在最理想的情况下,所有的词汇、语法及语意上的模糊现象可以在这个步骤内完成。经上述分析后,由剖析器输出的可能是最正确的分析被保留下来,由系统作进一步的处理。

除了上述以语法规则为基础的剖析方法外,也可利用一套“评分函数”来衡量各种可能分析的品质。关于这种方法,可参考苏等人合写的“Semantic    and    Syntactic    Aspects    of    Score    Function”(Proceedings    of    COLING-88,12th    International    Conference    on    Computational    Linguistics,International    Committee    on    Computational    Linguistics(ICCL),Budapest,Hungary,vol.2,pp.642-644,August22-27,1988.)一文(“评分函数的语法与语意观”,第12届国际计算语言学会议COLING-88会议论文集,第二卷,第642-644页,匈牙利布达佩斯市举行)。

在步骤104中,剖析的输出结果经过原始语言与目标语言对应元素之间的替代而获得翻译结果。例如,在简单的翻译系统中,原始语言及目标语之间可能会透过词对词的翻译来完成。步骤104完成之后,翻译的输出即可供人工进一步润色之用(步骤105)。最后,在步骤106中,完成的翻译结果可输出作为打印、储存、传送或其它处理之用。

以下为较佳实施例:

请参阅图2。该图显示出一个可以具体完成本发明的电脑系统2。电脑系统2主要由一个中央处理器(CPU)201,一组主要存储器202,一套输出输入控制器203,及一组连接系统2各元件的总线结构210组成。

系统2也包含其他输出输入装置,如显示器204(LCD或CRT显示屏等)、输出装置205(如列表机、通信端口等)、大型存储装置206(磁带机、光盘机、磁式光盘机等)以及键盘207。其他如配备光学字元辨识器(Optical    Character    Recognizer,OCR)的扫描器也可作为额外的输入装置208。

熟悉本行的人士应了解其他设备也可作为输出装置205或输入装置208。比如,输出装置205可能包含SCSI接口、RS-232输出输入端口,及其它设备。同样,输入装置208也可能包括定点装置如鼠标器、轨迹球等。

系统2的基本操作可简述如下。中央处理器201可执行一连串应用程式或系统程式中的指令,而这些程式通常由大型存储装置206载入主存储器202中。此外,系统2也接受来自键盘207或其它输入装置208的使用者指令。这些指令经中央处理器201处理后,其结果则由显示器204显示给使用者检视,或透过输出装置输出。在制作实际系统时,较佳实施例的作法是把系统2移植到适当的工作站上,如在UNIX作业系统下执行的SPARC相容电脑工作站。这些工作站及作业系统都可由许多厂商处购得(如加州山景市的升阳微电子系统公司)。

以下请参阅图3A-3C。我们将详述如何制成以本发明原理为基础的语言处理系统。如图3A所示,依本发明所构成的机器翻译系统3由一套电脑系统2及一个翻译次系统301组成。该翻译次系统由一个接口310、一套核心机构(engine)或控制元件311,及许多其它模组321-326组成。这些模组321-326在工作上可与控制元件311耦合在一起,而控制元件311则与接口310相耦合。实际运行时,翻译次系统通常储存在存储器202内,以驱动CPU    201的运行。此外,系统3的操作也在作业系统340的控制之下;而作业系统一盘也储存在存储器202之内。其它应用程式341,如文字处理器,也可存在存储器202之内供CPU201执行。

现在请参阅图3B。该图是系统3的另一种构成方式。依据本发明所制作的机器翻译系统4包含前述的电脑系统2(在作业系统340控制下运作)及翻译次系统301。此外,系统4还包含一套扫描器208a,如大家所熟知的,此扫描器可与CPU201结合在一起工作,以提供文件扫描所获得的位元图像给电脑系统2。扫描器208a可以是平床式的,也可以是掌上型的;这种装置可以由许多厂商处(如加州Palo    Alto的惠普公司)购得。系统4还包含一套光学字元辨识器(OCR)模组342,通常存于存储器202之内。

请参阅图3C。该图是另一种利用本发明的构成方式。依据本发明所制作的语音辨认系统5包含一套语音辨认模组220及翻译次系统301。语音辨认模组220包含一套固件(firmware)或只读存储器(ROM)模组221、一套专用的微处理机222、及一套信号处理模组223。翻译模组301通常储存于POM221中。同时,语音辨认或合成模组225也存在ROM221内。而ROM    221则与专用微处理机222结合在一起,主导其运作。语音辨认系统220的整体运作,则由执行ROM    221内指令的微处理机222控制。

除了由ROM    221接收输入及指令外,专用微处理机也可由信号处理单元223接受输入;该单元可以提供数字成音信号给系统220。特别是信号处理单元223由成音输入224处接受模拟成音信号,而提供数字成音信号给微处理机222。正如人们所熟知的,信号处理单元223通常包括一套“模-数转换器”(analog-to-digital    converter,ADc),以便将模拟成音信号转换成相应的数字信号。成音输入224则由微音器227或辅助输入228获得成音信号。对熟知本行的人士来说,预先格式化过的数字成音信号来源,例如,以CD-ROM格式存放的数据,也可作为语音辨识系统220的输入。

由语音辨认模组220获得的输出可提供给输出单元226。该单元与微处理机222结合在一起工作。输出单元226可提供数字或模拟信号给外接装备,如扬声器229、显示器或列表机230,或其它主机231等。

附录A的说明,表示出另一种可实际完成本发明的方式。

以上仅由附图说明了各种可能将本发明利用于语言处理系统的实例,但这并不表示本发明仅限于上述制作方式。

以下对翻译次系统进行说明:

依据本发明的工作原理,如果不适当的模糊含义可以在处理过程中尽早被削除的话,语言处理系统的品质便可获得大幅改善。尤其是如果能减少模糊输出分析的话,选择剖析器输出的程序(如图1的步骤104)将可以获得加强。如果较佳的结构分析比较差的结构分析能够获得较好的评分的话,系统的效果还可以进一步改善。因此,本发明所根据的是:通过改善解决模糊问题过程中用以筛选正确结构的评分及估量方法,可以改善机器翻译系统的品质及效率。

以下讨论的焦点,将集中于依本发明所构成的翻译系统(如系统3)的翻译次系统301的运行方式。但是,本发明能适用于许多其它的语言处理系统,包括语音辨认系统及合成系统等,并不仅限于这里所呈现的方式及设备。

A.系统模组

请再参阅图3A。系统3各模组中包含词类评分模组(Lexical    Category    Score    module)321、词类语境评分模组(Lexical    Context    Score    module)322、语法评分模组(Syntactic    Score    module)323、语意评分模组(Semantic    Score    module(324、静态执行期阈值模组(Running    Threshold    module)325、及词典模组326。

以下将叙述各模组的作用。词类评分模组321、词类语境评分模组322、语法评分模组323、语意评分模组324、及静态阈值模组325均含有与所要翻译的文件相关的特定领域或特别主题的信息,包括一些系统计资料等。更具体的说,这些模组引用大量与要翻译的文件具有相同或类似领域的语料的分析结果。而这里所提的领域可能包括(但不限于)电脑科技、医药、物理、政治、宗教等等。除此之外,系统也备有一个一般性的大量语料,以备输入文件是一般性文件或该文件的特定领域无法辨别的时候使用。

本发明的一个特殊优点在于,可通过使用与应用领域相关的统计资料,大幅提高翻译的效能及品质。

在一种较好的制作中,与应用领域相关的特定信息包含机率数据,例如大量与应用领域相关的文件中某些事件发生的频率,为了便于计算,这些机率值可能以对数的形式存于系统中,而未必是原来的机率形式。熟知本行的人士均知道,除了事件的发生频率外,其它的统计量也可能用来作为连结原始文件与语料间的指标。

词汇评分函数模组(Lexical    Score    module)是用来简化选择各单词的词类的。该模组可划分为词类评分模组321及词类语境评分模组322两部分。词类评分模组321由词典中检视各单词及其可能的词类,而后传回所需信息(如词类的分数)以显示某特殊组合的可能性。熟悉本行的人士均了解,除了以分数的型态出现外,这种信息也可以以许多不同的型态存在。比如我们可以把这种信息用规则或事实的型式存在一个知识库里面。

对存取模组321数据的方式简述如下。对每一个词(Wi)而言,模组321至少保有一项两个栏位的记录,其一定义该字的可能分类信息(Ci),如词类数据,另一栏位则代表该词在大量语料中被当作某特定类别(如词类)的使用机率。词汇分数可以根据上述机率数据,如某特定类别在大量语料中的使用频率,来估算;据此,某单词(Wi)的作用为某词类(Ci)的机率P可以表示成条件机率P(Ci/Wi),由此可推导出词类的分数。反之,该项数据也可根据任意指派的数值,例如由语言学专家所指派的一个数值。不管是那一种情况,模组321都会定出每一个单词的词类机率。

词类语境评分模组322则是根据原始文件的词类而存取的。具体说,系统使用一串代表词类的符号,包括一个单词的可能词类(Ci)和它邻近的数个词的词类(如前两个词类Ci-2,Ci-1)来评估各词类组合的分数;模组322负责找出每种词类组合的机率。由这些输入,模组322决定词类Ci在大量语料中在此语境下发生的频率或机率。据此,词类Ci会与n个词类(Ci-n,…Ci-2,Ci-1)邻接的机率可以表示成条件机率P(Ci|Ci-n,…,Ci-2,Ci-1)的形式。

语法评分模组323的功能是从输入句已知的词类组合所对应的结构分析中挑选出最有可能的语法结构。语法评分模组323的数据可由一串代表语法类别(syntactic    categories)的符号来提取;这些语法类别包含指派给各单词的词类及指派给词组的语法功能(如名词片语(Noun    Phrase,NP)、动词片语(Verb    Phrase,VP)等等)。这些元素都可以由现有已剖析的部分结构中取得。与词类(lexical    category,词汇类别)不同的是,这些语法类别可能包含语法结构树上的非终端节点,如名词片语、动词片语等。因此,在决定语法结构的优劣时,我们会把语法结构树分成不同的结构阶层来检视。

每一个分析步骤中,模组323所检视的可能包括目前正在检查的单词、该单词左边某些词或语法类别、该单词右边某些词或语法类别;所检视的单词或语法类别总数可以预先选择一个适当的数目。由这些输入,模组323求得一个分数或者所检视的符号串在大量语料中发生的机率。

当语料数量增大的时候,可参考的上下文数据(即邻接的语法类别的个数)通常可以相对增加。同时,语料扩增之后,用来决定分数的机率数据会变得更有统计意义,因而可以让我们在选择所要参考的上下文符号的个数时,有较大的弹性。比如,若参考三个上下文符号(如左边两个及右边一个),则用于存取语法评分函数模组的符号串将包括目前正检查中的单词的语法类别、该词左边两个词或词组的词汇或语法类别,以及右边一个词的词汇类别。

语意评分模组324可以协助改善挑选适当结构的程序;此过程乃是借着由已知的词汇类别及语法结构推导出适当的语意注释而完成的。所谓的语音注释乃是指对词跟词组标注适当的语意特征而言。语音评分模组324的数据可以由指派给处理中的词及构成中的语法结构和所标注的语意特征来存取。其中,语意特征的实例有表示地方或方位的动词如“locate”,表示产生的动词如“write”及“build”等、表示地方或位置的名词如“park”,“New    York”等。由于一部分模糊问题已在词汇及语法的模组中获得解决,而且词汇、语法及语意信息有些带有相同的信息,因此,仅需使用少数语意特征即可。

存取语意评分模组324的方法与前述存取语法评分模组323的方法类似,在此也考虑了上下文语境的影响。只是,这里还检查处理中的词的语意特征,及其左右词或词组的语意特征。

静态阈值模组325代表一组最低限度的分数,可以在剖析过程中帮助削除不太可能的结构或搜寻路径。阈值是依词的位置或其指标而存取的。其值可以由语法评分函数及语意评分函数等推导出来(如以下所述)。例如,第二个阈值表示至第二个词为止所建结构的语法分数及语意分数连乘积的最低分数限制。我们可以预先选定一组固定的常数作为阈值,也可以在分析过程中,由模组325动态调整各阈值,以调整分析的流程。

B.控制元件:评分函数

控制元件311是次系统301中真正执行语言处理的模组。要了解其结构及作用,最好由检视本发明所用的评分函数开始,因为这是整体控制元件的一个重要部分。

一个句子的解释通常可以由其语意注解、语法结构及词汇类别决定。故一个特定解释的适当与否,及其所对应的分数,可以定量表示成:对于给定的输入句子,该特定解释所对应的语意注解、语法结构及词汇类别出现的机率。因此,控制元件311就使用这样的评分函数来衡量某一种解释的合理程度或者某一标注语意注释的语法结构树的品质。

系统的评分机制利用这样的条件机率来选择较好的语意解释。因此,本发明所使用的评分函数可以简单表示成以下的公式:

Score(Semi,Synj,Lexk,Words)=P(Semi,Synj,Lexk|Words)>

其中的Semi、Synj及Lexk分别表示输入句子Words的某一种模糊解释所对应的特定的语意注解、语法结构及词汇信息的组合方式。

依据公式1的定义,某一特定语意解释的分数还可以表示成三种分数的连乘积:即语意分数、语法分数及词汇分数。语意分数为给定某特定语法结构、特定词汇信息及原输入字串时,会得到某特定语意注释的条件机率;语法分数为给定某特定词汇信息及原输入字串时,会得到某特定语法结构的条件机率;词汇分数则为给定原输入字串时,会得到某特定词汇信息的条件机率。

本发明所用的评分函数具有一个重要特征,即:依据本发明所用的评分函数来衡量语意解释(和其相对的语法结构树与语意注释)的合理程度及相对优劣时,可以得到最佳化的结果。在适当的假设之下,这样的评分函数可以符合贝氏决策理论(Baysian    Decision    Rule)的最少决策成本的最佳化标准,使选错语意解释的决策成本降至最低。

因此,要从最少的决策成本选取可能的最佳语意解释,相当于针对输入字串(Words)找出一组特定的语意注释(Sem)、语法结构(Syn)及词汇信息(Lexk)的组合,使得该组合合在一起时,如下所示的条件机率值达到最大:

SCORE(Semi,Synj,Lexk,Words)

=P(Semi,Synj,Lexk|W1,...Wn

=P(Semi|Synj,Lexk,W1,...Wn)×P(Synj|Lexk,W1,...,Wn)×P(Lexk|W1,...,Wn

=SCOREsem(Semi)×SCOREsyn(Synj)×SCORElex(Lexk)>

其中Wi及Wn分别代表所给定的输入文句的第一个及最后一个单词(n代表句子的长度或字数);而三个乘积项则分别表示上述的语意评分函数、语法评分函数以及词汇评分函数。

评分函数的另一个特点是三个组成的评分函数间彼此独立。因此,个别的成分可以单独使用(如利用词汇评分函数来解决词汇的模糊问题)。反之,各成份也可以透过不同的设计架构互相结合,而达到整体最佳化及系统整体改善的目的。

1.词汇评分函数

以下叙述评分函数的词汇评分函数部分(即SCORElex(LexK)或P(Lexk|W1...Wn)部分)。词汇评分函数可以拆解成每一个字具有某种词类机率的连乘积;更确切地说,各连乘积中的个别机率代表的可能性是:给定输入文句及前面各单词的词类信息后,目前处理中的单词具备词某特定词类的条件机率。

各种不同的技术可以简化上述词汇评分函数的运算。例如,可以只检视邻接目前正在处理中的单词的语境。除此之外,还可进一步将连乘机率项的联合机率拆解成两项:一项代表给定目前处理的单词后会得到某词类的条件机率(称为词类评分函数),另一项则代表给定前后单词的词类后会得到某词类的条件机率(称为词类语境评分函数),以进一步简化词汇评分函数的运算。

由于不易真正参考所有的上下文,而且各机率成分之间并非真正完全独立,因此,在求取各评分函数时,通常要采用不同的近似方法来求得较好的结果。不同的近似方法决定了评分函数的好坏及系统的效果。本发明的一个特征即在于利用较佳的理论来估算较好的评分函数值。

在此,词汇评分函数可以利用一些近似的方法推导出来。词汇评分函数可以用一个以词类评分函数及词类语境评分函数为参数的转换函数作为其理论近以值。换言之,词汇分数是使某一个词类在其它邻近词类已知情况下发生的条件机率及该词类在输入单词已知情况下发生的条件机率值,通过一个转换函数,将两者结合后所得的分数。

以下用分式3来表示词汇评分函数的计算方法。为了简单,我们假设所参考的上下文符号为两个。然而,这只是为了方便说明,而不是对系统的限制。在此情况下,词汇评分函数可表示成:

SCORElex(Lexk)=P(C1,...,Cn|W1,...,Wn

>>=>>Π>>i>=>1>>n>>P>>(>>C>i>>|sup>>C>1>>i>->1>sup>>,sup>>W>1>nsup>>)>>>s>或者

=P(Wn1|Cn1)×P(Cn1)/P(Wn1

>>=>K>>Π>>i>=>1>>n>>P>>(>>C>i>>|sup>>C>1>>i>->1>sup>>)>>×>P>>(sup>>W>1>nsup>>|sup>>C>1>nsup>>)>>>s>

>>≈>K>>Π>>i>=>1>>n>>P>>(>>C>i>>|sup>>C>>i>->j>>>i>->1>sup>>)>>×>P>>(>>W>i>>|>>C>1>>)>>>s>

>>≈>>Π>>i>=>1>>n>>f>>(>P>>(>>C>i>>|>>C>>i>->2>>>,>>C>>i>->1>>>)>>,>P>>(>>W>i>>|>>C>i>>)>>)>>>s>公式3

其中Wn1为W1,W2,…,Wn的缩写(除特别说明之外,本文其地方也将使用类似的符号),Wi代表第i个单词,Ci及(Ci-2,Ci-1)分别代表目前正在处理的单词Wi的对应词类及其前两个词(Wi-2及Wi-1)的对应词类;K为规-化常数,相当于输入句子出现的机率P(Wn1)的倒数(此一常数在以下计算中会被其它常数所吸收,故不再出现于其它式子)。而f则代表以前述两个与词汇有关的条件机率为参数的转换函数。当然,所参考的上下文可以不限定为前面两个符号,在有足够语料的情况下,增加所参考的上下文符号个数通常可以提高词汇评分函数的选择能力。

转换函数f可为线性函数,使得词汇评分函数可以表示成上述两种条件机率的加权总和的连乘积。亦即表示成如下的公式:

>>>SCORE>lex>>>(>>Lex>k>>)>>≈>>Π>>i>=>1>>n>>[>>λ>1>>P>>(>>C>i>>|>>C>>i>->2>>>,>>C>>i>->1>>>)>>+>>λ>2>>P>>(>>W>i>>|>>C>i>>)>>]>>s>公式4

其中λ1及λ2为由语料所计算出来的适当的加权值。当λ12=1时,上述加权总和可视为公式3中的条件机率项的近似值;换句话说,该近似值为词类评分函数及词类语境评分函数的线性内插值。

反之,转换函数f也可以是非线性函数,例如,在此情况下,词汇评分函数可能表示成如下的公式:

>>>SCORE>lex>>>(>>Lex>k>>)>>≈>>Π>>i>=>1>>n>>[>P>>>(>>C>i>>|>>C>>i>->2>>>,>>C>>i>->1>>>)>>>a>1> >×>P>>>(>>W>i>>|>>C>i>>)>>>a>1> >]>>s>公式5

其中的α1及α2可由大量语料中求得适当的值。对α1=1-λ,α2=λ(λ为一词汇加权值)的情况而言,公式5可以视为以下“非线性平滑式”的特殊案例。在此情况下,参数P(Ci|Ci-11,Wn1)可在一个转换的非线性参数空间里利用线性内插的方法估测出来。以下公式代表了估测的方法:

g(P(Ci|Ci-11,Wn1))≡λg(P1(Wi|Ci))+(1-λ)g(P2(Ci|Ci-1i-s))公式5a

其中g为一选定的转换函数。在实际制作时,较好的选择是选定g为以10为底的对数函数。然而,熟悉本行的人士也知道,g可以是其它的转换函数如余弦函数、自然对数等等。

在估计P的时候,公式5a中两种不同的参数(相当于P1及P2)会依据不同的可信度给予不同的加权值。由于使用了一个非线性的转换函数(例如对数函数)将原参数转换到该参数空间来估计,故公式5a称为“非线性平滑式”。两种不同的参数在转换过的空间中,利用内插法予以平滑化之后,即得到所要的参数P。

2.语法评分函数

以下叙述评分函数的语法评分函数部分(即SCOREsyn(Synj)部分)。语法评分函数可以表示成给定词汇类别后具有某种语法结构的条件机率。如下列公式所示:

SCOREsyn(Synj)≈P(Synj|Lexk)=P(Synj|C1,…,Cn

其中C1到Cn代表与单词W1到Wn对应的词汇类别。

请参阅图4。该图说明一个推导语法评分函数的机构。图4代表一棵语法结构树400,其构成过程可以由450所示一连串的推导序列L8至L1来表示。这里所显示的推导程序是由一个“由下而上”(bottom-up)型的剖析器产生。语法结构树400是一棵由对应4个词(W1,…,W4)的句子分析出来的。

为了能够表达一棵语法结构树产生的机率,我们把语法结构树拆解成许多“词组阶层”,亦即对应于450中的L1到L8。每一个“词组阶层”代表一组在某一剖析步骤中出现的终端节点或非终端节点,或这组节点所代表的状态。而由第i个词组阶层变换到第i+1个词组阶层所代表的事件,则是某些终端节点在第i个时段被合组(reduce)为另一个较高阶的非终端符号的过程。比如,由L1至L2的转态过程相当于将C1合组为D(以D<-C1表示)的过程(或将D改写为C1:D->C1)。对特定的剖析方法而言,每棵语法结构树表示成“词组阶层”的方式是唯一的,因此,语法结构树的合理程度可以用这些“词组阶层”依序发生的转态机率来衡量。

给定先前的“词组阶层”(L1,…,L3)后会形成目前的“词组阶层”(如L4)的可能性为一个条件机率;语法评分函数可以表示成这些条件机率的连乘积。为了简化运算,在估计语法评分函数时,可以只考虑先前的一个“词组阶层”(如L3)。因此,每一个条件机率可以表示为:在给定先前的“词组阶层”的情况下,被合组的符号在该特定语境下会被合组成另一特定符号的条件机率。

例如,语法结构树400所对应的语法评分函数可以表示成以下的公式:

SCOREsyn(SynA)=P(L8,L7,...,L2|L1)

=P(L8|L7,...,L2,L1)×P(L7|L6,...,L2,L1)×...×P(L2|L1)    公式6

≈P(L8|L7)×P(L7|L6)×...×P(L2|L1)

≈P({A}|{17,B,C,r7})×P({C}|{16,F,G,r6})×...×P({D}|{11,C1,r1})

其中,1i及ri(i=1,2,…,7)分别代表被合组的符号的左边及右边的上下文符号。本例中,各“词组阶层”正好与右侧推导法(rightmost>

然而,熟悉本行的人士都能了解,上述“词组阶层”可以依据所使用的剖析方法加以适当定义。因此,本发明所用的技术可以一般化为其它的剖析方法,而不限于LR型剖析器。同时,剖析的方向亦不限于“由下而上”。

假如只参考左边一个及右边一个上下文符号,公式6可以进一步简化为:

SCOREsyn(SynA

≈P({A}|{φ,B,C,φ})×P({C}|{B,F,G,φ})×...×P({D}|{φ,C1,C2})>

在由左而右的处理过程中,读入每一个新词之前可能会有多次合组的情况。因此,前面的计算方法对于每一种不同的结构分析而言,可能连乘的条件机率个数各不相同。如此,可能合组较多次的语法结构树(亦能节点数目较多的语法结构树)因机率连乘的次数较多而显得分数较偏差。本发明可针对这个问题以一种规一化的技术加以避免。以下即叙述比种技术。

若只考虑一个词的存取与另一个词的存取之间的转态过程,则可将处理两词之间的多重合组的动作,合起来视为一个单一的事件而评估这种转态的机率。这时各条件机率可写成:存取下一个单词之前,最终形成的“词组阶层”在先前各“词组阶层”已知的情况下会发生的条件机率。由于词的个数在各种分析中均为固定常数,因此,利用这种技术可以使评分函数中的连乘积个数保持一个,从而避免上述问题。为了简化计算,此条件机率的给定条件可以由先前各“词组阶层”简化为存取前一单词之前最后形成的“词组阶层”;换言之,可以利用存取每一个单词之前的状态之间的转态机率来作为评分函数的近似值。

因此,为了在每一个单词读取进来时计算语法评分函数,前述的语法评分函数可以用一种方式表示如下(以图4为例):

SCOREsyn(SynA

=P(L8,L7,...,L2|L1)

=P(L8,L7,L6|L5,...,L1)×P(L5|L4,...,L1)×P(L4,L3|L2,L1)×P(L2|L1)公式8

≈P(L8,L7,L6|L5)×P(L5|L4)×P(L4,L3|L2)×P(L2|L1)

≈P(L8|L5)×P(L5|L4)×P(L4|L2)×P(L2|L1)

其中各配对的“词组阶层”(如L2及L4)各代表读入一个词之前及之后的系统状态。而通常这种状态是记录在剖析系统的堆栈里。

这种公式化的技术不但解决了规一化的问题,也使得执行时的计算相当容易;因为可以在读取每一个词时,一边剖析,一边根据系统状态变换计算每个条件机率值。也可以在公平的情况下(即依据相同的输入词序的情况下)利用所得的部分评分函数,尽早将不可能的结构剔除。

3.语意评分函数

以下叙述评分函数的语意评分函数部分(即SCOREsem(Semi)部分)。语意评分函数可以表示成给定语法结构及词汇类别后具有某种语意注译的条件机率。如下列公式所示:

SCOREsem(Semi)=P(Semi|Synj,Lexk,Words)≈P(Semi|Synj

其中Semi代表相对于第j种语法结构(Synj)及第k种词汇信息(Lexk)的第i种语意注释。

另一方面,语意评分函数也可以较具体地写成:

>>>SCORE>sex>>>(>>Sem>i>>)>>≈>>Π>>i>=>1>>n>>P>[>{>>sem>>I>.>I>>>.>.>.>>sem>>I>.>n>>>>}>I>>>IPR>1>>)>>s>

其中{Sem1,1……,Seml,n}代表一组语意特征;我们以这组语意特征来注释文法规则(或改写规则)PR1左边的符号(即被合组后的符号)的语意内涵。每一个符号所加注的语意特征个数可以是变动的,但为了方便说明,本文件均以一组“n-元配对”(n-tuple)来表示。如果同时考虑到语境对语意注释的影响,语意评分函数可以表示为:

其中,α-L1及β-R1分别代表被合组的符号左右两侧加注有语意注释的上下文符号;L及R分别代表左右各参考L个及R个上下文符号。

请参阅图5。本图列举一个标注语意信息的“标注式语法结构树”(annotated    syntax    tree)500;该结构树是相对于英文动词词组“saw    the    boy    in    the    park”的一种可能的分析;例子中,每一个节点都以一个2-元配对(2-tuple)来标注各相对词组成或单词的语意。

标注的方法是将语意特征由下往上传递(各词的语意特征则由词典查得,且置于2-元配对的第一个空位,其余空位填ψ(NULL))。例如,最右边的名词词组节点NP(Noun    Phrase)501标注有“loc”(location,地方)及“def”(definite,以定冠词指定)两个语意特征,表示名词词组“the    park”是个特别指定的地方。其中的“loc”特征来自其主要成分“park”502的主要特征(head    feature),而“def”特征则来自次要的成分“the”503的主要特征。

一般而言,一个母节点的语意特征是由来自其子节点的主要特征结合而成的,且依子节点对母节点语意的重要性顺序,由左至右排列;因此,母节点的n-元配对的第一个特征自然成为其主要语意特征。由于这种特殊安排,即使子节点的个数超过预定保留的n个语意特征,其主要成分的主要特征及前面几个较重要的特征仍能保留来解释母节点的语意内涵,所省略的都是较次要的特征。因此,本发明的一个重要特征即在于能利用这种简洁的语意标注方式,求取语意评分函数,而不需要耗费大量成本执行传统的语意分析。

语意评分函数的计算与语法评分函数的计算类似;主要的差别在于语法评分函数计算所用的“词阶层”在这里变成了加注有语意特征的“标注式词组阶层”(annotated    phrase    levels)。换言之,“标注式词组阶层”与“词组阶层”含有相同的终端及非终端节点,但每一个节点都标注有来自其子节点或词典的语意特征。除此之外,其正式的计算式与公式6、7、8相似。

4.评分函数的自动学习及鉴别力与强健性加强

以上各节所提出的各机率项均可由大量语料中估计出来。一般的估计方式是求取某特定事件在特定条件下发生的次数,除以该特定条件发生的总次数。这种估计法称为“最大可能性参数估计法”(Maximun    Likelihood    Estimation)。由此所估计出来的机率参数可以使估计用的训练语料(training    set)联合出现的机率最大。然而,这并不意味着用这些参数反过来评判训练语料时,所得的错误率也最小(虽然有可能已接近最佳值)。即使如此,由于训练语料的统计性质未必与实际的输入文句相同,因此,以这组参数来评判实际上无法预知的测试语料(testing    set)时,也并不意味着可以获得最大的辨认率或正确率。

实际上,在设计一种评分机制时,真正想要的是具有鉴别力的鉴别函数,亦即可能有最小错误率的评分函数;同时,也希望这个函数应用在未知的输入时,具有一定的强健性(Robustness),足以减低因统计特性不同而造成的影响。本发明另一个特征即在于可以利用有系统的训练方式,调整系统的参数,以强化系统的鉴别力及强健性。这是一般常规系统所难以达到的。以下即说明增强鉴别力的方法及增进强健性的方式。

为增强参数的鉴别力,首先以“最大可能性”估计法(或加上其它处理)估计一组起始参数,再根据这组参数评判训练语料的各种可能分析,选出依该组参数评分时的最佳分析。如果所选出的分析并不正确,则把相对于正确分析的各个参数值提高某一修正量,而把相对于最高分(但非正确)的分析的各个参数值相对降低。

利用这种方法可以把可能导致错误的参数加以修正(即高估者降低,低估者提高)。从而提高系统对训练语料的鉴别力。

上述修正步骤对每一句子重复实施以获得较佳的新参数。而且,以上所提的修正量可依不同回合适度调整,例如,可依照指数函数的速率逐次降低修正量。熟悉本行的人士都能了解,其它函数也可用来控制修正量的大小。

前述的修正步骤可持续进行,直到新参数相对正确率达到最大、达到某预设值或收敛为止,由此即可增强系统的鉴别力。

为了减低训练语料与实际语料统计上的差异,以下叙述进一步增进系统强健性的方法。上述步骤完成后,参数对训练语料的正确率虽可达到最大,但对于实际输入则可能因统计性质的变动而使一些不甚强健的参数产生错误。尤其是高分的次佳选择,其相对参数可能让某些实际输入变成最高分,导致错误率升高。为避免这种情况发生,即使利用现有参数可以正确获得最高分,本发明仍会视此分数与第二高分的分数的差值,适度调高第一高分的参数值及降低第二高分的参数值;只有两者分数的差距在一定的范围之外,调整的动作才不进行。如此即可降低因训练语料与实际输入间的统计差异而产生的影响,使系统对任何领域的输入材料均有一定的强健性。

C.评分函数的操作方式

请参阅图6。以下将描述如系统3的语言处理系统的整个操作方式。

在步骤601中,输入或原始材料可利用任何可资利用的输入方式,如键盘输入、文件扫描(光学字元辨识)、档案传输(来自储存媒体或通信端口等输入系统。熟悉本行的人士都能了解,其它方法也可用来将原始翻译材料输入到翻译系统中。

在步骤602中,对原始翻译材料进行词典查阅及前置处理过程。

词典查阅是由词典326中抽取词汇信息,而前置处理则是将一些与输入型态有关的事项(如缩写等)加以处理。例如,“I′11″这个非正式的用语会被展开成“I    will”;其它的前置处理包括将输入语言的特殊文法结构化为一种正规的型式,如将英文的连接词“either……or”以一个语意上对等的符号来代表。同时,在前置处理的操作中也可能(但不限于)辨认并处理数学公式、图画、表格、特殊字元(如用来排版或规定输出格式的字元)。

透过这种前置处理,将输入翻译材料转成某种正规的型式,可以让后续的分析动作简化,易于翻译。

在步骤603中,系统建立一个词汇模糊含义表。特别是系统会根据所要翻译的句子中的单词提取词汇数据库321、322的数据。请参阅图7。该图举例说明如何建立相对于英文句子“The    beautiful    rose    was    a    present。”的词汇模糊含义表700。如图所示,句子701内的单词依其可能的词类有数种不同的分析。例如,“the”及“a”仅具有冠词的词类,而“rose”则具有名词及动词两种词类。模糊含义表700即根据句中各单词可能的词类而构成。

除了指派可能的词类外,相对应的机率也由词汇模组求得后加入该表。由表格700所示的简单句701可以看出:“rose”及“present”具有模糊性。其中,“rose”可以表示名词(“玫瑰”)或动词(“rise”的过去式);而“present”则可表示名词、形容词或动词。

以下请参阅图8。句子701可能的词类组合总数,可以由各单词的可能词类总数的连乘积决定。例如,“rose”有两种词类、“beauti-ful”有一种词类等,将这些总数连乘在一起即有1×1×2×1×1×3=6种词类组合。这六种可能的词类组合(category    sequences)801显示于图8的表格800中。虽然例句701仅有6种组合,然而,在实际处理的句子中,句子的长度及模糊性经常比本例句大得多,因此,可能有上百种组合须要分析。

以下请返回参考图6。在步骤603中求得输入句子的可能词类组合后,在步骤604中,由各组合依加权的词类评分函数及词类语境评分函数的连乘积,可计算其词汇分数及相对应的排行顺序。

此时即可将部分分数较小(即较不可能)的组合排除,以减轻后续分析的负担。当然,这些组合也可能全数保留,以便在后续分析中,与其它分数(语法分数或语意分数)合起来作整体判断。

接下来,在步骤605中,有M个最高分的词类组合会被保留下来。M可以是预先设定的常数,也可以作动态调整,以使得正确的词类组合得以保留在这M个较高分的组合中。

以下请参阅图9。本图说明步骤605的处理过程。一般而言,通过步骤903、904、905、906的整个循环处理,句中每一个词的词类会被检视一遍。在此分析过程中,词类组合的合理程度在处理每个词的时候,会依其相对的词汇分数加以考核。在每一个词的位置,相对于每个可能的词类,如有超过M个词类组合,则最高分的M个将被保留。

对各特定步骤的工作详述如下。

在步骤901中,系统检查是否已处理到模糊含义表的终点。若答案为否,则继续进行步骤902,否则系统即终止。

在步骤902中,系统由表格中提取下一个词。

在步骤903中,系统测试目前处理中的词是否还有未处理的词类。

如果还有的话,则继续进行步骤904;否则,跳回步骤901,重复上述步骤。

在步骤904中,依据目前处理中的词类将可能的词类组合展开。

在步骤905中,系统依据先前所提的词汇评分函数,计算到目前处理的词为止相对于目前处理的词类的每一个可能词类组合的词汇分数。经过分数的比较之后,其中最高分的M个在步骤906中被保留下来。

在步骤906之后,系统退回步骤903,以决定现行词是否还有其它词类尚未处理;有的话,则依上述方式展开及保留高分的词类组合。

请返回参考图6。在步骤605中,输入句子最高分的M个词类组合及这些组合的分数,被储存起来以待进一步处理。依据各词类组合,以及由词典所查得的语意特征数据(步骤602),按方法600再由模组323及324抽取必要的语法及语意机率数据。由这些数据,系统可对各词类组合用以下所述的“深度优先法”(depthfirst)或者“光束式搜寻法”(beam    search)的方式执行语法及语意分析。

接下来,在步骤606中,系统执行循序式的“评分削除法”以进行剖析。系统依据文法规则对每一种词类组合逐字进行“深度优先”式的剖析。但在剖析过程中,只有剖析到目前为止的语法结构及语意注释的累计分数(含词汇、语法及语意分数的连乘积)超过该词对应的阈值时,分析工作才继续进行。

在实际制上,步骤606中的阈值为模组325所设的静态阈值。如分析到某一单词时,所得结构及语意注释的累计分数小于对应的阈值,则该对应的剖析过程即被削除,而不再沿该过程剖析下去。此时,系统会往前面的剖析过程回溯,找到另一条可能的剖析过程后,再继续剖析下去。

本发明的评分函数,也可以应用于平行式的“评分削除法”以进行剖析;此种平行式的削除法俗称“光束式搜寻法”。采用此种剖析方法时,剖析的过程是以“广度优先”(breadth-first)的方式展开:即处理一个单词时,相对于该词的所有剖析过程均被展开;经评分之后留下数条高分的剖析过程,由此再以相同的方式展开与下一个词相对应的剖析过程。由于平行式削除法每处理一个词即展开所有可能的剖析过程,因此,一般须要较多的存储器来储存临时数据。故在制作时比较偏好循序式的“评分削除法”。

在完成第一条可接受的剖析过程后,其对应的过程数据、完整的剖析结果和分数即被记录下来。同时,该过程的对应分数也成了其他可能分析的一个下限。该下限可用来判断其它后续分析的好坏。换言之,在第一个完整的分析被找出来之后,其它剖析过程的累计分数除了与目前的阈值相比较外,也要高于这个已知的下限。只要剖析过程某一点的分数少于两者之一,该剖析过程即不可能产生最佳的分析,因而可以将该剖析过程削除,无须多作分析。而每完成一个完整的剖析,上述分数的下限也可以随着需要而调整。

各阈值可以利用下列方式作动态调整,以改善选择剖析过程的处理过程:当发现某一条剖析过程的分数远高于其对应阈值的时候,可将阈值提高,以排除分数过低的分析;反之,若步骤606未能找出任何完整的分析结果,则可将各阈值降低,以便往前回溯,找出最可能的分析(或者送交系统作例外处理)。

在“深度优先”的搜寻方式中,也可以保留一个以上的完整分析,以增加正确分析被包含在高分的分析中的机率。所要保留的分析个数可以透过模拟技术找出一个适当的值。另一方面,这个数目也可以依分数的机率分布弹性变动;例如,可以只保留分数比下限的80%还高的分析结果。

以下请参阅图10A和图10B。图中进一步说明了步骤606的工作。在步骤1001中,系统建立了至目前检视中的单词为止的部分剖析结构。在步骤1002中,低层次的语意特征由下往上传递,对结构树标注语意特征。在步骤1003中,系统根据目前所得的部分剖析结果及标注的语意特征,由323及324的数据库中取出对应的评分数据,计算到目前为止的累计语法分数及语意分数。接着,在步骤1004中,词汇、语法及语意等分数进一步结合起来求得总评分。而在步骤1005中,此部分剖析的分数与当时的阈值进行比较。若累计总分数超过阈值;则系统由步骤1006跳至1007继续处理;否则,即执行步骤1010将该剖析过程削除,并继续步骤1012的动作。在步骤1007中,系统测试目前的剖析过程是否已到达终点;若尚未完成目前的剖析,则取得下一个词的数据后,跳回步骤1001重复上述动作;否则,系统继续执行步骤1008的动作,亦即将该完整分析的分数计算出来。

在步骤1009中,若完整分析的分数未超过下限,则执行步骤1010,将该剖析过程削除,继续步骤1012的动作。若超过下限,则执行步骤1011,将完整的结构及分数储存起来。

在步骤1012中,如果剖析过程尚未完全结束,则系统往前回溯,于步骤1013中找到下一条可能的剖析过程后,跳回步骤1001,重复以上步骤。若剖析过程已完全结束,则结束步骤606,回到方法600的主要流程,进入步骤607。

以下请再返回参阅图6。在步骤607中,如果有一条以上的分析过程及其完整的分析结果被保留下来,则步骤606所存的结构中,分数最高的一个即被选出,执行其他翻译动作。

由于所有完整的结构都含有相同数目的词(或终端节点),因此,利用公式8所代表的技术即可直接比较各结构的分数,无须进行任何规一化的动作。此外,在选出作为后续翻译动作的输入结构之前,仍可在这个步骤内对剖析结构实施整体性的或特殊性的模糊解决规则,包括(但不限于)传统上的语法或语意分析等。

在步骤608中,被选出结构中的单词、词组等,一一被代换为目标语言的对应词或词组,并加入目标语言特有的词缀、用语等,而得到翻译结果。这里所根据的包括原始语言与目标语言间的转换规则(tran-sfer    rules)及目标语言的生成规则(generation    rules)等。

前者描述如何转换两种语言的对应词汇、如何产生目标语言的对应结构及如何重新安排原始语言结构组成元素在目标语言中的相对位置;后者则决定如何加入目标语言特有的用语及词缀等。所用的方式可以是传统的规则式转换及生成,或者统计式的转换及生成,或其他可能的转换及生成技术等。在步骤609中,翻译的结果在输出之前可以通过适当的使用者接口而显示,由修缮人员进一步润色。

最后,在步骤610中,翻译过程结束,共结果可以利用各种形式输出,包括书面形式及电子形式等。

附录B中提及其他相关的剖析方法及评分技术,但实际应用时并不限于此。

本发明的优点

本发明所用的多重评分函数与已有技术(如规则式的系统结构)相比有几项明显的优点。首先,由于使用统计式的技术由大量语料中抽取语用参数,利用最佳化的决策理论作判断,因此使得判断分析结构的好坏有较客观的依据;一般规则式的机器翻译系统结构,常纯粹利用过于一盘化或特殊化的语言规则,来强制选择特定分析;有些则是由专家或语言学家根据经验法则,任意指派规则的分数,利用随意选取的方式结合个别分数。由于例外层出不穷,这些经验式的作法对于复杂的语言现象难以全面覆盖并作客观的评断。其次,本发明由于使用统计式的作法,使得系统的维持及参数的自动学习相当容易。

同时,本发明各模组所使用的统计性知识,经常维持统计上的一致性,不象一般传统的规则式系统一样,会有知识不确定或不一致的情形。

以上,在详细叙述本发明的过程中,虽然特别提到一种较好的实施方式以及其他可行的替代方案,但这并不意味本发明仅限于该特定的实施方式或特定的替代方案。熟悉本行的人士都能了解,许多其他的替代方案都应属于本发明的范围之内。

附录A.

The    Current    Status    of    ArchTran:A    Corpus-Based    Statistics-Oriented    English-Chinese    machine    Translation    System.

附录B.

GLR    Parsing    with    Scoring.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号