首页> 中国专利> 语言处理设备、语言处理方法、以及语言处理程序

语言处理设备、语言处理方法、以及语言处理程序

摘要

一种语言处理设备,包括:第一分析单元(21)、第二分析单元(23)、以及生成单元(244)。第一分析单元(21)对包含多义词和其他单词在内的自然语言语句进行预定分析,并根据多义词的多种含意输出针对该自然语言语句的多个分析结果。第二分析单元(23)对第一分析单元(21)输出的多个分析结果执行特定分析,以采用所述多个分析结果中的一个分析结果。生成单元(244)基于第一分析单元(21)所输出的多个分析结果以及第二分析单元(23)所采用的结果,生成用于删除从第一分析单元(21)所输出的分析结果中删除了的、但未被第二分析单元(23)所采用的非必要分析结果。

著录项

  • 公开/公告号CN101390091A

    专利类型发明专利

  • 公开/公告日2009-03-18

    原文格式PDF

  • 申请/专利权人 日本电气株式会社;

    申请/专利号CN200780006876.5

  • 发明设计人 定政邦彦;安藤真一;土井伸一;

    申请日2007-02-09

  • 分类号G06F17/27(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人朱进桂

  • 地址 日本东京都

  • 入库时间 2023-12-17 21:40:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-04-01

    未缴年费专利权终止 IPC(主分类):G06F17/27 授权公告日:20110209 终止日期:20140209 申请日:20070209

    专利权的终止

  • 2011-02-09

    授权

    授权

  • 2009-05-13

    实质审查的生效

    实质审查的生效

  • 2009-03-18

    公开

    公开

说明书

技术领域

本发明涉及一种用于在自然语言处理中执行形态分析或句法分析等的语言处理设备、语言处理方法以及语言处理程序,更具体地,涉及一种能够在不改变语言分析处理的基本分析结果的前提下删除分析中间的歧义性以便高速执行分析处理的语言处理设备、语言处理方法及语言处理程序。

背景技术

在以计算机翻译、文本挖掘等为代表的自然语言处理中,用于分析输入语句的句法分析处理是十分重要的。

在句法分析处理中,对输入语句执行一系列处理,如(1)将语句分成单词、(2)为各单词赋予词性、(3)确定单词间的相互关系、以及(4)为单词赋予语义信息。

然而,由于自然语言的诸如单词、短语等的语法要素可以具有多种语法功能,如多种含意、多种词性等,因此语法要素本身可能存在歧义性,因而具有多种含意,而并非被识别为具有唯一一种含意。

为此,在句法分析处理中,在进行分析要对语法要素的歧义性加以考虑。

具体地,语言处理设备在分析包含语法要素的语句时执行如下分析,所述语法要素具有诸如多种含意或多种词性等语法功能,可以是比如单词、短语等(在下文中被称为“多义词”)。

首先,语言处理设备根据多义词所具有的多种语法功能(在下文中被称为“多种含意”)创建多个候选项。随后,语言处理设备对多个这样的候选项进行分析,以输出唯一的分析结果。

相应地,语言处理设备在分析包含多义词的语句时,花费大量时间用于句法分析。

传统上,已提出了多种用于更快速地处理句法分析的方法。例如,存在一种方法,该方法用于在不改变句法分析结果的前提下,通过在前期删除可以被删除的非必要候选项的方式来使处理加速。

传统上,已提出了一种事先手工列举规则的方法作为创建用于识别这种非必要候选项的方法,然而由于手工数据创建成本很高因而是不现实的。

另一方面,专利文献1(JP-2-114377-A)描述了一种根据句法分析处理的分析结果中的实例来学习歧义性消除模型(规则)的自然语言处理设备。

具体地,专利文献1描述了一种自然语言处理设备,该设备学习用于从句法分析处理的分析结果中消除词性歧义性的模型。

这种传统的自然语言处理设备包括形态分析单元、句法分析单元、学习设备、以及学习结果保存单元。具有这种配置的传统自然语言处理设备按照如下方式工作。

形态分析单元从形态上分析输入语句。句法分析单元根据形态分析的结果进行句法分析。学习设备接收具有由形态分析单元输出的具有歧义性的词性序列以及根据句法分析单元中的分析结果确定得到的词性序列,以学习用于估计词性的统计模型。学习结果保存单元保存在学习设备中学到的结果。在下一分析处理中,句法分析单元利用学习结果保存单元中的学习结果来估计词性,以在前期消除词性序列的歧义性。

专利文献1:JP-2-114377-A

发明内容

为消除歧义性,专利文献1中所描述的传统自然语言处理设备对词性进行估计,但在这种情况下,存在执行了错误的词性估计的可能。因此,如果传统自然语言处理设备执行了错误的词性估计,那么该设备可能输出与尚未消除歧义性时的句法分析结果不同的句法分析结果。

为此,传统自然语言处理设备无法实现仅删除不改变句法分析结果的非必要候选项的目的。

在这点上,传统自然语言处理设备产生错误的词性估计的原因在于:虽然存在实质上不能删除的候选项,但是在估计最有可能的方案(候选项)时,进行的是最大似然估计,而没有考虑统计模型中是否存在候选项。

例如,考虑两种表达:“hashiru/to/kare/ha/iu”(表达1)和“hashiru/to/kare/ha/tukareru”(表达2)。这里,表达中的符号“slash”代表单词之间的定界符。

这里,单词“to”具有两种语法功能(含意),即候选项,这两个候选项为:表示短语之前紧接着引用表达的“引用助词”,以及表示时间转换的“连接助词”。因此,单词“to”具有歧义。

具体哪个候选项是正确方案取决于“to”后面是否存在能够接受引用表达的动词。

在前述示例中,在表达1中,“引用助词”是正确的方案,因为存在可以接受引用表达“iu”的动词,而在表达2中,“连接助词”是正确的方案,因为不存在相应的动词。

然而,当如同在传统的自然语音处理设备中,仅通过观察词性来进行学习时,表达1和2都具有能够在学习过程中被参照的相同信息,即“动词/to/名词/助词/动词”。为此,表达1和2中的词性估计无法在实质上导致不同的结果。

当在最大似然估计的统计学习中使用这样的矛盾数据作为学习数据时,通常学习这样的模型,该模型将学习数据内的较频繁出现的词性估计为某个单词的词性。

例如,如果“连接助词”的频率高于“引用助词”的频率,当应用于表达1的分析时,歧义性消除处理将消除出现频率较低的、但其实是正确方案的“引用助词”,并因而输出与原始句法分析结果不同的句法分析结果。

学习数据内的这种矛盾不仅出现在在学习过程中单独参照词性的情况下,在学习整个统计模型时也会出现。

在统计模型学习中,为了避免数据稀疏,将所参照的信息限定于有限的空间,因此以同在不使用空间外部信息的情况下无法消除歧义性的示例类似的方式,在学习数据中将会出现矛盾。

本发明的目的是提供一种能够仅仅去除不改变最终分析结果的非必要候选项的语言处理设备、语言处理方法以及语言处理程序,以及一种能够通过仅去除非必要候选项的方式在不改变分析结果的前提下以更快的速度执行分析处理的语言处理设备、语言处理方法以及语言处理程序。

解决问题的手段

为实现上述目的,根据本发明的语言处理设备包括:第一分析单元,对包括多义词和其他单词在内的自然语言语句执行预定分析,以根据多义词所具有的多种含意输出针对该自然语言语句的多个分析结果;第二分析单元,对第一分析单元输出的多个分析结果执行特定分析,以采用多个分析结果中的一个分析结果;以及生成单元,基于第一分析单元所输出的多个分析结果以及第二分析单元所采用的结果,生成用于删除第一分析单元的一个或多个非必要分析结果的删除规则,以便即使从第一分析单元输出的多个分析结果中删除了一个或多个非必要分析结果,也能使第二分析单元所采用的分析结果保持不变。

此外,根据本发明的语言处理方法包括:第一分析步骤,对包括多义词和其他单词在内的自然语言语句执行预定分析,以根据多义词所具有的多种含意输出针对该自然语言语句的多个分析结果;第二分析步骤,对所述多个分析结果执行特定分析,以采用多个分析结果中的一个分析结果;以及生成步骤,基于第一分析步骤所输出的多个分析结果以及第二分析步骤的采用结果,生成用于删除第一分析步骤的一个或多个非必要分析结果的删除规则,以便即使从所述多个分析结果中删除了一个或多个非必要分析结果,也能使第二分析步骤所采用的分析结果保持不变。

根据上述发明,基于第一分析单元所输出的多个分析结果以及第二分析单元所采用的结果,生成用于删除第一分析单元的一个或多个非必要分析结果的删除规则,以便即使从第一分析单元输出的多个分析结果中删除了一个或多个非必要分析结果,也能够使第二分析单元所采用的分析结果保持不变。

因此,可以防止将第二分析单元为了采用正确的分析结果而需要的分析结果从第一分析单元的、尚未被第二分析单元采用的分析结果中删除。因而,可以仅仅去除不改变最终分析结果的非必要候选项(分析结果)。

此外,根据本发明的语言处理设备包括:第一分析单元,对包括多义词和其他单词在内的自然语言语句执行预定分析,以根据多义词所具有的多种含意输出针对该自然语言语句的多个分析结果;第二分析单元,对第一分析单元输出的多个分析结果执行特定分析,以采用多个分析结果中的一个分析结果;存储单元,针对多义词的一种含意与同其他单词相关的信息的各组合,存储指示是否采用该组合的确定信息;采用信息生成单元,针对第一分析单元所输出的各分析结果内的多义词的含意与同其他单词相关的信息的各组合,基于第一分析单元所输出的多个分析结果以及第二分析单元所采用的结果,生成指示第二分析单元是否采用该组合的采用信息;以及规则生成单元,当在由采用信息生成单元所生成的采用信息中被确定为“不采用”的组合与存储单元中指示“采用”的确定信息相对应时,将采用信息变为“采用”,并在随后基于改变了的采用信息以及没有改变的采用信息,生成用于从所述多个分析结果中删除一个或多个非必要分析结果的删除规则。

此外,一种根据本发明的语言处理方法是由语言处理设备所执行的语言处理方法,所述方法包括:第一分析步骤,对包括多义词和其他单词在内的自然语言语句执行预定分析,以根据多义词所具有的多种含意输出针对该自然语言语句的多个分析结果;第二分析步骤,对所述多个分析结果执行特定分析,以采用多个分析结果中的一个分析结果;采用信息生成步骤,针对第一分析步骤所输出的各分析结果内的多义词的含意与同其他词相关的信息的各组合,基于第一分析步骤所输出的多个分析结果以及第二分析步骤的采用结果,生成指示第二分析步骤是否采用该组合的采用信息;以及规则生成步骤,当在采用信息中被确定为“不采用”的组合与存储单元中指示“采用”的确定信息相对应时,将采用信息变为“采用”,并在随后基于改变了的采用信息以及没有改变的采用信息,生成用于从所述多个分析结果中删除一个或多个非必要分析结果的删除规则;其中所述语言处理设备包括存储单元,所述存储单元针对多义词的一种含意与同其他单词相关的信息的各组合,存储指示是否采用该组合的确定信息。

根据上述发明,当未被第二分析单元采用的分析结果内的组合与存储单元中指示“采用”的确定信息相对应时,将该组合的采用信息变为“采用”,并在随后基于改变了的采用信息以及没有改变的采用信息,生成用于从第一分析单元的多个分析结果中删除一个或多个非必要分析结果的删除规则。

因此,可以防止将第二分析单元为了采用正确的分析结果而需要的分析结果从第一分析单元的、尚未被第二分析单元采用的分析结果中删除。因而,可以仅仅去除不改变最终分析结果的非必要候选项(分析结果)。

在这点上,多义词的含意与同其他单词有关的信息的组合优选地是该多义词的表面字符串(surface string)、原型、词性、变形或其组合中的一种与该多义词相邻单词的组合。

此外,第一分析单元优选地,按照用于根据事先确定的预定规则执行分析的基于规则的方案,对自然语言语句进行分析。

根据上述发明,第一分析单元中的分析方案是与基于统计的分析在分析方案上有所不同的基于规则的方案,所述基于统计的分析基于用于创建删除规则的统计模型。因此,基于删除规则的删除处理有效工作的可能性更大。

此外,根据本发明的语言处理设备包括:知识库存储单元,存储上述语言处理设备所生成的删除规则;第一分析单元,对包括多义词和其他单词在内的自然语言语句执行预定分析,以根据多义词所具有的多种含意输出针对该自然语言语句的多个分析结果;歧义性删除单元,基于知识库存储单元内存储的删除规则,从第一分析单元输出的多个分析结果中删除一个或多个非必要分析结果;以及第二分析单元,对歧义性删除单元已从中删除了一个或多个非必要分析结果的所述多个分析结果执行特定分析,以采用多个分析结果中的一个分析结果。

此外,一种根据本发明的语言处理方法是由语言处理设备所执行的语言处理方法,该语言处理设备包括存储由该语言处理设备所生成的删除规则的知识库存储单元,该方法包括:第一分析步骤,对包括多义词和其他单词在内的自然语言语句执行预定分析,以根据多义词所具有的多种含意输出针对该自然语言语句的多个分析结果;歧义性删除步骤,基于知识库存储单元内存储的删除规则,从所述多个分析结果中删除一个或多个非必要分析结果;以及第二分析步骤,对已从中删除了一个或多个非必要分析结果的所述多个分析结果执行特定分析,以采用多个分析结果中的一个分析结果。

根据上述发明,由于没有将第二分析单元为了采用正确的分析结果而需要的分析结果从第一分析单元的、尚未被第二分析单元采用的分析结果中删除,因而可以仅删除非必要分析结果。因此,可以在保持第二分析单元的分析结果的精确度的同时,删除第二分析单元的处理。

此外,一种根据本发明的语言处理程序是用于使计算机执行语言处理的语言处理程序,并且该程序使计算机执行的语言处理包括:第一分析处理,用于对包括多义词和其他单词在内的自然语言语句执行预定分析,以根据多义词所具有的多种含意输出针对该自然语言语句的多个分析结果;第二分析处理,用于对多个分析结果执行特定分析,以采用多个分析结果中的一个分析结果;以及生成处理,用于基于第一分析处理所输出的多个分析结果以及第二分析处理的采用结果,生成用于删除第一分析处理的一个或多个非必要分析结果的删除规则,以便即使从所述多个分析结果中删除了一个或多个非必要分析结果,也能够使第二分析处理所采用的分析结果保持不变。

此外,一种根据本发明的语言处理程序是用于使计算机执行语言处理的语言处理程序,该计算机连接至存储单元,所述存储单元针对多义词的一种含意与同其他单词相关的信息的各组合,存储指示是否采用该组合的确定信息,并且该程序使计算机执行的语言处理包括:第一分析处理,用于对包括多义词和其他单词在内的自然语言语句执行预定分析,以根据多义词所具有的多种含意输出针对该自然语言语句的多个分析结果;第二分析处理,用于对所述多个分析结果执行特定分析,以采用多个分析结果中的一个分析结果;采用信息生成处理,用于针对第一分析处理所输出的各分析结果内的多义词的含意与同其他词相关的信息的各组合,基于第一分析处理所输出的多个分析结果以及第二分析处理的采用结果,生成指示第二分析处理是否采用该组合的采用信息;以及规则生成处理,用于当在采用信息中被确定为“不采用”的组合与存储单元中指示“采用”的确定信息相对应时,将采用信息变为“采用”,并在随后基于改变了的采用信息以及没有改变的采用信息,生成用于从所述多个分析结果中删除一个或多个非必要分析结果的删除规则。

此外,一种根据本发明的语言处理程序是用于使计算机执行语言处理的语言处理程序,该计算机连接至知识库存储单元,所述知识库存储单元存储由语言处理设备生成的删除规则,并且该程序使计算机执行的的语言处理包括:第一分析处理,用于对包括多义词和其他单词在内的自然语言语句执行预定分析,以根据多义词所具有的多种含意输出针对该自然语言语句的多个分析结果;歧义性删除处理,用于基于知识库存储单元内存储的删除规则,从所述多个分析结果中删除一个或多个非必要分析结果;以及第二分析处理,用于对已从中删除了一个或多个非必要分析结果的所述多个分析结果执行特定分析,以采用多个分析结果中的一个分析结果。

根据上述发明,可以使计算机执行语言处理方法。

发明效果

根据本发明,可以仅仅去除不改变最终分析结果的非必要候选项,并且能够通过仅去除非必要候选项的方式在不改变分析结果的前提下以更快的速度执行分析处理。

附图说明

图1是示出了本发明的第一典型实施例的配置的框图。

图2是示出了图1所示的语言处理设备的操作的流程图。

图3A是示出了存储在出现事例存储单元31中的矛盾检测事例的特定示例的说明图。

图3B是示出了具有歧义性的形态分析结果的特定示例的说明图。

图3C是示出了从图3B的分析结果中导出的事例的特定示例的说明图。

附图标记的说明

1  输入设备

2  数据处理设备

21 第一分析单元

22 歧义性删除单元

23 第二分析单元

24  非必要歧义性学习单元

241 事例提取单元

243 矛盾调整单元

243 知识库配置单元

244 规则生成单元

3   存储设备

31  出现事例存储单元

32  知识库存储单元

4   输出设备

5   程序存储单元

具体实施方式

接下来,将参考附图详细描述用于实施本发明的最佳模式。

图1是示出了本发明的第一典型实施例的配置的框图。

在图1中,第一典型实施例的语言处理设备包括:诸如键盘之类的输入设备1;数据处理设备(计算机)2,用于在程序的控制下执行操作;存储设备3,用于存储信息;诸如显示设备或打印设备等输出设备4;以及程序存储单元(计算机可读记录介质)5,用于存储定义了数据处理设备2的操作的程序。

存储设备3包括出现事例存储单元31和知识库存储单元32。

出现事例存储单元31具有事先存储在其中的用于矛盾检测的事例。

优选地,由第一分析单元21和第二分析单元23通过在句法上分析大量语句、并从其各个分析结果中提取与提供给知识库配置单元243的事例格式相同的数据的方式,来创建用于矛盾检测的事例。由于这里创建了较大量的事例,因而矛盾检测的性能变得更好。

在各事例中,将多义词的一种含意与同其他单词相关的信息的组合与表示是否采用该组合的确定信息相关联。

作为参考,将多义词定义为具有诸如多种含意或词性等的语法功能的语法要素,例如单词或短语等。另一方面,与其他单词有关的信息涉及与某个不同于该多义词的单词有关的信息(例如,紧接在多义词之前的单词的词性)。

知识库存储单元32存储由知识库配置单元243创建的知识库(例如,删除规则)。

数据处理设备2包括:第一分析单元21、歧义性删除单元22、第二分析单元23、事例提取单元241、矛盾调整单元242、以及知识库配置单元243。在这点上,矛盾调整单元242和知识库配置单元243组成了规则生成单元244。此外,事例提取单元241、矛盾调整单元242、知识库配置单元243以及出现事例存储单元31组成了一个生成单元。

数据处理设备2读取比如存储在程序存储单元5中的程序,并执行该程序,以实现第一分析单元21、歧义性删除单元22、第二分析单元23、事例提取单元241、矛盾调整单元242、以及知识库配置单元243。

在这点上,可以硬件方式配置第一分析单元21、歧义性删除单元22、第二分析单元23、事例提取单元241、矛盾调整单元242、以及知识库配置单元243。

这些组件通常按以下方式工作。

第一分析单元21执行句法分析处理,直至某一中间阶段。当句法分析处理包括n个阶段X1-Xn时,第一分析单元21执行X1-Xm(m≠n)中的分析。

此外,第一分析单元21对包含多义词和其他单词在内的自然语言语句执行预定分析(X1-Xm(m≠n)中的分析),并根据多义词所具有的多种含意为自然语言语句输出多个分析结果。

歧义性删除单元22基于存储在知识库存储单元32中的知识库,从第一分析单元21输出的多个分析结果中去除被确定为“不采用”的解释结果。在这点上,歧义性删除单元22在第二分析单元23被禁止工作时向其提供由第一分析单元21输出的多个分析结果。

第二分析单元23基于歧义性删除单元22的输出,在第一分析单元21执行分析处理之后的阶段执行分析处理。

具体地,第二分析单元23对歧义性删除单元22的输出(例如,由第一分析单元21输出的多个分析结果)执行特定分析(Xm+1至Xn的分析),以采用多个分析结果中的一个分析结果。

事例提取单元241根据指示第二分析单元23的输出中采用与否的采用信息,以及与用于配置知识库配置单元243中的知识库的各分析结果中的歧义性有关的信息(即属性集合),创建针对第一分析单元21的各分析结果的事例。

具体地,作为采用信息生成单元的示例,事例提取单元241根据第一分析单元21所输出的多个分析结果以及第二分析单元23所采用的结果,从各分析结果中提取多义词的含意与同其他单词相关的信息的组合(包括属性集合),即事例。

此外,事例提取单元241根据第一分析单元21所输出的多个分析结果以及第二分析单元23所采用的结果,针对各事例生成指示该事例是否已被第二分析单元23所采用的采用信息,并将该采用信息附加至该事例。

矛盾调整单元242将存储在出现事例存储单元31中的大量事例同事例提取单元241所提取的事例进行匹配,以确认是否存在矛盾事例。当存在矛盾事例时,矛盾调整单元242仅按照从“不采用”到“采用”的方向,对事例提取单元241所提取的事例的采用信息进行修正。

知识库配置单元243根据矛盾调整单元242输出的事例,创建用于歧义性删除的知识库(例如,用于从第一分析单元21的多个分析结果中删除一个或多个非必要分析结果的删除规则),并将该知识库存储在知识库存储单元32中。

图2是用于描述图1中所示的语言处理设备的操作的流程图。下面,将参考图1和2对图1中所示的语言处理设备的整体操作进行详细的描述。

首先,将对用于学习知识库的操作(例如,在创建用于从第一分析单元21的多个分析结果中删除一个或多个非必要分析结果的删除规则时的操作)进行描述。

第一分析单元21和第二分析单元23在句法上对从输入设备1施加的输入字符串进行分析(步骤A1)。在这点上,该输入字符串包括多义词和其他单词。

在该典型实施例中,第一分析单元21执行用于将该输入语句划分为单词的形态分析处理,而第二分析单元23执行用于确定单词间的相互关系的相互关系确定处理。在这种情况下,歧义性删除单元22可以不删除歧义性。

接下来,事例提取单元241接收由第一分析单元21输出的多个分析结果以及第二分析单元23所采用的结果,并从由上述结果的集合产生的信息中提取事例。在这点上,事例包括各分析结果内的多义词的含意与同其他单词相关的信息的组合(包括标识集),以及指示该组合是否已被第二分析单元23采用的采用信息(步骤A2)。

在该典型实施例中,第一分析单元21所输出的分析结果在单词划分以及词性方面存在歧义性。此外,在该典型实施例中,所述属性集合包括:具有歧义性的多义词以及紧接在该多义词之前和之后的单词的表面字符串、词性和变形。

接下来,矛盾调整单元242将存储在出现事例存储单元31中的事例与事例提取单元241所提取的事例进行匹配,以确认是否存在矛盾事例(步骤A3)

该矛盾指示,出现事例存储单元31中存在与事例提取单元241所提取的事例具有相同的属性集合但不同采用信息的事例。

当存在矛盾事例时,矛盾调整单元242仅按照从“不采用”到“采用”的方向,对事例提取单元241所提取的事例的采用信息进行修正(步骤A4)。

矛盾调整单元242执行该修正,由此使创建错误删除由于歧义性实质上不能被删除的,删除时将导致学习数据中存在矛盾事例的分析结果的模型变得更加困难。

将作为矛盾调整单元242的输出的事例临时存储在知识库配置单元243中的存储器内(步骤A5)。

这里,第一分析单元21确认是否仍存在可用于输入的字符串(步骤A6)。

当仍存在可用于输入的字符串时,就对剩余输入重复执行步骤A1至A5。

当不存在可用于输入的字符串时,知识库配置单元243根据作为矛盾调整单元242的输出导出的事例,创建用于歧义性删除的知识库,并将知识库存储在知识库存储单元32中。

该典型实施例用统计模型创建方法作为知识库创建方法,所述统计模型创建方法使用诸如判决树、最大熵法、支持向量机方法之类的学习器。

下面,将描述该典型实施例的其他变体。

可以根据需要,利用在其中由第二分析单元23删除第一分析单元21的分析结果的歧义性的任意组合来改变第一分析单元21和第二分析单元23。

例如,第一分析单元21可以执行形态分析和段落形式化处理,而第二分析单元23可以执行段落间相互关系分析。

此外,该典型实施例使用句法分析处理作为整体语言分析处理,所述整体语言分析处理是第一分析单元21和第二分析单元23的组合。然而,只要整体语言分析处理是由多个阶段组成语言分析处理,并且在其中通过诸如形态分析处理、语义分析处理、计算机翻译处理、语音合成处理以及语音识别处理之类的后面的阶段来消除中间阶段中的歧义性,那么就可以根据需要以其他方式改变作为第一分析单元21和第二分析单元23的组合的整体语言分析处理。

可以手工创建存储在出现事例存储单元31中的用于矛盾检测的事例。可选地,可以不事先创建该事例,而在语言处理过程中将矛盾调整单元242的输出作为事例存储在出现事例存储单元31中。此外,除事先存储的用于矛盾检测的事例之外,还可以将矛盾调整单元242的输出加入事例。

可以根据需要改变诸如单词和段落之类的、被参照作为用于配置知识库的属性集合的语法要素(其他词)的数目和方向。例如,可以仅参照紧接在多义词之前的一个要素,或者可以参照紧接在多义词之前的两个要素以及紧接在多义词之后的一个要素。

此外,所参照的语法要素中的信息(与其他词有关的信息)可以是下列情况中的任意一种:表面字符串、词性、变形、或其组合、或者其他只要是与语法要素有关的信息。

此外,各语法要素所参照的信息可以不是完全统一的。例如,可以加入诸如功能词参照表面字符串,而独立词不参照表面字符串之类的变化。

此外,可以不执行步骤A6,但是每次输入可以在步骤S7处更新一次知识库。

作为一种知识库创建方法,可以存储矛盾调整单元242的输出,因为该输出处于知识库内。

接下来,将对在使用知识库存储单元32内的知识库执行句法分析时的操作进行描述。

第一分析单元21对从输入设备1输入的字符串进行分析,直至句法分析处理的中间阶段(步骤B1)。在这点上,如果该字符串中包含多义词,第一分析单元21就根据该多义词所具有的多种含意,输出针对该字符串的多个分析结果。

接下来,歧义性删除单元22参考第一分析单元21的各分析结果内的、与多义词和其他单词的含意有关的信息以及知识库存储单元32内的知识库,确定各分析结果的采用与否,并从这些分析结果中删除被确定为“不采用”的分析结果(步骤B2)。

第二分析单元23利用歧义性删除单元22留下的分析结果,在剩余阶段执行分析(步骤B3)。

第二分析单元23向输出设备4输出最终导出的分析结果作为分析的结果(步骤B4)。

接下来,将描述该典型实施例的效果。

在该典型实施例中,由事例提取单元241、矛盾调整单元242、知识库配置单元243以及出现事例存储单元31构成的生成单元,基于第一分析单元21所输出的多个分析结果以及第二分析单元23所采用的结果,生成用于删除第一分析单元21的一个或多个非必要分析结果的删除规则,以便即使从第一分析单元21输出的多个分析结果中删除了一个或多个非必要分析结果,也能够维持第二分析单元23所采用的分析结果。

因此,可以防止将第二分析单元23为了采用正确的分析结果而需要的分析结果从第一分析单元21的、尚未被第二分析单元23采用的分析结果中删除。因而,可以仅仅去除不改变最终分析结果的非必要候选项(分析结果)。

此外,在该典型实施例中,在向出现事例存储单元31存储与事例提取单元241所提取的事例不同的事例(矛盾事例)时,矛盾调整单元242将事例提取单元241所提取的事例的采用信息从“不采用”修正为“采用”。这样,利用基于矛盾调整单元242的输出创建的知识库的歧义性删除单元22不太可能执行错误的搜索结果删除。

相应地,有利地,即使为了加速分析处理而删除了歧义性,分析结果也不会与未删除歧义性的情况有所不同。

此外,尽管粗略地设想了两种用于实现第一分析单元21方法,即以统计模型为基础的基于统计的分析,以及用于基于手工创建的规则执行分析的基于规则的分析(基于规则的方案)。该典型实施例对于基于以分析为基础的规则的分析单元更为有利。

这可归因于下列原因。

第一分析单元21在许多情况下独立删除歧义性,而歧义性删除单元22删除第一分析单元21所无法删除的歧义性(分析结果)。

假设只能够从类似的信息中删除类似的歧义性(分析结果),则可以认为删除效果变大了,这是由于第一分析单元21和歧义性删除单元22参照重叠部分减少了的信息。

当第一分析单元21执行基于统计的分析时,如果基于该分析的统计模型以及歧义性删除单元22所参照的统计模型是类似的模型,则所参照的信息在很大程度上重叠,从而导致削减的歧义性删除效果。相反,基于规则的分析中的分析规则通常具有与统计模型不同的性质,因此重叠参照信息较少,从而导致增大的歧义性删除效果。

(示例)

接下来,将利用特定示例描述该典型实施例的操作。

在第一示例中,第一分析单元21执行将输入语句划分为单词并赋予词性的形态分析处理,而第二分析单元23执行用于确定单词间相互关系的相互关系确定处理。

此外,事例提取单元241所参照的信息包括具有歧义性的单词(多义词)以及紧接在该歧义性(多义词)之前和之后的单词的表面字符串(仅针对具有歧义性的单词(多义词)和功能词)和词性。

此外,在知识库配置单元243中创建知识库的方法是支持向量机法(以下称为SVM法)。

此外,出现事例存储单元31存储事例,所述事例是通过为事例提取单元241提供在第一分析单元21和第二分析单元23中分析大量语句的结果的方式导出的。

图3A是示出了存储在出现事例存储单元31中的事例的特定示例的说明图。例如,可以根据输入语句“Mondai ga tokeru to shiawase ni nareru”(你能够在解决问题时感到快乐)导出图3A中从上往下的第四事例。

首先,将描述知识库学习过程中的操作。

假设输入语句中存在三种表达:“Mondai wo tokeru to musume ga iu”(我的女儿说她能够解决问题)(表达1)、“Yuki ga tokeruto haru ga kuru”(随着春天的到来,雪开始融化)(表达2)、以及“Kono mondai ga tokeruto hanashi ga susumu”(如果解决了这个难题,会谈将更进一步)(表达3)。

单词“tokeru”具有两种含意,即动词“(物体)融化”以及作为“解决(问题)”的可能形式的可能动词,因此词“tokeru”具有歧义性。

此外,单词“to”具有两种含意,即“引用助词”以及“连接助词”,因此词“to”具有歧义性。

相应地,第一分析单元21对表达1-3的形态分析导致如图3B所示的、具有多个存在歧义性的形态分析结果的结构。

由于向第二分析单元23提供了这一具有歧义性的结构,因而在第二分析单元23的分析过程中消除了第一分析单元21的形态分析结果的歧义性。图3B中的符号※指示作为分析结果的第二分析单元23所采用的形态分析结果。

接下来,非必要歧义性学习单元24根据第一分析单元21的输出以及第二分析单元23所采用的结果,为学习知识库创建事例。

在本示例中,事例的创建指的是:对于第一分析单元的各形态分析结果,对具有歧义性的单词以及紧接在该单词之前和之后的单词的各分析结果,将表面字符串(仅针对具有歧义性的单词以及功能词)、关于词性的信息、以及第二分析单元23中的采用信息进行配对。

采用信息可以是“采用”,或者是“不采用”,并且取二进制值。

下面,示出某一事例,其中由非必要歧义性学习单元24根据表达1中的“tokeru”(融化)的歧义性创建事例。

参照图3B(表达1),具有歧义性的单词(多义词)的表面字符串是“tokeru”,其词性是“动词”,并且前一单词的表面字符串是“wo”,其词性是助词,而后一单词的表面字符串是“to”,其词性是“引用助词”或“连接助词”,并且由于关于这些单词的采用信息是“不采用”,因此导出下面两个事例。

事例1:[前一单词(表面字符串:wo/词性:助词)、具有歧义性的单词(表面字符串:tokeru/词性:动词)、后一单词(表面字符串:to/词性:引用助词)]-->不采用

事例2:[前一单词(表面字符串:wo/词性:助词)、具有歧义性的单词(表面字符串:tokeru/词性:动词)、后一单词(表面字符串:to/词性:连接助词)]-->不采用

为了降低学习过程中的计算量,优选地将事例的数目减小至尽可能小的数目。

因此,对于与具有歧义性的单词不同的单词(其他单词),可以尽可能地使用第二分析单元23所采用的单词。

具体地,由于表达1中所采用的“to”的候选项(解释事例)是“引用助词”,因而在学习中不可以使用未采用的候选项(解释事例)即“连接助词”的事例2。

图3C是示出了按照这种方式针对表达1-3的所有形态分析结果创建事例的结果的说明图。

接下来,非必要歧义性学习单元24(矛盾调整单元242)将导出的事例与存储在出现事例存储单元31中的用于矛盾检测的事例进行比较,以确认是否存在矛盾。

例如,在将图3C中从上往下的第四事例与图3A中从上往下的用于矛盾检测的第四事例进行比较时,它们具有相同的属性集合,不同的采用信息,因此可以认为这是一个矛盾事例。

在这种情况下,矛盾调整单元242将导出的事例的采用信息从“不采用”更改为“采用”。

在这点上,当进行从“采用”到“不采用”的修改时,将在后续知识库配置中创建用于统一删除实质上不能被删除的歧义性的模型,因此在该示例中,不进行这样的修改。

在这点上,对于需要从“不采用”修改为“采用”的表达1的另一事例,为图3C中的使用信息项赋予标记(“矛盾”)。

矛盾调整单元242一旦完成修改,就为知识库配置单元243提供经修改事例以及未经修改事例。

最后,知识库配置单元243从接受自矛盾调整单元242的事例中学习利用SVM的歧义性消除模型。

在这种情况下,知识库配置单元243利用被用作输入的各事例的属性集合以及作为目标类的采用信息,进行二叉分类学习。

可以利用SVM核函数中的三阶多项式函数实现较高的精度。

诸如SVM、最大熵法、判决树之类的分类器尝试学习分界线,利用该分界线,根据事例中所指示的类对输入事例进行分类。

知识库配置单元243通常根据本示例中的事例来配置这样的一个模型(知识库),该知识库在任意上下文中,将之前具有助词的动词“tokeru”(融化)的形态分析结果定为“不采用”,并将与单词“to”有关的多个形态分析结果(歧义性)定为“采用”,并将其存储在知识库存储单元32中。

接下来,将对在利用所配置的知识库执行句法分析时的操作进行描述。

假设输入了表达1-3,第一分析单元21利用与学习过程中的方式类似的方式,输出具有图3B所示的歧义性的形态分析结果,即多个形态分析结果。

随后,歧义性删除单元22针对每个形态分析结果创建一个属性集合,并在该属性集合被存储在知识库中的分类器确定为“不采用”的情况下,去除与其组成集合相对应的形态分析结果。

例如,在与学习过程的示例类似的过程中,根据表达1的动词“tokeru”(融化)的分析结果导出下列属性集合。然而,由于尚未根据第一分析单元21中的分析确定词“to”的歧义性,因而属性集合的数目是2。

属性集合1:[前一单词(表面字符串:wo/词性:助词)、具有歧义性的单词(表面字符串:tokeru/词性:动词)、后一单词(表面字符串:to/词性:引用助词)]

属性集合2:[前一单词(表面字符串:wo/词性:助词)、具有歧义性的单词(表面字符串:tokeru/词性:动词)、后一单词(表面字符串:to/词性:连接助词)]

歧义性删除单元22确定各属性集合是否被知识库存储单元32内的模型所采用。在这种情况下,由于在这两个属性集合1和2中,具有歧义性的单词是动词“tokeru”(融化),并且在紧接在“tokeru”之前的是助词“wo”,因而歧义性删除单元22将该属性集合确定为“不采用”。

因此,确定针对动词“tokeru”(融化)的候选项是非必要的,并将其去除。

另一方面,当没有助词“wo”紧接在“tokeru”之前时,此时所学习的模型不将针对可能动词“tokeru”(解决)的候选项确定为“不采用”,并且不将针对单词“to”的多个分析结果(歧义性)确定为“不采用”,因此不去除表达1-3的其他形态分析结果。

最后,第二分析单元23利用剩余的形态分析结果执行分析处理。

由歧义性删除单元22删除的形态分析结果是即便没有被歧义性删除单元22去除也不被第二分析单元23所采用的形态分析结果,因此歧义性的当前删除不改变第二分析单元23的分析结果。

下面,将描述第一示例的效果。

在本示例中,由于仅去除了不改变第二分析单元23的分析结果的形态分析结果,因而与没有删除歧义性时第二分析单元23的分析结果相比,第二分析单元23的分析结果没有改变。

另一方面,由于可以针对“tokeru”删除第一分析单元21的非必要的形态分析结果,第二分析单元23在分析速度方面有所提高,从而导致整体分析速度的提高。

此外,尽管以日语为例对本示例进行了描述,可以分析的语言不局限于日语。

接下来,将描述第二示例。

第二示例实质上在配置方面与第一示例相同,只不过知识库配置单元243将从矛盾调整单元242接收到的事例直接存储在知识库存储单元32中。

首先,将描述学习过程中的操作。

当输入上述表达1-3时,矛盾调整单元242按照与第一示例类似的方式获得图3C所示的事例(注意,已经被赋予矛盾标记的事例具有被修正为“采用”的采用信息)。

在本示例中,知识库配置单元243实际上将从矛盾调整单元242导出的事例存储在知识库存储单元32中。

接下来,将描述在使用导出的知识库执行句法分析时的操作。

按照与第一示例类似的方式,当输入表达1-3时,第一分析单元21输出多个具有歧义性的形态分析结果(如图3B所示),然后歧义性删除单元22从各形态分析结果中获取与第一示例类似的属性集合。表达1中的动词“tokeru”(融化)的歧义性也与第一示例类似。

随后,歧义性删除单元22按照下列方式确定是否采用各属性集合。

如果知识库存储单元32中存在具有与各导出的属性集合相匹配的属性集合的事例,歧义性删除单元22就使用存在于知识库存储单元32中的事例的采用信息作为确定结果。

具体地,如果知识库存储单元32中存在相关事例,并且其采用信息为“采用”,则歧义性删除单元22也将确定结果设置为“采用”;如果相关事例的采用信息为“不采用”,歧义性删除单元22就将确定结果设置为“不采用”;以及如果不存在相关事例,歧义性删除单元22就将确定结果设置为“待定”。

然后,歧义性删除单元22按以下方式确定各形态分析结果。

就算甚至只有一个属性集合与被设置为“采用”的确定结果同时存在,歧义性删除单元22就将相关的形态分析结果确定为“采用”,在没有任何属性集合与具有被设置为“采用”的确定结果同时存在的情况下,就算甚至只有一个属性集合与被设置为“不采用”的确定结果同时存在,歧义性删除单元22就将相关形态分析结果确定为“不采用”,否则将相关形态分析结果确定为“采用”。

例如,用动词“tokeru”(融化)的各形态分析结果的属性集合(属性集合1、2)作为说明用的事例,由于属性集合1与图3C中从上往下的、具有采用信息被确定为“不采用”的第一事例的属性集合相同,因此将属性集合1确定为“不采用”,而由于不存在任何与知识库中存在的事例具有相同属性集合的事例,将属性集合2确定为“待定”。

相应地,将表示动词“tokeru”(融化)的形态分析结果确定为“不采用”。由于已经采用相似的方式确定了表达1-3的其他形态分析结果,因而将它们全都确定为“采用”。

接下来,将描述第二示例的效果。

在第二示例中,为了将各形态分析结果确定为“不采用”,由形态分析结果导出的属性集合必须与知识库内的属性集合完全匹配,因此可以利用与第一示例相似的方式(尽管歧义性删除性能比第一示例差),通过仅仅去除不必要的歧义性的方式,在不改变分析结果的前提下实现更快的速度。

应注意,本发明可应用于需要句法分析处理的自然语言处理应用,例如用于从第一自然语言翻译成第二自然语言的计算机翻译程序,以及用于从语句中提取单词的特征序列的文本挖掘程序。

在典型实施例以及上述各示例中,所例证的配置仅作为示例,并且本发明不局限于那些配置。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号