首页> 中国专利> 短语对收集装置以及用于其的计算机程序

短语对收集装置以及用于其的计算机程序

摘要

本发明提供一种对生成为了进行获取了平衡的恰当的意思决定而有用的社会情态的作为基础的要素进行收集的系统。短语对收集装置包含:因果关系种子对DB(410),其对由包含名词与谓语模板的组合的短语对构成的种子对进行存储;意思关系模式DB(400),其对单词间的意思关系模式进行存储;单词对DB(402),其对与意思关系模式的任意一个有关系的单词对进行存储;意思关系模式匹配部(470),其对存储于因果关系种子对DB(410)的各种子对内的名词对与意思关系模式的哪个匹配进行判定;和单词对置换部(472),其分别使用存储于单词对DB(402)的单词对之中与被判定为匹配于名词对的意思关系模式有关系的各个单词对,置换种子对的该名词对,来生成新的假定。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-16

    授权

    授权

  • 2016-12-07

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20141217

    实质审查的生效

  • 2016-11-09

    公开

    公开

说明书

技术领域

本发明涉及一种用于从大量的文档所记载的信息中,生成在超过这些文档所记载的信息的范围内考虑了所有风险和机会的由因果关系的连锁构成的信息的技术。

背景技术

如现代社会这样,举动是复杂并且大规模的,但在该举动的影响可能会波及全世界的社会中,如何预测将来是很重要的。通过基于预测来推进准备,能够避免产生“不测的情况”。这种预测在政治、经济、其它许多日常生活中进行获取了平衡的恰当的意思决定方面是不可欠缺的。

但是,鉴于应考虑的信息量大并且总是变化的现状,仅依赖于个人有限的知识和想象力,难以得到恰当的预测。虽然如气象的预测那样通过有限的范围的数据来预测有限的现象正在被实用化,但迄今为止,仍不存在将这种想法应用于社会的举动的构思本身。

现有技术文献

非专利文献

非专利文献1:Hiroya Takamura,Takashi Inui,and Manabu Okumura.Extracting Semantic Orientations of Words using Spin Model.In Proceedings of the 43rd>

发明内容

-发明要解决的课题-

作为用于加强个人能力的有力的工具,存在计算机。例如对于存储信息,个人的能力远不及计算机。此外,高度的自然语言处理技术也正在被开发。使用了这种信息的存储能力和自然语言处理技术的询问响应系统也被实现,能够针对以自然语言进行的询问,高精度地提供正确的回答。

但是,这种现有技术即使能够回答如“○○是什么?”这种所谓的What型的询问,也不能回答“会怎么样”型的询问。因此,难以解决关于预测将来的上述问题。在解决该问题方面,认为若能够产生计算机的能力,对考虑了所有风险和机会的将来会产生的现象进行预测,则有助于人们的意思决定。在本说明书中,为了这种预测,生成由因果关系的连锁构成的称为“社会情态(scenario)”的信息。在现有的询问响应系统中,不能提供这种预测将来并有助于人们的意思决定的信息。为了使这种处理成为可能,为了从一般的自然语言的信息生成社会情态,需要收集构成因果关系的要素。

为此,本发明的目的在于,提供一种对用于生成为了人们进行获取了平衡的恰当的意思决定而有用的社会情态的作为基础的要素进行收集的系统。

-解决课题的手段-

本发明的第1方面的短语对收集装置基于由分别表示原因及其结果的自然语言文本的第1构成以及第2短语构成的1个或者多个种子对,收集由被推断为表示因果关系的2个短语构成的短语对的假定。各个短语分别包含名词与谓语模板的组合。短语对收集装置包含:种子对存储单元,其存储种子对;意思关系模式存储单元,其对单词间的意思关系模式进行存储;单词对存储单元,其对与存储于意思关系模式存储单元的意思关系模式的任意一个有关系的单词对进行存储;意思关系模式匹配单元,其分别针对存储于种子对存储单元的各个种子对,判定由构成该种子对的短语内的名词构成的名词对与意思关系模式的哪个匹配;和单词对置换单元,其分别使用存储于单词对存储单元的单词对之中与通过意思关系模式匹配单元而被判定为与名词对匹配的意思关系模式有关系的各个单词对,置换种子对的该名词对,从而生成新的假定。

优选地,短语对收集装置还包含:矛盾表现存储单元,其对表现相互矛盾的意思的谓语模板进行存储;和谓语模板置换单元,其分别针对各个种子对,通过从矛盾表现存储单元读取的与该谓语模板矛盾的谓语模板来置换构成该种子对的2个短语的各个谓语模板,从而生成新的假定。

更优选地,短语对收集装置还包含单词类存储单元,其对单词所属的类进行存储。意思关系模式分别表示第1单词类与第2单词类之间的关系。意思关系模式匹配单元包含:单词类检索单元,其分别针对存储于种子对存储单元的各个种子对,从单词类存储单元检索由构成该种子对的短语内的名词构成的名词对的单词类;和匹配单元,其对通过单词类检索单元来检索到的单词类的对与意思关系模式的哪个匹配进行判定。

进一步优选地,对构成种子对的短语的各个谓语模板赋予预先定义的极性的值。极性的值取正负的值的任意一个。短语对收集装置还包含分数计算单元,其接收通过单词对置换单元来置换了名词对的短语对的假定,针对各假定,将表示短语对表示因果关系的程度的分数作为该短语对的各短语中包含的谓语模板的极性和各短语中包含的名词的在语料库内与谓语模板对共同出现的频率的函数来进行计算,并赋予给各短语对。

短语对收集装置也可以还包含过滤单元,其针对通过单词对置换单元来生成的新的假定,对假定进行过滤,以使得仅留下作为表示因果关系的短语对妥当的短语对。

优选地,过滤单元包含如下单元:其从假定中除去构成假定的2个短语分别在多个假定中既在因果短语中出现也在结果短语中出现的假定。

更优选地,过滤单元在构成假定的2个短语中包含的2个名词的相关度为阈值以下时,除去该假定。

进一步优选地,过滤单元包含如下单元:其除去构成假定的2个短语的结果短语在规定语料库内的文本中与因果短语共同出现并且比该因果关系短语先出现的假定。

进一步优选地,过滤单元包含如下单元:其除去构成假定的2个短语中包含的任意的名词的规定语料库中的出现频率为阈值以上的假定。

过滤单元也可以包含如下单元:其除去包含在规定语料库内以被其他修饰句修饰的形式出现的名词的假定。

本发明的第2方面的计算机程序使计算机作为所述的任意一个短语对收集装置的全部单元而起作用。

附图说明

图1是本发明的第1实施方式所涉及的社会情态生成系统的框图。

图2是图1所示的单纯谓语模板收集部的更详细的框图。

图3是示意性地表示与单纯谓语模板有关的模板网络的构成的图。

图4是表示实现模板网络构建部的程序的控制构造的流程图。

图5是表示在模板网络的构建中,实现追加链接的处理的程序的控制构造的流程图。

图6是表示实现单纯谓语模板的活性值的计算处理的程序的控制构造的流程图。

图7是表示图1所示的复杂谓语模板收集部的功能性结构的框图。

图8是表示通过计算机来实现图7所示的复杂谓语模板候补提取部的程序的控制构造的流程图。

图9是表示实现图7所示的Sa变名词极性赋予部的程序的控制构造的流程图。

图10是表示实现图7所示的麻烦名词极性赋予部的程序的控制构造的流程图。

图11是表示图1所示的因果关系短语对收集部的功能性结构的框图。

图12是表示通过计算机来实现图11所示的因果关系种子对收集部的程序的控制构造的流程图。

图13是表示图11所示的因果关系假定生成部的功能性结构的框图。

图14是表示图11所示的单词对提取部的功能性结构的框图。

图15是表示通过计算机来实现图13所示的因果关系假定生成部412的程序的控制构造的流程图。

图16是表示图11所示的因果关系假定过滤部的功能性结构的框图。

图17是表示图1所示的社会情态生成部的功能性结构的框图。

图18是表示图17所示的社会情态候补生成部的功能性结构的框图。

图19是表示图17所示的社会情态排名部的功能性结构的框图。

图20是表示本发明的第2实施方式中的社会情态排名部的功能性结构的框图。

图21是表示用于通过计算机来实现图20所示的部分情态分数计算部的程序的控制构造的流程图。

图22是表示用于实现本发明的实施方式所涉及的社会情态生成系统的计算机的外观的示意图。

图23是对图22所示的计算机的硬件构成进行说明的框图。

具体实施方式

在以下的说明以及附图中,对同一部件赋予同一参照编号。因此,不重复对这些的详细说明。

在以下的说明中,首先表示本实施方式中使用的基本概念。进一步地,使用这些来说明如何能够识别因果关系表现。接着,表示如何通过将识别出的因果关系组合来生成社会情态。

另外,虽然以下的说明是针对日语的,但即使是日语以外的语言,也能够在考虑其语言的特性的基础上,通过与以下的说明同样的想法来进行单纯谓语模板以及复杂谓语模板的收集。

[基本概念]

《谓语模板》

所谓谓语模板,是指构成因果关系的文字的要素。在本实施方式中,谓语模板被分类为单纯谓语模板和复杂谓语模板。在以下的说明中,将单纯谓语模板和复杂谓语模板统称为谓语模板。如后面所述,谓语模板被赋予极性。

《单纯谓语模板》

在日语中,将如助词与谓语的组合(例如:<を,吃>)那样将1个助词与1个谓语连结而成的组合称为“单纯谓语模板”。例如“が进行。”、“を防止。”、“が显现。”等。在该情况下,在文本中,在构成单纯谓语模板的助词之前,配置谓语的主语、目的语等。

《复杂谓语模板》

在日语的情况下,将助词“的”、1个名词、单纯谓语模板连结而成的组合称为“复杂谓语模板”。在本实施方式中,名词由所谓的Sa变名词、后述的“麻烦名词”和数量名词构成。例如“的减少が进行。”、“的抑制を防止。”、“的事故を防止。”、“的缺点が显现。”、“的台数を增加。”等。

《短语》

在日语的情况下,所谓短语,是指具有名词+谓语模板的形式的文字串。认为短语表达汇总的某一个事项。

《因果关系》

所谓因果关系,在本实施方式中,由陈述作为原因的事项的短语(原因短语)和陈述作为其结果的事项的短语(结果短语)的组合构成。

《极性》

以下,对谓语模板的极性进行说明。接下来,对单纯谓语模板以及复杂谓语模板的极性的自动获得方法进行说明。最后,对被分类的谓语模板的应用进行说明。

(1)谓语模板的极性

在本实施方式中,将作为整体的系统的输入的文本所表现的谓语模板分类为以下的表1所示的3种。

[表1]

表1

在本实施方式中,以上的谓语模板的分类是根据包含该谓语模板的文本自动进行的。此时,对活性谓语模板分配正的活性值,对不活性谓语模板分配负的活性值。活性值的具体计算方法在单纯谓语模板和复杂谓语模板中不同,后面对其进行叙述。所谓中立动词,是指计算得到的活性值的绝对值为某个阈值以下的动词。在本说明书中,将与上述的“活性”、“不活性”以及“中立”有关的分类和赋予给各谓语模板的活性值这两者统称为谓语模板的“极性”。

在否定的助动词“不”等连接于谓语的情况下,将谓语与否定的助动词合并而成的组合视为1个谓语,作为其活性值,使用将原来的谓语的活性值的正负反转的活性值。

(2)极性向单纯谓语模板的分配

极性向单纯谓语模板的分配是自动计算的。作为极性分配的线索,考虑以下的语言学的性质、制约。首先,考虑名词对,导入成对的名词之间的因果关系这一概念。

在具有因果关系的名词对中,存在以下的表2所示的2种关系

[表2]

在这些名词对与乘上了单纯谓语模板的活性值的值(积)的极性(符号)之间,存在以下的关系。也就是说,(1)对于由顺接的连接词、连接助词或者其它连接表现(以下,简称为“连接词等”)(~的缘故、~的原因、~而、等)连结的2个单纯谓语模板,在具有正的因果关系的名词句与2个单纯谓语模板具有修饰关系的情况下,其活性值的积的极性为正。(2)相反地,在由顺接的连接词等连结的2个单纯谓语模板与具有负的因果关系的名词句具有修饰关系的情况下,积的极性为负。(3)在由逆接的连接词等(~但是,~但等)连结2个动词的情况下,积的极性与(1)(2)相反。

若对于这些关系举例,则如以下的表3所示。另外,名词对<地震、海啸>具有正的因果关系,<抗癌剂、癌>具有负的因果关系。

[表3]

表3

另外,具有同义/含义的关系的单纯谓语模板的组合具有相同的极性。例如“(接种)を开处方”和“(接种)を注射”两者的极性都为正,对于“(地震)が引发”和“(地震)が发生”,两者的极性也都为正。但是,并不局限于活性值相同。

在具体的活性值的计算中,从互联网等语料库大量收集以上所示例的文本、即由与各个名词连结并且相互由顺接的连接词等连结的2个单纯谓语模板构成的表现。通过在这些单纯谓语模板之间以及具有同义/含义关系的单纯谓语模板对之间添加链接,来制作单纯谓语模板的网络。将以上所述的单纯谓语模板的极性是否相同的信息作为属性来赋予给链接。预先手动将+1或者-1的活性值赋予给该网络上的少数单纯谓语模板。在该网络上,如后面所述,能够定义与量子力学中的电子旋转的能量类似的能量。通过进行使该能量最佳化(这里为最小化)的计算并消除一种制约,能够自举地并且全局地确定以及计算出单纯谓语模板的极性以及名词对的因果关系的极性。关于该活性值的计算方法,参照非专利文献1。

另外,后述的活性值的分配算法仅仅是一个例子,基于考虑了上述语言学制约的能量函数来求取具体的活性值的方法也可能存在其他方法。

(3)复杂谓语模板的极性的分配

复杂谓语模板的出现频率比单纯谓语模板低。因此,若如现有这样仅基于统计信息来判断复杂谓语模板的极性,则能够预测到会非常难以得到较高的可靠性。但是,在以下所述的实施方式中,如以下那样自动分配复杂谓语模板的极性。

也就是说,在以下所述的实施方式中,将活性表现为+1,将不活性表现为-1,将构成复杂谓语模板的名词以及单纯谓语的活性的积视为该复杂谓语模板的极性。具体来讲,“的减少が进行”这一复杂谓语模板的极性是如下确定的。“减少”这一名词的极性是不活性(-1),“が进行”这一单纯谓语模板的极性是活性(+1),因此,“的减少が进行”这一复杂谓语模板的极性是-1×(+1)=-1。

但是,难以针对全部名词预先准备表示极性的信息。因此,在本实施方式中,在Sa变名词和麻烦名词的情况下,如以下那样,即使没有针对各名词预先准备表示极性的信息也能够进行判断。并且,这些极性的判断中需要如以下所述那样注意。

《Sa变名词》

关于Sa变名词的极性,基本上如以下那样根据单纯谓语模板来判断。也就是说,针对Sa变名词,基本上赋予与该Sa变名词对应的单纯谓语模板的极性。所谓与Sa变名词对应的单纯谓语模板,是指在存在于Sa变名词的前面的助词为“ハ、ヲ、ガ、ニ、デ”的情况下,以该助词+Sa变名词的形式来开始的模板。例如,关于“减少”,若前面的助词为“が”则对应的单纯谓语模板为“が减少”(不活性),若为“を”则为“を减少”(不活性),在任何情况下都是不活性。因此,在这些情况下“减少”的极性都为不活性。另一方面,在“抑制”的情况下较为复杂。例如若在复杂模板中“抑制”的前面的助词为“が”,则对应的单纯谓语模板为“が”抑制”(活性),“抑制”的极性为活性。但是,若前面的助词为“を”,则对应的单纯谓语模板为“を抑制”(不活性),“抑制”的极性为不活性。因此,关于复杂谓语内的Sa变名词,需要根据上下文来确定应采用伴随哪种助词的模板来作为单纯谓语模板。为了确定此,需要使用复杂谓语模板的上下文的信息。复杂谓语模板的极性仅通过复杂谓语模板不能确定。

所谓复杂谓语模板,是指“名词+『的』+{Sa变名词|麻烦名词|数量名词}+单纯谓语模板”这一形式。利用此,在以下所述的实施方式中,能够如下那样确定Sa变名词的极性。首先,在语料库上,针对各助词,调查存在于Sa变名词前面的助词(“的”等)的前面的名词伴随格助词来与将Sa变名词动词化的词(Sa变动词)同时出现的频率。其结果,可知以最高频率与特定的名词和特定的Sa变动词的组合同时出现的格助词是什么。此外,由于该格助词与Sa变动词的组合是单纯谓语模板,因此也能够简单地判断其极性。作为复杂谓语模板的极性,使用其极性即可。但是,若不确定名词以及Sa变名词,则不能确定哪个助词与特定的名词以及特定的Sa变动词最同时出现。因此,在本实施方式中,针对取决于上下文的Sa变名词的复杂谓语模板,不在复杂谓语模板的提取时确定其极性。在实际的应用中,在知道复杂谓语模板出现的上下文的时刻,根据出现在Sa变名词的前面的名词和由Sa变名词得到的Sa变动词的组合,确定连结其之间的格助词。若调查在开始具有该格助词和Sa变动词的单纯谓语模板,则能够根据其极性来判断原来的Sa变名词的极性。

在本实施方式中,在取决于上下文的情况下具备与Sa变名词对应的单纯谓语模板,针对名词与Sa变名词的每个组合,作为连结两者的格助词,预先调查在语料库上频率最高的格助词。然后,在单纯谓语模板中,寻找在开始具有该格助词并具有由Sa变名词得到的Sa变动词的单纯谓语模板,将其极性设为Sa变名词的极性。针对名词与Sa变动词的每个组合,将该极性保持在词典中。

《麻烦名词》

在麻烦名词的情况下,若在该名词之前取所有格的名词能够解释为该麻烦的受害者(物),则判断为不活性,在除此以外的情况下则判断为活性。例如存在以下的情况。在以下的例子中,“事故”以及“污染”是麻烦名词。

-“(列车的)事故”为不活性

-“(厨房的)污染”为不活性

-“(排油的)污染”为活性

在采用这种判断方法的情况下,为了判断麻烦名词的极性,需要判断其前面的所有格的名词与麻烦名词处于何种关系。在以下所述的实施方式中,为了判断该极性,针对麻烦名词与在该麻烦名词的前面伴随所有格共同出现的名词的每个组合,准备用于判断极性的模式词典。也就是说,针对麻烦名词、其前面的所有格(“的”格)的名词、其共同出现的模式的每个组合,预先确定麻烦名词的极性。然后,通过检查以所有格出现的名词与麻烦名词的具体组合是伴随何种模式而实际共同出现在语料库内的,来确定麻烦名词的极性。

例如,若名词“列车”和麻烦名词“事故”是以“(麻烦名词A)で(名词a)が严重毁坏”(不活性)、“(名词b)が(麻烦名词B)で不动”(不活性)等模式共同出现的,则能够判断为“(列车的)事故”时的“事故”是不活性。相反地,若某个名词与麻烦名词共同出现的模式是活性模式,则该名词+“的”+麻烦名词的形式的麻烦名词的极性为活性。

《数量名词》

关于数量名词,全部视为活性即可。

(4)可能的应用

通过使用这种分类极性,能够实现以下的应用。

(A)短语间的因果关系的自动识别方法

在活性值的积为正并且活性值的绝对值较大的谓语模板对与具有正的因果关系的名词共同出现、且由顺接的连接词等连结的情况下,表示因果关系的可能性较高。在活性值的积为负并且活性值的绝对值较大的谓语模板对与具有负的因果关系的名词共同出现、且由顺接的连接词等连结的情况下,表示因果关系的可能性也较高。利用该性质,如表4所示,能够在文本中自动识别并获取包含表示因果关系的2个谓语模板以及具有正负的因果关系的名词对的表现。

[表4]

表4

应注意,例如以上列举的连接助词“…而”不局限于表示因果关系。存在无数“…而”表示因果关系以外的表现。例如,在“入浴而后吃饭”的情况下,在入浴与吃饭之间,通常不认为是因果关系。根据本实施方式,能够很好地除去这种非因果关系的短语对,高精度地仅获取因果关系。另外,作为可能表现因果关系的日语的连接词等,除了“…而”以外,还存在“因此”、“故”、“…的缘故”、“…则”、“…就”、“…从而”、“…的原因”、“…所以”、“…因而”等。

通过考虑上述制约,能够从使用这种顺接的连接词等的表现的集合中高精度地获得短语间的因果关系。若得到因果关系,则例如能够从“地震が发生了”这一信息,预测到“海啸に有可能遭受”。这样获取到的因果关系对于短语间的意思关系的自动获得这一非常重要的技术来说是较大的因素。

(B)将短语间的因果关系组合的假定生成

通过结合使用上述短语间的因果关系的自动识别,能够自动获取原来的文本中未明确记载的因果关系。该方法的概略如下。

首先,通过基于模式的名词间的意思关系的获得(这能够利用现有技术),能够从作为基础的文本中自动获得例如材料关系。也就是说,能够通过“AでBを制作”这一模式来自动获得产品B与材料A之间的关系。该自动获得的结果,能够获取产品“超硬工具”的材料是“钨”这一信息。接下来,在与已知具有该材料关系这一意思关系的名词对、即由“超硬工具”和“钨”构成的名词对分别频繁地同时出现的谓语模板中,选择相互的活性值的积为正并且其活性值的绝对值较大的谓语模板。将选择出的谓语模板分别与成对的名词排列。这里,例如能够获得“钨を输入(活性值正),而超硬工具を制造(活性值正)”这种由谓语(动词)和名词构成的动词句之间的(广义的)因果关系。这里的因果关系,是指“钨を输入”是为了“超硬工具を制造”。

这样获得的因果关系本身也可能未在文本中明确表示。在这种情况下,通过上述方法生成了关于因果关系的假定。另外,此时,也可以使用“输入”“制造”这种动词单体经常在一文本内共同出现等的制约。

并且,即使大量收集了网上的文档,也不可能在此写出世上的所有因果关系。为了补充个人有限的知识以及想象力,辅助人们进行考虑了所有风险和机会的获取了平衡的恰当的意思决定,需要网罗收集因果关系。因此,在以下所述的实施方式中,通过大量生成网上未明确记载的因果关系的假定,并对其进行过滤,来提高对世上所有因果关系的覆盖率和精确度。

具体来讲,在以下的实施方式中,使用以下所述的2个方法来生成因果关系的假定。

(1)基于意思关系的因果关系假定短语对生成

如所述那样,能够获取名词间的意思关系。使用该意思关系,能够根据已经获取的因果关系来生成多个因果关系假定。

具体来讲,在某种因果关系的原因短语中包含的名词与结果短语中包含的名词之间,存在某种意思关系。这样,对于具有相同意思关系的其它名词对,该因果关系成立的可能性也较高。因此,通过将作为基础的因果关系的原因短语的名词和结果短语的名词与具有相同意思关系的名词对置换,能够生成新的因果关系假定。

作为意思关系,例如存在以下的关系。

-材料关系(例:<AでBを生产>,(玉米,生化燃料)等)

-必要关系(例:<AはBに必须>,(日光,光合成)等)

-使用关系(例:<AをBに使用>,(iPS細胞,再生医疗),等)

-预防关系(例:<AでBを防止>,(接种,流感),等)

-因果关系(例:<AがBを引起>,(糖尿病,脑梗),等)

对于这些意思关系,能够如后面所述那样自动地获得。

(2)基于逻辑关系(相反)的因果关系假定短语对生成

在某种因果关系妥当的情况下,该因果关系的反面也是妥当的因果关系的可能性较高。例如,在“压力が增加(原因)”→“失眠が持续(结果)”这一因果关系妥当的情况下,其意思上相反的因果关系,即“压力が减少(原因)”→“失眠が被改善”也妥当的可能性较高。为了得到这种相反的表现,也可以预先制作相互矛盾的表现的数据库。矛盾表现能够通过与因果关系同样的步骤来从互联网收集。

通过利用以上方法来获取大量的因果关系及其假定,制作数据库,从而在实际有新信息到来时,能够推理出之后可能的状况。例如,“钨が输入被禁止、所以超硬工具を销售被中止”这一因果关系的假定被数据库化。这里出现“钨が输入禁止”这一新闻报道。这样,通过检索上述数据库,能够推理到作为“钨が输入被禁止”的结果,可能会“超硬工具が销售被中止”。也就是说,对于不具有该领域的详细知识的人们也能够自动生成未知的假定。

以上的假定生成仅从以最初的“超硬工具を钨で制作”这一单纯频繁出现的模式记载的信息开始。另一方面,从与超硬工具和钨都没有关系的文本提取关于谓语模板的活性/不活性的信息。通过将这些组合,来生成因果关系的假定。也就是说,即使在输入的文本中,关于超硬工具以及钨的说明仅存在“超硬工具を钨で制作”这一表现,也能够进行如上所述的假定的生成。其结果,能够从非常贫乏的信息量,得到“超硬工具が有可能制造禁止”这一非常高度的假定。因此,本技术具有广泛的应用范围,是用于信息的高度活用的核心技术。

(C)具有同义、含义关系的表现的自动获得的精度提高

在现有的同义、含义关系的自动获得技术中,根据在所关注的表现的周边出现的词语的出现概率的分布的类似度,来识别同义、含义。但是,根据本方法,常常存在对于某个单词A为反义的单词B被误识别为与单词A具有同义或者含义这一关系的情况。这是由于反义词出现的上下文类似的情况较多。对此,根据本实施方式,例如,能够自动计算出“を引起”的活性值为正,“を防止”的活性值为负。若使用这些信息,则能够在通过使用现有技术而提取的同义表现的候补中,根据谓语模板的极性是否不同来区别是否是同义。其结果,使用上述技术,单词的同义以及含义的自动获得的精度提高。

(D)跨语句的因果关系的自动获得

通过上述的(A)以及(B)的技术,能够获取多个因果关系。若将这些多个因果关系数据库化,则能够获得这些因果关系的表现中频繁出现的谓语模板对。例如,“が发生了”和“に遭受了”这一谓语模板对是在数据库中的因果关系中出现多个的模板对。这种谓语模板即使在文本中跨语句(在其它的语句中)出现的情况下,在相互之间的文本数、单词数或者文字数等“距离”较近的情况下表示因果关系的可能性也较高。例如,考虑如“昨日,地震が发生了。海啸に遭受了的报告が听说。”这样,“地震が发生了”这一表现和“海啸に遭受了”这一表现被分为2个文本而出现的情况。在该情况下,在由“地震が发生了”和“海啸に遭受了”这2个短语记述的情况之间存在因果关系。此外,这里出现的名词对,即“地震”和“海啸”之间也存在因果关系。利用这种性质,能够针对短语间以及单词间的双方,自动获取跨越多个文本而记载的因果关系。

以下,对基于上述想法的本发明的实施方式的系统的构成以及动作进行说明。在以下说明的实施方式内,第1实施方式涉及一种使用上述的短语对的提取技术以及假定的生成技术,收集因果关系短语对,进一步通过使其连锁来生成社会情态的技术。第2实施方式是第1实施方式的变形例,涉及一种社会情态候补的记分技术。

<第1实施方式>

[构成]

<整体构成>

参照图1,本发明的第1实施方式所涉及的社会情态生成系统30包含:对所述谓语模板之中,模板网络构建时作为核心的单纯谓语模板(将其称为“种子模板”)进行存储的种子模板DB32;对连结谓语模板之间的顺接以及逆接的连接词等进行存储的连接词DB34;从种子模板DB32、连接词DB34、以及从互联网40收集的文档的语料库即网络存档44,大量获得由通过被存储于连接词DB34的连接词等连结的2个短语构成的处于原因与结果的关系的因果关系短语对,进一步基于各种知识来使因果关系短语对扩展连锁并生成社会情态的社会情态DB构建装置36;存储通过社会情态DB构建装置36来生成的社会情态的社会情态DB38;和根据来自外部的要求来对存储于社会情态DB38的社会情态进行加工并输出的社会情态输出部48。

另外,本实施方式所涉及的社会情态生成系统30使用存储于网络存档44的网络上的文档来生成社会情态。网络存档44由通过网络爬虫(WEB crawler)42来从互联网40收集的网络文档构成。

<社会情态DB构建装置36>

参照图1,社会情态DB构建装置36包含:与种子模板DB32、连接词DB34以及网络存档44连接,从网络存档44收集大量的短语对,从其中取出大量的单纯谓语模板来构建单纯谓语模板DB62的单纯谓语模板收集部60;和使用通过单纯谓语模板收集部60来构建的单纯谓语模板DB62,从网络存档44获得复杂谓语模板的复杂谓语模板收集部64。另外,根据模板的活性/不活性来预先赋予被存储于种子模板DB32的单纯谓语模板正或者负的活性值。在以下所述的处理的最初,这些值分别是+1以及-1。

社会情态DB构建装置36还包含:对通过复杂谓语模板收集部64来收集的复杂谓语模板进行存储的复杂谓语模板DB66;使用存储于复杂谓语模板DB66的复杂谓语模板以及存储于单词类DB46的与各单词有关的类信息,从网络存档44收集相互处于原因以及结果的关系的2个短语对的因果关系短语对收集部68;对通过因果关系短语对收集部68来收集的因果关系短语对进行存储的因果关系短语对DB70;和参照存储于因果关系短语对DB70的因果关系短语对、存储于网络存档44的文档、和单词类DB46来生成因果关系连锁的多个社会情态的社会情态生成部72。

另外,单词的类信息是表示单词所属的类(单词类)的信息,通常,是单词与表示该单词所属的类的类标识符的组。单词类是在本实施方式中意思类似的单词的集合(意思类)。作为自动获取单词类的方法,存在如下方法:使用单词与同一动词共同出现的频率,将共同出现频率(或者共同出现比例)为阈值以上的单词设为同一类。也可以使用单词与同一动词以及助词的组合共同出现的频率。

<单纯谓语模板收集部60>

参照图2,单纯谓语模板收集部60包含:与种子模板DB32和连接词DB34连接,使用存储于种子模板DB32的全部单纯谓语模板和存储于连接词DB34的全部连接词等,生成2个单纯谓语模板由连接词等连结的全部组合的初始模板对生成部90;和对通过初始模板对生成部90来生成的单纯谓语模板对进行存储的初始模板对DB92。以下的表5中表示通过初始模板对生成部90来生成的单纯谓语模板对的例子。

[表5]

表5

情况第1模板连接词等第2模板a.(第1名词)を引起的缘故(顺接)(第2名词)を发生b.(第1名词)を引起因而(顺接)(第2名词)を防止c.(第1名词)を发生但是(逆接)(第2名词)を抑制

单纯谓语模板收集部60还包含:用于分别针对存储于初始模板对DB92的单纯谓语模板对,从网络存档44收集与该对共同出现的名词对的名词对收集部94;用于对通过名词对收集部94来收集的名词对进行存储的名词对DB96;和与名词对DB96连接,基于与这些名词共同出现的单纯谓语模板的极性以及存储于连接词DB34的连接词等的种类来判断存储于名词对DB96的各个名词对中包含的名词之间的关系,进行对各名词对赋予表示其关系的标记(关系标记)的处理的名词对极性判断部98。

这里,名词对极性判断部98根据以下的表6所示的方法来对构成名词对的名词之间的关系进行判断。

[表6]

表6

情况关系a.匹配(地震、海啸)b.匹配(唾液分泌、口渴)c.匹配(乙醛、肝损害)

也就是说,与2个单纯谓语模板共同出现的名词对的关系能够如下判断。

(1)若2个单纯谓语模板的极性相同,且这些由顺接的连接词等连接,则与这些共同出现的名词对的关系为正

(2)若2个单纯谓语模板的极性相同,且这些由逆接的连接词等连接,则与这些共同出现的名词对的关系为负

(3)若2个单纯谓语模板的极性相反,且这些由顺接的连接词等连接,则与这些共同出现的名词对之间的关系为负

(4)若2个单纯谓语模板的极性相反,且这些由逆接的连接词等连接,则与这些共同出现的名词对之间的关系为正

单纯谓语模板收集部60还包含:与名词对DB96连接,分别针对通过名词对极性判断部98而被赋予了关系标记的名词对,从互联网40收集与这些共同出现的单纯谓语模板对的模板对收集部100;将模板对收集部100收集的单纯谓语模板对与和这些共同出现的名词对相关联地存储的模板对DB102;分别针对存储于模板对DB102的单纯谓语模板对,基于与该单纯谓语模板对共同出现的名词对的关系(正/负)和连结单纯谓语模板的连接词等是顺接还是逆接,判断构成该单纯谓语模板对的单纯谓语模板的活性/不活性是否相同(是否匹配),将其结果作为标记来赋予各单纯谓语模板对的模板活性匹配判断部104。

能够通过以下的表7中表示例子的方法来判断单纯谓语模板对的活性/不活性是否相同。另外,如表6所示,名词对<地震,津波(海啸)>的关系为正,名词对<唾液分泌、口渴>的关系为负,名词对<乙醛,肝损害>的关系为正。

[表7]

表7

第1谓语模板连接词等第2谓语模板匹配判定(地震)が停止的缘故(顺接)(海啸)を抑制相同(地震)を引起但是(逆接)(海啸)を防止相反(地震)が发生但是(逆接)(海啸)を抑制相反(唾液分泌)を促进而(顺接)(口渴)を抑制相反(唾液分泌)を抑制的缘故(顺接)(口渴)が产生相反(乙醛)を发生所以(顺接)(肝损害)を出现症状相同

也就是说,能够通过以下的条件来判断单纯谓语模板对的活性/不活性是相同还是相反。

(1)与关系为正的名词对共同出现,且由顺接的连接词等连接的单纯谓语模板对的活性相同

(2)与关系为正的名词对共同出现,且由逆接的连接词等连接的单纯谓语模板对的活性相反

(3)与关系为负的名词对共同出现,且由顺接的连接词等连接的单纯谓语模板对的活性相反

(4)与关系为负的名词对共同出现,且由逆接的连接词等连接的单纯谓语模板对的活性相同

单纯谓语模板收集部60还包含:基于存储于模板对DB102的单纯谓语模板对及其匹配判断结果,来在单纯谓语模板之间构建网络的模板网络构建部106;和模板网络构建部106构建网络时为了追加单纯谓语模板间的链接而使用的同义/含义关系词典108。在本说明书中将该网络称为“模板网络”。

参照图3,例如模板网络140包含:分别与1个单纯谓语模板对应的多个节点、和被定义在这些节点之间的链接。链接在进行了表6所示的匹配判断的单纯谓语模板所对应的节点之间被展开。根据针对两端的节点的单纯谓语模板之间的匹配判断的结果(表6),各链接被分配相同极性或者相反极性的属性。在图3中,被分配了相同极性的链接由实线表示,被分配了相反极性的链接由点线表示。如后面所述,使用该链接来计算各单纯谓语模板的活性值。为了计算活性值,模板网络140的节点之中,预先针对存储于种子模板DB32的种子模板(例如图3的“を引起”、“を发生”、“を抑制”等节点),手动赋予+1或者-1的值。使用这些值和节点间的链接及其链接的属性,计算各节点(单纯谓语模板)的活性值。针对计算方法的具体内容,后面进行叙述。

再次参照图2,单纯谓语模板收集部60还包含:与模板网络构建部106连接,存储通过模板网络构建部106来构建的模板网络140的模板网络DB110、针对存储于模板网络DB110的模板网络140的各节点,基于预先赋予种子模板的+1或者-1的活性值,计算各节点(单纯谓语模板)的活性值,向各节点(单纯谓语模板)赋予这些活性值的模板活性值计算部112;仅提取存储于模板网络DB110的模板网络140的各节点(单纯谓语模板)之中,通过模板活性值计算部112来计算出的活性值的绝对值较大的模板,通过提取出的单纯谓语模板来构建单纯谓语模板DB62的高活性度模板提取部114;对为了模板DB构建而预先决定的结束条件是否成立进行判断的结束判断部116;和响应于通过结束判断部116来判断出结束条件不成立,将存储于单纯谓语模板DB62的单纯谓语模板作为新的种子模板来更新种子模板DB32,再次执行基于单纯谓语模板收集部60的模板DB构建的处理的种子模板更新部118。在通过结束判断部116来判断为结束条件成立时,单纯谓语模板收集部60的动作结束,复杂谓语模板收集部64启动。

如后面所述,社会情态生成系统30的各部能够通过计算机硬件和由该计算机硬件执行的计算机程序来实现。

初始模板对生成部90生成的单纯谓语模板对的典型例为“(名词1)を引起”“的缘故”“(名词2)を发生”。

名词对收集部94进行如下处理。能够考虑与上述的单纯谓语模板对+连接词等的组合在一文本中共同出现的名词对。这种名词对,如以下所例示那样,被分为相互处于正的关系的名词对和相互处于负的关系的名词对。名词对的正/负,如表8所示,由与该名词对共同出现的单纯谓语模板对的活性/不活性和连接词等的组合决定。也就是说,若与某个名词对共同出现的模板对由顺接的连接词等连接,并且这些模板对的极性一致,则该名词对处于正的关系,若模板对的极性相反,则该名词对处于负的关系。此外,若与某个名词对共同出现的模板对由逆接的连接词等连接,并且这些模板对的极性一致,则该名词对处于负的关系,若模板对的极性相反,则该名词对处于正的关系。

[表8]

表8

例文1:(地震)を引起(活性)~的缘故(海啸)を发生(活性)

例文2:(唾液分泌)を引起(活性)~的缘故(口渴)を防止(不活性)

例文3:(臭氧层)を破坏(不活性)~但(紫外线)を阻挡(不活性)

例立4:(乙醛)を发生(活性)~但(肝损害)を抑制(不活性)

模板对收集部100进行以下处理。考虑通过上述名词对极性判断部98而被判断为仅作为正的关系出现在网络存档44上的名词对。模板对收集部100仅将其中出现频率为规定次数以上的名词对作为正的关系名词对留下。同样地,对于仅作为负的关系出现在网络存档44上的名词对,仅将出现次数为规定次数以上的名词对作为负的关系名词对留下。这里的作为阈值的规定次数在选择正的关系名词对时和选择负的关系名词对时可以不同也可以一致。

模板活性匹配判断部104根据基于以下的表9的判断方法,将与被留下的正/负的关系的名词对+连接词等在一文本中共同出现的单纯谓语模板对分类为单纯谓语模板的活性/不活性相同的模板(一致)和相反的模板(相反)。此时,针对某个单纯谓语模板对,在网络存档44中存在单纯谓语模板的活性一致出现、或者以相反的活性出现的情况。针对这些,对一致的模板对和相反的模板对的出现次数进行比较,以多数来进行确定。

[表9]

表9

正的关系的名词对负的关系的名词对顺接(例:~的缘故)一致(例文1)相反(例文2)逆接(例:~但)相反(例文3)一致(例文4)

例文1:(地震)が停止(不活性)~的缘故(海啸)を抑制(不活性)

例文2:(唾液分泌)を抑制(不活性)~的缘故(口渴)が产生(活性)

例文3:(乙醛)を发生(活性)~但(肝损害)を抑制(不活性)

例4:(臭氧层)を维持(活性)~但(紫外线)が照射(活性)

参照图4,若单纯谓语模板对被存储于模板对DB102,且通过模板活性匹配判断部104结束了针对各单纯谓语模板对的活性匹配判断,则用于实现图2所示的模板网络构建部106的程序起动。该程序包含:步骤150,其进行在存储器上确保规定的存储区域、在这些存储区域之中将初始值代入用于规定的变量的区域、构建初始的空的模板网络140的初始化;和步骤152,其针对存储于模板对DB102的全部单纯谓语模板对,执行处理154。处理154进行将构成该单纯谓语模板对的单纯谓语模板与其之间的链接追加到模板网络140的处理。另外,在步骤150中,作为模板网络140,空的网络被预先构建。

处理154包含:步骤180,其分别针对包含于处理对象的单纯谓语模板对的单纯谓语模板,判断对应的节点是否处于模板网络140、即是否应将该节点追加到模板网络140;步骤182,其在步骤180的判断为肯定时被执行,进行将被判断为应追到到模板网络140的节点(1个或者2个)追加到模板网络140的处理;步骤184,其在步骤180以及182之后被执行,判断与处理对象的单纯谓语模板对对应的节点之间是否已经存在相同链接;和步骤186,其在步骤184的判断为否定时,进行将该链接追加到模板网络140的处理并结束处理154。在步骤184的判断为肯定时,针对该单纯谓语模板对的处理154的执行也结束。

实现模板网络构建部106的程序还包含:步骤164,其在基于步骤152的处理结束后,在被构建的模板网络140,通过参照同义/含义关系词典108来追加链接;步骤166,其在得到了步骤164的结果的模板网络140,删除与其他节点之间的链接数为规定的阈值以下的节点;和步骤168,其基于各节点连接的节点的数量来计算各链接的权重(关于计算方法后面进行叙述),赋予各链接并结束处理。

参照图5,图4的步骤164中执行的程序(子程序)包含步骤200,其在模板网络140内的节点之中,对相互不具有链接的全部节点对执行以下的处理202。

处理202包含:步骤210,其判断在处理对象的节点对之间是否存在特定的关系;和步骤212,其在步骤210的判断为肯定时,在处理对象的节点对之间追加具有“相同”这一属性的链接并结束处理202。在步骤210的判断为否定的情况下也结束处理202。在这里所说的与是否存在特定的关系有关的判断中,如以下的表10所示,使用动词的语法的信息以及保存于图2所示的同义/含义关系词典108的单词的同义/含义关系。

[表10]

表10

关系“原型-被动态”关系「を使用」-「が被使用」“原型-使役态”关系「を使用」-「を使得用」同义/含义关系「を使用する」-「を用」

参照图4,在步骤168中,计算了各链接的加权,若将赋予给单纯谓语模板i与单纯谓语模板j之间的链接的加权设为wij,则加权wij是通过以下的式(1)来进行计算的。

[式1]

其中,d(i)表示与单纯谓语模板i连接的单纯谓语模板的数目。SAME(i,j)表示对单纯谓语模板i与单纯谓语模板j之间的链接赋予“一致”属性。OPPOSITE(i,j)表示对单纯谓语模板i与单纯谓语模板j之间的链接赋予“相反”属性。也就是说,若对单纯谓语模板i与单纯谓语模板j赋予一致属性,则加权为正的值,若赋予相反属性,则加权的符号反转,为负。

图2所示的模板活性值计算部112针对存储于模板网络DB110的模板网络140的各节点,通过以下所述的方法来计算各节点的活性值。参照图6,实现模板活性值计算部112的计算机程序被存储于模板网络DB110模板网络140,响应于分别对各链接赋予了加权,开始执行。该程序包含:步骤240,对模板网络140内的节点之中与种子模板对应的节点,设定预先对这些种子模板赋予的活性值(对活性种子模板赋予+1,对不活性种子模板赋予-1),对其他节点设定规定的初始值;和步骤242,其在步骤240之后,通过将利用下式定义的值E(x,W)的值最佳化(这里为极小化)来推断各节点的活性值。

[式2]

E(x,W)=-1/2×∑wijxixj(2)

其中,xi以及xj分别表示单纯谓语模板i,j的带符号的活性值,x表示由这些活性值构成的向量,W表示由链接的加权wij构成的矩阵。该值E正好与量子力学的电子的旋转能量的计算式类似,能够与量子力学的能量的最小化的计算同样地进行。在该式的∑的各项中,xixj的值在能量最小化计算之后,存在xi以及xj的极性相同时为正的值、不同时为负的值的趋势。加权wij的符号如所述那样,在xi以及xj的极性相同时为正的值,在不同时为负的值。因此,∑的各项的值一定存在都为正的值的趋势,通过将其最大化来进行一种制约消除。另外,在式(2)中,由于在∑之前存在系数“-1/2”,因此通过将∑中最大化,从而E(x,W)的值被极小化。

<复杂谓语模板收集部64>

另一方面,参照图7,图1所示的复杂谓语模板收集部64用于从单纯谓语模板DB62以及网络存档44生成复杂谓语模板DB66。复杂谓语模板收集部64包含:对作为复杂谓语模板的对象的名词进行存储的对象名词词典260;和参照单纯谓语模板DB62以及对象名词词典260,并且从网络存档44提取复杂谓语模板的候补,根据其名词部分来将这些分类为Sa变名词模板、数量名词模板、麻烦名词模板的复杂谓语模板候补提取部268。复杂谓语模板候补提取部268是通过计算机程序来实现的。参照图8,后面对其构成进行叙述。

复杂谓语模板收集部64还包含:Sa变名词极性判断部264,其通过预先判断网络存档44中出现的Sa变名词的极性而被构建,在Sa变名词的极性确定的情况下输出其极性,在Sa变名词的极性取决于上下文时输出表示取决于上下文的值;Sa变名词极性词典262,其将通过Sa变名词极性判断部264来输出的极性的值与该Sa变名词一起存储;Sa变名词模板候补DB270,其对通过复杂谓语模板候补提取部268来分类的Sa变名词的复杂谓语模板候补进行存储;数量名词模板候补DB272,其存储数量名词模板候补;和麻烦名词模板候补DB274,其存储包含麻烦名词的复杂谓语模板的候补。在Sa变名词的极性取决于上下文时,对复杂谓语模板赋予表示极性的信息,根据实际出现复杂谓语模板的上下文来确定Sa变名词的极性。

复杂谓语模板收集部64还包含:Sa变名词极性赋予部276,其参照Sa变名词极性词典262,对存储于Sa变名词模板候补DB270的Sa变名词模板候补的Sa变名词赋予极性或者表示极性取决于上下文的信息;数量名词极性赋予部278,其对存储于数量名词模板候补DB272的数量名词模板候补的数量名词赋予活性来作为极性;和麻烦名词极性判断用词典266,其预先存储用于判断存储于麻烦名词模板候补DB274的麻烦名词的极性的模式。麻烦名词的极性也存在预先确定的情况和取决于上下文的情况。麻烦名词极性判断用词典266被构建为在麻烦名词的极性预先确定的情况下输出其极性,在取决于上下文时输出表示其的信息。

复杂谓语模板收集部64还包含:麻烦名词极性赋予部280,其参照麻烦名词极性判断用词典266来对存储于麻烦名词模板候补DB274的麻烦名词模板候补的各个麻烦名词赋予极性或者表示极性取决于上下文的信息;和复杂谓语模板极性计算部282,其在将Sa变名词极性赋予部276、数量名词极性赋予部278以及麻烦名词极性赋予部280输出的复杂谓语模板候补的极性作为其名词的极性与单纯谓语模板的极性的积来计算并赋予的基础上,累积于复杂谓语模板DB66。复杂谓语模板极性计算部282在是表示从Sa变名词极性赋予部276赋予的Sa变名词复杂谓语模板候补的Sa变名词的极性取决于上下文的值时,对复杂谓语模板候补赋予表示Sa变名词的极性取决于上下文的标记并输出。因此,在该情况下,复杂谓语模板的极性本身不确定。麻烦名词的情况下也是同样的。

《复杂谓语模板候补提取部268》

参照图8,实现图7所示的复杂谓语模板候补提取部268的计算机程序具有以下的控制构造。也就是说,该程序包含对存储于网络存档44的全部文档的全文重复以下的处理的步骤300。在步骤300中被重复的处理包含:步骤302,其对作为对象的文本进行词素分析并输出词素串;步骤304,其对步骤302中得到的词素串进行修饰分析,输出修饰树;和步骤306,其对该修饰树中包含的全部节点执行以下处理。

步骤306中执行的处理包含:步骤308,其针对处理对象的节点,判断该节点的词素是否是存储于图7所示的对象名词词典260的对象名词(Sa变名词、数量名词或者麻烦名词)的某一个,在结果是否定的情况下将处理移至下一个节点;步骤310,其在步骤308的判断是肯定时,判断该节点的修饰对象是否是单纯谓语模板,在判断结果是否定时将处理移至下一个节点;步骤312,其在步骤310的判断是肯定时,将处理中的节点所涉及的节点的末尾的助词、处理中的节点(当前节点)的短语、修饰对象的单纯谓语模板组合来生成复杂谓语模板候补;和步骤314,其根据该对象名词的种类(Sa变名词、数量名词、麻烦名词)来将步骤312中生成的复杂谓语模板候补分类,存储于Sa变名词模板候补DB270、数量名词模板候补DB272或者麻烦名词模板候补DB274并使处理移动至下一个节点。

《Sa变名词极性赋予部276》

图7所示的Sa变名词极性赋予部276是通过图9所示的计算机程序来实现的。参照图9,该程序包含对存储于Sa变名词模板候补DB270的全部Sa变名词模板候补执行以下处理的步骤340。

步骤340包含:步骤342,其判断复杂谓语模板候补的包含Sa变名词的词条在Sa变名词极性词典262中是否仅存在一个;步骤344,其在步骤342的判断是肯定时,对应于该词条,将词典所示的极性赋予Sa变名词并移至下一个Sa变名词的处理;和步骤346,其在步骤342的判断是否定时,将表示Sa变名词的极性取决于上下文的信息赋予Sa变名词并移至下一个Sa变名词的处理。

《麻烦名词极性赋予部280》

参照图10,图7所示的麻烦名词极性赋予部280能够通过具有以下控制构造的程序来实现。该程序包含针对存储于麻烦名词模板候补DB274的全部麻烦名词模板候补执行以下处理的步骤370。

步骤370中被执行的处理包含:步骤372,其判断与该麻烦名词模板候补对应的麻烦名词的词条是否仅有一个处于麻烦名词极性判断用词典266;步骤374,若步骤372的判断是肯定的,则将该词条所述的极性赋予麻烦名词并移至下一个候补的处理;和步骤376,其在步骤372中的判断是否定时,将表示该麻烦名词的极性取决于上下文的信息赋予麻烦名词并移至下一个麻烦名词的处理。

<因果关系短语对收集部68>

参照图11,图1所示的因果关系短语对收集部68具有如下功能:参照单纯谓语模板DB62、复杂谓语模板DB66、单词类DB46、名词的极性词典420、麻烦名词极性判断用词典266、Sa变名词极性词典262以及矛盾表现词典422,从网络存档44提取处于因果关系的原因短语以及结果短语的关系的短语对,并存储于因果关系短语对DB70。矛盾表现词典422收集并作成由相互矛盾的单纯谓语模板构成的单纯谓语模板对。

因果关系短语对收集部68包含:因果关系种子对收集部408,其参照单纯谓语模板DB62、复杂谓语模板DB66、名词的极性词典420、麻烦名词极性判断用词典266以及Sa变名词极性词典262,从网络存档44收集成因果关系的短语对、即作为生成后面的因果关系假定的基础的种子对;和因果关系种子对DB410,其对通过因果关系种子对收集部408来收集的因果关系种子对进行存储。所谓这里所说的“种子对”,是指实际存在于网络存档44的短语对。

因果关系短语对收集部68还包含:意思关系模式DB400,其对预先准备的意思关系模式进行存储;单词对DB402,其对满足某个意思关系的单词对进行存储;因果关系假定生成部412,其执行如下处理:通过使用意思关系模式DB400以及单词对DB402,基于存储于因果关系种子对DB410的因果关系种子对,以满足与该种子对中包含的单词(名词)对的意思关系相同的意思关系的单词对来置换原来的因果关系种子对内的单词对,从而生成新的因果关系假定的处理、和通过将因果关系种子对内的单纯谓语模板均置换为其矛盾表现,来生成新的因果关系假定的处理;因果关系假定DB416,其对通过因果关系假定生成部412来生成的因果关系假定进行存储;和因果关系假定过滤部418,其从存储于因果关系假定DB416的多个因果关系假定中,提取妥当的因果关系并过滤因果关系假定,并追加到因果关系短语对DB70中。

在本实施方式中,意思关系模式DB400以及单词对DB402也预先通过因果关系短语对收集部68来准备。因此,因果关系短语对收集部68包含:种子模式DB404,其对提取意思关系模式时作为基础的、特定模式(将其称为种子模式)的组进行存储;和单词对提取部406,其参照种子模式DB404以及单词类DB46,从网络存档44提取与存储于种子模式DB404的种子模式类似的模式,从而构建意思关系模式DB400,同时确定满足其意思关系模式的单词对来构建单词对DB402。在本实施方式中,种子模式如后面所述被分类为表示一些意思关系的各个种子模式群,单词对的意思关系也按种子模式群而不同。

《因果关系种子对收集部408》

因果关系种子对收集部408能够通过计算机程序来实现。参照图12,该计算机程序包含:步骤440,其从网络存档44收集在一文本中中以由顺接的连接词等连接的形式在网络存档44内共同出现的短语对(“名词+谓语模板”(包含单纯谓语模板与复杂谓语模板两者)的对),一起计算其共同出现频率;和步骤442,其对步骤440中收集的短语对分别执行以下所述的处理。这里,将由构成各个短语对的短语的名词形成的对称为名词对,将由谓语模板形成的对称为谓语模板对。

接下来,对这样得到的各短语对执行以下的处理(步骤442)。步骤442中执行的处理包含:步骤444,其判断处理对象的短语对内的名词对是否处于正的关系;和步骤446,其在判断为肯定的情况下,进一步判断谓语模板对的极性是否相同。若步骤446的判断为否定,则舍弃该短语对。也就是说,在该情况下,不做任何处理,移至下一个谓语模板的处理。若步骤446的判断为肯定,则将该短语对追加到因果关系种子对群(步骤448)。

另一方面,若步骤444的判断为否定,则在步骤450中判断模板对的极性是否相互相反。若判断为否定,则舍弃该短语对。若判断为肯定,则将该短语对追加到因果关系种子对群(步骤448)。

若对于全部短语对结束以上的处理,则对作为结果而得到的因果关系种子对群内的全部因果关系种子对执行步骤454的处理。步骤454中对各因果关系短语对进行的处理是通过下式来计算因果关系强度的分数Cs(p1,p2)的处理。

[式3]

Cs(p1,p2)=|s1|×|s2|×npfreq(n1,n2)(3)

其中,p1、p2分别表示构成因果关系种子对的短语,s1以及s2分别表示构成短语p1、p2的模板的活性值,符号|s1|表示活性值s1的绝对值,n1、n2分别表示短语p1、p2中包含的名词,若n1、n2为正的关系,则npfreq(n1,n2)表示n1、n2在一文本中与活性/不活性相同的模板对共同出现的频率,若n1、n2为负的关系,则npfreq(n1,n2)表示n1、n2在一文本中与活性/不活性不同的模板对共同出现的频率。

在这样对全部因果关系种子对计算出因果关系强度的分数之后,在步骤456中按照分数的降序来对因果关系种子对进行排序并输出。

通过执行这种处理,能够从网络存档44大量并且自动地收集表示因果关系的短语对。

另外,因果关系种子对的获取方法并不局限于此。例如,也可以将那个满足以下条件的全部短语对获得为因果关系种子对。

(1)两个短语均由1个名词和1个谓语模板构成。例如,如“(地震)を发生”和“(海啸)が发生”这样的短语对。

(2)两个短语以由例如“~从而”的顺接连接词等连结的形式,在一文本中共同出现。例如,如“断层が地震を引起、从而海啸が发生了。”的对。

具体来讲,从网络存档44获取与顺接连接词等一起在一文本中共同出现的谓语模板对、和在该一文本中共同出现的名词对。认为这些是因果关系短语对的原型。

针对这样得到的因果关系种子对,通过所述式(3)来计算因果关系强度分数。然后,按照因果关系强度分数的降序来对全部因果关系种子对进行排序并输出。

上述分数计算中,也可以不使用式(3)而使用接下来的式(4)。

[式4]

Cs(p1,p2)=|s1|×|s2|(4)

《因果关系假定生成部412》

参照图13,图11所示的因果关系假定生成部412包含:意思关系模式匹配部470,其与因果关系种子对DB410以及单词类DB46和意思关系模式DB400以及单词对DB402连接,将存储于因果关系种子对DB410的因果关系种子对中包含的名词对的意思关系的模式与意思关系模式DB400进行匹配;单词对置换部472,其在存储于单词对DB402的单词对之中,从单词对DB402读取处于被判断为通过意思关系模式匹配部470来与因果关系种子对的意思关系模式匹配的意思关系的单词对,通过与原来的因果关系种子对内的名词对置换,来生成新的因果关系假定;模板置换部476,其分别针对保存于因果关系种子对DB410的因果关系种子对,参照矛盾表现词典422,通过将因果关系种子对的各短语的单纯谓语模板分别置换为矛盾表现来生成新的因果关系假定;和分数计算部474,其对通过单词对置换部472以及模板置换部476来新生成的因果关系假定的因果关系强度的分数进行计算,将该分数赋予因果关系假定并追加到因果关系假定DB416。作为基于模板置换部476的新的因果关系假定生成的根据,是在原来的因果关系短语的对妥当的情况下,其相反(否定各短语的谓语部的对)也妥当的可能性较高。例如在“压力が增加→失眠が持续”妥当的情况下,认为相当于其相反的“压力が减少→失眠が被改善”也妥当等。

图13所示的意思关系模式DB400以及单词对DB402通过哪种单元来准备都可以。在本实施方式中,如图11所示,为了准备意思关系模式DB400以及单词对DB402,设置了:种子模式DB404,其对作为意思关系模式的原本的短语、即被分类为几个种子模式群的种子模式进行存储;和单词对提取部406,其与种子模式DB404以及单词类DB46连接,基于存储于这些的信息来从网络存档44提取处于与存储于种子模式DB404的种子模式类似的意思关系的表现的模式和出现在这些表现的单词对,并分别追加到意思关系模式DB400以及单词对DB402。

这里所说的种子模式,如前面所述,是表示材料关系、必要关系、使用关系、预防关系或者因果关系的模式,分别被分类为各个种子模式群。模式的例子如下:若是材料关系,则为“AでBを生产”,若是必要关系,则为“AはBに必须”,若是使用关系,则为“AをBに使用”,若是预防关系,则为“AでBを防止”,若是因果关系,则为“AがBを引起”。所谓模式,是指包含相当于变量的部分的短语。在上述的例子中,A以及B相当于变量。通过利用别的单词来置换A以及B,能够生成各种短语。但是,若A以及B不具有某个意思关系,则这些成为没有意思的短语。单词对提取部406具有提取处于特定的意思关系的单词对的功能。单词对提取部406还具有如下功能:不仅是存储于种子模式DB404的种子模式,还在从网络存档44提取的模式中,将与种子模式类似的模式追加到种子模式。

《单词对提取部406》

参照图14,本实施方式中采用的单词对提取部406包含:模式提取部490,其与网络存档44以及种子模式DB404连接,从网络存档44提取特定的模式;模式DB492,其对通过模式提取部490来提取的模式进行存储;单词对候补获取部494,其参照存储于种子模式DB404的种子模式以及存储于模式DB492的模式,从网络存档44获取与各模式一致(处于上述A以及B的关系)的单词对;单词对候补DB496,其对通过单词对候补获取部494来提取的单词对进行存储;和模式合并部518,其在存储于模式DB492的模式之中,基于从这些模式提取出的单词对的集合的类似度来确定与存储于种子模式DB404的种子模式的任意一个类似的模式,作为新的种子模式来合并到种子模式DB404。模式合并部518对这样追加的种子模式赋予和该新的种子模式最类似的种子模式所属的种子模式群的意思关系的标签并追加到种子模式DB404。

单词对提取部406还包含:类对适合度计算部502,其针对每个类对,参照单词对候补DB496、网络存档44以及种子模式DB404来计算表示保持于单词类DB46的任意2个单词类之间的适合度的指标即类对适合度;类对适合度DB504,其针对每个类对,存储计算出的类对适合度;模式类似度计算部506,其针对存储于模式DB492的模式和存储于种子模式DB404的种子模式群的每个组合,计算模式类似度;模式类似度DB508,其针对存储于模式DB492的模式和存储于种子模式DB404的种子模式群的每个组合,存储通过模式类似度计算部506来计算出的模式类似度;亲和性信息计算部510,其对单词对与存储于模式DB492的各模式以及存储于种子模式DB404的种子模式群的亲和性信息进行计算;亲和性信息DB512,其针对单词对与模式的每个组合,存储通过亲和性信息计算部510来计算出的亲和性信息;除去类对确定部514,其针对存储于单词类DB46的每个单词的类对,判断网络存档44中属于各类的单词的出现频率的差是否为阈值以上,为了将差为阈值以上的类对从最终的输出对象除去而进行确定;和除去类对DB516,其存储通过除去类对确定部514而确定出的除去类对。关于类对适合度计算部502、模式类似度计算部506、亲和性信息计算部510以及除去类对确定部514的功能的详细,后面进行叙述。

单词对提取部406还包含:单词对记分部498,其分别针对存储于单词对候补DB496的单词对,除去属于通过除去类对确定部514来确定的类对的单词对,进一步参照类对适合度DB504、模式类似度DB508、亲和性信息DB512,计算表示作为与种子模式共同出现的单词对的适合度的分数;和单词对选择部500,其在通过单词对记分部498来记分的单词对之中,仅选择具有阈值以上的分数的单词对并输出到单词对DB402。

以下,对单词对提取部406的主要构成部进一步详细地进行说明。

-模式提取部490

模式提取部490经由以下的工序来从存储于网络存档44的文档提取模式。也就是说,模式提取部490针对存储于网络存档44的各文档的各分本,进行词素分析,进一步进行修饰分析。其结果,针对各文本能够得到修饰树(表示修饰树的数据)。模式提取部490将以该修饰树的各名词为起点、以其他名词为终点的修饰树上的路线作为1个模式候补,提取存在于该路线的词素串。然后,将该词素串上的名词分别置换为变量。此时,参照单词类DB46,调查各名词所属的类,附加到各变量来作为该变量所属的类信息。由此,能够得到1个模式。存在能够从一个文本得到多个模式的情况。进一步地,由于一个名词所涉及的名词不局限于2个,因此也存在能够得到包含与同一名词对应的变量的多个模式的情况。

模式提取部490针对这样得到的模式,包含变量的类地计算表示相同的模式出现了几次的频率信息,并且每当得到新的模式时将其追加到模式DB492。

-单词对候补获取部494

单词对候补获取部494以网络存档44中包含的全部文档的全文为对象,调查并获取与存储于种子模式DB404的种子模式共同出现的单词对。在该情况下,所谓单词对与种子模式共同出现,是指存在于文档内的包含某个单词对的文字串、即将该单词对置换为各个单词类的文字串与种子模式一致。单词对候补获取部494将这样得到的单词对与一致的种子模式的识别信息一起保存于单词对候补DB496。单词对候补获取部494还针对种子模式以及单词类对的每个组合,对种子模式与单词对共同出现的频率进行计数,并存储于单词对候补DB496。

-类对适合度计算部502

所谓类对适合度,是指表示2个单词类与属于某个种子模式群的种子模式的任意共同出现的频率(程度)的指标。类对适合度计算部502计算各类对的类对适合度。在本实施方式中,将类对适合度定义为属于2个类对的单词与属于种子模式群P的任意种子模式p共同出现的频率越高,该类对的类对适合度越高。例如能够将单词类对ci以及cj的针对种子模式群P的类对适合度C(ci,cj,P)如下定义。另外,在下式中,ni以及nj分别表示属于单词类ci以及cj的单词。*表示任意的模式。

[式5]

在该式中,“||(ni,P,nj)||”是由名词ni和nj与种子模式群P中的任意种子模式p共同出现的频率实例构成的集合的要素的数目。因此,“||(ni,*,nj)||”是保存于网络存档44的文档群(将其设为文档集合M)中名词ni和nj与任意的模式共同出现的频率,被表示为下式。

[式6]

||(ni,*,nj)||=∑(ni,p,nj)∈M|||(ni,p,nj)|||

该值无论模式如何,都与单词ni以及nj共同出现的频率相等。

条件α例如是单词类对ci以及cj共同出现的种子模式的种类为规定量以上这一条件。若将其表示为公式,将规定量设为β,则如下式所示。

[式7]

α:||{(pP|(ni,nj)ci×cj,(ni,p,nj)M)}||β

类对适合度计算部502通过将保存于单词对候补DB496的单词对和与该单词对共同出现的种子模式的识别信息汇总,来针对每个类对,计算类对的适合度,并保存于类对适合度DB504。

-模式类似度计算部506

模式类似度计算部506对保存于模式DB492的各模式与存储于种子模式DB404的各种子模式群的类似度进行计算,按照模式群与模式的每个组合,保存于模式类似度DB508。在本实施方式中,所谓某个种子模式群与模式之间的模式类似度,定义为表示与属于种子模式群的种子模式共同出现的类对和与作为对象的模式共同出现的类对的重合的程度。也就是说,若将由与属于集合P的种子模式共同出现的单词类ci以及单词类cj构成的单词类对(ci×cj)的集合设为I(Pci×cj),将与模式共同出现的单词类对(ci×cj)的集合设为I(pci×cj),则属于某个种子模式群的种子模式的集合P与作为对象的模式p之间的模式类似度S(P,p)例如被定义为下式。

[式8]

S(pci×cj,P)=||I(pci×cj)I(Pci×cj)||||I(pci×cj)I(Pci×cj)||

另外,包围右边的分母以及分子的2根线表示属于由其中的式子表示的集合的要素的数目。

作为模式类似度的定义,除此以外也能够考虑其他的。例如,也能够如下述那样进行基于向量的比较。例如,考虑以全部可能的单词类对为要素的向量。在网络存档44中,对与某个种子模式群P共同出现的单词类对的数目进行计数,将该值作为与上述向量的该单词类对对应的要素的值,计算种子模式群P的特征向量VP。同样地,对与某个模式p共同出现的单词类对的数目进行计数,将该值作为与上述向量的该单词类对对应的要素的值,计算模式p的特征向量Vp。通过计算该2个向量VP以及Vp之间的角度,能够得到种子模式群P与模式p的类似度。另外,在该向量的计算中,也可以将既不与模式群P也不与模式p共同出现的类对从向量的要素中除去。

-亲和性信息计算部510

所谓亲和性信息,是某个单词对与某个模式共同出现的频率越高值越高的、表示该单词对与该模式的亲和性的指标。在本实施方式中,该频率表示网络存档44内的单词对与模式的共同出现频率。在本实施方式中,单词对(n1,n2)与模式p的亲和性信息Assoc(p,n1,n2)被定义为下式。另外,在下式中,(n1,p,n2)表示单词对(n1,n2)与模式p共同出现的实例的集合,“*”通过其位置,表示任意的模式或者单词。

[式9]

Assoc(p,n1,n2)=log||(n1,p,n2)||||(n1,*,n2)||·||(*,p,*)||

根据该式可知,单词对单词对(n1,n2)与模式p共同出现的频率越高,亲和性信息Assoc(p,n1,n2)的值越大。对于恒定的单词对(n1,n2),模式p的出现频率||(*,p,*)||越高,亲和性信息Assoc(p,n1,n2)越小。同样地,对于恒定的模式p,单词对(n1,n2)的出现频率||(n1,n2)||越高,亲和性信息Assoc(p,n1,n2)越小。

亲和性信息Assoc(p,n1,n2)也能够通过汇总记录于单词对候补DB496的单词对和模式的识别信息,对任意的单词对和任意的模式的组合进行计算。

-除去类对确定部514

除去类对确定部514对从最终输出的单词对的集合除去的单词的类对进行确定。在本实施方式中,针对各单词类对,计算由分别属于该类对的单词构成的单词对的平均出现频率,将该值的差较大的单词类对设为除去类。也就是说,出现频率较大不同的单词对作为不适合作为单词对的单词对而除去。这里,在出现频率较大的单词类的出现频率相对于出现频率较小的单词类的出现频率的比率超过阈值的情况下,除去该单词类对。阈值需要通过预先的实验来设定为恰当的值。在本实施方式中,将该值设定为25左右。

-单词对记分部498

单词对记分部498基于存储于类对适合度DB504的单词类的类适合度、存储于模式类似度DB508的模式类似度、存储于亲和性信息DB512的亲和性信息、以及存储于除去类对DB516的除去类对信息,在记录于单词对候补DB496的各单词对之中,分别针对未作为除去对象的单词对和与该单词对最适合的种子模式的组合,计算规定的分数,并输出到单词对选择部500。在本实施方式中,定义为该分数相对于类适合度、模式类似度以及亲和性信息的任意都正相关地变化。

例如,针对单词对(n1,n2)与种子模式P的组合的分数Score(n1,n2,P)最单纯地被表示为下式。

[式10]

Score(ni,nj,P)=maxciclass(ni),cjclass(nj),(ni,p,nj)M{C(ci,cj,P)·S(pci×cj,P)·Assoc(p,ni,nj)}

-单词对选择部500

单词对选择部500在被排序的单词对与种子模式群的组合之中,选择上位规定个数并输出到单词对DB402。此时,单词对选择部500对各单词对赋予成组的种子模式群的标识符。通过实验来预先确定所选择的单词对的个数。

-模式合并部518

模式合并部518分别针对存储于模式DB492的模式和存储于种子模式DB404的模式群,从模式类似度DB508读取通过模式类似度计算部506来计算的模式类似度,将模式类似度比阈值高的模式设为新的种子模式,并追加到该种子模式群。

单词对提取部406更新种子模式DB404并且反复上述处理,将在满足规定的结束条件时得到的单词对DB402作为最终的单词对而输出,此外,将存储于此时的种子模式DB404的种子模式群输出到意思关系模式DB400。分别对存储于意思关系模式DB400的种子模式群,赋予表示原来的种子模式群的种类的标识符。因此,通过调查存储于意思关系模式DB400的意思关系模式的标识符,能够了解该意思关系模式表示所述材料关系、必要关系、使用关系、预防关系以及因果关系的哪个。此外,对保存于单词对DB402的单词对赋予经常与该单词对共同出现的种子模式群的标识符。因此,通过调查该标识符,能够了解该单词对满足哪种意思关系。

《意思关系模式匹配部470、单词对置换部472以及分数计算部474》

构成图13所示的因果关系假定生成部412的意思关系模式匹配部470、单词对置换部472、分数计算部474以及模板置换部476都能够通过计算机程序来实现。对本实施方式中用于此的程序的控制构造进行说明。

参照图15,该程序包含步骤520,其从图13所示的因果关系种子对DB410依次读取因果关系种子对,对其全部执行以下的处理。

步骤520中执行的处理包含:步骤522,其对由作为处理对象的因果关系种子对的原因短语以及结果短语的名词构成的单词类对与保存于意思关系模式DB400的意思关系模式进行匹配,判断是否存在单词类对所匹配的意思关系模式;和步骤524,其在判断为存在步骤522中匹配的意思关系模式时,对匹配的全部模式,执行以下所说明的处理。在判断为不存在步骤522中匹配的意思关系模式时,结束针对处理对象的因果关系种子对的处理,移至下一个因果关系种子对的处理。

步骤524中执行的处理包含:步骤526,其从单词对DB402读取全部具有匹配的意思关系模式的标识符的单词对;和步骤528,其分别针对步骤526中读取的单词对,执行以下的处理。

步骤528包含:步骤530,其通过使用所读取的单词对中包含的单词来分别置换作为处理对象的因果关系种子对的原因短语与结果短语的名词部分,来生成新的因果关系假定;步骤532,其针对步骤530中生成的因果关系假定,通过与图12的步骤454中执行的处理同样的处理,计算因果关系强度的分数;和步骤534,其对步骤530中生成的因果关系假定赋予步骤532中计算出的因果关系强度的分数并输出到因果关系假定DB416(参照图13)。在步骤522的判断为是的情况下,对匹配的全部模式执行以上的处理。

该程序还包含:步骤536,其在步骤522的判断为否的情况下,以及在步骤522的判断为是,步骤524的处理对于处理中的因果关系种子对全部结束之后被执行,针对处理中的因果关系种子对,从矛盾表现词典422读取全部该原因短语与结果短语各自的矛盾表现;步骤538,其分别针对步骤536中读取的原因短语的矛盾表现与结果短语的矛盾表现的组合,使用其来改写因果关系种子对的原因短语与结果短语并生成新的因果关系假定;步骤540,其针对步骤538中生成的全部因果关系假定,计算因果关系强度;和步骤542,其对步骤538中生成的全部因果关系假定赋予步骤540中分别计算出的分数并输出到因果关系假定DB416。

若以上的处理对于全部因果关系种子对结束,则该程序的执行结束。

《因果关系假定过滤部418》

在如上述那样生成的因果关系假定中,即包含正确的也包含错误的。因此,需要仅选择正确的因果关系。因果关系假定过滤部418执行这样的过滤的处理。

参照图16,因果关系假定过滤部418包含:连贯性验证过滤部550,其从因果关系假定DB416依次读取因果关系假定,对其分别验证因果关系的连贯性,从而过滤因果关系假定;基于相关度的过滤部552,其对经由基于连贯性验证过滤部550的过滤后剩下的因果关系假定,进行基于构成因果关系假定的短语对的名词对的相关度的过滤;基于出现顺序验证的过滤部554,其对经由基于相关度的过滤部552的过滤后剩下的因果关系假定,根据该原因短语以及结果短语在网络存档44内在文本内以何种顺序出现,来进行过滤;基于名词的出现频率的过滤部556,其对经由基于出现顺序验证的过滤部554的过滤后剩下的因果关系假定,除去包含由于该原因短语或者结果短语中包含的名词在非常多的因果关系假定中被使用因此认为意思模糊不清的的名词的因果关系假定;和基于除去单词的过滤部566,其通过针对作为因果关系假定的构成要素的名词来判断在网络存档44上是否伴随着特定形式的修饰句,从而除去包含仅具有相同模糊不清的意思的名词的因果关系假定,并将最终的因果关系短语对输出到因果关系短语对DB70。

因果关系假定过滤部418还包含:名词的出现频率计算部558,其为了在基于名词的出现频率的过滤部556的处理中使用,计算记录于因果关系假定DB416的因果关系假定中的名词的出现频率;名词的出现频率DB560,其对通过名词的出现频率计算部558来计算出的名词的出现频率进行存储;被修饰名词的提取部562,其对网络存档44整体进行检索,提取以“A的B”的形式由其他语句修饰并使用的名词(相当于“B”);除去单词DB564,其为了用于基于除去单词的过滤部566中因果关系的除去,对通过被修饰名词的提取部562来提取的名词进行存储。以下,对构成因果关系假定过滤部418的5个过滤部等详细说明。

《连贯性验证过滤部550》

连贯性验证过滤部550着眼于因果关系的原因短语以及结果短语中包含的名词对,进行判断某个因果关系假定是否与其他因果关系假定连贯,仅留下连贯的因果关系的处理。这里,例如若存在“海面が上升→干旱が持续”这一因果关系假定,则该因果关系假定的名词对为“海面”以及“干旱”。

连贯性验证过滤部550在包含名词对(n1,n2)的因果关系假定与包含名词对(n2,n1)的因果关系假定存在的情况下,将这些因果关系假定从候补中除去。例如在“海面が上升→干旱が持续”这一因果关系假定和“干旱が持续→海面が上升”这一因果关系假定两者存在时,除去双方的因果关系假定。

这样,在某个因果关系假定的原因短语和结果短语与其他因果关系假定的原因短语以及结果短语为相反的关系的情况下,认为这些因果关系短语的两者都不相当于因果关系。

《基于相关度的过滤部552》

基于相关度的过滤部552针对因果关系假定的名词对,除去相互的相关度较低的。作为相关度,例如能够使用相互信息量(PMI)、DICE系数、Jaccard系数、χ平方值等。具体的计算方法如下。

PMI

PMI是表示名词x、y的相关度的指标。PMI(x,y)通过下式而被计算。下式中,P(x)表示名词x的出现概率,P(y)表示名词y的出现概率,P(x,y)表示名词x、y的共同出现概率。

[式11]

PMI(x,y)=logP(x,y)P(x)P(y)

另外,在计算名词x、y的共同出现概率时,需要对名词x、y的共同出现频率进行计数。共同出现频率例如能够通过对名词x、y在1个文档中的共同出现频率进行计数,或者对在1个文本中的共同出现频率进行计数来得到。

DICE系数

DICE系数被用于将2个单词间的共同出现关系定量化。若将单词x出现的文档数设为df(x),将单词y出现的文档数设为df(y),将单词x、y的共同出现频率设为df(x,y),则针对单词x、y的DICE系数DICE(x,y)能够通过下式来计算。

[式12]

DICE(x,y)=2×df(x,y)df(x)+df(y)

Jaccard系数

Jaccard系数是表示2个集合的类似度的尺度。例如在将名词x出现的文本或者文档的集合设为S(x),将名词y出现的文本或者文档的集合设为S(y)时,名词x、y之间的类似度能够如下述那样通过集合S(x)以及S(y)之间的Jaccard系数J(S(x),S(y))来表示。

[式13]

J(S(x),S(y))=|S(x)S(y)||S(x)S(y)|

χ平方值

χ平方值在χ平方检验中被使用,能够在调查2个单词是否没有关系时使用。例如,与2个单词x、y有关的χ平方值通过基于在多个文档中单词x、y是否分别出现,作成例如在纵轴将单词x作为标签,在横轴将单词y是否出现作为标签的2×2的交叉表,从而利用下式来计算。

[式14]

χ2(x,y)=Σex{0,1}Σey{0,1}(Nexey-Eexey)2Eexey

这里,N11表示单词x、y双方出现的文档数,N10表示单词x出现、单词y不出现的文档数,N01表示单词x不出现、单词y出现的文档数,N00表示单词x、y都不出现的文档数。E11是假定单词x与单词y独立时的文档数N11的期待频率,以下,E10、E01、E00分别表示与N10、N01、N00对应的期待频率。若单词x、y的关系接近于没有关系,则χ平方值变大,若关系变深,则χ平方值变小。

《基于出现顺序验证的过滤部554》

基于出现顺序验证的过滤部554基于因果关系假定的构成要素的出现顺序来对因果关系假定进行过滤。例如,考虑如下方法:在网络存档44的某个文本中,在某个因果关系假定的结果短语的名词比原因短语的名词先出现的情况下,除去该因果关系。

若举例说明,在因果关系假定是“能量产生を提高→循环系统を抑制”(名词对为“能量产生”和“循环系统”)的情况下,在网络存档44中的某个文本中,存在“糖皮质激素は循环系统を活化、能量产生を提高、不需要的合成系统は抑制。”这一表现的情况下,除去该因果关系。这是由于存在原来的“能量产生”和“循环芯体”这一名词以相反的顺序出现的文本。

《基于名词的出现频率的过滤部556》

基于名词的出现频率的过滤部556除去包含出现在不同的多个因果关系假定中的名词对的因果关系假定。例如考虑以下的例子

-“地球温暖化が进行→危害を受到”

-“股跌に变成→危害が产生”

-“危害が出现→计划を中止”

在本例中,由于包含出现多个的“危害”这一名词,因此除去全部这些因果关系假定。这是由于这种在不同的多个因果关系假定中出现的名词本身意思就模糊不清,因此最好避免用作为因果关系。

因此,因果关系假定过滤部418包含名词的出现频率计算部558和名词的出现频率DB560。

《名词的出现频率计算部558》

名词的出现频率计算部558分别针对保存于因果关系假定DB416的因果关系假定短语对的原因短语内的名词与结果短语内的名词,预先计算因果关系假定DB416的全部因果关系假定中的出现频率。

《名词的出现频率DB560》

名词的出现频率DB560用于对通过名词的出现频率计算部558来计算出的各名词的出现频率进行保存。若提供了名词,则名词的出现频率DB560能够返回其出现频率。基于名词的出现频率的过滤部556使用该功能来进行因果关系假定的过滤。

《基于除去单词的过滤部566》

基于除去单词的过滤部566在网络存档44中除去如“A的B”中的“B”那样,包含被修饰句修饰的名词(称为“被修饰名词”。)的因果关系假定。在这种修饰句被附上名词的情况下,短语的意思反而由修饰句表示,其原因是被修饰名词本身的意思不确定,本认为不清楚。也就是说,不能说包含被修饰名词的因果关系假定也采用为因果关系的妥当的。这里,将这样得到的被修饰名词称为除去单词。为此,因果关系假定过滤部418包含被修饰名词的提取部562以及除去单词DB564。

《被修饰名词的提取部562》

被修饰名词的提取部562从网络存档44提取被修饰名词的集合。该处理何时进行都可以。

《除去单词DB564》

除去单词DB564将通过被修饰名词的提取部562来提取的被修饰名词作为除去单词来存储。除去单词DB564具有若提供了名词,则输出表示该名词是否是除去单词的信息的功能。典型地,若从基于除去单词的过滤部566提供了名词,则除去单词DB564将表示该名词是否作为除去单词来存储的信息返回给基于除去单词的过滤部566。若名词被存储于除去单词DB564,则基于除去单词的过滤部566除去包含该单词的因果关系假定。若未被存储,则采用该因果关系假定,并存储于因果关系短语对DB70。

<社会情态生成部72>

参照图17,社会情态生成部72包含:社会情态候补生成部580,其通过使存储于因果关系短语对DB70的因果关系短语对连锁来生成社会情态候补;和社会情态排名部582,其以规定的分数来对通过社会情态候补生成部580来生成的社会情态候补进行排名并输出到社会情态DB38。在因果关系短语对存在多个的情况下,则通过从其中以恰当的顺序使恰当的短语对连锁,能够得到以因果关系连结的较长的因果关系短语串。在本实施方式中,将该短语串称为社会情态。该社会情态以人们不能考虑到的关系连结多个因果关系,能够根据某个原因短语,导出也不基于思考的思结果短语。但是,为此,需要选择为了使因果关系连锁而恰当的因果关系短语对的对,并使这些连锁。社会情态候补生成部580是为此的单元。但是,即使是这样生成的社会情态,也应存在其原因与结果之间的关系恰当的情态和不那么恰当的情态。将表示社会情态的恰当性的分数赋予给各社会情态,能够对分数高的社会情态和不那么高的社会情态进行判别的是社会情态排名部582。

在进行这种因果关系的连锁的情况下,若处于单纯的因果关系短语对的结果短语与其他因果关系短语对的原因短语相同,则容易理解。但是,现实上存在即使文字上不同,也能够使2个因果关系短语对连锁的短语间的关系。若忽略了这些,则可能生成的社会情态的范围变窄。因此,针对能够作为2个因果关系短语对的连结部的某个因果关系短语对的结果短语与其它因果关系短语对的原因短语,发现即使文字串上不相同但能够将两者视为实质上相同的关系很重要。

在本实施方式中,将这种即使文字串上不相同但将两者视为实质相同的设为两者具有因果的连贯性。该因果的连贯性是包含换言之以及含义的新的概念,仅通过现有的自然语言处理技术不能实现。社会情态候补生成部580通过针对2个因果关系短语对,评价一个结果短语与另一个原因短语的因果的连贯性,来使具有因果的连贯性的因果关系短语对连锁。

<社会情态候补生成部580>

参照图18,社会情态候补生成部580包含第1同义关系生成部600,其参照单纯谓语模板DB62、因果关系短语对DB70以及单词类DB46,在因果关系短语对DB70内,将名词相同且单纯谓语模板的极性相同的短语视为具有因果的连贯性的同义的短语,生成并输出表示其组合的信息(连锁信息)。该连锁信息是将被判断为具有因果的连贯性的2个短语的标识符设为一对的信息。

社会情态候补生成部580还包含:第2同义关系生成部602,其参照单词类DB46和因果关系短语对DB70,在因果关系短语对DB70内,将名词相同且短语整体的评价极性相同的短语视为具有因果的连贯性的同义的短语,生成并输出其连锁信息;和第3同义关系生成部604,其参照单词类DB46,在因果关系短语对DB70内,将名词相同且具有在大量文档中的出现上下文类似的模板的短语对视为具有因果的连贯性的同义的短语并进行选择,生成并输出其连锁信息。

社会情态候补生成部580还包含:模板分布类似度DB614,其预先存储第3同义关系生成部604中的判断所使用的模板的分布类似度。模板分布类似度DB614通过何种方法作成都可以,但在本实施方式中,社会情态候补生成部580为了预先作成该模板分布类似度DB614,包含分布类似度计算部616,其参照网络存档44以及复杂谓语模板DB66,计算网络存档44中的各模板的分布类似度,将其结果保存于模板分布类似度DB614。

另外,作为连结因果关系短语对的方法,并不局限于如上述那样使用2个短语的因果的连贯性。例如,也可能虽然2个短语之间没有因果的连贯性,但存在考虑意思来将从某个短语到另一短语的因果关系搭接的关系。例如,在一个短语是“阳光が被遮挡”、另一个短语是“光合成が妨碍”的情况下,作为将两者连接的链接,例如能够考虑“阳光が光合成に需要”这一短语。这样,能够以该短语为媒介,使“阳光が被遮挡”这一具有结果短语的因果关系短语对与“光合成が被妨碍”这一具有原因短语的因果关系短语对连锁。但是,在该情况下,不需要将新插入的短语“阳光が光合成に需要”插入到社会情态。因为因果关系的前端与末尾分开就足够了。因此,在这样使因果关系短语对连锁的情况下,也存储短语的标识符对即可。在该情况下,由于连锁中顺序成为必要,因此需要存储带顺序的短语标识符对。

进行这种处理来生成带顺序的短语标识符对的是图18所示的连结关系生成部606。如何发现这样形成链接的短语之间的关系是问题。这里,着眼于2个短语所包含的名词之间的意思关系,解决了该问题。也就是说,在某2个名词之间成立特定的关系时,作为两者之间该关系成立的情况,处理为短语之间存在链接。作为这里的关系,能够使用形成通过图11所示的单词对提取部406来提取并记录于单词对DB402的单词对的单词间的关系、即通过记录于意思关系模式DB400的意思关系模式来表示的意思关系。单词对提取部406对具有必要关系、材料关系、使用关系、预防关系以及因果关系的单词对进行提取,将这种单词对记录于单词对DB402,将表示这种关系的模式记录于意思关系模式DB400。因此,通过使用这些,调查短语之间是否成立特定的关系,在成立的情况下作为两者之间存在因果关系的情况,将短语间连结。将这种处于某个因果关系短语对的结果短语与其他因果关系短语对的原因短语之间的意思关系成立,因此认为两者之间因果关系成立的情况称为“基于意思关系的链接”。

若某个短语中包含的名词的单词与其他短语中包含的名词的单词作为单词对被存储于单词对DB402,则连结关系生成部606判断为两者之间通过该单词对来表示的关系成立。通常,该情况下的因果关系仅是单方向的,因此连结关系生成部606将双方的短语的标识符生成为带顺序的标识符对并输出到连结信息生成部608。

社会情态候补生成部580还包含:连结信息生成部608,其使用第1同义关系生成部600、第2同义关系生成部602以及第3同义关系生成部604输出的短语的标识符对、以及连结关系生成部606输出的短语的顺序付的标识符对,针对每个因果关系短语对,生成由某个因果关系短语对与通过因果关系来与该该因果关系短语对连结的因果关系短语对的组构成的树;和连结关系DB610,其存储连结信息生成部608输出的树。通过使用该树,能够从因果关系短语对到下一个因果关系短语对,再到其下一个因果关系短语对,使因果关系连锁。

社会情态候补生成部580还包含:因果关系连结部612,其使用存储于因果关系短语对DB70的连结信息,以存储于因果关系短语对DB70的任意的因果关系短语对为起点,依次连结因果关系短语对,从而生成社会情态候补;和社会情态候补DB618,其对因果关系连结部612所生成的社会情态候补进行存储。

若例如提供了连结的因果关系的数目的上限,则因果关系连结部612能够在该范围内形成可能的全部社会情态,或者能够交互地重复如下处理来生成社会情态:若指定了某个因果关系短语对,则显示多个接续于该因果关系短语对的因果关系短语对,进一步若从其中指定了任意的因果关系短语对,则显示多个接续于新指定的因果关系短语对的因果关系短语对。

<社会情态排名部582>

参照图19,本实施方式所涉及的社会情态排名部582(参照图17)对存储于社会情态候补DB618的社会情态,赋予基于作为构成这些的全部因果关系短语对的因果关系的强度的分数。在本实施方式中,社会情态排名部582分别针对某个社会情态候补中包含的因果关系短语对,赋予参照图12来说明的因果关系强度的分数。社会情态排名部582进一步通过将这些全部相乘,来对社会情态候补赋予分数。

也就是说,社会情态排名部582包含:整体因果关系分数计算部640,其分别针对存储于社会情态候补DB618的社会情态候补,参照被赋予给因果关系短语对的因果关系强度分数来计算构成这些的因果关系强度,进一步通过将这些相乘,来赋予分数并进行输出;带分数的社会情态候补DB642,其对整体因果关系分数计算部640输出的带分数的社会情态候补进行存储;社会情态排序部644,其按照该分数的降序来对存储于带分数的社会情态候补DB642的带分数的社会情态候补进行排序;排序后的社会情态候补DB646,其对被排序的社会情态候补进行存储;和社会情态选择部648,其从存储于排序后的社会情态候补DB646的社会情态候补中选择分数为阈值以上的并输出到社会情态DB38。

[动作]

该第1实施方式所涉及的社会情态生成系统30如下进行动作。参照图1,在种子模板DB32中预先保存少数的种子模板。也预先对各种子模板是否是活性进行判断,对各模板附上该标记。另一方面,在连接词DB34中保存日语的顺接连接词等以及逆接连接词等,也存储其种类。此外,在矛盾表现词典422(图11、图13)中,存储多个由预先收集的相互矛盾的表现构成的对。

<准备工序>

对于图7所示的麻烦名词极性判断用词典266,预先收集为了参照网络存档44来判断麻烦名词的极性所需的模式,并与极性一起进行存储。

进一步地,还预先准备图11所示的意思关系模式DB400以及单词对DB402。为此,在种子模式DB404保存一些表示单词间的规定的关系的种子模式。对于单词类DB46也预先进行准备。如何准备种子模式DB404以及单词类DB46都可以。

为了进行意思关系模式DB400以及单词对DB402的准备,单词对提取部406如下进行动作。参照图14,单词对提取部406的模式提取部490如图14所示那样,从网络存档44提取各种单词间的关系。为了进行该处理,模式提取部490从网络存档44提取多个包含2个名词的短语。通过利用从单词类DB46读取的对应的类的变量来置换这些短语中包含的名词,从而生成多个模式。进一步将这些模式集中,并将被集中的独一无二的模式保存于模式DB492。

单词对候补获取部494参照种子模式DB404,从网络存档44获取单词对候补,来作为以与种子模式的任意一致的形式出现的单词对,并累积于单词对候补DB496。对这些单词对赋予对应的种子模式所属的种子模式群的标识符(或者也可以是种子模式本身的标识符)。

另一方面,类对适合度计算部502基于存储于单词对候补DB496的单词对,对每个类对计算任意的2个单词类间的类对适合度,并存储于类对适合度DB504。模式类似度计算部506对存储于模式DB492的模式与存储于种子模式DB404的种子模式群的每个组合,计算模式类似度,按照每个这些组合存储于模式类似度DB508。亲和性信息计算部510对单词对与存储于模式DB492的各模式以及存储于种子模式DB404的种子模式群的亲和性信息进行计算,针对单词对与种子模式等的每个组合,存储于亲和性信息DB512。除去类对确定部514针对存储于单词类DB46的单词的每个类对,判断网络存档44中的属于各类的单词的出现频率的差是否为阈值以上。除去类对确定部514还确定差为阈值以上的类对,保存于除去类对DB516。

单词对记分部498使用存储于类对适合度DB504的类对适合度、存储于模式类似度DB508的模式类似度、和存储于亲和性信息DB512的亲和性信息,针对保存于单词对候补DB496的每个单词对,计算所述的分数Score。

单词对选择部500在通过单词对记分部498来记分的单词对之中,选择上位的规定个数,并保存于单词对DB402。此时,对各单词对,赋予存储于种子模式DB404的种子模式群之中,包含该单词对的获取时匹配的种子模式的模式的标识符。

另一方面,相比于仅进行1次如上处理就结束,若将新得到的种子模式追加到种子模式DB404并且重复上述的处理,则单词对DB402的数目和精度都能够提高。因此,模式合并部518使用存储于模式类似度DB508的模式以及种子模式群之间的类似度,将于某个种子模式群的类似度比阈值高的模式追加到种子模式DB404的该种子模式群。若种子模式DB404被这样更新,则使用该被更新的种子模式群来重复上述处理。通过重复该处理直到规定的结束条件成立,从而能够得到精度高的单词对DB402和被分类为各种意思关系的种子模式群。通常,种子模式的数目与最初准备的数目相比大幅度增加,其结果,能够针对宽度广的范围的表现,判断该表现与何种意思关系一致。

<单纯谓语模板的收集>

单纯谓语模板收集部60如下进行动作来构建单纯谓语模板DB62。参照图2,初始模板对生成部90生成全部存储于种子模板DB32的全部种子模板的全部组合与存储于连接词DB34的连接词等的可能组合,将这些作为全部模板对来存储于初始模板对DB92。名词对收集部94分别针对存储于初始模板对DB92的模板对,从网络存档44收集与该模板对共同出现的名词对,并存储于名词对DB96。名词对极性判断部98分别针对这些名词对,根据与该名词对共同出现的模板对内的模板的活性/不活性和将模板对连结的来自连接词DB34的连接词等的种类,判断该名词对是正的关系还是负的关系,并对各名词对赋予极性标记。

接着,模板对收集部100针对各名词对,从网络存档44收集与该名词对共同出现的模板对,并保存于模板对DB102。

分别针对这些模板对,模板活性匹配判断部104根据共同出现的名词对的正/负和连接词等的种类(顺接、逆接),对构成模板对的模板的活性/不活性相互相同还是相反进行确定。此时,在针对某个模板对,存在其活性相同和相反的模板的情况下,对相同和相反的模板的出现次数进行比较,通过取多来确定相同还是相反。模板活性匹配判断部104分别针对存储于模板对DB102的模板对,赋予表示其活性/不活性相同还是相反的标记。

模板网络构建部106基于存储于模板对DB102的模板对,构建模板网络140(图3)。若构成模板对的2个模板所对应的节点如果不是网络,则模板网络构建部106将其追加到网络,若没有该链接也将其追加。通过对全部模板对执行该处理,来构建模板网络140的原型。模板网络构建部106还针对在网络内相互没有链接的全部节点对,参照同义/含义关系词典108,判断在与这些节点对应的模板之间是否存在表10所示的特定的关系,若存在则在相互之间附上“相同”这一链接。进一步地,模板网络构建部106对这样构建的网络的各链接,赋予通过式(1)来计算出的加权。这样,被追加了链接的模板网络140被存储于模板网络DB110。

模板活性值计算部112执行图6所示的处理。也就是说,最初对种子模板,根据其活性/不活性来赋予+1或者-1的活性值(步骤240)。进一步地,作为与电子旋转的能量类似的量,通过执行使通过式(2)来定义的值E(x,W)最小化的处理(步骤242),来推断各模板的活性值,对各模板赋予其活性值。这些活性值的值中,既存在负的也存在正的。高活性度模板提取部114在活性值被这样推断的模板内,选择活性值的绝对值比规定的阈值大的模板,使用这些模板来构建单纯谓语模板DB62。另外,这里,也可以不通过阈值来选择,而根据活性值的绝对值的大小来附上顺序。

图2所示的结束判断部116对在单纯谓语模板DB62被构建的时刻,规定的结束条件是否充足进行判断。作为结束条件,例如能够将重复数超过了规定量或者模板数超过了规定量这样的条件。若结束条件成立,则设为单纯谓语模板DB62完成。若结束条件不成立,则种子模板更新部118将单纯谓语模板DB62中包含的る模板作为新的种子模板,来更新种子模板DB32。由于对这些种子模板赋予了通过以上处理来计算出的活性值,因此在以后的处理中,使用这些活性值来执行与到此为止所述的处理同样的处理。

重复以上的处理,在结束条件充足时,则单纯谓语模板DB62完成。然后,复杂谓语模板收集部64使用该单纯谓语模板DB62,执行从互联网40获得复杂谓语模板的处理。

<复杂谓语模板的收集>

具体来讲,复杂谓语模板收集部64的复杂谓语模板候补提取部268如下述那样构建Sa变名词模板候补DB270、数量名词模板候补DB272以及麻烦名词模板候补DB274(图7)。也就是说,参照图8,复杂谓语模板候补提取部268对网络存档44的所有文档的全文执行(步骤300)、词素分析(步骤302)以及修饰分析(步骤304),生成修饰树。接着,对各节点执行如下的处理(步骤306)。

首先,判断该节点的单词是否是对象名词(步骤308)。在这里的判断中,利用图7所示的对象名词词典260。若单词不是对象名词(步骤308中为否),则移至下一个节点的处理。若单词是对象名词(步骤308中为是),则判断该修饰对象是否是任意的单纯谓语模板(步骤310)。若不是单纯谓语模板(步骤310中为“否”),则移至下一个节点的处理。若是单纯谓语模板(步骤310中为“是”),则将处理对象的节点的修饰源的节点末尾的助词、处理对象的节点的词素、修饰对象的单纯谓语模板连结来生成复杂谓语模板候补(步骤312),根据该复杂谓语模板的对象名词的种类,分类保存于图7所示的Sa变名词模板候补DB270、数量名词模板候补DB272或者麻烦名词模板候补DB274(步骤314)。若到此为止的处理结束,则进行针对修饰树的下一个节点的处理。

在得到单纯谓语模板DB62之后,图7所示的Sa变名词极性判断部264在进行基于Sa变名词极性赋予部276的Sa变名词模板的极性赋予之前,如下述那样构建Sa变名词极性词典262。具体来讲,Sa变名词极性判断部264对各Sa变名词模板进行以下的处理。

也就是说,Sa变名词极性判断部264针对该Sa变名词模板候补,确定与该Sa变名词对应的Sa变动词,在单纯谓语模板DB62中检索包含该Sa变动词的单纯谓语模板。若被检索到的全部单纯谓语模板的极性一致,则Sa变名词极性判断部264将其极性设为处理中的Sa变名词模板的极性并进行判断,将Sa变名词与极性的组合作为标题来存储于Sa变名词极性词典262。

在被检索到的单纯谓语模板的极性不一致时,典型地,在极性根据单纯谓语模板的前端的助词而变化时,不能将复杂谓语模板的极性决定为单纯。因此,在该情况下,Sa变名词极性判断部264进行以下的处理。

也就是说,Sa变名词极性判断部264在网络存档44中确定全部以所有格附加于Sa变名词模板候补的Sa变名词的名词。调查这样确定出的名词是伴随何种助词与上述Sa变动词共同出现的及其频率。作为这样调查的结果,Sa变名词极性判断部264确定由频率最高的助词与上述Sa变动词构成的单纯谓语模板,将该单纯谓语模板的极性设为与上述以所有格附加的名词的组合中的Sa变名词模板候补的极性。通过针对与以所有格附加于Sa变名词模板候补的名词的全部组合进行该处理,能够确定该Sa变名词模板候补的与各名词的组合中的极性。

Sa变名词极性判断部264将该信息存储于Sa变名词极性词典262。因此,在提供了Sa变名词模板时,在包含该Sa变动词的单纯谓语模板的极性作为单一的极性而被存储于Sa变名词极性词典262时,将该极性设为Sa变名词模板的极性,否则,若已知附加给该Sa变名词模板的所有格的名词,则通过参照Sa变名词极性词典262也能够判断该Sa变名词模板的极性。相反来讲,针对Sa变名词模板的一部分,若在其之前以所有格出现的名词未知,则不能判断极性,而是取决于上下文。

参照图9,图7所示的Sa变名词极性赋予部276分别针对存储于Sa变名词模板候补DB270的Sa变名词模板候补执行以下的处理(步骤340)。也就是说,Sa变名词极性赋予部276参照Sa变名词极性词典262,判断各Sa变名词模板候补所包含的Sa变名词的标题是否是1个(步骤342),若标题是1个(步骤342中为是),则将其极性作为极性来赋予给处理对象的Sa变名词模板候补(步骤344),移至下一个Sa变名词模板候补的处理。若步骤342的判断是否定的,则将表示极性取决于上下文的值作为极性来赋予给Sa变名词模板候补,移至下一个Sa变名词模板候补的处理。若该处理对于全部Sa变名词模板结束,则复原为母程序。

图7所示的数量名词极性赋予部278对存储于数量名词模板候补存储部的数量名词模板中的数量名词赋予活性的极性,并提供给复杂谓语模板极性计算部282。

图7所示的麻烦名词极性赋予部280,参照图10,分别针对存储于麻烦名词模板候补DB274的麻烦名词模板候补,执行以下的处理(步骤370)。在步骤370中,首先,参照麻烦名词极性判断用词典266,判断针对该麻烦名词的标题是否仅是1个(步骤372)。若判断为“是”,则将其极性作为麻烦名词的极性来赋予(步骤374),输出到复杂谓语模板极性计算部282并移至下一个麻烦名词模板候补的处理。若步骤372的判断为“否”,则将表示麻烦名词的极性取决于上下文的值作为极性来赋予给麻烦名词(步骤376),输出到复杂谓语模板极性计算部282并移至下一个麻烦名词模板候补的处理。若该处理对全部麻烦名词模板候补结束,则结束处理。

复杂谓语模板极性计算部282通过将赋予给各复杂谓语模板候补的名词(Sa变名词、数量名词、麻烦名词)的极性的值与各候补的单纯谓语模板部分的极性相乘,来计算复杂谓语模板的极性,将带有该极性的复杂谓语模板保存于复杂谓语模板DB66。此时,复杂谓语模板极性计算部282在Sa变名词模板候补的Sa变名词以及麻烦名词模板候补的麻烦名词的极性取决于上下文的情况下,不是如上述那样计算复杂谓语模板的极性,而是将表示极性取决于上下文的值赋予给复杂谓语模板。

<因果关系短语对的收集>

图1所示的因果关系短语对收集部68在复杂谓语模板DB66生成后,如下述那样构建因果关系短语对DB70。另外,在该处理之前,需要准备意思关系模式DB400、单词对DB402以及名词的极性词典420(图11)。

图11所示的因果关系种子对收集部408,如下述那样收集因果关系种子对。参照图12,首先,在步骤440中,从网络存档44,作为因果关系种子对候补,收集在一文本中相互由顺接连接词等连接并在网络存档44内共同出现的谓语模板对和由该谓语模板对所涉及的名词构成的名词对。这里的谓语模板包含保存于单纯谓语模板DB62的单纯谓语模板和保存于复杂谓语模板DB66的复杂谓语模板对两者。对各单纯谓语模板赋予极性。复杂谓语模板之中,对包含数量名词的模板、包含Sa变名词的模板的一部分、包含麻烦名词的模板的一部分也同样地赋予极性。复杂谓语模板之中,对于Sa变名词模板和麻烦名词模板,存在表示名词的极性取决于上下文的值的情况。在这种情况下,因果关系种子对收集部408以在其之前附加了所有格的名词与复杂谓语模板内的Sa变名词的组合来检索变名词极性词典262。在从Sa变名词极性词典262得到了针对该组合的Sa变名词的极性的基础上,与复杂谓语模板内的单纯谓语模板的极性相乘来判断复杂谓语模板的极性。

接着,针对这样得到的全部候补,执行以下的步骤442。也就是说,在步骤442中,判断作为处理对象的候补内的名词对的关系是否为正的关系(步骤444)。在判断是肯定的情况下,进一步判断该候补的谓语模板对的活性/不活性相同还是相反(步骤446)。若步骤446的判断为否定,则舍弃该候补。也就是说,对该候补什么处理也不做。若步骤446的判断为肯定,则将该候补追加到因果关系种子对群(步骤448)。然后,移至下一个候补的处理。

另一方面,若步骤444的判断为否定,则在步骤450中判断该候补的谓语模板对的活性/不活性是否相互相反。若判断为否定,则舍弃该候补。若判断为肯定,则将该候补追加到因果关系种子对群(步骤448)。然后,移至下一个候补的处理。

若对全部因果关系种子对候补结束以上的处理,则对作为结果而得到的因果关系种子对群内的全部因果关系种子对执行步骤452的处理。也就是说,因果关系种子对收集部408在步骤454中,对各因果关系种子对,通过已经表示的式(3)来计算因果关系强度的分数Cs(p1,p2)。以下再次示出式(3)。

[式15]

Cs(p1,p2)=|s1|×|s2|×npfreq(n1,n2)(3)

其中,p1、p2分别表示构成因果关系种子对的短语,s1以及s2分别表示构成短语p1、p2的谓语模板的活性值,记号|s1|表示活性值s1的绝对值,n1、n2分别表示短语p1、p2中包含的名词,若n1、n2为正的关系,则npfreq(n1,n2)表示n1、n2与活性/不活性相同的模板对在一文本中共同出现的频率,若n1、n2为负的关系,则npfreq(n1,n2)表示n1,n2与活性/不活性不同的谓语模板对在一文本中共同出现的频率。

在这样对全部因果关系种子对计算因果关系强度的分数之后,在步骤456中,将因果关系种子对与分数相关联地输出到因果关系种子对DB410。

通过执行这种处理,能够大量并且自动地从网络存档44收集表示因果关系的短语对、即包含单纯谓语模板或者复杂谓语模板的对。另外,如前所述,能够取代上述式(3)而使用式(4)。

<因果关系假定的生成>

虽然存储于因果关系种子对DB410的因果关系种子对量大,但不能网罗考虑到的全部因果关系。因此,需要从这些因果关系种子对,在合理的范围内生成更多的因果关系的假定,扩展最终得到的社会情态所覆盖的范围。为此,图11所示的因果关系假定生成部412从存储于因果关系种子对DB410的因果关系种子对,如下述那样进一步生成多个因果关系假定,并保存于因果关系假定DB416。另外,在本实施方式中,在该处理之前,如已经说明的那样,需要将意思关系模式DB400、单词对DB402、以及由相互矛盾的表现构成的谓语模板对存储于矛盾表现词典422。

意思关系模式DB400针对每个意思关系,将相互处于特定的意思关系的单词类共同出现的模式存储为意思关系模式群。单词对DB402预先存储适合存储于意思关系模式DB400的模式的、具有特定的意思关系的单词对。对存储于单词对DB402的单词对,赋予存储于意思关系模式DB400的意思关系模式群之中,该单词对适合的模式群的标识符。

在未使用矛盾表现来生成因果关系假定的情况下,不需要矛盾表现词典422。

参照图13以及图15,因果关系假定生成部412的意思关系模式匹配部470分别针对保存于因果关系种子对DB410的因果关系种子对,从单词类DB46读取构成该种子对的短语对内的名词对所属的单词类,并进行以下的处理(图15的步骤520)。也就是说,意思关系模式匹配部470对读取的单词类对是否与保存于意思关系模式DB400的意思关系模式的某个匹配进行判断(图15的步骤522),将匹配的意思关系模式所属的意思关系模式群的标识符与因果关系种子对一起提供给单词对置换部472。在不存在匹配的意思模式的情况下,为了针对该因果关系种子对,使用矛盾表现来生成改写了的新的因果关系假定,开始图13所示的模板置换部476的处理。对于模板置换部476的动作,后面进行叙述。

在存在匹配的意思模式的情况下,单词对置换部472对匹配的全部模式执行以下的处理(图15的步骤524)。也就是说,从单词对DB402读取全部被提供了匹配的意思关系模式所属的意思关系模式群的标识符的单词对(图15的步骤526)。分别使用读取的单词对,执行以下的处理(图15的步骤528)。首先,通过读取出的单词对来置换构成因果关系种子对的原因短语与结果短语双方的名词对(图15的步骤530)。

分数计算部474通过与图12的步骤454中进行的方法同样的方法,计算针对各因果关系假定的因果关系强度分数(图15的步骤532),赋予给因果关系假定并输出到因果关系假定DB416(图15的步骤534)。对步骤526中读取出的全部单词对执行以上的处理。若以上的处理结束,则开始模板置换部476的处理(步骤536)。

模板置换部476从矛盾表现词典422读取全部构成处理中的因果关系种子对的原因短语与结果短语的矛盾表现(图15的步骤536)。模板置换部476进一步通过使用原因短语的矛盾表现与结果短语的矛盾表现的全部组合来进行使用其矛盾表现来置换处理中的因果关系种子对的原因短语与结果短语的处理,从而生成新的因果关系假定(图15的步骤538),并提供给分数计算部474。分数计算部474通过与图12的步骤454中进行的方法同样的方法,计算针对各因果关系假定的因果关系强度分数(图15的步骤540),将各个因果关系强度分数赋予给各因果关系假定并输出到因果关系假定DB416(图15的步骤542),移至下一个因果关系种子对的处理。

因果关系假定生成部412通过对全部因果关系种子对执行以上的处理,从而基于因果关系种子对来生成多个新的带分数的因果关系假定,并追加到因果关系假定DB416。

<因果关系假定的过滤>

在如上述那样生成的因果关系假定中也包含不妥当的因果关系假定。因此,需要除去这种错误的因果关系假定。图11所示的因果关系假定过滤部418进行该处理。

参照图16,因果关系假定过滤部418的名词的出现频率计算部558对各个名词计算存储于因果关系假定DB416的因果关系假定内的名词的出现频率,并保存于名词的出现频率DB560。这是用于基于名词的出现频率的过滤部556的过滤处理的准备。另一方面,被修饰名词的提取部562检索网络存档44,提取以“A的B”的形式被修饰句修饰的被修饰名词(相当于“A的B”中的“B”的名词),并保存于除去单词DB564。这是用于基于除去单词的过滤部566的过滤处理的准备。

在本实施方式中,因果关系假定过滤部418首先进行基于连贯性验证过滤部550的过滤。连贯性验证过滤部550分别针对因果关系假定,判断构成假定的短语对的名词对(n1,n2)的名词n1以及n2的任意一个在其他因果关系中是否都表示于原因短语和结果短语。在任意的名词都与该条件一致的情况下,连贯性验证过滤部550除去该因果关系假定。连贯性验证过滤部550将除此以外的因果关系假定提供给基于相关度的过滤部552。

在本实施方式中,基于相关度的过滤部552对构成因果关系假定的短语对的名词对的相关度进行计算,除去相关度比阈值低的因果关系假定,将除此以外的因果关系假定提供给基于出现顺序验证的过滤部554。作为相关度,在本实施方式中,使用名词对的相互信息量(PMI)。如前所述,作为名词对的相关度,也可以使用除此以外的指标。

基于出现顺序验证的过滤部554分别针对构成从基于相关度的过滤部552提供的因果关系假定的短语对,基于这些在网络存档44中出现的顺序,对因果关系假定进行过滤。具体来讲,基于出现顺序验证的过滤部554除去构成因果关系假定的短语对在网络存档44中的某个文本中共同出现并且结果短语在原因短语之前出现的因果关系假定,并将除此以外的输出到基于名词的出现频率的过滤部556。

基于名词的出现频率的过滤部556分别针对从基于出现顺序验证的过滤部554提供的因果关系假定,进行基于构成这些的短语对的名词对的在网络存档44中的出现频率的过滤。具体来讲,基于名词的出现频率的过滤部556针对因果关系假定,在构成该因果关系的短语对的名词对的任意一个在网络存档44以超过阈值的频率出现的情况下,除去该因果关系假定。基于名词的出现频率的过滤部556将除此以外的因果关系假定提供给基于除去单词的过滤部566。

基于除去单词的过滤部566针对从基于名词的出现频率的过滤部556提供的因果关系假定,判断是否包含存储于除去单词DB564的除去单词,除去包含除去单词的因果关系假定。基于除去单词的过滤部566仅将不包含除去单词的因果关系假定保存于因果关系短语对DB70。

在这样基于因果关系假定过滤部418的过滤结束的时刻,在因果关系短语对DB70中保存了多个因果关系短语对。

另外,在本实施方式中,按照连贯性验证过滤部550、基于相关度的过滤部552、基于出现顺序验证的过滤部554、基于名词的出现频率的过滤部556以及基于除去单词的过滤部566的顺序,进行基于这些部的过滤。但是,本发明并不限定于这种实施方式。例如,也可以更换处理的顺序。也可以除去一部分的处理。或者,也可以将这些处理相互并列执行,将与各个目的一致的分数赋予给各因果关系假定,根据这些的积或者合计是否超过阈值来判断因果关系假定的采用/除去。

<社会情态的生成>

若使用通过上述的处理来构建的因果关系短语对DB70,则能够生成多个社会情态。进行社会情态的生成的是图1所示的社会情态生成部72。

参照图17,社会情态候补生成部580在存储于因果关系短语对DB70的某个因果关系短语对的某个短语与其它因果关系短语对的某个短语之间因果连贯性成立、或者基于意思关系的链接成立的情况下,通过使在结果短语具有前者、在原因短语具有后者的因果关系短语对彼此连锁来生成社会情态。通过将这样生成的社会情态进一步与其它因果关系连锁,能够生成更长的社会情态。虽然在本实施方式中,社会情态候补生成部580使连锁的因果关系的数目为恒定以下,但在例如互动地生成社会情态的情况下,不需要这种限制。

参照图18,社会情态候补生成部580的第1同义关系生成部600分别针对保存于因果关系短语对DB70的因果关系短语对,进行以下的处理。也就是说,确定该因果关系短语对的结果短语(将其设为第1短语)的名词。保存于因果关系短语对DB70的因果关系短语对之中,收集在原因短语具有与该名词一致的名词的因果关系短语。进一步地,判断被收集的因果关系短语对的原因短语(将其称为第2短语。)的谓语模板的极性是否与属于第1短语的谓语模板的极性一致。若两者一致,则判断为第1短语与第2短语同义,生成针对包含第1短语的因果关系、包含第2短语的因果关系的连结信息,并输出到连结信息生成部608。这里所谓的连结信息,是指包含第1短语的因果关系短语对的标识符和包含第2短语的因果关系短语对的标识符的顺序对。

第2同义关系生成部602对基于短语的评价极性的因果的连贯性进行判断,根据其结果来生成使2个因果关系短语对连锁的连结信息,并输出到连结信息生成部608。具体来讲,第2同义关系生成部602针对任意的因果关系短语对的结果短语,进行以下的处理。

也就是说,收集具有包含与该因果关系短语对的结果短语(设为第1短语)的名词相同的名词的原因短语的因果关系短语对。针对被收集的因果关系短语对的原因短语(设为第2短语),若该短语整体的极性相同,则使在结果短语具有第1短语的因果关系短语对与在原因短语具有第2短语的因果关系短语对连锁。为此,作为连结信息,将由前者的标识符和后者的标识符构成的顺序对提供给连结信息生成部608。

第3同义关系生成部604基于大量文档中短语的出现上下文的类似性,判断因果的连贯性,输出2个因果关系短语对的连结信息。第3同义关系生成部604具体执行以下的处理。另外,为此,分布类似度计算部616参照因果关系假定DB416和网络存档44,针对在因果关系假定DB416出现的短语的各组合,计算网络存档44中的分布类似度,并保存于模板分布类似度DB614。

第3同义关系生成部604针对存储于因果关系短语对DB70的因果关系短语对的短语,分别针对具有相同的名词并且短语整体的极性相同的短语对,从模板分布类似度DB614读取分布类似度。若该分布类似度小于阈值,则舍弃该短语对。若分布类似度为阈值以上,则能够使在结果短语具有其一的因果关系短语对与在原因短语具有另一个的因果关系短语对连锁。第3同义关系生成部604将这种因果关系短语对的标识符的顺序对提供给连结信息生成部608。

连结关系生成部606输出用于通过基于意思关系的链接来使2个因果关系短语对连锁的连结信息。具体来讲,连结关系生成部606执行以下的处理。

连结关系生成部606判断由某个因果关系短语对的结果短语中包含的名词(第1名词)与其他因果关系短语对的原因短语中包含的名词(第2名词)构成的带顺序的单词对是否被存储于单词对DB402。在该单词对被存储于单词对DB402的情况下,认为在包含第1名词的结果短语与包含第2名词的原因短语之间,表示该单词对所具有的意思关系的链接成立。因此,连结关系生成部606针对这种因果关系短语对的对,生成从一个向另一个的连结信息,并输出到连结信息生成部608。该情况下的连结信息是上述的由具有具有第1名词的结果短语的因果关系短语对的标识符和具有具有第2名词的原因短语的因果关系短语对的标识符构成的顺序对。

连结信息生成部608基于从第1同义关系生成部600、第2同义关系生成部602、第3同义关系生成部604以及连结关系生成部606接受的连结信息,生成将各因果关系短语对设为第1层的节点、将能够从各节点的因果关系短语对连锁的因果关系短语对设为从该节点分支的第2层的节点的树,并保存于对连结信息生成部608输出的树进行存储的连结关系DB610。通过反复从该树的第1层的节点到第2层的节点、进一步从相当于由该第2层的节点表示的因果关系短语对的第1层的节点进一步到第2层的节点的处理,能够从任意的因果关系短语对生成任意长度的社会情态候补。

因果关系连结部612进行该操作来生成规定的长度以下的社会情态候补,并输出到社会情态候补DB618。

图17所示的社会情态排名部582对通过社会情态候补生成部580来生成的社会情态,基于构成其的因果关系的各个强度,计算其社会情态的分数,选择该分数为阈值以上的社会情态,并输出到社会情态DB38。

参照图19,社会情态排名部582具体进行以下的处理。首先,社会情态排名部582针对各社会情态,通过将构成该情态的各个因果关系的因果关系强度分数相互相乘来计算其社会情态的分数。这里所谓的因果关系强度分数,是指通过图12的步骤454以及图13的分数计算部474来计算出的分数。此时,在通过基于图18所示的第1同义关系生成部600、第2同义关系生成部602、第3同义关系生成部604以及连结关系生成部606的处理来连结的2个短语之间,提供某个常量。这些可以全部相同,也可以是不同的值。例如考虑使基于因果的连贯性的连结的情况的因果关系强度分数比,基于意思关系的链接的连结的情况的分数高。整体因果关系分数计算部640赋予这样针对每个社会情态计算出的分数并将社会情态保存于带分数的社会情态候补DB642。

社会情态排序部644将存储于带分数的社会情态候补DB642的社会情态候补按照其分数的降序进行排序,将排序后的社会情态候补保存于排序后的社会情态候补DB646。

社会情态选择部648在存储于排序后的社会情态候补DB646的社会情态之中,仅选择分数为阈值以上的情态,并输出到社会情态DB38。

如以上那样,通过该社会情态生成系统30,能够生成通过因果关系来使不仅包含存在于网络存档44的因果关系短语还包含单词对的意思关系的非常多的短语连锁的多个社会情态。能够使其数目非常多是当然的,由于根据上述的单词对的意思关系来生成的因果关系假定也用于社会情态的生成,因此能够生成不仅包含存在于网络存档44上的短语还包含现实在网络存档44中没有出现的短语的多样社会情态。其结果,能够提供在考虑所有风险以及机会来进行判断时能够作为参考的多个社会情态。

<第2实施方式>

在上述第1实施方式中,通过针对社会情态的生成过程中得到的各因果关系短语对计算出的分数的相乘来计算社会情态的分数。但是,社会情态的排名方法并不限定于上述的实施方式的方法。能够采用与该方法不同的各种排名方法。以下所述的第2实施方式基于社会情态或者其一部分(称为“部分情态”)被记载于互联网40的几个文档或者记载于文档的位置与社会情态中部分情态的一致度是什么程度,来计算社会情态的分数。

图20所示的社会情态排名部670是通过上述处理来对社会情态进行排名的。社会情态排名部670能够取代图17以及图19所示的社会情态排名部582而被使用。

参照图20,本实施方式所涉及的社会情态排名部670取代图19所示的整体因果关系分数计算部640,包含:部分情态分数计算部700,其基于构成社会情态的部分情态是如何被记载于互联网40的哪个文档中的,来计算部分情态的分数;部分情态分数存储部702,其针对每个社会情态,将部分情态分数计算部700所计算出的部分情态的分数与部分情态相关联地存储;和整体因果关系分数计算部704,其响应于针对存储于社会情态候补DB618的各个社会情态候补结束了基于部分情态分数计算部700的部分情态分数的计算,作为这些部分情态分数的相乘或者相加等针对部分情态的增加函数,计算社会情态的分数,赋予给社会情态并输出到带分数的社会情态候补DB642。另外,在本实施方式中,不仅与构成社会情态的部分情态完全相同的短语,也将包含将名词置换为相同单词类的其他名词的短语视为与社会情态的短语相同,来检索互联网40。进一步地,在本实施方式中,不仅短语的名词,谓语模板和包含以极性相同的其他模板置换的短语也视为与社会情态的短语相同,来检索互联网40。

社会情态排名部670与其他多数功能部同样地,能够通过计算机硬件和在该计算机硬件上执行的计算机程序来实现。图21中以流程图的形式来表示用于此的计算机程序的控制构造。另外,该程序用于对某个社会情态执行上述处理。

参照图21,通过部分情态分数计算部700来执行的程序包含对处理对象的社会情态的全部短语执行以下处理的步骤740。也就是说,步骤740包含:步骤742,其以相同的类的单词(同义词)来置换该短语的名词,分别生成新的短语;步骤744,其通过以相同的极性的其他模板来置换该短语的模板,从而与步骤742中生成的新的短语组合来进一步生成多个短语;和步骤746,其将步骤744中生成的新的短语(以下,称为“释义句”)与原来的短语全部保存于未图示的存储装置。到步骤742、744以及746为止都是步骤740中对各短语执行的处理。

该程序还包含步骤748,其在步骤740结束之后,对通过将得到的短语组合而得到的部分情态的全部执行以下的处理。

步骤748包含针对互联网40上的全部文档执行以下处理的步骤750。另外,这里所谓的全部文档,并不局限于存在于互联网40上的规定的网站上的文档。

步骤750包含:步骤752,其对作为处理对象的文档是否包含全部作为处理对象的社会情态的部分情态的短语或者释义句(步骤746中保存的)进行判断,根据结果来使控制分支;步骤754,其在步骤752的判断为肯定时,对在该文档中出现的短语或者释义句是否以与该部分情态内的原来的短语相同的顺序出现进行判断;步骤758,其在步骤754的判断为肯定时,将该部分情态的出现数加1;和步骤756,其在步骤754中为否定时,对处理对象的文档中出现的短语或者释义句是否处于相邻的N文档内进行判断。在步骤756中为“是”的情况下,控制进入步骤758。在步骤756中为否的情况下,以及步骤752中为“否”的情况下,控制进入针对下一个文档的处理。

若步骤750的处理针对全部文档结束,则控制进入步骤760。在步骤760中,针对处理中的部分情态的分数能够通过针对步骤758中计算出的出现数的函数并且出现数越多结果越高的分数计算函数来计算。

若步骤748的处理对全部的部分情态结束,则控制进入步骤762。在步骤762中,处理中的社会情态的分数由该社会情态中包含的部分情态的分数的函数并且部分情态的分数越高值越高的分数计算函数计算出,作为分别而被赋予给处理中的社会情态。

<变形例>

针对上述实施方式,考虑有多个变形。以下,对其进行列举。

例如,关于社会情态的记分,考虑分别采用以下方法,或者组合采用以下方法。

(1)记载于网络存档44的文档的部分情态的最大长度越长,社会情态的分数越高。

(2)在记载相同部分情态的文档之间存在超链接的情况下,使包含这些部分情态的社会情态的分数更高。

(3)在即使记载相同部分情态的2个文档之间没有直接存在超链接,也经由另外的1个或者多个文档而间接存在超链接的情况下,使社会情态的分数更高。

(4)也可以对文档赋予重要性的分数,根据记载部分情态的文档的分数来使社会情态的分数增减。在该情况下,作为文档的重要性的分数,例如能够使用所谓的PageRank的值等。此外,也可以根据记载有文档的网站的域种类,来赋予该文档的重要性的轻重。例如也可以针对被记载于政府系统、教育机关系统、国际机关系统等的域的网站的文档,比除此以外的文档更提高重要性的分数。也可以针对匿名的博客等,使重要性的分数比其他的低。

(5)若被记载于文档的多个部分情态在1个社会情态中具有重要部分,则也可以使这些部分情态的分数较高,使包含这些的社会情态的分数随着其而提高。在该情况下,也可以重要的部分越广,分数越高。

例如,考虑生成的某个社会情态“a→b→c→d→e→f→g→…”。若考虑该社会情态的第1部分情态“a→b→c→d”和第2部分情态“c→d→e→f”,则这2个部分情态具有“c→d”,作为重复位置。在该情况下,第1部分情态被记载于第1网络文档,第2部分情态被记载于第2以及第3网络文档。由于第1部分情态被记载于一个网络文档,因此使其分数提高。由于第2部分情态被记载于2个文档,因此使分数比第1部分情态更高。由于两部分情态具有重复的部分,因此这些均根据重复位置的广度(2个位置)来进一步提高分数。

(6)在第2实施方式中,包含这将短语中的名词以及谓语模板释义的释义句,对文档中的部分情态的出现次数进行计数。但是,本发明并不限定于这种实施方式。也能够是不进行名词或者谓语模板或者这两者的释义的实施方式。

(7)也可以降低与其他社会情态矛盾的内容的社会情态的分数。为此,若在从相同的原因短语导出的2个社会情态中,包含于其一部分的结果短语相互矛盾,则能够将这些社会情态视为矛盾。矛盾的短语可以预先通过手动操作来以词典形式进行准备,也可以通过与第1实施方式所述的因果关系短语对同样的方法,自动地进行收集。在收集矛盾的短语对(矛盾对)的情况下,取代图12所示的处理,在以下的条件下收集短语对。

(1)两个短语都由1个名词和1个活性或者不活性模板构成。例如“(伤风)に患”和“(伤风)を预防”这样的短语。

(2)两个短语中包含的2个名词相互为同义(或者相同)。例如<伤风、感冒>或者<伤风、伤风>的组合。

(3)两个短语中包含的2个模板都是一个为活性另一个为不活性。例如“に患”(活性)和“を预防”这样的一对。

(4)2个模板共享多个互联网上共同出现(连结修饰关系)的名词。也就是说,这2个模板的分布类似度较高。例如,作为与“に患”共同出现的名词,考虑有伤风、感冒、肺炎、…等,与此相对地,作为与“を预防”共同出现的名词,考虑有伤风、感冒、肺炎、火灾、灾害等,两者间的分布类似度较高。

(5)各短语在互联网上具有规定的阈值以上的出现频率。也就是说,各短语的名词与模板以该阈值以上的频率来将修饰关系连结。例如,需要“(伤风)に患”的出现频率≥阈值,以及“(伤风)を预防”的出现频率≥阈值同时成立。

(6)进一步地,即使谓语模板是同义或者类义,也可以将名词为反义词的短语对设为矛盾关系短语对。模板的同义、类义的判断中,可以将大量的文档语料库(例如网络存档44)中的两者的分布类似度用作为指标,也能够使用手工验证的数据库等。名词的反义的判断中也能够使用同样的方法。

(7)在某一个社会情态中包含相互矛盾的短语的情况下,也可以降低该社会情态的分数。例如“…→政变が发生→治安が恶化→…→治安が变好”等。

[基于计算机的实现]

上述实施方式所涉及的系统能够通过计算机硬件和在该计算机硬件上被执行的计算机程序来实现。图22表示该计算机系统930的外观,图23表示计算机系统930的内部构成。

参照图22,该计算机系统930包含:具有存储器端口952以及DVD(Digital Versatile Disc,数字通用光盘)驱动器950的计算机940、键盘946、鼠标948、和显示器942。

参照图23,计算机940除了存储器端口952以及DVD驱动器950,还包含:CPU(中央处理装置)956;与CPU956、存储器端口952以及DVD驱动器950连接的总线966;存储启动程序等的读取专用存储器(ROM)958;和与总线966连接,并存储程序命令、系统程序以及操作数据等的随机访问存储器(RAM)960。计算机系统930还包含提供向使与其他终端的通信成为可能的网络的连接的网络接口(I/F)944。

用于使计算机系统930作为构成上述各实施方式的系统的各功能部而起作用的计算机程序被存储于安装于DVD驱动器950或者存储器端口952的DVD962或者可移动存储器964,进一步被传送到硬盘954。或者,程序也可以通过未图示的网络而被发送到计算机940并被存储于硬盘954。程序在执行时被载入到RAM960。也可以从DVD962,从可移动存储器964,或者经由网络,直接将程序载入到RAM960。

该程序包含用于使计算机940作为上述实施方式所涉及的系统的各功能部而起作用的多个命令。为了进行该动作所需要的一些基本功能由在计算机940上进行动作的操作系统(OS)或者第三方的程序、或者被安装于计算机940的各种编程工具包的模块提供。因此,该程序也可以不必包含实现本实施方式的系统以及方法所需要的全部功能。该程序在命令之中,仅包含通过利用被控制的做法来调取恰当的功能或者编程工具包内的恰当的程序工具以使得得到所希望的结果,从而实现作为上述系统的功能的命令即可。计算机系统930的动作是公知的。因此这里不重复。

本次公开的实施方式仅仅是示例,本发明并不限定于上述实施方式。在参考了发明的详细说明的记载的基础上,本发明的范围由权利要求书的各权利要求来表示,并包含与记载于该处的术语均等的意思以及范围内的全部变更。

产业上的可利用性

本发明能够适用于如下系统:基于能够电子利用的宽度广的领域的大量的文档,将能够根据记载于其的事项之间的关系来推理的有用的信息、即仅通过信息检索或者现有的询问响应系统不能得到的信息,以社会情态的形式提供给利用者,或者基于这种社会情态,将接下来应采取的恰当的行动提供给利用者。

-符号说明-

30 社会情态生成系统

32 种子模板DB

34 连接词DB

36 社会情态DB构建装置

38 社会情态DB

40 互联网

42 网络爬虫

44 网络存档

46 单词类DB

48 社会情态输出部

60 单纯谓语模板收集部

62 单纯谓语模板DB

64 复杂谓语模板收集部

66 复杂谓语模板DB

68 因果关系短语对收集部

70 因果关系短语对DB

72 社会情态生成部

90 初始模板对生成部

92 初始模板对DB

94 名词对收集部

96 名词对DB

98 名词对极性判断部

100 模板对收集部

102 模板对DB

104 模板活性匹配判断部

106 模板网络构建部

108 同义/含义关系词典

110 模板网络DB

112 模板活性值计算部

114 高活性度模板提取部

116 结束判断部

118 种子模板更新部

140 模板网络

260 对象名词词典

262 Sa变名词极性词典

264 Sa变名词极性判断部

266 麻烦名词极性判断用词典

268 复杂谓语模板候补提取部

270 Sa变名词模板候补DB

272 数量名词模板候补DB

274 麻烦名词模板候补DB

276 Sa变名词极性赋予部

278 数量名词极性赋予部

280 麻烦名词极性赋予部

282 复杂谓语模板极性计算部

400 意思关系模式DB

402 单词对DB

404 种子模式DB

406 单词对提取部

408 因果关系种子对收集部

410 因果关系种子对DB

412 因果关系假定生成部

416 因果关系假定DB

418 因果关系假定过滤部

420 名词的极性词典

422 矛盾表现词典

470 意思关系模式匹配部

472 单词对置换部

474 分数计算部

490 模式提取部

492 模式DB

494 单词对候补获取部

496 单词对候补DB

498 单词对记分部

500 单词对选择部

502 类对适合度计算部

504 类对适合度DB

506 模式类似度计算部

508 模式类似度DB

510 亲和性信息计算部

512 亲和性信息DB

514 除去类对确定部

516 除去类对DB

518 模式合并部

550 连贯性验证过滤部

552 基于相关度的过滤部

554 基于出现顺序验证的过滤部

556 基于名词的出现频率的过滤部

558 名词的出现频率计算部

560 名词的出现频率DB

562 被修饰名词的提取部

564 除去单词DB

566 基于除去单词的过滤部

580 社会情态候补生成部

582 社会情态排名部

600、602、604 同义关系生成部

606 连结关系生成部

608 连结信息生成部

610 连结关系DB

612 因果关系连结部

614 模板分布类似度DB

616 分布类似度计算部

618 社会情态候补DB

640 整体因果关系分数计算部

642 带分数的社会情态候补DB

644 社会情态排序部

646 排序后的社会情态候补DB

648 社会情态选择部

700 部分情态分数计算部

702 部分情态分数存储部

704 整体因果关系分数计算部

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号