首页> 中国专利> 矛盾表现收集装置以及用于其的计算机程序

矛盾表现收集装置以及用于其的计算机程序

摘要

提供能以比句小的单位效率良好地收集矛盾表现的装置。矛盾表现收集装置包括:第1阶段矛盾型式分类部,其通过将以「XがYを○○する(X对Y进行○○)」这样形式的型式所构成的型式对作为学习数据的机器学习来提取相互矛盾的型式所构成的型式对;追加矛盾型式对导出部(130),其对提取的各个型式对,运用包含关系来改写一方的型式,导出新的型式对;学习数据扩展部(136),其通过将在导出的新的型式对中由相互矛盾的型式构成的可能性高的型式对追加到学习数据中,来扩展学习数据;和SVM(142),其通过利用了扩展的学习数据的机器学习,来进行第2阶段分类,将被赋予的型式对分类为相互矛盾的型式所构成的型式对和这以外。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-03

    授权

    授权

  • 2016-06-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141006

    实质审查的生效

  • 2016-05-25

    公开

    公开

说明书

技术领域

本发明涉及从大量的文本中提取矛盾的表现的装置,特别涉及从大量 的文本中可靠性高地提取相互矛盾的表现的配对的装置。

背景技术

若能在文本中检测矛盾的表现,就能将其结果使用在众多的目的中。 例如,若能在庞大的文本中检测相互矛盾的表现,就能通过对它们做记号 来唤起文本的作成者的注意。在对他人作成的文本进行审查的情况下,能 验证其逻辑的一贯性。在比较不同的作者作成的文本的情况下,能确认其 主张的异同。

例如在日语记载的Web页经常能看到「アガリクスがガンを防ぐ(落叶松蕈 防癌)」这样主旨的记载。这样的主张也被众多日本人所接受。但若用例 如「アガリクスガン促進する(落叶松蕈癌症促进)」这样的关键词检索Web, 则能找到「アガリクスによリラツトのガンが促進する(因落叶松蕈而促进小白鼠 癌症)」这样的报告。该报告参考了销售的一部分落叶松蕈制品促进小白 鼠的癌这样由厚生劳动省承认报告。根据这样的报导可知,存在与落叶松 蕈防止癌症这样的主张矛盾的报告,其结果,对落叶松蕈怀有兴趣的人会 进一步展开调查。

另外,在灾害的发生时,在网络上的所谓的博客、微博客、社交媒体 等涌来大量信息。这些信息在进行合适的避难、适时进行支援上非常有用。 但在它们当中,包括较多没有根据的信息、以及所谓的捏造信息。这些信 息看上去难以与真实的信息区别。为此,不仅在进行正确的判断上无益, 还会妨碍正常的信息流通,有增大灾害引起的损失、或使推迟恢复的危险 性。若能分析网络上的信息,提取出矛盾的信息提示给用户,用户就能整 理能信赖的信息和不能信赖的信息,结果能尽早平息非常时的混乱。

若考虑这样的示例,着眼于关于某事态相互矛盾的主张的读者会对该 事态展开进一步的调查,结局能获知真相的可能性较高。这不仅适用于与 事实相关的知识,还适用于日常生活发现的与关于事实的事态不同的知 识。例如取被称作TPP(TransPacificPartnership,跨太平洋伙伴协议)的 经济合作协定为例。关于TPP,关于日本是否加盟TPP有各种主张。在这 当中找出非常重大且相互矛盾的主张。即,“由于TPP会使日本的农业毁 灭”这样的主张、“由于TPP会强化日本的农业”这样的主张混合存在。 这些主张或预想即日本是否会加盟TPP,只有做出决定才能验证其成否。

进而,有时,在阅读含有相互矛盾的主张的不同的文本时,有在成为 它们的根据的逻辑中认为看上去没有错误的情况。例如有「TPPによリ、日 本からの農産物の輸出が増加する(由于TPP,来自日本的农产品的出口 会增加)」这样的主张、「安価な農産物が大量に日本に輸入されるだろう (廉价的农产品会大量进口到日本)」这样的主张等。例如出于遵循日元 的汇率的变动这样的预想的理由,还会有这些主张的仅一者在结果上正确 的情况。但不得不对成为这些相互矛盾的主张的根据的理论进行调查,充 分研讨来自在多个视点的意見,做出取得平衡的决定,合适地应对预测到 的问题。矛盾表现的认识,会非常有助于在选择要在这样的情况下进行研 讨的文书。

现有技术文献

非专利文献

非专利文献1:M.Ohki,S.Matsuyoshi,J.Mizuno,K.Inui,E.Nichols,K. Murakami,S.Masuda,andY.Matsumoto.2011.Recognizingconfinementin webtexts.IntheProceedingsoftheNinthInternationalConferencein ComputationalSemantics,page215-224.

非专利文献2:C.Hashimoto,K.Torisawa,S.DeSaeger,J.-H.Oh,andJ. Kazama.2012.Excitatoryorinhibitory:Anewsemanticorientationextracts contradictionandcausalityfromtheweb.InProceedingsofEMNLP2012.

发明内容

发明要解决的课题

在关于这样的矛盾表现的认识的研究中,有前述的非专利文献1记载 的技术。非专利文献1所记载的研究用于认识句之间的矛盾或文书整体之 间的矛盾。但为了更加效率良好地判断矛盾表现,需要认识更细微的单位 下的矛盾表现的技术。若能得到这样的技术,就有能更有效率且精度良好 地认识句整体之间的矛盾或文书整体之间的矛盾。

另外,前述的示例仅是日语中的示例,但这样的问题并不限于日语, 在全部语言中都是共通的。

因此,本发明的目的在于,提供能以比句整体更小的单位效率良好地 收集矛盾表现的矛盾表现收集装置。

本发明的其他目的在意,提供能以比句整体更小的单位效率良好地收 集矛盾表现的语言独立的矛盾表现收集装置。

用于解决课题的手段

本发明的第1局面所涉及的矛盾表现收集装置与存储单词的包含关系 的包含关系存储单元、和存储多个二元型式(pattern)对的第1存储装置 连接来使用。二元型式对含有2个二元型式,各二元型式含有一元型式作 为副型式。矛盾表现收集装置包括:第1分类单元,其通过以从存储于第 1存储装置的二元型式对选择的二元型式对作为学习数据的机器学习,来 从存储于第1存储装置的多个二元型式对提取相互矛盾的二元型式对;导 出单元,其对由第1分类单元提取的各个二元型式对运用存储于包含关系 存储单元的包含关系,来改写一方的二元型式,从而导出新的二元型式对; 学习数据扩展单元,其提取在由导出单元导出的新的二元型式对中由相互 矛盾的二元型式构成的可能性高的二元型式对,通过追加到学习数据中来 扩展学习数据;和第2分类单元,其通过利用了由学习数据扩展单元扩展 过的学习数据的机器学习,将被赋予的二元型式对分类为相互矛盾的二元 型式对和这以外。

优选地,矛盾表现收集装置还与存储一元型式的极性的极性存储单元 连接而使用,第1分类单元包括:第1型式对提取单元,其使用存储于极 性存储单元的一元型式的极性,从第1存储装置提取含有极性相互相反的 一元型式对的二元型式对;和机器学习单元,其将附加了表示是否由相互 矛盾的二元型式构成的签注的多个二元型式对作为学习数据,通过机器学 习来学习选择由相互矛盾的二元型式构成的二元型式对的功能,从存储于 第1存储装置的多个二元型式对选择由相互矛盾的二元型式构成的二元型 式对,并输出。

更优选地,第1分类单元对所输出的二元型式对附加表示该二元型式 对是否由相互矛盾的二元型式构成的可能性的分数,并输出,学习数据扩 展单元包括:分数算出单元,其对由第1分类单元提取的二元型式对的各 个集合,算出该集合中所含的二元型式对当中分数为预先确定的阈值以上 的二元型式对的比例,作为该集合中所含的各二元型式的分数;分数确定 单元,其对于由第1分类单元新导出的各个二元型式对通过分配针对该二 元型式对由分数算出单元算出的分数的最大分数,来确定各二元型式对的 分数;和追加单元,其从由第1分类单元新导出的二元型式对当中由分数 确定单元确定的分数靠前的二元型式对中选择给定个数,追加到学习数据 中。

进一步优选地,追加单元将由第1分类单元新导出的二元型式对当中 已经包含着由第1分类单元提取的二元型式对的集合中的二元型式对,在 对学习数据的追加时予以除外。

第1分类单元、和第2分类单元的任意者包含基于监督学习的分类单 元,例如基于支持矢量机(SupportVectorMachine)的分类单元。

本发明的第2局面所涉及的计算机程序在与存储单词的包含关系的包 含关系存储单元、和存储多个二元型式对的第1存储装置连接的计算机中 执行。二元型式对含有2个二元型式,各二元型式含有一元型式,作为副 型式。该计算机程序使该计算机作为如下单元发挥功能:第1分类单元, 其通过以从存储于第1存储装置的二元型式对选择的二元型式对作为学习 数据的机器学习,来从存储于第1存储装置的多个二元型式对提取相互矛 盾的二元型式对;导出单元,其对由第1分类单元提取的各个二元型式对 运用存储于包含关系存储单元的包含关系,来改写一方的二元型式,从而 导出新的二元型式对;学习数据扩展单元,其提取在由导出单元导出的新 的二元型式对中由相互矛盾的二元型式构成的可能性高的二元型式对,通 过追加到学习数据中来扩展学习数据;和第2分类单元,其通过利用了由 学习数据扩展单元扩展过的学习数据的机器学习,来将被赋予的二元型式 对分类为相互矛盾的二元型式对和这以外。

附图说明

图1是利用本发明的1个实施方式所涉及的矛盾表现收集装置的Web 提问应答系统的概略框图。

图2是表示图1所示的矛盾表现收集装置的概略构成的框图。

图3是图2所示的第1阶段矛盾型式对分类部的概略框图。

图4是图2所示的第2阶段矛盾型式对分类部的概略框图。

图5是表示图4所示的追加矛盾型式对导出部、评分部、以及学习数 据扩展部的概略构成的框图。

图6是表示将实施方式的与矛盾表现的收集相关的实验结果和现有的 装置的精度进行比较而示出的实验结果的图表。

图7是表示将与实施方式的矛盾表现的收集相关的实验结果和对照实 验的精度进行比较而示出的实验结果的图表。

图8是用于实现图1所示的Web提问应答系统的服务器计算机的外 观图。

图9是表示图8所示的服务器计算机的硬件构成的框图。

具体实施方式

在以下的说明以及附图中,对同一部件标注同一参考编号。因此不再 重复对它们的详细说明。

[构成]

以下叙述的实施方式所涉及的装置具有2个要素,收集相互矛盾的型 式(pattern)对,例如「XはYを促進する(X促进Y)」以及「XはYを 防ぐ(X防止Y)」、「XはYを駆逐するだろう(X会驱逐Y)」以及「X はYを强化するだろう(X会强化Y)」这样的型式对。各型式如X以及 Y那样具有2个要素。在以下的说明中,将这样的型式在具有2个可变要 素的意义上称作「二元型式」。通过收集这样的二元型式对,能容易地构建 认识前述的「アガリクスがガンを予防する(落叶松蕈预防癌症)」和「アガリクスは ガンを促進する(落叶松蕈促进癌症)」这样矛盾的表现的文本的系统。

另外,在以下的实施方式中,使用上述的非专利文献2中提出的型式 的活性、非活性(将两者汇总称作表现的「极性」)这样的性质。按照非专 利文献2的提案,将某表现(表征含有1个可变要素的谓语的副型式,「X がYを○○する(X对Y进行○○)」中的「Yを○○する(对Y进行○○)」 的部分,例如「Yを促進する(促进Y)」、「Yを防止する(防止Y)」等, 将它们在具有1个可变要素的意义上,以下称作「一元型式」)的极性分类 为活性、非活性、以及中性这3种。所谓活性,表示对该型式中所含的可 变要素的功能、效果、目的或作用进行发动或强化。例如「Yを引き起こ す(引起Y)」の「を引き起こす(引起)」、「Yを増加させる(增加Y)」 的「を増加させる(增加)」等。所谓非活性,反过来,表示使该型式中所 含的可变要素的功能、效果、目的或作用停止或削弱。例如「Yを防止す る(防止Y)」或「Yが消失する(Y消失)。」等。所谓中性,是指既不是 活性也不是非活性的表现。例如「Yに近い(接近于Y)。」这样的表现是 中性。

参考图1,该实施方式所涉及的Web提问应答系统30与互联网32连 接,是如下那样系统:对来自个人计算机(以下称作PC)34的提问,将 成为对该提问的回答候补的Web上的多个含有相互矛盾的表现的文书强 调该回答候补所含的矛盾部位,并进行并排显示。在本实施方式中,若PC34 将提问句对Web提问应答系统30输入,则Web提问应答系统30从Web 上检索针对该提问句的相互矛盾的回答,将表示强调矛盾的部位的画面的 HTML的源文件回信给PC34。PC34的用户通过在浏览器显示该HTML 文件,能比较针对自己所选择的提问句的相互矛盾的回答。

Web提问应答系统30包括:矛盾型式对收集装置40,其从互联网32 的Web页收集大量的文书,从这其中收集是相互矛盾的表现的二元型式 对;矛盾型式对存储装置42,其存储矛盾型式对收集装置40所收集的矛 盾表现;和矛盾表现的提示系统,其接受来自PC34的提问句的输入,使 用存储于矛盾型式对存储装置42的矛盾表现,在Web上的文书中检测作 为针对提问句的回答而相互矛盾的表现,生成以强调这些部位并左右对照 的形式表示的Web画面的源文本,并回信给PC34。矛盾表现的提示系统 44包括未图示的Web服务器和基于给定的程序语言的程序的执行系统。 若从PC34接受到指定某程序和提问句的请求,则Web服务器对所指定的 程序交付指定的提问句。该程序解析接受到的提问句,从Web上的文书 检索包括针对该提问句的回答候补的表现并读出,使用将存放于矛盾型式 对存储装置42的矛盾表现作为学习数据进行学习的矛盾表现分类器,来 将这些表现分类为相互矛盾的表现和并非相互矛盾的表现。该程序进一步 在检测到的表现的部位追加强调的修饰,来生成以将相互矛盾的表现对照 的形式左右显示的HTML源文本,经由Web服务器回信给PC34。

图2表示矛盾型式对收集装置40的概略构成,包括:极性辞典存储 装置62,其存储一元型式的极性辞典;候补型式对存储装置60,其存储 从Web上收集的大量的二元型式对,它们是成为矛盾型式的候补的集合; 包含关系存储装置64,其存储名词、动词等的包含关系;和矛盾型式对分 类部68,其与候补型式对存储装置60、极性辞典存储装置62以及包含关 系存储装置64连接,将存储于候补型式对存储装置60的候补型式对分类 为矛盾型式对和非矛盾型式对。由矛盾型式对分类部68分类为矛盾型式 对的型式对存储在矛盾型式对存储装置42。矛盾型式对收集装置40还包 含:非矛盾型式对存储装置66,其存储由矛盾型式对分类部68分类为非 矛盾型式对的型式对。

矛盾型式对分类部68成为2阶段构成。矛盾型式对分类部68的第1 阶段包括:第1阶段矛盾型式对分类部80,其包含分类器,该分类器用于 参考极性辞典存储装置62,将存储于候补型式对存储装置60的大量的二 元型式对分类为有具有相同要素的一元型式对且它们的极性相反的第1种 类的型式对、和这以外的第2种类的型式对;矛盾型式对中间存储装置82, 其存储由第1阶段矛盾型式对分类部80分类的第1种类的型式对;非矛 盾型式对中间存储装置84,其存储由第1阶段矛盾型式对分类部80分类 的第2种类的型式对;相反极性对存储装置102,其存储在第1阶段矛盾 型式对分类部80的内部作业生成的、一元型式部分的极性相互相反的型 式对即相反极性对;和学习数据存储装置108,其用于存储在第1阶段矛 盾型式对分类部80的内部作业生成的、进行第1阶段矛盾型式对分类部 80的学习时的学习数据。存储于矛盾型式对存储装置42、相反极性对存 储装置102、以及学习数据存储装置108的数据,如后述那样成为给第2 阶段矛盾型式对分类部86的输入。

在此所说的第1种类的型式对,例如是指「Yを促進する(促进Y)」 这样型式、和「Yを防止する(防止Y)」这样的型式那样,「Y」的部分共 通、具有极性相互相反的一元型式的型式对。

矛盾型式对收集装置40的第2阶段包括:第2阶段矛盾型式对分类 部86,其基于存储于矛盾型式对中间存储装置82的矛盾型式对、和存储 于包含关系存储装置64的包含关系进行分类器的再学习,使用再学习后 的分类器再度将存储于候补型式对存储装置60的候补型式对分类为矛盾 型式和非矛盾型式,分别将矛盾型式存储在矛盾型式对存储装置42,将非 矛盾型式存储在非矛盾型式对存储装置66。

表示第1阶段矛盾型式对分类部80的概略构成,包括:相反极性对 提取部100,其参考极性辞典存储装置62从存储于候补型式对存储装置 60的候补型式对中提取相反极性对,存放在相反极性对存储装置102;和 SVM(SupportVectorMachine,支持矢量机)104,其作为将存储于相反 极性对存储装置102的相反极性对分类为被认为相互矛盾的型式对和认为 不一定矛盾的型式对的分类器发挥功能,分别将前者存放在矛盾型式对中 间存储装置82,将后者存放在非矛盾型式对中间存储装置84。SVM104 在对型式对进行分类时,对各型式对赋予表示该型式对应被分类为矛盾型 式对的程度的分数。

第1阶段矛盾型式对分类部80还包括:学习数据作成部106,其用于 从存储于候补型式对存储装置60的候补型式对提取用于做成SVM104的 学习数据的型式对,用手工作业进行赋予需要的标签的处理等,并存储在 学习数据存储装置108;和SVM学习部110,其用于用存储于学习数据存 储装置108的学习数据进行SVM104的学习。

SVM学习部110从存储于学习数据存储装置108的学习数据生成用 于进行SVM104的学习的特性矢量。作为该特性矢量的要素,在本实施方 式中使用以下那样的要素。作为特性主要使用2个种类。即,从型式的内 容自身得到的表层结构的特性、和与词汇相关的特性。本实施方式所使用 的特性的一览在下面的表格示出。在该表格中,不属于上述的2个分类的 要素也作为「其他」示出。它们在SVM104、和后述的第2阶段矛盾型式对 分类部86内的SVM双方中共通使用。另外,特性的选择当然并不限定于 表1所示的要素。

[表1]

图4表示第2阶段矛盾型式对分类部86的概略构成。第2阶段矛盾 型式对分类部86包括:追加矛盾型式对导出部130,其对存储于矛盾型式 对中间存储装置82的各个矛盾型式,对一方的型式运用存储于包含关系 存储装置64的包含关系进行改写,由此导出新的矛盾型式对;追加矛盾 型式对存储装置132,其存储由追加矛盾型式对导出部130导出的矛盾型 式对;评分部134,其对存储于追加矛盾型式对存储装置132的各个矛盾 型式对,通过参考矛盾型式对中间存储装置82来算出为了算出后述的被 称作CDP(ContradictionDerivationPrecision,矛盾派生精度)而需要的副 分数CDPsub,并赋予各追加矛盾型式对;学习数据扩展部136,其使用存 储于追加矛盾型式对存储装置132的追加矛盾型式对的副分数CDPsub来 确定每个追加矛盾型式的分数CDP,通过将分数CDP靠前的给定比例的 矛盾型式对与存储于学习数据存储装置108(参考图3)的学习数据进行 合并来扩展学习数据;和扩展学习数据存储装置138,其存储学习数据扩 展部136所输出的学习数据。

第2阶段矛盾型式对分类部86还包括:SVM142,其将存储于候补型 式对存储装置60的候补型式对分类为矛盾型式对和非矛盾型式对,分别 将矛盾型式对存放在矛盾型式对存储装置42,将非矛盾型式对存放在非矛 盾型式对存储装置66;和SVM学习部140,其使用存储于扩展学习数据 存储装置138的扩展学习数据来进行SVM142的学习。即,SVM学习部 140不仅使用存储于学习数据存储装置108的最初得到的学习数据,还使 用含有由追加矛盾型式对导出部130、评分部134、以及学习数据扩展部 136追加的矛盾型式对的学习数据来对候补型式对进行分类。通过这样的 构成,通过实验能确认SVM142的分类精度高于第1阶段的SVM104的分 类精度。关于实验结果在后面叙述。

参考图5来说明图4所示的追加矛盾型式对导出部130、追加矛盾型 式对存储装置132、评分部134、以及学习数据扩展部136的功能。

追加矛盾型式对导出部130包括矛盾型式对候补生成部164,其从矛 盾型式对中间存储装置82读出矛盾型式对162,对各个矛盾型式对162, 对其一方的型式运用从包含关系存储装置64读出的包含关系160来进行 改写,由此生成新的矛盾型式对。该扩展时的逻辑如以下那样。

若型式p包含型式q,型式q与第3型式r矛盾,则型式p也与型式r 矛盾。例如,若「XがYを生ずる(X产生Y)」(型式p)包含「XはY を促進する(X促进Y)」(型式q),型式q与「XはYを防ぐ(X防止 Y)」(型式r)矛盾,则型式p与型式r矛盾。将该情况下的型式q和r 所构成的矛盾型式对<q、r>称作源型式对,将由型式p和型式r构成的矛 盾型式对<p、r>称作扩展型式对。

追加矛盾型式对存储装置132,存储由矛盾型式对候补生成部164生 成的矛盾型式对的候补(候补对)所构成的候补集合180、182、184等。

评分部134包括:候补对判定部200,其关于各个候补集合180、182、 184等,对其候补集合内的候补对判定SVM104(图3)进行分类时的分 数是否大于给定的阈值α,对应于其判定结果对各候补对分别赋予具有1 或0的值的标记;和副分数算出部202,其关于各个候补集合180、182、 184等,对其中的候补对基于候补对判定部200赋予的标记用以下的式来 算出副分数CDPsub,作为属于该候补集合的各候补对的副分数CDPsub 写入到候补集合180、182、184等中。阈值α使用开发数据预先合适地确 定。

对某源矛盾型式配对<q、r>如以下那样定义副分数CDPsub(q、r)。

[数式1]

CDPsub(q,r)=|{<p,r>Ex(q,r)|Sc(p,r)>α}||Ex(q,r)|

在此,Ex(q,r)是指从源型式对<q、r>导出的扩展型式对的集合, Sc是指由SVM104赋予源型式对的分数。在后述的实验中,设定为α=0.46。 为了使SVM104赋予阈值α以上的分数的型式对的比例成为SVM104的 输出的靠前5%而选择该值。

学习数据扩展部136包括:分数确定部218,其响应于由评分部134 对候补集合180、182、184等中所含的全部候补对赋予副分数CDPsub, 通过以下所示的式来确定各候补对的分数CDP的值。

[数式2]

CDP(p,r)=max(q,r)∈Source(p,r)CDPsub(q,r)

有时,在存储于追加矛盾型式对存储装置132的分数CDP赋予完毕 的候补对中,存在从多个矛盾型式对分别导出的同一矛盾型式对。由于成 为导出的基础的矛盾型式不同,因此它们的分数CDP一般相互不同。在 存在这样的候补对的情况下,分数确定部218如上述式所示那样,将由副 分数算出部202对该候补对算出的副分数CDPsub值的最大值作为分数 CDP赋予该候补对。

学习数据扩展部136还包括:靠前候补提取部220,其将候补对按CDP 的降序排序,提取靠前的N个候补对;候补合并部222,其将由靠前候补 提取部220提取的候补对与存储于学习数据存储装置108的学习数据合 并,输出新的学习数据;和否定清除处理部224,其进行否定清除处理, 将由候补合并部222输出的学习数据当中与新追加的候补数据竞争的矛盾 型式对删除。

有时,在存储于追加矛盾型式对存储装置132的分数赋予完毕的候补 对中,存在从多个矛盾型式对分别导出的同一矛盾型式对。由于成为导出 的基础的矛盾型式不同,因此它们的CDP一般相互不同。在存在这样的 候补对的情况下,靠前候补提取部220将由副分数算出部202对该候补对 算出的值中的最大值作为该候补对的CDP而赋予。

靠前候补提取部220,在由分数确定部218确定了各候补对的CDP后, 仅提取候补型式当中的存储于矛盾型式对中间存储装置82的矛盾型式对 的集合内所没有的型式,将它们当中靠前的N个对候补合并部222输出。 即,靠前候补提取部220将候补型式当中已经存储于矛盾型式对中间存储 装置82的型式从追加的对象中排除。

否定清除处理部224的处理为了使学习数据相互匹配而需要。在此, 在SVM104的分类中得到的矛盾型式对中,删除与由候补合并部222追加 的型式对竞争的型式对。认为在型式对中,内容词的对成为与该型式对是 否相互矛盾相关的最强有力的证据。因此,在此,在最初得到的矛盾型式 对中,删除与新追加的矛盾型式对的任一者在内容词上共通的矛盾型式对 (称作否定样本)。

以上若记载为伪代码,则如以下那样。

[表2]

[动作]

以上那样构成的矛盾型式对收集装置40如以下那样动作。参考图2, 在候补型式对存储装置60存储抓取互联网32的Web页而得到的大量的 候补型式对。能在该候补型式对的收集中运用已有的技术。在此收集的候 补型式对是进行修饰被修饰解析的结果而得到的、在意义上的修饰被修饰 关系树中存在于连结2个名词的路径上的二元型式的单词串(例如「XがY を引き起こす(X引起Y)」等)。对相当于该型式的X以及Y的部分, 预先赋予表示这些单词的类型的信息,作为标签。例如,「Yorganizationが Xlocationにある(Yorganization位于Xlocation)」等。在此,赋予X、Y的下标 (organization、location),是指进入到相当于X以及Y的部分的单词的 意义上的归类。由于通过意义上的归类,能区别含糊的型式会具有的多个 意义,因此能减少型式的含糊性所引起的错误。

在本实施方式中,在极性辞典存储装置62使用预先由人工准备的内 容。存储于包含关系存储装置64的包含关系既可以人工准备,也可以使 用利用人工准备的学习数据通过机器学习而学习得到的分类器来准备。

参考图3,图2所示的第1阶段矛盾型式对分类部80从候补型式对存 储装置60读出候补型式对,对各候补型式对,通过参考极性辞典存储装 置62来判定构成型式对的型式的一元型式部分的极性是否相反(活性和 非活性)。第1阶段矛盾型式对分类部80,进一步选择极性相反的型式对 将其存储到相反极性对存储装置102。

另一方面,操纵者使用学习数据作成部106从候补型式对存储装置60 提取成为学习数据的候补型式对,进行关于各候补型式对是否由相互矛盾 的型式构成的标签附加,由此做成学习数据。学习数据存储在学习数据存 储装置108。SVM学习部110从存储于学习数据存储装置108的学习数据 生成用于进行SVM104的学习的特性矢量,来进行SVM104的学习。在此 也是,在SVM104的学习中,虽然使用人工预先准备的学习数据,但也可 以不是直接人工准备的学习数据,而使用将以学习完毕的分类器进行分 类、并进行过签注附加的学习数据。另外,还能利用不需要人做出的判断 的学习数据作成方法。

SVM104按照学习结果将存储于相反极性对存储装置102的极性相互 相反的各个候补型式对分类为矛盾型式对和非矛盾型式对,分别存放在矛 盾型式对中间存储装置82以及非矛盾型式对中间存储装置84。这时, SVM104对输出的各个型式对赋予SVM分数。该分数在型式对是矛盾型 式对的可能性高的情况下较高,在并非如此的情况下较低。

参考图4,追加矛盾型式对导出部130,从矛盾型式对中间存储装置 82读出矛盾型式对,对该各个矛盾型式对使用从包含关系存储装置64读 出的包含关系来生成追加矛盾型式对,存放在追加矛盾型式对存储装置 132。

在追加矛盾型式对导出部130进行的追加矛盾型式对的生成完成时, 评分部134算出各矛盾型式对的CDP。参考图5,这时,候补对判定部200 对作为从某矛盾型式对162生成的追加矛盾型式对的各个候补对判定其分 数是否为阈值α以上,将标记赋予各候补对。副分数算出部202基于该标 记算出针对从某矛盾型式对162生成的候补集合中的全部候补对的 CDPsub,分配给该候补集合。

学习数据扩展部136的分数确定部218,对存储于追加矛盾型式对存 储装置132的追加矛盾型式对中的从多个矛盾型式导出的候补对,分配对 该候补对分配的最大的CDPsub,对并非如此的候补对分配CDPsub作为 CDP,由此确定各候补对的CDP。靠前候补提取部220仅提取存储于追加 矛盾型式对存储装置132的候补对当中、在存储于矛盾型式对中间存储装 置82内的矛盾型式对内的分数为前5%以内的集合中没有的候补对,将其 中的靠前的N个对学习数据扩展部136的候补合并部222输出。

候补合并部222将从靠前候补提取部220输出的候补对与存储于学习 数据存储装置108的合并,输出给否定清除处理部224。

否定清除处理部224将由候补合并部222输出的学习数据当中与新追 加的候补对竞争的学习数据删除,将剩余的学习数据存放在扩展学习数据 存储装置138。

再度参考图4,SVM学习部140从存储于扩展学习数据存储装置138 的学习数据生成用于SVM142的学习的特性矢量,进行SVM142的学习。 通过学习完毕的SVM142对候补型式对存储装置60中所含的候补型式对 再度进行分类,得到新的矛盾型式对的集合和非矛盾型式对的集合。将它 们分别存储到矛盾型式对存储装置42以及非矛盾型式对存储装置66。

对如此得到的矛盾型式对存储装置42内的矛盾型式对用以下的实验 确认其精度,能确认到相对于现有技术明显更卓越。

[实验1]

在上述实施方式中,由图3所示的相反极性对提取部100提取学习数 据时,仅使用极性相反的候补型式对。通过实验确认该效果为何种程度。

在实验中,对6亿的日语的Web页,从使用KNP(后述的参考1) 解析修饰被修饰关系的结果中提取二元型式和与该型式共现的单词配对。 将它们限定在频度最高的390万的型式(「XがYにある(X位于Y)」等 那样的「X-[格助词]Y-[格助词]谓语部分」形式的型式),不含否定、数 词、记号、以及标点字符的任一者。鉴于有意义的矛盾型式对存在共有共 现的名词对的倾向,将2个型式共有3个共现的单词对那样的7亿9200 万的型式对的集合Pall输入到分类器来使用。

进而,鉴于在一元型式对中,极性相反的一元型式对是相互矛盾的一 元型式对的可能性高这一点,如前述那样,由相反极性对提取部100在集 合Pall中选择这些仅由一元型式的极性相反的型式对构成的集合Popp。 所使用的极性辞典存储装置62存储了通过手工作业附加极性的6470个一 元型式。它们当中的4882个被标注为活性,1558个被标注为非活性。

集合Popp含有800万的一元型式对,这当中约38%是真的矛盾对, 将其输入到SVM104(图3参考)。

学习数据作成部106进行的作业,以3人的作业者的多数决定来进行。 其结果,存储于学习数据存储装置108的学习数据包括796个型式对,对 这当中238对附加矛盾对这样的签注,对558对附加非矛盾对的签注。这 些一元型式对从分布相似度高的一元型式对中选择,不管极性是否相反。

从集合Pall中进一步提取含有矛盾的一元型式的256000个型式对、 和含有非矛盾的一元型式的520万个型式对。将它们分别用作肯定学习数 据以及否定学习数据。

预先使用开发数据来决定存储于学习数据存储装置108的学习数据的 构成比例。在该决定作业中,使用通过手工作业附加签注的1000个样本。 一边对6250个~50000个肯定样本(4个集合)、12500个~200000个否 定样本(5个集合)在每一步使个数加倍,一边进行20种类的分类器的学 习。其结果得到的最佳的学习数据集含有12500个肯定样本和10万个否 定样本。在实验中使用该样本。

在SVM的学习中,使用二次多项式核的TinySVM(后述的参考2)。 该设定表示在事前的预备测试中最好的成绩。

在该设定下进行实验,调查将给相反极性对存储装置102的输入型式 限定在极性相反的型式对所带来的效果。在实验中,将通过手工作业附加 了签注的2000个样本所构成的测试集、和对集合Pall当中分数靠前的样 本通过3人的作业者的手工作业以多数决定附加了签注的250个样本作为 给SVM104的输入,对集合Popp和Pall双方的靠前200万的型式对进行 分类,描绘其结果的精度曲线。

图6所示的精度曲线将型式对按照分类结果的分数降序进行排序,在 纵轴示出在从前起依次取出横轴所示个数的型式对时该型式对的集合的 精度(相对于取出的型式对的数量的、分类结果为正确的型式的数量的比 例)成为何种程度。如图6所示那样,可知,对集合Popp得到的精度曲 线242相对于对集合Pall得到的精度曲线240高很多。即,能确认,通过 由相反极性对提取部100限定在候补型式对当中的极性相反的型式对,精 度提高。

[实验2]

在实验2中,也如上述那样使用开发集和测试集。为此,对3人的作 业者进行委托,对3000个二元型式分别进行关于是矛盾型式对还是非矛 盾型式对的签注附加。该3000个型式对是从集合Popp随机选择的型式对。 将该3000个型式对中的1000个作为开发集,将2000个作为测试集。在3 人的作业者进行的签注附加中,通过多数决定来决定型式对的签注。另外, 该开发集和实验1中决定存储于学习数据存储装置108的学习数据的构成 比例时使用的、通过手工作业进行了签注附加的1000个样本所构成的数 据相同。

作为「矛盾」的定义,采用作为参考3在后面叙述的文献所提出的 incompatibility(不相容,2个语句同时成为真非常少见)这样的条件。其 结果,使得可以说例如「XがYを引き起こす(X引起Y)」以及「XがY を防ぐ(X防止Y)」这样的型式对是相互矛盾的,是将这些型式内的可 变要素部分的属于意义上的归类的名词对的任一者代入到各可变要素部 分中上述条件都成立的情况。

在实验中,对以下的3种的分类结果进行比较。将结果在图7示出。

·PROPOSED:[精度曲线260]上述实施方式的SVM142的输出。对学 习数据追加的型式对的个数N,按照利用开发集的事前的实验结果,设为 能得到最高精度的6000个。

·BASE:[精度曲线264]图3所示的SVM104的输出。

·PROP-SCORE:[精度曲线262]和PROPOSED基本相同,取代分数 CDP而使用SVM104的分数。个数N设定为30000。

参考图7可知,PROPOSED相对于BASE示出高的精度。通过 PROPOSED,能以精度约80%得到750000个矛盾型式对。将这些矛盾型 式对和反义词辞典对照,可知这些型式对当中含有反义词对的型式对仅有 100886个。即,可知,提取的矛盾型式对不是仅由反义词对构成,而是包 含大量表示更复杂的意味上的矛盾的型式对。

在相同的精度80%下,从BASE和PROP-SCORE分别仅得到285000 个和636000个矛盾型式对。根据其结果可知,如上述实施方式那样,用 在2阶段提取矛盾型式对的方法,正确提取的矛盾型式对的数量成为2倍 以上,其范围也变宽;还有,在第2阶段对学习数据追加候补对时使用分 数CDP,比使用第1阶段的SVM104的分数的方法能更正确地提取更多 的矛盾型式对。

[计算机的实现]

上述实施方式所涉及的矛盾型式对收集装置40能通过计算机硬件、 和在该计算机硬件上执行的计算机程序实现。图8表示该计算机系统530 的外观,图9表示计算机系统530的内部构成。

参考图8,该计算机系统530包括:具有存储器端口552以及DVD (DigitalVersatileDisc,数字多功能盘)驱动器550的计算机540;键盘 546;鼠标548;和监视器542。

参考图9,计算机540除了包括存储器端口552以及DVD驱动器550 以外,还包括:CPU(中央处理装置)556;与CPU556、存储器端口552 以及DVD驱动器550连接的总线566;存储引导程序等的读出专用存储 器(ROM)558;与总线566连接、存储程序命令、系统程序以及作业数 据等的随机存取存储器(RAM)560;和硬盘554。计算机系统530为了 能进行与其他终端的通信,还包括提供向互联网32的连接的网络接口 (I/F)544。

用于使计算机系统530作为上述的实施方式所涉及的矛盾型式对收集 装置40的各功能部发挥功能的计算机程序,存储在装备于DVD驱动器 550或存储器端口552的DVD562或可移动存储器564,进而转发给硬盘 554。或者,程序也可以经过互联网32发送给计算机540,存储在硬盘554。 程序在执行时装载到RAM560。也可以从DVD562、从可移动存储器564 或经由互联网32直接将程序装载到RAM560。

该程序包括用于使计算机540作为上述实施方式所涉及的矛盾型式对 收集装置40的各功能部发挥功能的多个命令所构成的命令列。计算机540 进行该动作所需的几个基本的功能,能通过在计算机540上动作的操作系 统或第三方的程序或安装在计算机540的各种编程工具包或程序库(例如 SVM用的计算机程序库)在程序作成时静态链接,还能在程序的执行时 动态链接。因此,该程序自身在流通时不一定非要含有用于实现实施方式 的系统以及方法而需要的全部功能。该程序仅含有命令当中的如下命令即 可:以控制为能得到所期望的结果的方式将合适的功能、或编程工具包、 或程序库内的合适的程序在执行时动态进行调用,来实现作为上述的系统 的功能。当然,也可以将程序需要的功能全部静态链接,构成为即使没有 其他资源也能动作。

[参考文献·Web页一览]

<参考1>S.KurohashiandM.Nagao.1994.KNparser:Japanese dependency/casestructureanalyzer.InProceedingsoftheWorkshopon SharableNaturalLanguageResources,page48-55.

<参考2>http://chasen.org/~taku/software/TinySVM/

<参考3>M.-C.DeMarneffe,A.N.Rafferty,andC.D.Manning.2008. Findingcontradictionsintext.ProceedingsofACL2008,page1039-1047.

本次公开的实施方式仅是例示,本发明并不仅限制在上的实施方式。 本发明的范围在参酌发明的详细的说明的记载的基础上由权利要求的各 权项给出,包含与在其中记载的文言等同的意义以及范围内的全部变更。

例如,在上述实施方式中,作为分类器而使用SVM。但本发明并不 限定于这样的实施方式。例如能使用朴素贝叶斯分类器、最大熵模型等基 于监督学习的分类器。

产业上的利用可能性

本发明能为了从日常使用的语言收集相互矛盾的表现而使用。进而, 本发明能为了例如传媒机构、出版社、一般的法人、个人等发出信息时, 能通过发现矛盾的表现来验证其内容的正当性,或者以防止由于对同一事 物使用矛盾的表现而使读者混乱为目的来验证信息所具有的逻辑而使用。 特别在事故以及灾害的发生时等、难以进行可靠性的验证且短时间内流通 大量的信息的情况下,能有助于传媒机构、行政机关以及各个个人准确取 舍选择信息而采取合适的行动。

标号的说明

30Web提问应答系统

32互联网

34PC

40矛盾型式对收集装置

42矛盾型式对存储装置

44矛盾表现的提示系统

60候补型式对存储装置

62极性辞典存储装置

64包含关系存储装置

66非矛盾型式对存储装置

68矛盾型式对分类部

80第1阶段矛盾型式对分类部

82矛盾型式对中间存储装置

84非矛盾型式对中间存储装置

86第2阶段矛盾型式对分类部

100相反极性对提取部

102相反极性对存储装置

104、142SVM

106学习数据作成部

108学习数据存储装置

110、140SVM学习部

130追加矛盾型式对导出部

132追加矛盾型式对存储装置

134评分部

136学习数据扩展部

138扩展学习数据存储装置

200候补对判定部

202副分数算出部

218分数确定部

220靠前候补提取部

222候补合并部

224否定清除处理部

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号