首页> 中国专利> 文本匹配装置以及方法、和文本分类装置以及方法

文本匹配装置以及方法、和文本分类装置以及方法

摘要

本发明提供可靠性高地自动收集属于某归类的信息并合适且及时地进行匹配的系统。文本分类装置(30)用词素解析部(52)和依赖被依赖解析部(54)对收集的文本的依赖被依赖进行解析。问题报告收集装置(64)基于文本的依赖被依赖关系确定文本中的由名词+谓语构成的核,使用名词的分类(负面系/非负面系)和谓语的分类(活性/非活性)的组合以称作核结构矩阵的手法将文本分类为问题报告和除此以外的部分。支援信息收集装置(66)、需求联络收集装置(68)也同样收集支援信息、需求联络。匹配装置(76)将合适的支援信息(问题信息)相对于用称作共现核矩阵的手法使由问题报告收集装置(64)以及支援信息收集装置(66)收集的问题报告以及支援信息匹配而得到的问题信息(支援信息)建立关联。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-07

    授权

    授权

  • 2016-03-16

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140515

    实质审查的生效

  • 2016-02-17

    公开

    公开

说明书

技术领域

本发明涉及用于整理因特网等网络上的信息并提示给用户的技术,特 别涉及取得在网络上的各种系统投稿的信息之间的匹配、对需要某些信息 的用户效率良好地提供所需要的信息的系统。

背景技术

因特网普及,在其上运行各种系统。例如在因特网上,不仅Web页 面以及博客等,Twitter、Facebook、LinkedIn等所谓的社交网络服务(SNS) 的利用也不断推进。这样的系统用在用户间的信息交换等中,能实现因特 网的普及前无法想象的信息的流通。在这样的系统上,经常流过庞大的信 息,在要搜索某个人对某问题的回答时,存在该回答的可能性极高。但是, 从大量的信息中发现自己所找寻的信息是不可能的。

在以满足这样的需要为目的的服务中,有所谓的信息检索服务。在典 型的信息检索服务中,经常从因特网上收集大量的信息,将其数据库化并 附加索引。在接收到某些信息检索请求(例如指定了关键词的信息检索请 求)时,这些提供服务的网站的计算机(群)通过利用了关键词的索引检 索对关联信息进行检索,附加基于信息检索技术而定义的评分(表征针对 检索请求的回答的准确度的数值),以该评分的降序将数据回发给检索的 请求者。将该信息以作为针对基于关键词的检索请求的回答认为合适的顺 序提供给用户。其结果,用户若连接到这样的信息检索服务来进行检索, 就能某种程度取得自己所需要的信息。

然而,由于在网络上充满大量的信息,因此在用户进行信息检索时, 有较多情况下极难搜索所寻求的信息这样的问题。例如,在显示的项目多、 用户不需要的信息靠前显示的情况下,用户需要追加合适的关键词,或者 变更关键词,或者变更检索条件来缩小检索结果。但是在成为基础的信息 过多的情况下,难以寻找能找出准确的信息的关键词。

但是,在因特网上,对于针对某问题的解决方案、某支援信息,存在 与需要其的人的需求相关的记载(以下将其称作「需求联络」)等的可能性 极高。例如考虑某用户在博客等记载、发送关于「妹妹正在为特应症困扰」 这样的问题的报告的情况。如此,以下将针对问题进行报告的记载称作「 问题报告」。在Web上,对这样的问题报告,存在「从附近的医生听说了甜 茶对特应症有效这样的说明」等这样的为了解决问题而有用的信息,这是 毫无疑问的。以下将这样的信息称作「支援信息」。另外,在发送了如「在计 算机的某OS上运行的应用X被强制关闭了。正头疼呢,请教不会强制关 闭的方法」那样需求什么的记载(以下将这样的记载称作「需求联络」)的情 况下,认为「若使用软件a,应用X就不会崩溃了」这样的解决方案存在于 Web上几乎毫无疑问。但是,如前述那样,由于在因特网上充满信息,用 户准确入手自己所寻求的信息是极其困难的。因特网上的信息越多则这样 的问题越大,用户所寻求的信息越详细,则越难解决。

这样的问题特别显著化是在灾害时。当前,在灾害时在因特网上产生 大量的信息。不能使用电话的可能性也很高。为此,在人以及组织间的沟 通中产生大的困难。

灾害时最成为问题是如何早期支援受灾者、和使受灾者所需要的支 援、和支援组织等所提供的支援持续有效率地匹配。若在受灾者和支援团 体等间的沟通顺畅进行,就有能迅速进行对受灾者的支援的可能性。但是, 如前述那样,在灾害时,受灾者和支援团体等的沟通变得极端困难。若时 间流逝,则信息的数量会进一步变多,会变得难以找出需要的信息。为此, 考虑不能将合适的支援物资送到需要某些支援的受灾者的身边的情形。

例如,在2011年3月的东日本大地震中,经由Web以及SNS等,从 受灾者大量发送了「在○○市过敏体质的幼儿用奶粉不足」这样的问题报 告、和「请向○○市送去过敏体质的幼儿用奶粉」这样的需求联络等。但是, 这些信息埋没在和地震一起产生的大量的信息中,其中的大量信息未被能 提供支援的行政机关、支援团体、志愿者等认识到。另一方面,行政机关、 支援团体以及志愿者们也发送了「将二千个用于过敏体质的儿童的奶粉送 到了○○市」这样的支援信息,但其大部分并未送到需要信息的受灾者。 即使在行政机关、支援团体或志愿者等成功认识到来自受灾者的问题以及 需求的情况下,也会产生多个组织应对相同问题以及需求的结果,在1个 地方集中必要以上的支援物资,不仅浪费支援物资以及时间还会产生使支 援物资的保管变得困难这样的问题。本来只要将需要量送到受灾者身边, 应将这以外的支援物资送往其他受灾者。认为这样的问题都是由实际需要 救援的人们、和要进行支援的人们未进行良好的沟通引起的。

其中,这样的问题并不限于灾害时,在日常中也会发生。例如在寻找 针对与计算机相关的某问题的回答、或者寻找针对特应症的对策的情况 下,也能在所谓的检索服务网站寻找回答。但能在检索网站检索的信息不 仅包含针对问题的回答,还包含这以外的大量的信息。因此,对寻找针对 特定的问题的回答的用户而言,特别是对早期发现合适的回答是很重要的 用户而言,检索网站用起来绝不容易。

反之,要提供对某问题自己解决的结果的用户对需要该回答的用户及 时给出回答也是困难的。若碰巧另外的用户知道寻求针对某问题的回答这 件事,并且自己知道针对该问题的回答,则向该用户联络回答并不难。但 是,在因特网那样大量用户发送大量信息的地方,这样的情况极其稀少。 谋求用于将有用的信息及时联络给合适的人或组织的机制。为此,需要收 集问题报告、需求联络以及支援信息、并合适地使它们匹配的技术。

发明的概要

发明要解决的课题

关于确定、收拾问题报告这样的技术,作为在投稿于SNS的讯息中确 定、收集与流行性感冒的流行相关的问题报告的技术,有在AronCulotta. 2012.Lightweightmethodstoestimateinfluenzaratesandalcoholsales volumefromtwittermessages.LanguageResourcesandEvaluation,pages1- 22中公开的技术。另外,作为在投稿于SNS的讯息的中确定、收集与山 火相关的问题报告的技术,有在SarahVieweg,AmandaL.Hughes,Kate Starbird,andLeysiaPalen.2010.Microbloggingduringtwonaturalhazards events:whattwittermaycontributetosituationalawareness.InProceedingsof theSIGCHIConferenceonHumanFactorsinComputingSystems,CHI’10, pages1079-1088,NewYork,NY,USA.ACM.中公开的技术。但在这些技 术中有以下那样的问题。

现有技术限定特定的灾害(例如:山火)或传染病(例如:流行性感 冒)等对象来确定、收集问题报告。但是,特别是在灾害等中,很多情况 下会从1个问题向想定外的问题发展。例如在东日本大地震中,地震向海 啸以及核电站事故发展。进而,作为面对放出的辐射能的对策,由于封闭 房间,怠于换气,会出现产生一氧化碳中毒这样的问题。即,仅限于特定 的范畴来收集问题报告并不充分,需要没有这样的制约地进行问题报告的 确定、收集。若能这样,则不仅能确定、收集特定的范畴的问题,还能确 定、收集到从该问题派生的二次的问题。

关于确定、收集需求联络的技术,通过以有教师学习来作成讯息的分 类器,确定、收集需求联络的技术在AndrewB.Goldberg,NathanaelFillmore, DavidAndrzejewskiZhitingXu,BryanGibsonandXiaojinZhu2009.May AllYourWishesComeTrue:AStudyofWishesandHowtoRecognizeThem. InHumanLanguageTechnologies:The2009AnnualConferenceoftheNorth AmericanChapteroftheACL,pages263-271,Boulder,Colorado,USA. ACM.中公开。同样地,以无教师学习来作成分类器来确定、收集需求联 络的技术在HiroshiKanayamaandTetsuyaNasukawa.2008.Textualdemand analysis:Detectionofusers’wantsandneedsfromopinions.InProceedingsof the22ndInternationalConferenceonComputationalLinguistics(Coling 2008),pages409-416,Manchester,UK,August.Coling2008Organizing Committee中公开。这些手法使用所谓的机器学习的手法。

在这些分类器中,作为一般的特征,利用被称作需求模板或请求标志 的表现的列表(例如:Iwish...(我想...)、Please...(请...)、~ほし い(希望~)、~ください(请~)),但有若不是与这样的表现一致或 类似的信息就不能收集这样的问题。因此,发现和它们不同的贡献于确定 需求的新的特征成为课题。

进而,作为收集需求联络和支援信息的技术,有在RobertMunro.2011. Subwordandspatiotemporalmodelsforidentifyingactionableinformationin HaitianKreyol.InProceedingsoftheFifteenthConferenceonComputational NaturalLanguageLearning,pages68-77,Portland,Oregon.ACM.公开的技 术。但在该技术中,不区别需求联络和支援信息地进行收集。在作为现实 的请求而要进行问题联络、支援信息或需求联络、和支援信息的自动匹配 的情况下,就必须区别需求联络和支援信息,仅以现有技术不能达成。

进而,在网络上收集问题报告、和解决在问题报告报告的问题的支援 信息,进行自动匹配的技术,或者自动在网络上收集并匹配需求联络、和 该需求联络所涉及的需求得以满足的支援信息的技术,当前不能找出。为 了使问题联络和支援信息匹配,需要基于位于问题联络中的表现来确定需 要怎样的支援信息的技术、或者从位于支援信息中的表现来确定与这样的 问题联络对应的技术。认为到目前为止自动进行上述技术是困难的课题。

发明内容

因此本发明的目的在于提供文本匹配装置以及文本分类装置,能自 动、且可靠性高地收集如一般的问题报告、需求联络以及解决由它们报告 的问题或使需求充足的支援信息那样属于某归类的信息,并合适且及时地 匹配信息。

用于解决课题的手段

本发明的第1局面所涉及的文本匹配装置在分类为第1归类或第2归 类的文本的集合中将第2归类的文本相对于第1归类的文本建立对应。包 含于集合中的文本通过利用了机器学习的文本分类装置被分类为第1以及 第2归类,所述机器学习将构成该文本的1个或多个词素、该1个或多个 词素的依赖被依赖信息、以及由包含于文本中的名词和该名词所依赖的谓 语的组合构成的句的核内所含的名词的分类和谓语的分类的组合用作特 征。该文本匹配装置包括:存储单元,其将第1归类的文本和第2文本相 互区别地存储;文本配对生成单元,其从存储单元输出由第1归类的文本 和第2归类的文本构成的文本的配对;匹配用特征生成单元,其从配对生 成匹配用的特征,所述匹配用的特征包含用文本分类装置对由文本配对生 成单元生成的配对内的文本进行了分类时的特征;和匹配单元,其使用由 匹配用特征生成单元生成的匹配用特征来判定构成配对的2个文本相互是 否匹配。匹配单元包含机器学习模型,所述机器学习模型预先使用匹配用 的学习数据,根据匹配特征来判定文本的配对是否匹配,从而学习完毕。

优选地,匹配用特征还包括:针对配对内的各个文本求得的包含核内 的名词的依赖被依赖关系的子树上的n-gram。该n-gram的任一者包含 时间信息、地域信息、或表征各文本的情态的词素、或者它们的任意的组 合。

更优选地,第1归类以及第2归类中的一个归类是由表征问题的报告 的文本构成的归类,另一个归类是由表征用于解决问题的支援信息的文本 构成的归类。

第1归类以及第2归类的一个归类是请求问题的解决的文本,另一个 归类是表征用于解决问题的支援信息的文本。

本发明的第2局面所涉及的文本分类装置是和第1局面所涉及的文本 匹配装置一起合适地用、用于将文本分类为与问题的报告或解决关联的特 定的归类的装置。本装置包括:词素解析单元,其对文本进行词素解析, 输出附加了词类信息的词素串;依赖被依赖解析单元,其对词素解析单元 所输出的词素串解析词素间的依赖被依赖,输出表征文本的依赖被依赖关 系的依赖被依赖信息;和分类单元,其基于词素串、和文本的依赖被依赖 关系来确定由包含于文本中的名词、和该名词所依赖的谓语的组合构成的 句的核,使用该核内的名词的分类和谓语的分类的组合来将文本分类为特 定的归类和除去特定的归类以外的归类。

优选地,分类单元包括:核确定单元,其基于词素串、和文本的依赖 被依赖关系来确定由包含于文本中的名词、和该名词所依赖的谓语的组合 构成的句的核;名词分类单元,其将由核确定单元确定的核内的名词分类 为与问题的发生关联的问题系的名词、和不与问题的发生关联的非问题系 的名词;谓语分类单元,其将由核确定单元确定的核内的谓语分类为表征 使由依赖该谓语的名词表征的事物功能活性化的谓语、或者表征使由依赖 该谓语的名词表征的事物功能非活性化的谓语;和进行分类的单元,其对 由核确定单元确定的核,根据由名词分类单元对该核内的名词分类的结 果、和由谓语分类单元对在该核内该名词所依赖的谓语分类的结果的组 合,来将文本分类为特定的归类和除去该特定的归类以外的归类。

更优选地,进行分类的单元至少包括:判定单元,其基于机器学习来 进行判定,关于由核确定单元确定的核,将表征名词分类单元对该核内的 名词进行了分类的结果、谓语分类单元对在该核内该名词所依赖的谓语进 行了分类的结果的组合的信息作为特征,判定被赋予的文本是否属于特定 的归类。

特征也可以还包括:针对各个文本求得的包含核内的名词的依赖被依 赖关系的子树上的n-gram,该n-gram的任一者包含时间信息、地域信 息、或表征各文本的情态的词素、或者它们的任意的组合。

本发明的第3局面相关的计算机程序若被计算机执行,就使该计算机 作为上述的任一者的文本分类装置或文本匹配装置的全部单元发挥功能。

本发明的其他的局面所涉及的文本匹配方法是在分类为第1归类以及 第2归类的文本的集合中,将第2归类的文本相对于第1归类的文本建立 对应的文本匹配方法。包含于集合中的文本通过利用了机器学习的文本分 类装置被分类为第1以及第2归类,所述机器学习将构成该文本的1个或 多个词素、该1个或多个词素的依赖被依赖信息、以及由包含于文本中的 名词和该名词所依赖的谓语的组合构成的句的核内的名词的分类和谓语 的分类的组合作为特征。该文本匹配方法包括:进行存储的步骤,将第1 归类的文本、和第2文本相互区别地存储在存储装置;文本配对生成步骤, 从存储装置生成由第1归类的文本和第2归类的文本构成的文本的配对; 匹配用特征生成步骤,从配对生成匹配用的特征,该匹配用的特征包含用 文本分类装置对在文本配对生成步骤生成的配对内的文本分类时的特征; 和匹配步骤,使用在匹配用特征生成步骤生成的匹配用特征来判定构成配 对的2个文本相互是否匹配。匹配步骤包括:进行判定的步骤,使用机器 学习模型来判定构成配对的2个文本相互是否匹配,该机器学习模型预先 使用匹配用的学习数据,根据匹配特征来判定文本的配对是否匹配,从而 学习完毕。

本发明的再其他局面所涉及的文本分类方法是用于将文本分类为与 问题的报告或解决关联的特定的归类的文本分类方法。本方法包括:词素 解析步骤,对文本进行词素解析,输出附加了词类信息的词素串;依赖被 依赖解析步骤,对在词素解析步骤输出的词素串解析词素间的依赖被依 赖,输出表征文本的依赖被依赖关系的依赖被依赖信息;和分类步骤,基 于词素串、和文本的依赖被依赖关系来确定由包含于文本中的名词、和该 名词所依赖的谓语的组合构成的句的核,使用该核内的名词的分类和谓语 的分类的组合来将文本分类为所述特定的归类和除该特定的归类以外的 归类。

附图说明

图1是本发明的1个实施方式所涉及的问题报告/支援信息匹配系统的 框图。

图2是简化表示图1所示的问题报告收集装置的构成的框图。

图3是简化表示图1所示的问题报告/支援信息匹配装置的构成的框 图。

图4是表示使用匹配信息的问题/需求/支援信息匹配系统的输入画面 的一例的示意图。

图5是表示问题/需求/支援信息匹配系统的输出画面的一例的图。

图6是表示在问题/需求/支援信息匹配系统中搜索与输入匹配的信息 的程序的一例的控制结构的流程图。

图7是实现本发明的实施方式所示的系统的计算机系统的示意图。

图8是表示图7所示的计算机系统的硬件构成的框图。

具体实施方式

在以下说明的实施方式的说明以及附图中,对相同部件标注相同参考 标号。它们的名称以及功能也相同。因此,不再重复对它们的详细的说明。

[基本的思路]

最初说明用于确定、收集属于问题报告、需求联络以及支援信息这3 个归类的文本的核构成矩阵手法(表1),接下来说明其作用和效果。接 下来,在说明为了问题报告和支援信息的匹配、需求联络和支援信息的匹 配而开发的共现对矩阵手法(表2)后,叙述其作用、效果。另外,以下 有时将属于问题报告这样的归类的文本、属于需求联络这样的归类的文本 以及属于支援信息这样的归类的文本分别称作问题报告、需求联络以及支 援信息。

<核构成矩阵手法>

[表格1]

表1:核构成模板

负面表现 非负面表现 活性模板 问题核(1) 支援核(1)(需求核(1)) 非活性模板 支援核(2)(需求核(2)) 问题核(2)

在本实施方式中,为了问题报告、需求联络、支援信息的确定、收集, 使用被称作核构成矩阵手法的新的方法。参考表1,该手法根据名词的分 类和谓语的极性的组合来将文本中所表现的名词和谓语的依赖被依赖关 系细分化。在此,将名词分类为负面(trouble)表现和非负面表现,将 谓语的极性分类为活性和非活性。按照该极性将各谓语分类为活性模板和 非活性模板。

所谓负面表现,是表征问题或负担的名词。例如符合「故障」、「流行性 感冒」、「过失」、「淤泥」、「流行性感冒」、「特应症」等。所谓非负面表现, 是「浴室」、「医疗用品」、「食品」等一般不表征问题或负担的表现。

所谓活性模板,是指以包含变量X的表现型式来表示使由变量X表 征的事物的功能等「开启」(使功能等活性化)这一情况的助词和谓语的组 合。例如符合「引起X(Xを引き起こす)」、「使用X(Xを使う)」、「购 买X(Xを買う)」、「使X进展(Xを進行させる)」、「引进X(Xを輸 入する)」、「X增加(Xが増える)」等。这些都是使由X表征的事物的 功能得以发挥的表现。

所谓非活性模板,是指以包含变量X的表现型式表示使由变量X所 表征的事物的功能等「关闭」(使功能等非活性化)这一情况。例如符合「防 止X(Xを防ぐ)」、「丢弃X(Xをてる)」、「X减少(Xが減す)」、 「破坏X(Xを破壊する)」、「不能实现X(Xが不可能になる)」。

在本说明书中,将活性和非活性汇总称作「极性」。

如此在核构成矩阵手法中,将名词和谓语分别分类成2种。其结果得 到4个分类。细分化为这4个分类的依赖被依赖关系是以下的4个类型。

(A)问题核(1)

所谓问题核(1),是指名词+谓语当中的名词=负面表现且谓语=活 性模板的依赖被依赖表现。例如符合「淤泥积蓄(へドロが蓄積する)」(淤 泥=负面表现、X积蓄=活性模板)等。符合问题核(1)的依赖被依赖 关系表征使符合负面表现的问题或负担的功能开启,有表示问题存在、影 响波及到等的倾向。

(B)问题核(2)

所谓问题核(2),是指名词为非负面表现且谓语为非活性模板的依 赖被依赖关系。例如符合「不能使用浴室(お風呂に困る)」(浴室=非负 面表现、不能使用X=非活性模板)等。灾害时,由于断水或停电而不能 进入浴室成为问题,是在这样的情况下产生的可能性高的表现。符合问题 核(2)的依赖被依赖关系表征使符合非负面表现的事态的功能关闭,有 表示不使应对或支援行为等发挥功能等的倾向。

(C)支援核(1)

所谓支援核(1),是指名词为负面表现、谓语为非活性模板的依赖 被依赖关系。例如符合「除去淤泥(へドロを除去する)」(淤泥=负面表 现、除去X=非活性模板)等。符合支援核(1)的依赖被依赖关系通过 表征使符合负面表现的问题或负担的功能关闭而有表示问题的解决或弱 化等的倾向。

(D)支援核(2)

所谓支援核,是指名词为非负面表现、谓语为活性模板的依赖被依赖 关系。例如符合「开放浴室(お風呂を開放する)」(浴室=非负面表现、 开放X=活性模板)等。符合支援核(2)的依赖被依赖关系表示使符合 非负面表现的事态的功能开启,有执行或在准备应对或支援行为等的倾 向。

在本实施方式中,将对支援核赋予了请求标志的结果设为需求核。请 求标志和现有技术当中的在需求事项的收集中使用的标志相同。在需求核 中有以下的2个类型。

(E)需求核(1)

需求核(1)是指对支援核(1)赋予了请求标志的结果。例如符合「请 清除淤泥(へドロを片付けてください)」(淤泥=负面表现、清除X= 非活性模板、请=请求标志)等。符合该类型的依赖被依赖关系请求使符 合负面表现的问题或负担的功能关闭,有表示针对问题的解决或弱化等的 需求的倾向。

(F)需求核(2)

需求核(2)是指对支援核(2)赋予了请求标志的结果。例如符合「お 風呂を提供してほしい(希望提供浴室)」(浴室=非负面表现、提供X =活性模板、希望=请求标志)等。符合该类型的依赖被依赖关系请求使 符合非负面表现的事态的功能开启,因此有表示针对应对或支援行为等的 执行或准备的需求的倾向。

在本实施方式中,通过使用这6个类型的核,能提升问题报告/需求联 络/支援信息的确定、收集的性能。更具体地,将句子的核(名词+谓语) 是这些类型的哪一者的信息用作使用于将因特网上的各种讯息分类的分 类器学习的特征。以下具体进行说明。

<问题核的作用和效果>

在问题报告中,能看到包含2个问题核的任一者的倾向。例如在「在 ○○市过敏用的奶粉缺乏」这样的问题报告中,包含符合问题核(1)的表 现。为此,作为分类器的特征,将文本中有无问题核作为分类器的特征来 利用。根据后述的实验,在利用了该特征的情况下,和不利用的情况比较, 明显提升了问题报告的确定、收集的性能。

<支援核的作用和效果>

在支援信息中,能看到包含2个支援核的任一者的倾向。例如「在○ ○市政厅分发过敏幼儿用的奶粉」这样的支援信息包含符合「分发奶粉」(奶 粉=非负面、分发X=活性模板)这样的支援核的表现。为此在本实施方 式中,作为分类器的特征,利用在文本中有无支援核。如后述那样,在利 用了该特征的情况下,和不利用的情况比较,根据实验的结果,明显提升 了支援信息的确定、收集的性能。

<需求核的作用和效果>

在需求联络中,能看到包含2个需求核的任一者的倾向。例如「请将 过敏幼儿用的奶粉送到○○市!」这样的需求联络包含符合「请送奶粉」(奶 粉=非负面、送X=活性模板、请=请求标志)这样的需求核(2)的表 现。为此在本实施方式中,作为分类器的特征,利用在文本中有无需求核。 在利用了该特征的情况下,和不利用的情况比较,根据实验的结果,明显 提升了需求联络的确定、收集的性能。

<共现对矩阵手法>

在本实施方式中,为了问题报告和支援信息的匹配、以及需求联络和 支援信息的匹配,使用称作「共现对矩阵手法」的新的手法。该手法能在例 如包含于问题报告的问题核和包含于支援信息的支援核共有相同的名词 的情况下,对由该问题报告和支援信息构成的配对运用。在需求联络和支 援信息的配对的情况下也同样。该手法将这些配对的种类根据包含于它们 中的核的分类、和谓语的极性来细分化。在共现对矩阵手法中,在下面的 表2中示出将根据核的种类和包含于核中的谓语的极性进行的分类矩阵化 的产物。

[表格2]

表2

用共现对矩阵手法细分化的配对是以下的2个类型。

(1)问题核-支援核配对

是指核的种类为问题核和支援核、且谓语的极性在问题核和支援核中 成为相反的配对的产物。即,符合问题核(1)和支援核(1)的配对、或 者问题核(2)和支援核(2)的配对。不符合核成为其他关系的配对。问 题-支援核配对的示例如以下的表3所示那样。各个核以共有相同的名词 为前提。

[表格3]

表3

(2)需求核-支援核配对

是指核的种类为需求核和支援核、且谓语的极性为需求核和支援核相 同的配对。即,需求核(1)和支援核(1)的配对符合需求核(2)和支 援核(2)的配对。不符合核成为其他关系的配对。需求核-支援配对的 示例如以下的表4所示那样。这种情况下,也以各个核共有相同的名词为 前提。

[表格4]

表4

将问题核和支援核的配对、以及需求核和支援核的配对各自如上述那 样分类为2个类型。通过将该分类用作特征,能提升问题报告和支援信息 的匹配、以及需求联络和支援信息的匹配的精度。

<问题核-支援核配对的作用和效果>

在问题报告和支援信息合适地匹配的情况下,能看出这些信息的组合 包含问题核-支援核配对的倾向。例如,认为「在○○市过敏幼儿用的奶 粉缺乏」这样的问题报告和「在○○市政厅分发过敏幼儿用的奶粉」这样的 支援信息在前者的问题由后者的支援信息解决、或者后者的信息贡献于前 者的问题解决这样的意义上,是合适的匹配。在该配对中,包含符合「奶 粉缺乏分发奶粉」这样的问题核-支援核配对的表现。为此在本实施方 式中,作为分类器的特征,利用在问题报告和支援信息的配对中有无问题 核-支援核配对。如后述那样,在利用了该特征的情况下,和不利用的情 况比较,根据实验结果,明显提升了匹配出合适的问题需求-支援信息配 对的性能。

<需求核-支援核配对的作用和效果>

在合适地匹配出需求报告和支援信息的情况下,能看出这些信息的组 合包含需求核-支援核配对的倾向。例如认为「请将过敏幼儿用的奶粉送 到○○市!」这样的需求联络、和「在○○市政厅分发过敏幼儿用的奶粉」这 样的支援信息在前者的需求由后者的支援信息解决、或者后者的信息贡献 于前者的问题的解决这样的意义上,是合适的匹配。这些信息的组合包含 符合「请送奶粉分发奶粉」这样的需求核-支援核配对的表现。为此,在 以下叙述的实施方式中,作为分类器的特征,利用在需求报告和支援信息 的配对有无需求核-支援核配对。在利用了该特征的情况下,和不利用的 情况比较,根据实验的结果,明显提升了能够匹配出合适的需求联络-支 援信息配对的性能。

[系统的构成]

参考图1,该实施方式所涉及的信息匹配系统30包括:信息收集部 50,其从因特网40收集包含问题报告、需求联络以及支援信息的各种信 息(以下将它们称作“讯息”),并整形成施予后续的信息处理的形式; 词素解析部52,其对由信息收集部50收集、整形的讯息进行词素解析, 以赋予了词类等的信息的词素串的形式输出;依赖被依赖解析部54,其对 词素解析部52输出的词素解析后的讯息进行依赖被依赖解析,将词素间 的依赖被依赖关系赋予讯息并进行输出;地名/场所确定部58,其确定由 依赖被依赖解析部54赋予了依赖被依赖关系的讯息的出处即地名或场所 名,赋予各讯息;和地名/场所辞典存储装置56,其存储地名/场所确定部 58为了确定讯息的出处而利用的地名/场所辞典。在从便携电话等发送的 Twitter等的讯息中,有时不是赋予地名,而是赋予其发送地的纬度/经度 信息。地名/场所确定部58还具有根据这样的纬度/经度信息来确定地名/ 场所名的功能。

信息匹配系统30还包括:信息积蓄部60,其积蓄由信息收集部50 收集、由词素解析部52、依赖被依赖解析部54以及地名/场所确定部58 处理过的讯息;和存储装置62,其容纳在根据机器学习模型进行的用于将 处理对象的信息分类的判定中使用的为了算出多个种类的特征而需要的 信息(分类用特征的生成用数据)。

信息匹配系统30还包括:问题报告收集装置64,其使用存储于存储 装置62的数据,对积蓄于信息积蓄部60的各个讯息算出特征,使用利用 相同特征学习完毕的机器学习模型将讯息分类为属于问题报告这样的归 类的文本和除此以外的文本,来收集问题报告的文本;问题报告积蓄部70, 其积蓄由问题报告收集装置64收集的问题报告;支援信息收集装置66, 其使用存储于存储装置62的数据对积蓄于信息积蓄部60的各个讯息算出 给定的特征,通过使用预先根据学习数据学习完毕的机器学习模型,来将 讯息分类为属于支援信息这样的归类的文本和除此以外的文本,来收集支 援信息;支援信息积蓄部72,其积蓄由支援信息收集装置66收集的支援 信息;需求联络收集装置68,其使用存储于存储装置62的数据对积蓄于 信息积蓄部60的各个讯息算出给定的特征,使用学习完毕的机器学习模 型将讯息分类为属于需求联络这样的归类的讯息和除此以外的讯息,收集 需求联络;和需求联络积蓄部74,其积蓄由需求联络收集装置68收集的 需求联络。问题报告收集装置64、支援信息收集装置66以及需求联络收 集装置68是作为在该信息匹配系统30使信息匹配的准备,为了预先将文 本分类而合适地使用的装置。它们使用相同的特征作为用于分类的机器学 习模型的特征。在学习时、和实际的分类处理时都使用相同的特征。其中, 在学习时人工附加教师数据。

在本实施方式中,问题报告收集装置64、支援信息收集装置66以及 需求联络收集装置68由利用存储于存储装置62的数据的机器学习实现。

作为机器学习的特征,按照核构成矩阵,使用:根据讯息中的核(问 题核、支援核、需求核)所具有的名词的分类(负面系/非负面系)和核的 谓语的极性(活性/非活性)而判定的核的种类;采用未图示的评价表现辞 典而得到的讯息中的评价表现、评价类型以及评价极性;核中的名词的意 义类别;和含有讯息的依赖被依赖关系中包含于核中的名词的n-gram等。 如后述那样,根据该n-gram,包含于讯息中的时间信息、与讯息关联的 地域的信息、和讯息的情态包含在用于匹配的特征中。

所谓讯息的情态,是指与讯息的记载的方法关联的主观的意义内容。 例如在作为“没有水”“送水”这样的配对有以下3个前后文逻辑(A)~ (C)时,用于区别(A)、和(B)以及(C)。

(A)“没有水(水が無い)”“预定送水(水が届く予定ごす)”

(B)“没有水(水が無い)”“送水是谣言(水が届くというのは デマ)”

(C)“没有水(水が無い)”“预测送水(水が届くことを予想し てます)”

在情态的分类的方法中有各种立场,大致划分,有表征针对讯息的内 容的写的人所判断的应有状态的情态、和表征对于读的人的态度的情态这 2种。将前者进一步划分为真伪判断的情态、和价值判断的情态。它们判 定出附随于讯息中的谓语的表现(情态要素)作为线索。例如,作为真伪 判断的情态,有断定、推量、判断、传闻、说明等。在上面的示例中,「 谣言」以及「预测」这样的词表示该句是推量或传闻的种类,在本实施方式那 样的用途中,表示不适于作为匹配的对象。另一方面,在如(A)那样句 的谓语以动词等的终止形结束的情况下,由于是在叙述事实,因此适于作 为匹配的对象。用于判断情态的词较多以讯息的核为中心地配置在与该核 关联的位置。因此,通过将含有在讯息的依赖被依赖关系中包含于核中的 名词在内的n-gram使用在特征中,从而能以考虑了讯息的情态的型式进 行讯息的匹配。

对于与讯息内的时间信息、以及地域相关的信息也是同样。

为了构成与讯息相关的前述的核构成矩阵,存储装置62所存储的信 息包含:存储名词的分类(负面系/非负面系)的未图示的负面表现辞典; 存储谓语的极性(活性/非活性)的未图示的极性辞典;为了确定讯息所含 的评价表现而使用的评价表现辞典;为了判定讯息是否包含某些请求表现 而使用的未图示的请求表现辞典;和用于对各名词确定其所属的意义类别 的名词的意义类别辞典。

所谓评价表现辞典,是如前述那样用于判定在讯息中是否存在针对某 些事物的评价的辞典。所谓评价表现的判定,是以文本文件为输入、使用 机器学习来判定在文本中的各句中是否存在针对某些事态的意见、评判以 及评价(以下将它们汇总称作「评价信息」)的处理。在看到在该句中存在 评价信息的情况下,进行表征该评价信息的表现的提取(评价表现提取)、 该评价信息的意义上的分类(评价类型分类)、以及该评价信息是表征肯 定性的细微差别(积极)还是表征否定性的细微差别(消极)的判定(评 价极性判定)等。

所谓负面表现辞典,是用于判断核的名词表征负面、还是不表征负面 的辞典,收录与疾病、灾害、故障等关联的名词。

极性辞典用于判定包含于核中的助词和谓语的组合是活性、非活性、 还是它们以外。收录各种谓语的表现、和人工判定的各谓语的极性是活性 还是非活性的信息。

请求表现辞典用于判定包含于讯息内或核中的谓语是否包含请求标 志,收录人工收集的请求标志。

所谓意义类别辞典,是收录将单词分类为由意义上类似的单词构成的 类别(意义类别)的情况的辞典。例如将「流行性感冒」、「特应性皮炎」登 录为相同的意义类别。

信息匹配系统30还包括:问题报告/支援信息匹配装置76,其对积蓄 于问题报告积蓄部70的问题报告和积蓄于支援信息积蓄部72的支援信 息,分别从其中各取出1个信息来作成配对,使用学习完毕的机器学习模 型进行该配对内的信息的匹配,输出将匹配的问题报告和支援信息建立关 联的信息(匹配信息)。问题报告/支援信息匹配装置76使用包含基于共 现对矩阵手法分别从问题报告和支援信息得到的特征在内的给定的特征 的组,来对问题报告和支援信息进行匹配。

信息匹配系统30还包括:需求联络/支援信息匹配装置78,其对积蓄 于支援信息积蓄部72的支援信息和积蓄于需求联络积蓄部74的需求联 络,分别从其中各取出1个信息来作成配对,使用学习完毕的机器学习模 型进行该配对内的信息的匹配,输出将匹配的支援信息和需求联络建立关 联的匹配信息。需求联络/支援信息匹配装置78还使用基于共现对矩阵手 法分别从需求联络和支援信息得到的特征,来对需求联络和支援信息进行 匹配。

信息匹配系统30还包括:关联信息DB80,其存储由问题报告/支援 信息匹配装置76以及需求联络/支援信息匹配装置78输出的匹配信息;和 存储装置82,其存储了用于生成在问题报告/支援信息匹配装置76以及需 求联络/支援信息匹配装置78进行的匹配时的匹配用特征的数据(匹配用 特征生成用数据)。关联信息DB80由于是数据库,因此例如能根据各信 息的识别符调用任意的匹配信息,或者调用包括含有特定的关键词的讯息 在内的匹配信息,或者以与特定的地名关联的场所为关键词调用包含任意 的讯息的匹配信息。

问题报告/支援信息匹配装置76和需求联络/支援信息匹配装置78为 互相相同的结构,在本实施方式中,在使用机器学习手法的一例的SVM (SupportVectorMachine,支持向量机)的点上也相同。其中,在SVM 的学习时所用的数据不同。

信息匹配系统30还包括:与因特网连接的Web服务器86;和由利用 了关联信息DB80的用于信息检索的程序构成的输出生成部84。输出生成 部84响应于经由Web服务器86接收到的询问,使用上述的信息匹配系 统30的各部分将包含在该询问中的讯息分类为问题报告、支援信息以及 需求联络并积蓄。输出生成部84还进行包含于询问中的讯息、和已有的 问题报告、支援信息以及需求联络的匹配,将匹配结果积蓄在关联信息 DB80中。输出生成部84进一步从关联信息DB80读出包括在询问中含有 的讯息在内的匹配信息、且满足在询问中含有的检索条件的匹配信息,将 整形过的输出数据经由Web服务器86发送给对方。

只要生成关联信息DB80,之后就能从关联信息DB80内的信息提取 匹配的问题报告和支援信息、或需求联络和支援信息并显示在终端,或者 作为数据提供给其他装置。该处理通过在输出生成部84执行的程序来进 行。在此,作为一例,在输出生成部84实现在经由Web服务器86从其 他终端接受到包含问题报告、需求联络或支援信息等的讯息的输入时返回 与该讯息匹配的讯息的处理。如后述那样,在输出生成部84进行的匹配 中,甚至与发送讯息的位置相关的地理的信息可作为匹配的要素。

不言自明地,该信息匹配系统30通过具有通信功能的计算机硬件、 由该硬件执行的计算机程序、和在该计算机程序的执行时为了输出生成而 需要的数据来实现。这些当中,图1所示的信息收集部50、词素解析部 52、依赖被依赖解析部54以及地名/场所确定部58能容易地通过现有技术 实现。因此,在此,说明从由因特网40收集到的讯息中收集问题报告、 支援信息、需求联络的处理;将这些信息匹配来生成匹配信息并存储的处 理;和利用匹配信息来生成有用的信息的处理。

在图2以框图形式示出图1所示的问题报告收集装置64的构成。图1 所示的支援信息收集装置66以及需求联络收集装置68的构成也和问题报 告收集装置64同样。因此以下主要说明问题报告收集装置64的构成。

参考图2,问题报告收集装置64包括:特征算出部100,其从信息积 蓄部60读出新的讯息,基于输入的讯息的依赖被依赖关系的信息、词素 串等,使用存储于存储装置62的数据来算出给定的特征;SVM102,其基 于用预先根据学习数据由特征算出部100算出的特征学习完毕而输入的特 征矢量,将讯息是否是问题报告的判定结果和其评分一起输出;和选择部 104,其选择由SVM102判定为是问题报告的讯息,附加SVM102的评分 并容纳在问题报告积蓄部70中。SVM102对大量的讯息,使用由从其中 得到的上述的特征的组、和讯息是否表示问题报告的标记(正解数据)构 成的学习数据来学习完毕。在本实施方式中,在使用通过前述的核构成矩 阵这样的思路得到的特征(名词的分类以及谓语的极性)这一点具有特征。

支援信息收集装置66以及需求联络收集装置68也在构成上和问题报 告收集装置64相同。其中,在支援信息收集装置66中,在SVM102的学 习中使用附加了讯息是否是支援信息的标记的学习数据来进行学习这点、 以及在需求联络收集装置68中使用附加了表示讯息是否是需求联络的标 记的学习数据来进行学习这点与问题报告收集装置64不同。

图3是图1所示的问题报告/支援信息匹配装置76的简化的框图。需 求联络/支援信息匹配装置78也基本和问题报告/支援信息匹配装置76构 成相同。因此,以下仅说明问题报告/支援信息匹配装置76的构成。

参考图3,问题报告/支援信息匹配装置76包括:特征算出部130,其 从问题报告积蓄部70以及支援信息积蓄部72双方各读出1个讯息,从该 2个讯息的组使用存储于存储装置82的数据来算出给定的特征,并作为特 征矢量输出;SVM132,其以基于从特征算出部130输出的特征矢量来输 出处理对象的问题报告和支援信息是否匹配的方式预先学习完毕;和选择 部134,其基于SVM132的输出而仅选择特征算出部130处理过的问题报 告和支援信息的组合中进行匹配的组合,并容纳在关联信息DB80。特征 算出部130所算出的特征包含构成基于前述的共现对矩阵手法的特征的「 名词+谓语」的名词中的有无共同词、有无共同的意义类别,进而包含问题 报告收集装置64的SVM102(参考图2)进行的判定时的评分。

关于SVM132,也是根据预先判定为匹配的包含判定的问题报告和支 援信息的学习数据,使用与特征算出部130所算出的特征相同的特征来进 行学习。学习完毕的SVM132若被赋予问题报告和支援信息,则输出它们 是否匹配。

需求联络/支援信息匹配装置78的构成和问题报告/支援信息匹配装 置76相同。但在进行SVM132的学习时的学习数据为与需求联络和支援 信息的组合相关这点上,和问题报告/支援信息匹配装置76的情况不同。

本实施方式所涉及的输出生成部84具有针对用户所输入的讯息输出 与该讯息进行匹配的信息的功能。在此,作为输入的讯息,典型地假设「 应对过敏的幼儿奶不足」、「在○○市政厅分发应对过敏的幼儿奶粉」等那样 的包含问题报告、支援信息或需求联络的任一者在内的讯息。输出生成部 84对应于所输入的讯息相当于它们的哪一者,从关联信息DB80检索与所 输入的讯息进行匹配的信息,并进行一览显示。以下进行说明的是实现输 出生成部84的程序和其输入输出画面的一例。

参考图4,由于从远程的终端经由Web浏览器访问输出生成部84而 显示的输入画面220包括:讯息的输入栏230、与检索相关的日期信息的 输入面板232、地理的条件的输入面板234、和成为对信息匹配系统30发 送检索的请求的触发的检索按钮236。日期信息的输入面板232以及地理 的条件的输入面板234用于在与讯息的输入栏230进行匹配的信息中进一 步以特定的条件缩小信息的范围。在此用日期以及地理的条件来缩小信息 的范围,但也可以进一步将另外的信息(例如关键词、发送者、发送时刻、 完成与否)等作为缩小范围的条件。

图5表示在图4所示的画面输入某些讯息并发送给信息匹配系统30 后从信息匹配系统30返回的画面的一例。在该示例中,画面250包括: 为了确认由用户输入的讯息而显示的输入显示区域260;显示输入的讯息 和进行匹配的信息的匹配信息显示面板262;在地图上以大头针266的形 式显示在匹配信息显示面板262上所显示的讯息的发送地域或关联地点的 地图面板264;为了确认由用户输入的检索条件而显示的检索条件显示面 板268;和改变条件进行检索时由用户操作的再检索按钮270。若点击再 检索按钮270,则显示图4所示的输入画面220。

在图6示出将与使用图4以及图5所示的画面从用户输入的讯息进行 匹配的信息回发给用户终端的程序的控制结构,作为实现输出生成部84 的程序的一例。除此以外输出生成部84也能实现为利用关联信息DB80 的各种形态的Web应用。

参考图6,通过Web服务器86接收到来自用户终端的检索请求,并 移交给输出生成部84,来起动该程序。作为自变量,将由用户输入的讯息、 与日期相关的检索条件以及地理的检索条件交给该程序。也可以将发行了 该请求的终端的GPS信息加入到地理的信息中交给该程序。在该示例中, 将这样的GPS信息作为自变量交给输出生成部84。

最初对讯息进行词素解析(步骤290),输出词素串。对该词素串进 行依赖被依赖解析(步骤292),基于赋予该讯息的地理的信息或GPS信 息,使用图1所示的地名/场所辞典存储装置56来确定发行讯息的场所(步 骤294),并附加在讯息中,追加到图1的信息积蓄部60。这些处理由图 1所示的词素解析部52、依赖被依赖解析部54以及地名/场所确定部58 执行。

接下来,在步骤298按照容纳于存储装置62的信息以及给定的特征 算出方法,从输入的讯息算出讯息的特征的组,形成特征矢量。在接下来 的步骤300,由图1所示的问题报告收集装置64、支援信息收集装置66 以及需求联络收集装置68各自的SVM102(参考图2)判定处理中的讯息 符合问题报告、问题报告以及需求联络的哪一者。判定的结果,若讯息是 问题报告,则积蓄在问题报告积蓄部70,若是支援信息,则积蓄在支援信 息积蓄部72,若是需求联络,则积蓄在需求联络积蓄部74(步骤302)。

如此,将输入的讯息分类为问题报告、支援信息以及需求联络的任一 者来进行积蓄是为了将该讯息作为与之后输入的讯息的匹配对象来进行 追加。

之后判定分类结果如何(步骤304)。在输入的讯息是问题报告或需 求联络的情况下,在步骤306进行和支援信息的匹配,在讯息为支援信息 的情况下,在步骤308将该讯息、和问题报告以及需求联络进行匹配。接 下来,判定步骤306或步骤308的匹配的结果是否有和讯息匹配的信息(步 骤309)。若有和讯息匹配的信息,则将匹配的信息和该讯息建立关联后 追加到关联信息DB80(步骤310)。

之后,基于追加到关联信息DB的匹配信息,在步骤312生成与图5 所示的画面250对应的HTML文件,回发给发送最初的讯息的终端,并结 束针对输入的讯息的处理。

在步骤309的判定为否定的情况下,即在步骤306以及步骤308没有 和输入讯息匹配的信息的情况下,控制前进到步骤314。在步骤314,输 出表示没有和输入的讯息匹配的信息的画面,并结束处理。在该画面中, 例如将「没有和输入讯息匹配的信息,今后若发现了匹配的信息是否进行 通知?」这样的文本显示在画面250,显示选择是否进行通知的按钮等、和 用于输入进行通知时所需要的信息(邮件地址等)的栏、按钮等。在此, 在选择进行通知时,需要如下处理:在关联信息DB80检索包含该讯息的 匹配信息,若发现了某些匹配信息,则将该信息发送给记录的邮件地址。 但是,该信息发送的处理由于与本发明的本质的部分没有直接关联,因此 在此不叙述其详细。

在步骤304判定为输入的讯息不是问题报告、支援信息、以及需求联 络的任一者的情况下,控制前进到步骤316。这种情况下,预测输入的讯 息并非合适的讯息。因此,在步骤316,使画面250显示表示改变先前输 入的讯息的表现等的条件来再度输入讯息的讯息,并结束处理。若用户按 下再检索按钮270,则显示图4所示的输入画面220。用户能改变讯息的 表现、以及日期时间、场所等的检索条件来执行再检索。

[系统的动作]

以上说明的信息匹配系统30如以下那样进行动作。参考图1,在这之 前,图1所示的问题报告收集装置64、支援信息收集装置66、需求联络 收集装置68、问题报告/支援信息匹配装置76以及需求联络/支援信息匹配 装置78的SVM预先以合适的学习数据完成了学习。

信息匹配系统30的信息收集部50最初收集存在于因特网40上的各 种信息,将其赋予词素解析部52。在此,主要收集在例如Twitter等那样 以比较的短的句传递问题报告、需求联络以及支援信息的系统上发送的信 息。词素解析部52对各信息进行词素解析,依赖被依赖解析部54进一步 进行依赖被依赖解析,对各信息附加各句的依赖被依赖信息。地名/场所确 定部58对这些信息进一步赋予与关联的地域或发送的地域等相关的信息。 最终将这些信息积蓄在信息积蓄部60。另外,通常在信息收集部50所收 集的信息中附加发送该信息的日期以及时刻。

问题报告收集装置64的特征算出部100(参考图2)从信息积蓄部60 读出信息,使用存储于存储装置62的特征生成用数据从该信息提取用于 问题报告的判定的特征,并生成特征矢量。在这些特征中,如前述那样, 基于核构成矩阵手法,包含表征与信息中的名词+谓语的名词相关的分类 (负面系/非负面系)、和谓语的极性(活性/非活性)的特征。

SVM102接受该特征矢量,判定与该特征矢量对应的信息是否是问题 报告,输出判定结果。若判定为肯定(信息是问题报告),则选择部104 将该信息追加到问题报告积蓄部70。若判定为否定,则不对该信息进行任 何处理,问题报告收集装置64移转到下一信息的处理。

支援信息收集装置66以及需求联络收集装置68也与问题报告收集装 置64同样地进行动作。其中,各个SVM由于以与问题报告收集装置64 的SVM不同的学习数据进行学习,因此分别判定输入的信息是否是支援 信息,和是否是需求联络。在这以外的点上和问题报告收集装置64、支援 信息收集装置66以及需求联络收集装置68的动作没有不同点。

如此地在问题报告积蓄部70、支援信息积蓄部72以及需求联络积蓄 部74分别积蓄问题报告、支援信息以及需求联络。

每当在问题报告积蓄部70或支援信息积蓄部72积蓄新的信息,问题 报告/支援信息匹配装置76就进行针对该信息的匹配处理。在新的信息为 问题报告的情况下,和积蓄于支援信息积蓄部72的全部支援信息进行匹 配,在新的信息是支援信息的情况下,和积蓄于问题报告积蓄部70的全 部问题报告进行匹配。在此,说明将问题报告新追加到问题报告积蓄部70 时的问题报告/支援信息匹配装置76的动作。

参考图3,特征算出部130若从问题报告积蓄部70读出了新的问题报 告,则读出积蓄于支援信息积蓄部72的支援信息,将各个支援信息和新 的问题报告组合,生成问题报告和支援信息的组合。特征算出部130进一 步对这些组合的全部使用存储于存储装置82的数据来算出特征,生成特 征矢量。这些特征除了包含由问题报告收集装置64使用的全部特征以外, 还包含构成基于前述的共现对矩阵手法的特征的「名词+谓语」的名词中的 有无共同词、有无共同的意义类别,进而包含问题报告收集装置64的 SVM102(参考图2)进行的判定时的评分。

SVM132接受由特征算出部130生成的特征矢量,判定包含在与该特 征矢量对应的组合中的问题报告和支援信息相互是否匹配,输出其判定结 果。

选择部134将SVM132的判定为肯定的组合追加到关联信息DB80, 否则不进行任何处理。

在问题报告/支援信息匹配装置76新读出的信息是支援信息时,问题 报告/支援信息匹配装置76以上述的说明进行将支援信息和问题报告替换 的动作。

因此,由问题报告/支援信息匹配装置76将相互匹配的问题报告和支 援信息建立关联,并不断积蓄到关联信息DB80。

需求联络/支援信息匹配装置78的动作也是同样。因此不重复需求联 络/支援信息匹配装置78的动作的详细情况。在本实施方式中,需求联络/ 支援信息匹配装置78的SVM所使用的特征也与问题报告/支援信息匹配 装置76所使用的特征相同。由需求联络/支援信息匹配装置78将相互匹配 的支援信息和需求联络建立关联,并不断积蓄到关联信息DB80。

如此地,在关联信息DB80中积蓄由相互匹配的问题报告和支援信息 构成的匹配信息以及由支援信息和需求联络构成的匹配信息。若积蓄了该 匹配信息,则之后能对信息进行各种利用。本实施方式中由输出生成部84 执行的处理只是匹配信息的利用方法的一例。在这以外能考虑许多该信息 的利用方法。

考虑要利用本实施方式所涉及的信息匹配系统30的用户遭遇某问题, 希望知道针对该问题的解决方案的情况。用户为了利用信息匹配系统30 而使终端显示图4所示的输入画面220。例如若用浏览器访问用于利用信 息匹配系统30的URL,则显示该画面。

用户在讯息的输入栏230输入表征自己所遭遇的问题、与自己要提供 的支援相关的信息、某些需求事项等的讯息,根据需要在输入面板232以 及输入面板234输入检索条件。若用户点击检索按钮236,则以讯息的文 本、和输入的检索条件为参数,将检索请求发送给信息匹配系统30的Web 服务器86。

参考图1,Web服务器86若接收到该检索请求,则将讯息的文本、 和输入的检索条件作为参数交给输出生成部84。输出生成部84将参数交 给在图6表示控制结构的程序,从而起动该程序。

参考图6,输出生成部84在对输入的讯息进行了词素解析(步骤290)、 依赖被依赖解析(步骤292)以及场所确定处理(步骤294)的基础上, 将输入的讯息和在步骤290、292以及294得到的信息积蓄在图1所示的 信息积蓄部60。在输入了检索条件的情况下,将它们以「在○月○日」、「 在○○中」这样的形态附加在讯息中。

每当在信息积蓄部60积蓄新的信息,问题报告收集装置64、支援信 息收集装置66以及需求联络收集装置68就分别收集问题报告、支援信息 以及需求联络,并分别积蓄在问题报告积蓄部70、支援信息积蓄部72以 及需求联络积蓄部74。

每当新的问题报告或支援信息积蓄在问题报告积蓄部70或支援信息 积蓄部72,问题报告/支援信息匹配装置76就分别从支援信息积蓄部72 以及问题报告积蓄部70检索和该信息匹配的支援信息或问题报告,使将 进行匹配的信息彼此建立关联的信息积蓄在关联信息DB80。同样地,每 当新的信息积蓄在支援信息积蓄部72或需求联络积蓄部74,需求联络/ 支援信息匹配装置78就从需求联络积蓄部74以及支援信息积蓄部72分 别读出和该信息匹配的需求联络或支援信息,使将进行匹配的信息彼此建 立关联的信息积蓄在关联信息DB80。输出生成部84检索关联信息DB80, 提取与输入的讯息建立关联的信息,将该信息一览显示在图5的匹配信息 显示面板262。在建立关联的信息众多的情况下,匹配信息显示面板262 能进行卷动。输出生成部84进一步对显示于匹配信息显示面板262的各 信息,基于附加在它们中的地理的信息,在地图面板264,在发送各信息 的位置或将各信息建立关联的位置显示大头针266等。

如此,在地图上不仅显示与输入的讯息进行匹配的信息,还显示发送 这些匹配的信息的位置等,由此能容易地确认在哪里发生了怎样的问题, 提供怎样的支援,发生了怎样的需求事项。因此,能有效率地解决自己所 持有的问题,或者能有效地活用支援,或者能对必要性高的地域优先想办 法支援。

另外,在进行图5所述那样的显示的情况下,期望从显示中去掉已经 解决的问题、灾害时已经得到需要的救援而解决的问题报告、灾害时结束 了支援物资的分发的支援信息等。为此,例如在以图5所示那样的画面为 基础确定了支援的分配目的地等并联络了这些支援的提供者后,对通过该 处置解决的问题、支援物资耗尽的支援信息、以及充足的需求联络等,能 在图5输入表示完成的标记即可。通过将该标记赋予积蓄于问题报告积蓄 部70、支援信息积蓄部72以及需求联络积蓄部74的信息、和积蓄于关联 信息DB80的匹配信息,能使已经解决完毕的问题报告、请求是充足的需 求联络、完成了支援作业的支援信息等不再显示在图5的画面250。

这样的构成的结果,即使在状況连续不断改变的环境下,也能有效率 地使问题或需求、和其解决匹配。

[实施方式的效果]

最发挥本实施方式所涉及的系统的效果的利用例之一与大规模灾害 时的受灾者与支援团体的沟通的顺畅化关联。在大规模灾害时,如前述那 样,虽然经由Twitter等发送了来自受灾者的问题报告以及需求联络,但 有这些信息埋没在海量发送的推特留言(ツイ一ト)中的倾向。对于支援 团体等发送的支援信息也是同样。这样的现象关系到受灾者就算需要支援 信息也难以入手的问题。另一方面,对支援团体而言,关系到不能发现最 需要支援的对方的问题。还关系到如下的问题:就算支援团体认识到受灾 者的需求以及问题,在不知道应对哪个问题等的状況下,多个支援团体应 对相同的需求或问题,作为结果,无谓地消耗了资源和时间。

本实施方式解决这样的问题。确定、收集问题报告/需求联络/支援信 息的技术防止需要的信息的埋没,使受灾者入手支援信息变得容易,对支 援团体掌握受灾者面临的问题以及需求作出贡献。进而,问题报告-支援 信息、或需求联络-支援信息的匹配技术能找出与某受灾者发送的问题报 告直接关联的支援信息,并进行回复等。另外,对支援团体而言,通过区 别与支援信息匹配的问题报告或需求联络、和找不到匹配的问题报告或需 求联络,能概观地掌握能应对怎样的问题或需求,不能应对怎样的问题或 需求。其结果,能为减少支援团体的资源以及时间的浪费作出贡献。

另外,上述的实施方式所涉及的系统以及其思路并不限定于只能在灾 害时利用。在日常的商用利用中价值也高。例如,在和上述实施方式相同 的思路下,能开发如下的检索系统等:若某用户输入了与计算机相关的问 题、与疾病相关的问题或某些需求,则以位于Web上的信息为资源,自 动列举应对方法作为支援信息。

在上述实施方式中,说明了问题报告积蓄部70、支援信息积蓄部72 以及需求联络积蓄部74是相互不同的装置,但也可以将它们容纳在1个 存储装置中。还能将它们全都容纳在相同文件中。也就是说,只要能区别 它们相互属于各自不同的归类的信息即可。例如对文件内的各记录附加表 征它们的归类的信息即可。

当前,智能手机中用声音提供的提问应答系统受到关注,为了在提问 -应答系统中解决问题,必须考虑进行怎样的提问才能解决问题。为了考 虑合适的提问,较多的情况下需要请求专门知识等。上述实施方式中,由 于能从问题直接检索支援信息,因此开启了构建提问-应答系统的次世代 的技术的先河,在为新的服务的开发做出贡献的意义上尤为重要。

[实验结果]

另外,为了验证上述实施方式的效果,进行了几个实验。以下将其实 验结果和比较例一起示出。表5、6、7分别是与问题报告、支援信息以及 需求联络的确定精度相关的实验结果。

[表格5]

表5问题报告的确定:

判定方法 召回率R(%) 准确率P(%) F值(%) 实施方式 44.26 79.41 56.83 比较例1 45.08 74.83 56.26 比较例2 43.42 75.97 55.25 比较例3 43.14 77.83 55.50

表6需求联络的确定:

判定方法 召回率R(%) 准确率P(%) F值(%) 实施方式 48.84 91.30 63.63 比较例1 32.56 93.33 48.27 比较例2 47.79 88.46 61.80 比较例3 48.64 89.27 62.96

表7支援信息的确定:

判定方法 召回率R(%) 准确率P(%) F值(%) 实施方式 53.82 65.67 59.01 比较例1 51.38 63.88 56.95 比较例2 52.60 65.45 58.32 比较例3 51.99 65.64 58.02

另外,在上面的表5~7中,「实施方式」如上述实施方式中说明的那 样,按照核构成矩阵,使用:讯息中的核(问题核、支援核、需求核)所 具有的名词的分类(负面系/非负面系);核的谓语的极性(活性/非活性); 使用评价表现辞典而得到的讯息中的评价表现、评价类型、以及评价极性 等;核中的名词的意义类别;在讯息的依赖被依赖关系中含有包含在核中 的名词的n-gram等。比较例1是如下那样的实验结果:虽然是和实施方 式中的手法相同的手法、但作为SVM的特征不使用名词的分类(负面系/ 非负面系)、和核的谓语的极性(活性/非活性)、即不使用与核构成矩阵 关联的特征。比较例2虽然是和在实施方式中所用的手法相同的手法,但 不使用利用评价表现辞典得到的特征地进行判定。比较例3虽然是和实施 方式中所用的手法相同的手法,但不将单词意义类别作为特征地进行判 定。

在各SVM的实验中,使用学习数据13000件,作为测试数据而使用 从预先收集的数据随机提取的1000件。评价者是和发明者不同的3人。 评价者进行的评价的一致率(Fleiss’kappa)是0.74,这表征评价者进行的 评价是充分一致。

另一方面,在下面的表8以问题报告和支援信息的匹配为例来示出匹 配的实验结果。

[表格6]

表8匹配(问题报告-支援信息)

判定方法 召回率R(%) 准确率P(%) F值(%) 实施方式 30.67 70.42 42.92 比较例1 28.83 67.14 40.33 比较例2 26.99 67.69 38.59 比较例3 30.61 69.51 42.50

本实验以9000件的学习数据进行问题报告/支援信息匹配装置76的学 习,在1000件的测试数据进行。测试数据从预先准备的数据选择,使1 个名词的出现次数成为30次以下。评价者和问题报告的实验的情况相同, 是发明者以外的3人。其评价的一致率为Fleiss’kappa是0.63,这也表示 评价充分一致。

如以上那样,在本实施方式的系统中,对种种信息,能从网络上的庞 大的信息使例如问题报告和其解决方案匹配,并进行提示。因此,和仅使 用关键词检索等的检索服务比较,能更加准确地找出用户想知道的信息。 因此,有取代到目前为止的检索服务,在国外、国内的检索服务等中广泛 利用的可能性。进而,在大规模灾害时等,行政关系机关、NPO、志愿者 组织等能在使和受灾者的沟通顺畅化的基础上活用上述实施方式那样的 系统。相互处于问题和其回答、需求和其充足这样的关系的信息和到目前 为止相互完全不建立关联而存在的信息比较,在上述实施方式中,能在这 些信息间建立清晰的关系,能以将信息进一步整理的形态及时提示给用 户。

[硬件构成]

上述实施方式所涉及的信息匹配系统30能由计算机硬件、和在该计 算机硬件上执行的上述的计算机程序实现。图7表示该计算机系统330的 外观,图8表示计算机系统330的内部构成。

参考图7,该计算机系统330包含:具有存储器端口352以及DVD (DigitalVersatileDisc,数字多功能盘)驱动器350的计算机340、键盘 346、鼠标348、和监视器342。

参考图8,计算机340除了包括存储器端口352以及DVD驱动器350 以外,还包括CPU(中央处理装置)356、CPU356、与存储器端口352以 及DVD驱动器350连接的总线366、存储引导程序等的只读存储器(ROM) 358、与总线366连接并存储程序命令、系统程序以及作业数据等的随机 存取存储器(RAM)360、和硬盘354。计算机系统330进一步包括:提 供向能与其他终端进行通信的网络368的连接的网络接口(I/F)344。

将用于使计算机系统330作为上述的实施方式所涉及的信息匹配系统 30的各功能部发挥功能的计算机程序存储在装备于DVD驱动器350或存 储器端口352的DVD362、或者可移动存储器364,进一步转发到硬盘354。 或者,也可以将程序通过网络368发送给计算机340,存储在硬盘354。 程序在执行时被载入到RAM360。也可以从DVD362、从可移动存储器364 或者经由网络368直接将程序载入到RAM360。

该程序包含由用于使计算机340作为上述实施方式所涉及的信息匹配 系统30的各功能部发挥功能的多个命令构成的命令串。使计算机340进 行该动作所需要的基本的功能的几个功能由在计算机340上动作的操作系 统或第三方的程序、或者安装在计算机340的各种编程工具包或程序库提 供。因此,该程序自身并不一定非要包含实现本实施方式的系统以及方法 所需要的全部功能。该程序通过采用进行控制以使得到所期望的结果的做 法调用命令中合适的功能或编程工具包内的合适的程序工具,因而仅包含 命令当中实现作为上述的系统的功能的命令即可。当然,也可以仅以程序 提供需要的全部功能。

在上述实施方式中,信息积蓄部60、存储装置62、问题报告积蓄部 70、支援信息积蓄部72、需求联络积蓄部74以及存储装置82等通过 RAM360或硬盘354实现。也可以将它们的值进一步存储在USB存储器 等可移动存储器364中,还可以经由网络等的通信介质发送给其他计算机。 同样地,关联信息DB80也通过RAM360以及硬盘354、和CPU356所执 行的数据库管理程序实现。作为数据库管理程序,除了能使用商业上能利 用的数据库管理程序以外,还能使用所谓的开源的数据库管理程序。

执行计算机程序时的计算机系统330的动作为周知。因此在此不再重 复其详细。

本次公开的实施方式仅是例示,本发明并不仅限制于上述的实施方 式。本发明的范围在参酌发明的详细的说明的记载的基础上,由权利要求 的范围的各权利要求示出,包含与记载于那里的文言等同意义以及范围内 的全部变更。

产业上的利用可能性

本发明能利用在提供以下服务的产业、以及提供相应设备的产业中, 在所述服务中,取在网络上的各种系统中投稿的信息间的匹配,向需要某 些信息的用户效率良好地提供所需要的信息。

标号的说明

30信息匹配系统

40因特网

50信息收集部

52词素解析部

54依赖被依赖解析部

56地名/场所辞典存储装置

58地名/场所确定部

60信息积蓄部

62分类用特征的生成用数据的存储装置

64问题报告收集装置

66支援信息收集装置

68需求联络收集装置

70问题报告积蓄部

72支援信息积蓄部

74需求联络积蓄部

76问题报告/支援信息匹配装置

78需求联络/支援信息匹配装置

80关联信息DB

82匹配用特征的生成用数据的存储装置

84输出生成部

86Web服务器

100、130特征算出部

102、132SVM

104、134选择部

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号