首页> 中国专利> 用于识别候选答案之间的关系的方法和系统

用于识别候选答案之间的关系的方法和系统

摘要

本发明涉及用于识别候选答案之间的关系的方法和系统。提供用于识别由问答(QA)系统响应于输入问题而产生的候选答案之间的共性的机构。所述机构从QA系统接收输入问题的多个候选答案,并且识别存在于候选答案中的项。所述机构确定每个候选答案中的项之间的关系,并且基于确定的每个候选答案中的项之间的关系确定第一项和第二项之间的共同关系,该共同关系至少在所述多个候选答案的一个子集之中是共同的。所述机构将所述多个候选答案和共同关系提供给用户。

著录项

  • 公开/公告号CN104699730A

    专利类型发明专利

  • 公开/公告日2015-06-10

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN201410450065.6

  • 申请日2014-09-05

  • 分类号

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人吴信刚

  • 地址 美国纽约

  • 入库时间 2023-12-18 09:18:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-02-16

    授权

    授权

  • 2015-07-08

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140905

    实质审查的生效

  • 2015-06-10

    公开

    公开

说明书

技术领域

本申请一般地涉及一种改进的数据处理设备和方法,更具体地 讲,涉及用于识别和显示由问答(QA)系统产生的候选答案之间的关 系的机构。

背景技术

随着增加的计算网络(诸如,互联网)的使用,人类当前淹没于他 们可从各种结构化和非结构化源获得的大量信息。然而,当用户试图 拼凑用户在搜索关于各种主题的信息期间认为相关的他们能够发现的 信息时,存在大量信息空隙。为了辅助这种搜索,近来的研究已涉及 产生问答(QA)系统,QA系统可接收输入问题,分析输入问题,并且 返回指示输入问题的最可能的答案的结果。QA系统提供用于搜索内 容(例如,电子文档)的源的大的集合的自动化机构,并且针对输入问 题分析它们以确定问题的答案和答案对于回答输入问题的准确性的置 信量度。

一个这种QA系统是可从New York,Armonk的国际商用机器 (IBM)公司购得的WatsonTM系统。WatsonTM系统将高级自然语言处 理、信息检索、知识表示和推理以及机器学习技术应用于开域问题回 答的领域。WatsonTM系统建立在用于假设产生、大量证据搜集、分 析和评分的IBM的DeepQATM技术上。DeepQATM接收输入问题, 分析输入问题,将问题分解为组成部分,基于分解的问题和答案源的 初步搜索的结果产生一个或多个假设,基于从证据源进行的证据的检 索执行假设和证据评分,执行所述一个或多个假设的合成,并且基于 训练的模型,执行最后的合并和评级以输出输入问题的答案以及置信 量度。

各种美国专利申请公开描述了各种类型的问答系统。第 2011/0125734号美国专利申请公开公开了一种用于基于数据的资料库 (corpus)产生问答对的机构。该系统开始于一组问题,然后分析这 组内容以提取这些问题的答案。第2011/0066587号美国专利申请公 开公开了一种用于将分析的信息的报告转换为一批问题并且从信息集 确定这批问题的答案是被回答还是被反驳的机构。结果数据被包括在 更新的信息模型中。

发明内容

在一个说明性实施例中,提供一种在数据处理系统中用于识别由 问答(QA)系统响应于输入问题而产生的或者由用户直接输入以由问 答(QA)系统考虑的候选答案之间的共性的方法。该方法包括:由数 据处理系统或用户输入从QA系统接收输入问题的多个候选答案,并 且由数据处理系统识别存在于这些候选答案中的项。该方法还包括: 由数据处理系统确定每个候选答案中的项之间的关系。此外,该方法 包括:由数据处理系统基于确定的每个候选答案中的项之间的关系确 定第一项和第二项之间的共同关系,共同关系至少在所述多个候选答 案的一个子集之中是共同的。另外,该方法包括:由数据处理系统提 供所述多个候选答案和共同关系。

在其它说明性实施例中,提供一种包括具有计算机可读程序的计 算机可用或可读介质的计算机程序产品。当在计算装置上执行所述计 算机可读程序时,所述计算机可读程序使计算装置执行以上参照方法 说明性实施例概述的操作中的各种操作及其组合。

在另一说明性实施例中,提供一种系统/设备。该系统/设备可包 括:一个或多个处理器;和存储器,耦合到所述一个或多个处理器。 该存储器可包括指令,当由所述一个或多个处理器执行所述指令时, 所述指令使所述一个或多个处理器执行以上参照方法说明性实施例概 述的操作中的各种操作及其组合。

考虑到下面对本发明的示例性实施例的详细描述,将会描述本发 明的这些和其它特征和优点,或者本发明的这些和其它特征和优点将 会对于本领域普通技术人员而言变得清楚。

附图说明

当结合附图阅读时,通过参照下面对说明性实施例的详细描述, 将会最好地理解本发明以及使用的优选模式及其另外的目的和优点, 其中:

图1描述计算机网络中的问/答创建(QA)系统的一个说明性实施 例的示意图;

图2是可实现说明性实施例的各方面的示例性数据处理系统的方 框图;

图3表示根据一个说明性实施例的用于处理输入问题的QA系统 流水线;

图4是根据一个说明性实施例的候选答案关系识别引擎的主要操 作元件的示例性方框图;

图5是概述根据一个说明性实施例的用于执行用于产生用于识别 候选答案中的关系的实体/项关系资源的预处理操作的示例性操作的 流程图;

图6是概述根据一个说明性实施例的用于使用实体/项关系资源 确定候选答案之间的关系的示例性操作的流程图;以及

图7是根据一个说明性实施例的候选答案用户界面的示例性示 图。

具体实施方式

说明性实施例提供用于识别由问答(QA)系统产生的候选答案之 间的关系的机构。也就是说,说明性实施例提供用于回答“给定由 QA系统针对一问题计算的一组候选答案,候选答案彼此具有什么共 同点?”这一问题的机构。通过评估和表示对于一组候选答案中的元素 而言共同的项,通过评估和表示候选答案之间共同的、候选答案内的 实体和项之间的关系,以及通过参照共同项以及实体和项及其关系, 检索和显示显示候选答案之间的关联的资料库中的段落,说明性实施 例回答这种问题。

应该理解,这里所使用的术语“机构”可以是具有设备、过程或计 算机程序产品的形式的说明性实施例的各功能或方面的任何实现方 式。这里描述的机构可被实现为专用硬件、在通用硬件上执行的软 件、存储在介质上从而可容易地由专用或通用硬件执行的软件指令、 用于执行功能的过程或方法或者以上各项的组合。

说明性实施例的机构在一个或多个数据仓库(例如,数据库等)中 创建一个或多个数据结构,所述一个或多个数据结构识别在文档中的 句子的文本中识别的实体之间的关系。说明性实施例的机构还使实体 与它们在搜索索引中的共同引用(co-reference)相关联。结果,这 些机构可显示对于问题的一组候选答案而言共同的项,按照项的实体 类型(例如,人、组织或其它项“类型”)过滤共同的项,识别项和实体 之间的关系,并且显示支持候选答案和共同项相关的断言的段落。

说明性实施例的机构可使用实体识别和跟踪引擎,诸如可从 New York,Armonk的国际商用机器公司购得的统计信息和关系提 取(SIRE)引擎。SIRE提供:用于使用最大熵模型的项或实体检测的 部件,能够从注释数据训练最大熵模型;可训练的共同引用部件,用 于对在文档中检测到的对应于相同实体的项进行分组;和可训练的关 系提取系统。当然,可在不脱离说明性实施例的精神和范围的情况下 使用其它实体识别和跟踪引擎,并且SIRE在这里仅用作例子以帮助 理解由说明性实施例做出的改进。

实体识别和跟踪(EIT)引擎提供文档中的文本的语法分解、在文 本中检测到的实体的识别、共同引用解析(参考相同实体的两个或更 多项的解析)和实体之间的关系检测。另外,提供用于产生利用由 EIT引擎发现的共同引用的项增强的搜索索引以及用于产生关系数据 库的逻辑,所述关系数据库存储由EIT引擎发现的实体、实体类 型、与实体相关的项、资料库内或跨资料库的特定关系的频率、作为 关系的源的文档的公布时间、资料库标识符和作为关系的源的文档的 文档标识符。

这些资源被用于识别由QA系统产生的候选答案中的实体、项和 关系以识别除了候选答案是共同输入问题的答案的明显关系之外的候 选答案之间的关系。也就是说,给定由QA系统返回或由用户明确地 输入以由QA系统考虑的针对输入问题的一组候选答案,说明性实施 例的逻辑显示返回的联系起候选答案的实体、项和它们的关系(例 如,候选答案之间的共同项),并且显示支持答案/实体/项关系的资料 库中的段落。实体、项和关系的这种识别考虑了在资源的产生期间识 别的项的共同引用。

因此,由说明性实施例的机构产生的结果可被输出到用户,以使 得用户能够更深入地了解候选答案之间的共性和候选答案之间的关 系,从而用户更深入地了解他们的原始输入问题的答案。例如,可诸 如通过用户界面给予用户选项以询问针对候选答案的共性的问题。可 询问的这种问题的例子例如可以是“所有的答案具有什么共同项?”(以 及显示项和答案相关的资料库的文档中的段落是什么)、“答案的子集 具有什么共同项?(以及显示项和答案相关的段落是什么)”等。在一些 情况下,问题可针对实体类型以确定什么实体类型在候选答案之间是 共同的,例如,“所有的答案具有什么共同的人?”(其中“人”是实体类 型)、“所有的答案具有什么共同的组织?”、“所有的答案具有什么共 同的国家?”等。

由说明性实施例的机构执行的分析的结果可被用于基于确定的项 的特性、项之间的关系和用户询问的关于候选答案的特定问题,改变 候选答案的显示。例如,如果用户要求候选答案之间共同的项的指 示,则可在候选答案以及支持项和特定候选答案之间的关系的段落中 突出显示共同项。此外,资料库内和/或跨资料库的项和实体之间的 关系的频率可被用作该关系的强度的量度,并且可被用于修改候选答 案的显示以代表候选答案中的关系的相对强度,例如以颜色、字体、 尺寸或任何其它文本或图形特性的不同强调显示不同强度。此外,关 系的独特性的量度也可被用于修改候选答案的显示。不管单独地或组 合地实现以上特征中的哪些特征,说明性实施例针对使用的项和在候 选答案中提及的项/实体之间的关系,提供对在候选答案之间什么是 共同的以及在候选答案为什么被选择为输入问题的候选答案后面的推 理的更深入的了解。

将在以下参照附图更详细地描述本发明的说明性实施例的以上方 面和优点。应该理解,附图仅用于说明本发明的示例性实施例。本发 明可包括未在附图中明确地示出但考虑到说明性实施例的当前描述将 会对于本领域普通技术人员而言容易想到的各方面、实施例和描述的 示例性实施例的变型。

所属技术领域的技术人员知道,本发明的各个方面可以实现为系 统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现 为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括 固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式, 这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中, 本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计 算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代 码。

可使用一个或多个计算机可读介质的任何组合。计算机可读介质 可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储 介质可以是电子、磁、光学、电磁或半导体性质的系统、设备或装 置、前述各项的任何合适的组合或者其等同物。计算机可读存储介质 的更具体的例子(非穷举列表)将会包括下述各项:具有存储能力的电 气装置、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储 器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、基于光纤的 装置、便携式压缩盘只读存储器(CDROM)、光学存储装置、磁存储 装置或前述各项的任何合适的组合。在这个文档的上下文中,计算机 可读存储介质可以是能够包含或存储由指令执行系统、设备或装置使 用或结合指令执行系统、设备或装置使用的程序的任何有形介质。

在一些说明性实施例中,计算机可读介质是非暂态计算机可读介 质。非暂态计算机可读介质是这样的任何介质:该介质不是无实体的 信号或传播波,即纯信号或传播波本身。非暂态计算机可读介质可使 用信号和传播波,但不是信号或传播波本身。因此,例如,以任何方 式使用信号(诸如,例如保持它们的状态)的各种形式的存储装置和其 它类型的系统、装置或设备可被视为本描述的范围内的非暂态计算机 可读介质。

另一方面,计算机可读的信号介质可以包括在基带中或者作为载 波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种 传播的数据信号可以采用多种形式,包括——但不限于——电磁信 号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以 是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介 质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用 或者与其结合使用的程序。类似地,计算机可读存储介质是并非计算 机可读信号介质的任何计算机可读介质。

计算机可读介质上包含的程序代码可以用任何适当的介质传输, 包括——但不限于——无线、有线、光缆、RF等等,或者上述的任 意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发 明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设 计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序 设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全 地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立 的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者 完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远 程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如 利用因特网服务提供商来通过因特网连接)。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程 序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图 的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机 程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计 算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使 得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处 理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规 定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中,这些指 令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工 作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图 和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品 (article of manufacture)。

计算机程序指令也可被加载到计算机、其它可编程数据处理设备 或其它装置上,以使得在计算机、其它可编程设备或其它装置上执行 一系列的操作步骤以产生计算机实现的过程,从而在计算机或其它可 编程设备上执行的指令提供用于实现流程图和/或方框图的一个或多 个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点 上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的 一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现 规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现 中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。 例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以 按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和 /或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可 以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可 以用专用硬件与计算机指令的组合来实现。

如以上所讨论,说明性实施例提供用于在由问答(QA)系统产生 的候选答案中识别实体、项以及实体之间的关系、实体和项之间的关 系等的机构。应该理解,在一个方面,说明性实施例的机构用作一个 资料库或多个资料库的文档的预处理器,以产生可被用于处理QA系 统的候选答案以识别候选答案之间的关系的资源。因此,作为第二方 面,由预处理器机构产生的资源随后在QA系统的运行时操作期间被 应用于由QA系统产生的候选答案,以便为用户提供另外的关于候选 答案之间的关系的信息。

图1-3旨在描述可用来实现说明性实施例的机构的示例性问题/ 答案、问题和答案或问题回答(QA)系统、方法和计算机程序产品。 如以下将会更详细所讨论的,关于针对这些候选答案中的共同或相关 实体和项识别和显示候选答案中的关系以及候选答案之间的关系,说 明性实施例可被集成在这些QA机构中,并且可增强和扩展这些QA 机构的功能。

因此,重要的是,在描述说明性实施例的机构如何被集成在这种 QA系统中并且加强这种QA系统之前,首先理解如何可实现QA系 统中的问题和答案创建。应该理解,图1-3中描述的QA机构仅是例 子,而非意图陈述或暗示关于可实现说明性实施例的QA机构的类型 的任何限制。在不脱离本发明的精神和范围的情况下,可在本发明的 各种实施例中实现图1-3中示出的示例性QA系统的许多变型。

QA机构通过下面的步骤进行操作:访问来自数据或信息的资料 库(也被称为内容的资料库)的信息,分析该信息,然后基于该数据的 分析产生答案结果。访问来自数据的资料库的信息通常包括:数据库 查询,回答关于在一批结构化记录中有什么的问题;和搜索,响应于 针对一批非结构化数据(文本、标记语言等)的查询,提供一批文档链 接。传统问题回答系统能够基于数据的资料库和输入问题产生答案, 针对数据的资料库检验一批问题的答案,使用数据的资料库校正数字 文本中的错误,并且从潜在答案(即,候选答案)的池中选择问题的答 案。

内容创建者(诸如文章作者、电子文档创建者、网页作者、文档 数据库创建者等)可在编写他们的内容之前确定在这种内容中描述的 产品、解决方案和服务的使用情况。因此,内容创建者可知道内容意 图在由内容描述的特定主题中回答什么问题。在数据的资料库的每个 文档中诸如根据与问题关联的角色、信息的类型、任务等对问题进行 分类,可允许QA系统更快速且高效地识别包含与特定查询相关的内 容的文档。内容还可回答内容创建者未想到可能对内容用户有用的其 它问题。问题和答案可由内容创建者检验以便被包含在给定文档的内 容中。这些能力有助于提高的准确性、系统性能、机器学习和QA系 统的置信度。内容创建者、自动化工具等可做注释或以其它方式产生 元数据以提供可由QA系统用于识别内容的这些问题和答案属性的信 息。

对这种内容进行操作,QA系统使用多个加强分析机构产生输入 问题的答案,所述多个加强分析机构评估内容以识别输入问题的最有 可能的答案(即,候选答案)。说明性实施例利用已经由QA系统完成 的工作减少与已经由QA系处理的问题类似的问题的随后处理的计算 时间和资源成本。

图1描述计算机网络102中的问/答创建(QA)系统100的一个说 明性实施例的示意图。在第2011/0125734号美国专利申请公开中描 述了可结合这里描述的原理使用的问/答产生的一个例子,该美国专 利申请的全部内容通过引用包含于此。QA系统100可被实现在连接 到计算机网络102的一个或多个计算装置104(包括一个或多个处理 器和一个或多个存储器,并且可包括本领域通常已知的任何其它计算 装置元件,包括总线、存储装置、通信接口等)上。网络102可包括 经由一个或多个有线和/或无线数据通信链路彼此通信以及与其它装 置或部件通信的多个计算装置104,其中每个通信链路可包括导线、 路由器、交换机、发射器、接收器等中的一个或多个。QA系统100 和网络102可以启用一个或多个QA系统用户经由他们各自的计算装 置110-112的问/答(QA)产生功能。QA系统100的其它实施例可被与 除这里描述的部件、系统、子系统和/或装置之外的部件、系统、子 系统和/或装置一起使用。

QA系统100可被构造为实现从各种源接收输入的QA系统流水 线108。例如,QA系统100可从网络102、电子文档的资料库106、 QA系统用户或其它数据和其它可能的输入源接收输入。在一个实施 例中,可通过网络102对QA系统100的一些或所有的输入进行路 由。网络102上的各种计算装置104可包括用于内容创建者和QA系 统用户的接入点。一些计算装置104可包括用于存储数据的资料库 106的数据库的装置(在图1中,仅为了说明的目的,数据的资料库 106被示出为单独的实体)。数据的资料库106的各部分也可布置在 一个或多个其它附接于网络的存储装置上,布置在一个或多个数据库 或者图1中未明确地示出的其它计算装置中。在各种实施例中,网络 102可包括局部网络连接和远程连接,从而QA系统100可在任何大 小的环境(包括本地和全球环境(例如,互联网))中操作。

在一个实施例中,内容创建者创建数据的资料库106的文档中的 内容以用作QA系统100的数据的资料库的一部分。文档可包括任何 文件、文本、文章或用在QA系统100中的数据的源。QA系统用户 可经由与网络102的网络连接或互联网连接访问QA系统100,并且 可将可由数据的资料库106中的内容回答的问题输入到QA系统 100。在一个实施例中,可使用自然语言形成问题。QA系统100可 解释问题,并且将包含问题的一个或多个答案的响应提供给QA系统 用户(例如,QA系统用户110)。在一些实施例中,QA系统100可 在候选答案的分级列表中将响应提供给用户。

QA系统100实现QA系统流水线108,QA系统流水线108包 括用于处理输入问题、数据的资料库106以及基于数据的资料库106 的处理产生输入问题的答案的多个级。将在以下参照图3更详细地描 述QA系统流水线108。

在一些说明性实施例中,QA系统100可以是利用以下描述的说 明性实施例的机构加强的可从New York,Armonk的国际商用机器 公司购得的WatsonTM系统。WatsonTM QA系统可接收输入问题,然 后解析输入问题以提取问题的主要特征,问题的主要特征继而随后被 用于配制应用于数据的资料库的查询。基于将查询应用于数据的资料 库,通过在数据的资料库中查找可能包含输入问题的有价值响应的数 据资料库的一部分,来产生一组假设或输入问题的候选答案。

WatsonTM QA系统随后使用各种推理算法对输入问题的语言和 在查询的应用期间找到的数据的资料库的每个部分中使用的语言执行 深入分析。可应用数百或甚至数千个推理算法,每个推理算法执行不 同分析(例如,比较)并且产生得分。例如,一些推理算法可在输入问 题的语言和找到的数据的资料库的一部分内查看项和同义词的匹配。 其它推理算法可查看语言中的时间或空间特征,而另外的推理算法可 评估数据的资料库的一部分的源并且评估它的真实性(veracity)。

从各种推理算法获得的得分指示基于该推理算法的特定关注领域 由输入问题推断潜在响应的程度。随后针对统计模型对每个得到的得 分进行加权。统计模型捕捉在WatsonTM QA系统的训练时间段期间 对于特定域的两个相似段落之间建立推断时推理算法执行得如何。统 计模型可随后被用于总结WatsonTM QA系统关于由问题推断潜在响 应(即,候选答案)的证据的置信水平。可对于每个候选答案重复这个 过程,直至WatsonTM QA系统识别表现为显著强于其它候选答案的 候选答案,并且因此产生输入问题的最终答案或评级的一组答案。例 如,可从IBM公司网站、IBM Redbooks等获得关于WatsonTM QA 系统的更多信息。例如,能够在Yuan等人的“Watson and  Healthcare”(IBM developerWorks,2011)和Rob High的“The  Era of Cognitive Systems:An Inside Look at IBM Watson and How it  Works”(IBM Redbooks,2012)中找到关于WatsonTM QA系统的信 息。

图2是可实现说明性实施例的各方面的示例性数据处理系统的方 框图。数据处理系统200是计算机(诸如,图1中的服务器104或客 户机110)的例子,实现本发明的说明性实施例的各过程的计算机可 用代码或指令可位于该计算机中。在一个说明性实施例中,图2代表 实现QA系统100和QA系统流水线108的服务器计算装置(诸如, 服务器104),QA系统100和QA系统流水线108被加强以包括以下 描述的说明性实施例的另外的机构。

在描述的例子中,数据处理系统200采用集线器架构,该集线器 架构包括北桥和内存控制器集线器(NB/MCH)202以及南桥和输入/输 出(I/O)控制器集线器(SB/ICH)204。处理单元206、主内存208和图 形处理器210连接到NB/MCH 202。图形处理器210可通过加速图形 端口(AGP)连接到NB/MCH 202。

在描述的例子中,局域网(LAN)适配器212连接到SB/ICH 204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只 读存储器(ROM)224、硬盘驱动器(HDD)226、CD-ROM驱动器 230、通用串行总线(USB)端口和其它通信端口232以及PCI/PCIe装 置234通过总线238和总线240连接到SB/ICH 204。PCI/PCIe装置 可包括例如以太网适配器、附加卡和用于笔记本计算机的PC卡。 PCI使用卡总线控制器,而PCIe不使用卡总线控制器。ROM 224可 以是例如闪速基本输入/输出系统(BIOS)。

HDD 226和CD-ROM驱动器230通过总线240连接到SB/ICH 204。HDD 226和CD-ROM驱动器230可使用例如集成驱动电子设 备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)装置236可 连接到SB/ICH 204。

操作系统在处理单元206上运行。操作系统协调并提供图2中的 数据处理系统200内的各种部件的控制。作为客户机,操作系统可以 是可商购获得的操作系统,诸如Windows面向对象 的编程系统(诸如,JavaTM编程系统)可结合操作系统运行并且提供从 在数据处理系统200上执行的JavaTM程序或应用对操作系统的调 用。

作为服务器,数据处理系统200可以是例如运行高级交互执行 操作系统或操作系统的eServerTM System计算机系统。数据处理系统200可以是在处理单元206中包括多个处 理器的对称多处理器(SMP)系统。或者,可采用单处理器系统。

用于操作系统、面向对象编程系统和应用或程序的指令位于存储 装置(诸如,HDD 226)上,并且可被加载到主内存208中以由处理单 元206执行。本发明的说明性实施例的过程可由处理单元206使用计 算机可用程序代码执行,该计算机可用程序代码可位于内存(诸如例 如,主内存208、ROM 224)中或者位于例如一个或多个外围装置226 和230中。

总线系统(诸如,如图2中所示的总线238或总线240)可包括一 个或多个总线。当然,可使用任何类型的通信结构或架构实现该总线 系统,所述通信结构或架构提供连接到该结构或架构的不同部件或装 置之间的数据传输。通信单元(诸如,图2的调制解调器222或网络 适配器212)可包括用于发送和接收数据的一个或多个装置。内存可 以是例如主内存208、ROM 224或诸如在图2中的NB/MCH 202中 的高速缓存。

本领域普通技术人员将会理解,图1和2中描述的硬件可根据实 现方式而不同。除图1和2中描述的硬件之外或者替代于图1和2中 描述的硬件,可使用其它内部硬件或外围装置,诸如闪存、等同的非 易失性存储器或光盘驱动器等。此外,在不脱离本发明的精神和范围 的情况下,说明性实施例的过程可应用于除前述SMP系统之外的多 处理器数据处理系统。

此外,数据处理系统200可采用许多不同数据处理系统中的任何 形式,包括客户机计算装置、服务器计算装置、平板计算机、膝上型 计算机、电话或其它通信装置、个人数字助手(PDA)等。在一些说明 性例子中,数据处理系统200可以是例如便携式计算装置,该便携式 计算装置构造为具有提供用于存储操作系统文件和/或用户产生的数 据的非易失性存储器的闪存。实质上,数据处理系统200可以是任何 已知或者以后开发的数据处理系统而没有架构限制。

图3示出根据一个说明性实施例的用于处理输入问题的QA系统 流水线。图3的QA系统流水线可例如被实现为图1中的QA系统 100的QA系统流水线108。应该理解,图3中示出的QA系统流水 线的各级可被实现为利用用于实现归属于特定级的功能的逻辑构成的 一个或多个软件引擎、部件等。可使用这种软件引擎、部件等中的一 个或多个实现每个级。软件引擎、部件等可在一个或多个数据处理系 统或装置的一个或多个处理器上执行,并且可使用或操作存储在一个 或多个数据处理系统上的一个或多个数据存储装置、存储器等中的数 据。图3的QA系统流水线可例如在一个或多个级中被加强以实现以 下描述的说明性实施例的改进的机构,可提供另外的级以实现改进的 机构,或者可提供与流水线300分离的逻辑以与流水线300对接并且 实现说明性实施例的改进的功能和操作。

如图3中所示,QA系统流水线300包括多个级310-380,通过 所述多个级310-380,QA系统进行操作以分析输入问题并且产生最 终响应。在初始问题输入级310中,QA系统接收以自然语言格式提 供的输入问题。也就是说,用户可经由用户界面输入用户希望获得其 答案的输入问题,例如,“谁是华盛顿最亲密的顾问?”响应于接收到 输入问题,QA系统流水线300的下一级(即,问题和主题分析级320) 使用自然语言处理(NLP)技术解析输入问题以从输入问题提取主要特 征,根据类型(例如,姓名、日期或大量其它定义的主题中的任何主 题)对主要特征进行分类。例如,在以上示例性问题中,项“谁”可与 指示正在寻找的人的身份的“人”的主题关联,“华盛顿”可被识别为问 题所关联的人的正确姓名,“最亲密的”可被识别为指示接近程度或关 系的词语,并且“顾问”可指示名词或其它语言主题。

识别的主要特征可随后在问题分解级330期间被用于将问题分解 为一个或多个查询,所述一个或多个查询可被应用于数据/信息的资 料库345以便产生一个或多个假设。可按照任何已知的或以后开发的 查询语言(诸如,结构查询语言(SQL)等)产生查询。查询可被应用于 存储关于构成数据/信息的资料库345的电子文本、文档、文章、网 站等的信息的一个或多个数据库。也就是说,这些各种源自己、不同 的各批的源等可代表多个资料库345内的不同资料库347。可存在基 于各种准则根据特定实现方式为不同的各批文档定义的不同资料库 347。例如,可为不同的主题、主题类别、信息源等建立不同的资料 库。作为一个例子,第一资料库可与卫生保健文档关联,而第二资料 库可与金融文档关联。替代地,一个资料库可以是由美国能源部公布 的文档,而另一资料库可以是IBM Redbooks文档。具有某一类似属 性的任何一批内容可被视为多个资料库345内的一个资料库347。

查询可被应用于存储关于构成数据/信息的资料库(例如,图1中 的数据的资料库106)的电子文本、文档、文章、网站等的信息的一 个或多个数据库。查询在假设产生级340被应用于数据/信息的资料 库以产生能够评估的识别用于回答输入问题的潜在假设的结果。也就 是说,查询的应用导致与特定查询的准则匹配的数据/信息的资料库 的一部分的提取。资料库的这些部分可随后在假设产生级340期间被 分析和使用以产生用于回答输入问题的假设。这些假设在这里也被称 为输入问题的“候选答案”。对于任何输入问题,在这个级340,可产 生可能需要评估的数百个假设或候选答案。

QA系统流水线300随后在级350中执行输入问题的语言和每个 假设或“候选答案”的语言的深入分析和比较,以及执行证据评分以评 估特定假设是输入问题的正确答案的可能性。如上所述,这可包括使 用多个推理算法,每个推理算法执行输入问题的语言和/或资料库的 内容的单独类型的分析,所述分析提供支持或不支持假设的证据。每 个推理算法基于它执行的分析产生得分,所述得分指示通过查询的应 用而提取的数据/信息的资料库的各部分的相关性的量度以及对应假 设的正确性的量度(即,假设的置信度的量度)。

在合成级360中,由各种推理算法产生的大量的相关性得分可被 合成为各种假的置信度得分。这个过程可包括将权重施加于各种得 分,其中已通过由QA系统采用和/或动态地更新的统计模型的训练 确定了权重,如以下所述。可根据通过QA系统的训练产生的统计模 型处理加权得分,该统计模型识别这些得分可被组合以产生各假设或 候选答案的置信度得分或量度的方式。这个置信度得分或量度总结了 QA系统具有的关于由输入问题推断候选答案(即,候选答案是输入 问题的正确答案)的证据的置信水平。

得到的置信度得分或量度由最终置信度合并和评级级370处理, 最终置信度合并和评级级370可比较置信度得分和量度,将它们与预 定阈值进行比较,或者对置信度得分执行任何其它分析以确定哪些假 设/候选答案最有可能是输入问题的答案。可根据这些比较对假设/候 选答案进行评级以产生假设/候选答案(以下,简称为“候选答案”)的评 级列表。从候选答案的评级列表,在级380,最终的答案和置信度得 分或者最终的一组候选答案和置信度得分可被产生并且输出到原始输 入问题的提交者。

说明性实施例提供用于使用QA系统(诸如,以上参照图1-3描 述的QA系统)回答输入问题的机构,并且还提供用于分析由QA系 统产生的候选答案以识别候选答案中的共同项、实体以及项和实体之 间的关系的机构。另外,确定与项、实体以及项和实体之间的关系关 联的统计量度,并且该统计量度被用于修改候选答案的显示和/或回 答关于候选答案之间的共性的问题。

说明性实施例的一个方面提供一种预处理器,所述预处理器分析 一个资料库或多个资料库(诸如,图3中的一个资料库347或多个资 料库345)中的文档,以产生存储关于项、实体、项和实体之间的关 系的信息以及关于这些项、实体和关系的统计数据的资源,这些资源 在以后用于分析由QA系统产生的候选答案中的共性。在说明性实施 例的第二方面,这些资源被用于识别候选答案中的项、实体和关系的 实例,并且获得关于候选答案的共性和关系的结论。关于这个第二方 面,产生用于提供候选答案的用户界面,该用户界面具有用于回答关 于候选答案之间的共性、候选答案的关系的问题的机构和用于提供支 持候选答案之间的共性和关系的一个资料库或多个资料库中的支持段 落的机构,以及提供用于基于以上突出显示或修改候选答案的输出的 机构。

将在以下参照图4更详细地描述说明性实施例的各方面。图4是 根据一个说明性实施例的候选答案关系识别引擎的主要操作元件的示 例性方框图。图4中示出的元件可被实现为硬件逻辑、由一个或多个 硬件装置执行的软件逻辑或者硬件逻辑和软件逻辑的任何组合。在一 个说明性实施例中,图4中示出的元件被实现为软件逻辑,在将该软 件逻辑加载到一个或多个存储器、存储装置等之后由一个或多个计算 装置的一个或多个处理器执行该软件逻辑。

如图4中所示,候选答案关系识别引擎400包括控制器410、资 料库接口420、项/实体识别引擎430、关系识别引擎440、统计测量 引擎450、实体/项/关系数据结构产生引擎460、候选答案关系分析 引擎470和候选答案用户界面引擎480。应该理解,图4中示出的示 例说明性实施例将预处理方面和逻辑与后处理方面和逻辑两者组合成 单个候选答案关系引擎400。例如,元件430-460可与说明性实施例 的预处理方面/逻辑关联,而候选答案关系分析引擎470和候选答案 用户界面引擎480可被视为说明性实施例的后处理方面/逻辑的一部 分。

尽管图4将预处理和后处理方面/逻辑表示为同一引擎400的一 部分,但说明性实施例不限于此。相反地,在其它说明性实施例中, 预处理和后处理方面/逻辑可彼此分开并且不同,其中后处理方面/逻 辑可利用由预处理方面/逻辑产生的结果(例如,数据结构462-464)执 行它的后处理方面/逻辑。因此,预处理方面/逻辑可布置在与后处理 方面/逻辑相同或不同的计算装置上的第一引擎中,后处理方面/逻辑 可布置在第二引擎中。然而,为了在这里容易解释,将会假设预处理 和后处理方面/逻辑被集成在同一候选答案关系识别引擎400中。

候选答案关系识别引擎400的控制器410控制候选答案关系识别 引擎400的总体操作并且协调其它元件420-480的操作。资料库接口 420提供数据通信接口,通过该数据通信接口,候选答案关系识别引 擎400可获得资料库或者一个或多个资料库405的文档数据。文档数 据可用于非结构化文档,并且文档数据可以是问答(QA)系统对其进 行操作以产生输入问题的候选答案的训练资料库或运行时资料库的文 档数据。

项/实体识别引擎430、关系识别引擎、统计测量引擎450和实体 /项/关系数据结构产生引擎460可一起操作以分析从资料库405接收 的文档数据和产生的资源数据结构462-464,资源数据结构462-464 包括关于各种文档中的项、实体以及项和实体之间的关系的信息。元 件430-460可利用已知工具中的机构执行文档数据的分析。在一个说 明性实施例中,元件430-460可使用可从New York,Armonk的国 际商用机器公司购得的统计信息和关系提取(SIRE)引擎,或者使用与 SIRE引擎中提供的逻辑类似的逻辑。在Florian等人的“A Statistical  Model for Multilingual Entity Detection and Tracking”(IBM TJ  Watson Research Center,proceedings of the 2004Human Language  Technology Conference,North American Chapter of the Association  for Computational Linguistics Annual Meeting,pages 1-8)中描述了 SIRE引擎。

尽管说明性实施例可使用SIRE引擎辅助产生资源数据结构462- 464,但说明性实施例不限于此。相反地,可在不脱离说明性实施例 的精神和范围的情况下使用能够分析非结构化/结构化文档的输入文 档数据并且产生指示项/实体和它们的关系的资源数据结构的任何分 析引擎。例如,可与说明性实施例的机构一起使用的另一分析引擎是 可从斯坦福自然语言处理组得到的Stanford CoreNLP引擎。像 SIRE引擎一样,Stanford CoreNLP引擎提供句子令牌化、语法分 析、实体检测和共同引用解析。

项/实体识别引擎430可使用SIRE引擎或其它类型的NLP分析 引擎的逻辑在接收的文档数据的每个句子中识别该句子中的项/实 体、在句子中发现的实体类型,以及保持关于输入到引擎400的一个 或多个文档的句子中的项/实体的识别的统计数据。项/实体识别引擎 430还可执行共同引用识别以识别共同引用和它们在文档内的位置以 及它们引用的实体。关系识别引擎440分析在句子中发现的项/实体 之间的关系以识别项/实体的对、项/实体之间的关系的性质和在资料 库405的一个文档或多个文档中发现的关系的频率等。以这种方式, 对于文档中的每个实体或项,可识别并且保持与其它项/实体的一个 或多个配对关系。

例如,在一个句子中,可识别多个关系、共同引用等。项/实体 识别引擎430对句子内的项/实体进行令牌化或者以其它方式识别句 子内的项/实体以及它们的位置和类型。关系识别引擎440识别由项/ 实体识别引擎430发现的项/实体之间的各种关系。

考虑下面的示例性句子:“John Smith是专利律师并且他已向美 国专利商标局(USPTO)注册。他在2004年从哈佛毕业并且他当前居 住在纽约。”在一个句子中,可使用诸如例如在SIRE引擎中提供的 NLP机构识别实体“John Smith”、“专利律师”、“美国专利商标局” 和“USPTO”。还可识别实体的实体类型,从而“John Smith”与实体 类型“人”关联,“专利律师”与实体类型“职业”关联,并且“美国专利 商标局”是“组织”。另外,在句子中识别共同引用“他”(代词)和 “USPTO”(首字母缩略词),它们的关系是:“他”是指“John Smith”, 并且“USPTO”是指美国专利商标局。

识别实体和项之间的配对关系,从而“John Smith”在一个配对关 系中与“专利律师”相关,在第二配对关系中与“美国专利商标局”相 关,在第三配对关系中与“哈佛”相关,在第四配对关系中与2004相 关,并且在第五配对关系中与纽约相关。类似地,像实体“美国专利 商标局”与“John Smith”具有关系一样,实体“专利律师”可与“John  Smith”具有关系。可与特定实体关联地保持每个配对关系,例如,数 据库中的“John Smith”的条目可保持它与“专利律师”以及与“美国专 利商标局”的配对关系。

关系识别引擎440还可执行共同引用识别和解析以确定共同引用 所表示的实体名词。例如,以上例子中的代词“他”表示“John  Smith”,而首字母缩略词“USPTO”表示组织“美国专利商标局”。当 代表实体之间的关系时,共同引用可被它所表示的实体替换,即,替 代于共同引用保持实体以便产生配对关系,例如,可在配对关系中替 代于“USPTO”保持“美国专利商标局”。

此外,项/实体识别引擎430还可在句子中(诸如,在特定文本窗 口内,例如,在包括句子中的实体以及协同定位的名词和动词的5 公分(gram)内)识别其它非实体名词和动词。因此,在以上例子 中,“John Smith”可与动词“注册”关联,并且“美国专利商标局”也可 与动词“注册”关联。因此,从这种关联,能够确定John Smith可被 注册,并且实体可向美国专利商标局注册。

应该理解,尽管以上例子仅针对两个句子,但配对关系可跨越文 档中的大量句子。因此,共同引用等可位于随后的句子中,并且可表 示文档的内容中的前一个句子或先前多个句子中的实体。可保持文档 中的实体和它们的共同引用的位置,以使得知道哪些共同引用表示哪 些实体。

根据说明性实施例,由项/实体识别引擎430和关系识别引擎440 产生的信息可由统计测量引擎450处理以识别在一个资料库内和/或 跨多个资料库识别的每个配对关系的关系频率。也就是说,对于单个 关系,保持在资料库405的一个或多个文档的句子中识别该关系的次 数,并且该次数被用于产生该关系的频率统计数据。此外,统计测量 引擎450还可针对由项/实体识别引擎430和关系识别引擎440识别 的各种项/实体和关系计算其它类型的统计数据。例如,可产生的另 一统计数据是逆文档频率(IDF),逆文档频率(IDF)是项/实体/关系的 稀有性的量度。一个关系在资料库405的文档内越罕见,该关系越独 特。与具有低IDF得分的项的关系可被丢弃并且不再保持,因为在 资料库405中几乎不存在对识别的关系的支持。

因此,通过项/实体识别引擎430、关系识别引擎440和统计测量 引擎450的操作,识别资料库405的文档内的关系,其中这些关系中 的每一个包括两个项/实体,并且每个项/实体可具有多个关系。对于 每个关系,保持两个项/实体的实体类型和关系频率。保持的关系频 率是跨越一个资料库/多个资料库中的所有文档的关系的所有实例的 运行总数。另外,也可保持关系的其它属性,包括但不限于:识别识 别了关系的文档的资料库的资料库标识符、识别识别了关系的文档的 文档标识符、识别了关系的文档上的时间戳。保持另外的信息,以使 得对关系的查询能够被确定范围或过滤。例如,资料库Id可被用于 将返回的关系过滤为仅选择的资料库。类似地,文档ID可被用于将 返回的关系过滤为一组文档。时间戳可被用于过滤在特定日期和时间 之前或之后或者在指定日期和时间X以及日期和时间Y之间存在的 返回的关系。

为由候选答案关系识别引擎400分析的资料库405中的每个文档 产生的共同引用被添加到数据/信息的资料库345。这些共同引用允许 在假设产生(304)期间产生另外的候选答案,并且能够实现包括支持 实体之间的关系的断言的共同引用的实体的正确支持段落的返回。

实体/项/关系数据结构产生引擎460在搜索索引462和实体关系 数据结构464中保持由引擎430-450搜集的关系和索引信息。再一 次,实体关系数据结构464存储由关系识别引擎440发现的实体/项 之间的每个关系的条目,并且每个条目存储关系的实体、实体类型、 与实体相关的项、跨资料库中的所有文档的关系的频率、发现关系的 文档的公开时间、发现关系的文档的资料库标识符和发现关系的文档 的文档标识符。搜索索引462包括用于每个文档的索引,所述索引存 储识别文档中的共同引用、共同引用的位置和共同引用所表示的实体 的元数据。搜索索引462可以是资源345和347的一部分,并且可在 问答假设产生期间被使用。搜索索引462是具有共同引用信息的由 QA系统使用的类型的加强搜索索引,例如元件345和347的加强部 分。搜索索引462(1)在问答假设产生期间被使用以改进所述一组候 选答案,并且(2)提供作为关系的证据的支持段落。

用于产生资源462-464的以上操作是用于产生资源462-464的资 料库405的预处理的一部分,资源462-464能够在运行时操作期间被 用于产生候选答案,分析由QA系统响应于输入问题而产生的候选答 案的关系和这些候选答案之间的关系,并且返回支持该关系的正确段 落。也就是说,在运行时期间,QA系统(诸如图1-3中所示)可接收 输入问题,并且产生输入问题的多个候选答案(其从多个资料库345 或一个资料库347获得,也可以是多个资料库405)。基于通过查询 存储在搜索索引462中的共同引用的项而返回的结果,将会产生另外 的候选答案。候选答案475可被输入到候选答案关系识别引擎400。 候选答案关系分析引擎470使用资源464分析候选答案以识别存在于 候选答案中的实体和它们的关系,并且因此针对在每个候选答案475 中发现的实体/项/和关系识别候选答案475之间的共性。

候选答案关系分析引擎470的操作可自动开始,或者响应于请求 识别候选答案之间的共性的用户界面的用户输入而开始。例如,候选 答案可经由候选答案用户界面490被输出给用户。用户界面可由候选 答案用户界面引擎480产生,并且可包括可由用户选择的用户界面元 素以请求另外的关于候选答案的信息,诸如候选答案之间的共性。

候选答案关系分析引擎470将候选答案中的项/实体与存储在实 体关系数据结构464中的关系进行比较,以识别实体关系数据结构 464中的匹配条目并且检索对应的关系。因此,例如,如果候选答案 中具有实体“专利律师”,则将会识别并且检索实体关系数据结构464 中的“专利律师”的关系。在检索实体关系时,也检索与实体关系关联 地存储的各种统计量度,例如发生的频率、逆文档频率等。此外,通 过文档标识符、资料库标识符和实体的位置信息的识别,能够检索支 持实体的关系的资料库405中的特定段落。

在实体关系数据结构464中发现与在候选答案中发现的项/实体 匹配的配对关系之后,候选答案关系分析引擎470确定每对候选答 案、候选答案的三元组、所有答案等的关系的交集。因此,例如,分 析可识别:候选答案1与实体“John Smith”具有关系,并且候选答案 2也与实体“John Smith”具有关系,但候选答案2可能未具体地在候 选答案中包括姓名“John Smith”。不能仅从针对候选答案返回的段落 获得这些类型的结果–例如,返回的段落可包含代词,而不是代词的 对象–因此,答案将会与代词的对象具有关系,但此时将会无法知道 该对象是什么。如以上所讨论,关系数据仓库包含实体和共同引用的 解析的代词的对象之间的关系。另外,针对每个候选答案返回的段落 仅仅回答提出的输入问题,而由说明性实施例的机构返回的关系跨越 整个资料库,并且因此可提供不直接与询问的输入问题相关的候选答 案之间的关系或支持候选答案的段落。

各种选项可经由由候选答案用户界面引擎480产生的用户界面 490被提供给用户,通过所述各种选项,用户可请求另外的关于候选 答案的信息,包括对于候选答案的全部或子集而言共同的特定类型的 实体或候选答案之间的其它类型的共性。例如,可经由用户界面490 为用户提供选项以询问:

(1)所有的候选答案具有什么共同项以及显示项和答案彼此相关 的段落是什么?

(2)候选答案的子集具有什么共同项以及显示项和答案相关的段 落是什么?

(3)所有的候选答案具有什么共同的人?

(4)在从2011年起公开的文档中,5个候选答案中的至少3个候 选答案具有什么共同的组织?

(5)仅使用维基百科作为源,所有的候选答案具有什么共同的国 家?

在这些例子中,由于实体关系数据结构464存储每个关系中的实 体的实体类型信息,所以可回答涉及候选答案之间共同的特定类型的 实体的问题(诸如,以上的(3)),并且因此,当识别哪些关系适用于每 个候选答案时,实体类型也被识别。关于以上的问题(4),由于与关 系的源(例如,资料库405中的文档)关联的时间戳被保持在条目中, 所以可识别特定时间帧的文档中的组织的标识。关于问题(5),因为 源信息被保持在实体关系数据结构464的条目中,所以再一次可针对 特定的感兴趣的源回答这个问题。

与实体关系数据结构464中的条目关联的统计测量信息可被用于 修改候选答案中的关系以及候选答案之间的关系的表示。例如,相对 于候选答案中的其它关系以及候选答案之间的其它关系,具有较高的 发生频率的候选答案中的关系以及候选答案之间的关系可在视觉上区 分或突出显示。候选答案中的共同项/实体可在候选答案中区分或突 出显示,确定为候选答案之间共同的关系可根据发生频率或逆文档频 率等的相对评级而被提供并且区分/突出显示。例如,如果在特定的 一个资料库或多个资料库405内“Barack Obama”和“John Boehner” 之间的关系具有50的发生频率并且“Barack Obama”和“Rahm  Emanuel”之间的关系具有5的频率,则第一关系可在它在用户界面 中的表示方面区别于第二关系以强调或突出显示第一关系。类似地, 使用独特性或逆文档频率,如果“John Boehner”在所有的关系中的频 率是2000并且“Rahm Emanuel”在所有的关系中的频率是10,则 “Barack Obama”/“Rahm Emanuel”关系(5/10)的独特性大于“Barack  Obama”/“John Boehner”关系(50/2000)的独特性,并且可通过使一个 关系区别于另一关系来在视觉上表示独特性的这种差异。

另外,支持候选答案475中的特定共同关系的一个资料库或多个 资料库405内的段落也可被显示为用户界面的一部分。因此,不仅为 用户提供关于候选答案中的共同项/实体、候选答案之间的共同关系 和关系的相对频率/独特性的信息,还为用户提供关系的文档支持。

作为例子,考虑QA系统的输入问题,诸如“谁是最伟大的Red Sox队运动员?”由QA系统返回的候选答案可包括“Carl  Yastrzemski”、“Roger Clemens”和“Ted Williams”。说明性实施例的 候选答案关系分析引擎可随后被使用“Carl Yastrzemski”、“Roger  Clemens”和“Ted Williams”作为输入来查询这些候选答案之间的共 性。在这个例子中,实体关系数据仓库464针对这3个候选答案被查 询,并且返回下面的结果(其中数字指示在资料库的文档中发生的配 对中指定的实体之间的关系的频率):

Carl Yastrzemski:Bobby Doerr;7

Carl Yastrzemski:Carlton Fisk;8

Carl Yastrzemski:Fred Lynn;7

Roger Clemens:Carlton Fisk;2

Roger Clemens:Fred Lynn;1

Ted Williams:Bobby Doerr;12

Ted Williams:Carlton Fisk;2

Ted Williams:Fred Lynn;1

从这组配对关系,能够看出Bobby Doerr与Carl Yastrzemski 和Ted Williams具有关系,但与Roger Clemens没有关系(指示也许 Bobby Doerr与Carl Yastrzemski和Ted Williams同时打球,但不 与Roger Clemens同时打球(Doerr实际上与Williams打球并且是 Yastrzemski的教练)。此外,能够看出,Carlton Fisk出现在与QA 系统视为最伟大的Red Sox队运动员的人(即,三个候选答案)的关系 中,这指示也许用户可能想要增加Carlton Fisk作为由QA系统考虑 的可能的候选答案。因此,说明性实施例的机构可分析这些关系,将 配对关系的交集识别为“Carlton Fisk”,并且除了导致关系的交集的 结论的关系之外,还可将这种另外的信息提供给用户。

此外,除了关系、它们的统计数据和关系的交集由说明性实施例 的机构提供给用户之外,支持导致该交集的各种关系的证据段落也可 被返回,以使得用户可进一步确定共同关系的相关性或重要性和这些 共同关系的交集。例如,用于支持以上关系的示例性段落可具有下面 的类型(要注意,因为通过对“Carl Yastrzemski”的共同引用来解析 “Yaz”,所以发现第一段落,因为通过对“Fred Lynn”的共同引用来 解析“Lynn”,所以发现最终一个段落)。

(1)Red Sox to honor Yaz with Fenway Park statue between the  Ted Williams statue,whom Yaz succeeded in left field in 1961,and “The Teammates”statue depicting Dom DiMaggio,Johnny Pesky, Bobby Doerr,and Williams.

(2)Carl Yastrzemski,Jim Rice,and Fred Lynn 11x14 photo  double matted to a 16x20 picture.

(3)Autographed by Carl Yastrzemski,Carlton Fisk,and Dwight  Evans.

(4)Hall of Famer Carlton Fisk Blasts Mark McGwire,Roger  Clemens

(5)Hence the less than admirable experts of nearly all of our  Sports personalities–Wade Boggs,Fred Lynn,Roger Clemens, Nomar Garciaparra,Tito Francona,Carlton Fisk,and Johnny Damon  just to name a few.

(6)In 1939,Ted Williams’rookie season with the Sox,Doerr  began a string of 12 consecutive seasons with 10 or more home runs  and 73 or more runs batted in;in 1940 the Red Sox became the 12th  team in major league history to have four players with 100 RBI,with  Foxx,Williams,Cronin,and Doerr each collecting at least 105.

(7)“Oh my god,”said a young woman in the stands,“Ted  Williams threw a pitch to Carlton Fisk.I’m going home happy.”

(8)A private man,like one of his predecessors with the Red Sox, Ted Williams,Lynn will be a conspicuous absentee on the rubber- chicken and stomach-pump circuit.

因此,说明性实施例提供用于识别和提供识别候选答案之间的共 性和关系的信息的机构。这种信息提供对由用户提交的输入问题的答 案的更深入的了解,并且潜在地提供对在针对输入问题返回的答案后 面的推理的更深入的了解。用户可请求能够在确定QA系统为什么选 择候选答案并且最终选择输入问题的最终答案的原因时对用户有教益 的各种类型的另外的关于候选答案的信息,以及提供可被用于引导用 户进一步理解候选答案的主题的信息。

图5是概述根据一个说明性实施例的用于执行用于产生在识别候 选答案中的关系时使用的实体/项关系资源的预处理操作的示例性操 作的流程图。如图5中所示,该操作开始于开始从一个资料库或多个 资料库摄取文档(步骤510)。对于一个资料库/多个资料库中的下一个 文档,分析文档数据以识别在包括对实体的任何共同引用的文档数据 中提及的项/实体(步骤520)。识别实体和其它实体、实体和其它非实 体项等之间的配对关系(步骤530)。在文档数据中识别共同引用的位 置和它们所表示的实体(步骤540)。更新与项/实体/关系关联的统计量 度(步骤550),诸如项/实体/关系的发生频率、逆文档频率等。共同引 用、它们的位置和它们所表示的实体的信息被存储在文档的搜索索引 中(步骤560)。实体/项关系信息被存储在实体关系数据结构中的条目 中(步骤570)。该操作随后确定是否最后的文档已被处理(步骤580)。 如果最后的文档未被处理,则该操作返回到步骤520;否则该操作结 束。

图6是概述根据一个说明性实施例的用于使用实体/项关系资源 确定候选答案之间的关系的示例性操作的流程图。该操作开始于输入 问题的候选答案的产生(步骤610)和由用户输入以由QA系统考虑的 答案(步骤615)。候选答案经由用户界面被提供给用户(步骤620),用 户界面还包括用于获得关于候选答案之间的共性和关系的信息的一个 或多个用户可选择的选项。确定是否接收到用于获得候选答案的共性 /关系信息的用户可选择的选项(步骤630)。如果接收到,则分析候选 答案以识别候选答案中的项/实体(步骤640),并且使这些项/实体与存 储在实体关系数据结构中的实体关系相关(步骤650)。基于这种相 关,确定与每个候选答案关联的关系(步骤660)。确定候选答案的关 系的交集(步骤670),并且基于该交集,产生对共性/关系信息的请求 的响应并且经由用户界面将其返回给用户(步骤680)。然后确定是否 结束用户界面的提供,例如,用户关闭用户界面,输入新的问题,或 以其它方式指示不再需要用户界面(步骤690)。如果确定结束用户界 面的提供,则该操作结束。否则,该操作返回到步骤630以确定用户 是否已请求候选答案的任何其它共性/关系信息,并且针对新的请求 重复该操作。

图7是根据一个说明性实施例的候选答案用户界面的示例性示 图。为了一致,图7中示出的例子对应于以上讨论的示例性输入问题 “谁是最伟大的Red Sox队运动员?”。这仅是例子,而非意图陈述或 暗示针对可与说明性实施例的机构一起使用或由说明性实施例的机构 产生的用户界面的类型的任何限制。可在不脱离说明性实施例的精神 和范围的情况下做出描述的示例性用户界面的许多变型。

如图7中所示,该用户界面具有用于显示响应于输入问题而产生 的候选答案的第一部分710。设置第二部分720用于提供用于请求候 选答案的共性/关系信息的多个用户可选择的界面元素。设置第三部 分730用于提供候选答案之间的共同关系。可设置第四部分740用于 提供支持在第三部分730中识别的关系的证据段落。

在操作中,当用户将问题输入到QA系统并且QA系统返回候选 答案结果时,可基于与候选答案关联的置信度,诸如以评级列表在第 一部分710中提供候选答案。响应于在第一部分710中提供候选答 案,用户可确定:另外的关于候选答案之间的共性/关系的信息将会 对于用户有用或有教益。因此,用户可从在用户界面的第二部分中提 供的选项中选择期望的选项,例如,用于识别对于每个候选答案而言 共同的所有项/实体(即使它们未在候选答案自身中被具体地提及)的选 项、用于确定候选答案之间的共同类型实体的选项(例如,什么人、 组织或国家在候选答案之间是共同的)等。

响应于第二部分720中的一个或多个选项的用户选择,第一部分 710中的候选答案之间的共同项/实体/关系被确定,并且共同关系可 经由第三部分730被提供给用户。另外,共同关系中的共同项/实体 可在第一部分710中被强调或突出显示。此外,可检索支持共同关系 中的实体之间的关系的证据段落并且经由第四部分740提供所述证据 段落。因此,经由用户界面,针对输入问题产生的候选答案之间的共 性和关系可被识别并且提供给用户。

应该理解,尽管上述说明性实施例涉及识别由QA系统使用以前 存储的在一个或多个资料库中的文档的预处理期间发现的项和/或实 体之间的配对关系产生的候选答案的至少一个子集之中的共同关系, 但说明性实施例不限于此。相反地,任何类型的关系可被用作用于执 行候选答案的子集之中的共同关系的识别的基础。因此,可使用比配 对关系复杂的关系,例如包括三个或更多项/实体的关系,并且可根 据先前描述的机构产生这些更复杂的关系的交集。

如上所述,应该理解,说明性实施例可采用完全硬件实施例、完 全软件实施例或者既包含硬件元件又包含软件元件的实施例的形式。 在一个示例性实施例中,说明性实施例的机构实现为软件或程序代 码,所述软件或程序代码包括但不限于固件、常驻软件、微码等。

适合存储和/或执行程序代码的数据处理系统将包括直接或通过 系统总线间接耦合到存储元件的至少一个处理器。存储元件能够包 括:在程序代码的实际执行期间采用的本地存储器;大容量存储器; 和高速缓存,提供至少某程序代码的临时存储以便减少在执行期间必 须从大容量存储器检索代码的次数。

输入/输出或I/O装置(包括,但不限于,键盘、显示器、定点装 置等)能够直接地或通过中间I/O控制器耦合到该系统。网络适配器 也可耦合到该系统以便能够使数据处理系统通过中间私有或公共网络 耦合到其它数据处理系统或远程打印机或存储装置。调制解调器、线 缆调制解调器和以太网卡仅是一些当前可用类型的网络适配器。

提供本发明的描述用于例示和说明的目的,而不是要穷举或者把 发明局限于公开的形式。对于本领域普通技术人员而言,许多修改和 变化将会是清楚的。选择并描述实施例,以便最好地解释本发明的原 理、实际应用并且使其他本领域普通技术人员能够理解本发明的具有 适合设想的特定用途的各种修改的各种实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号