首页> 中国专利> 用于创建文档摘要的系统和方法

用于创建文档摘要的系统和方法

摘要

本发明提供了一种用于创建文档摘要的系统和方法,所述系统和方法基于输入的检索条件检索文档并基于输入的摘要创建条件从所检索的文档中提取适合于摘要的范围。所述文档摘要创建系统包括基于输入的范围设置条件在所检索的文档中设置候选范围的候选范围设置部(35),所述候选范围之一被提取作为摘要。为提取适合于摘要的部分,提取由候选范围设置部(35)设置的候选范围之一。

著录项

  • 公开/公告号CN1755696A

    专利类型发明专利

  • 公开/公告日2006-04-05

    原文格式PDF

  • 申请/专利号CN200510116597.7

  • 发明设计人 高知尾胜彦;笹气光一;

    申请日2005-09-29

  • 分类号G06F17/30(20060101);

  • 代理机构11247 北京市中咨律师事务所;

  • 代理人杨晓光;于静

  • 地址 日本东京都

  • 入库时间 2023-12-17 17:08:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2008-11-12

    授权

    授权

  • 2006-05-31

    实质审查的生效

    实质审查的生效

  • 2006-04-05

    公开

    公开

说明书

背景技术

本发明适用于一种用于创建摘要的技术,该技术基于问题内容从文档中提取适合于摘要的范围以创建摘要。特别地,本发明涉及一种用于创建文档摘要的能调整候选范围的系统和方法,所述候选范围之一被提取作为摘要。

在基于使用自然语言构建的问题内容从文档中提取适合于摘要的范围来创建摘要的常规的文档摘要创建系统中,依照如下所示的过程明确地创建摘要,例如日本专利申请KOKAI公告号2003-256425中所公开的。

首先,对使用自然语言构建的问题进行语素分析并将其划分为单词。通过将每个获得的单词与字典数据相比较而进行语义分析。确定特定单词的含义(时间、人物、地点等等)。

然后,在能被用于摘要的目标的多个文档上类似地执行语素和语义分析。根据使用例如“新行单元”或“句点单元”的文档单元的固定选择方法来提取摘要目标范围,即,每一能被用作摘要候选的范围(以下称为“候选范围”)。然后,对于每个被提取的候选范围,将语素和语义分析结果与在问题上执行的语素和语义分析结果相比较。比较结果显示的具有高度一致性的候选被确定为问题的摘要。然而,这种常规的文档摘要创建方法存在如下描述的问题。

该方法使用固定的方法来选择候选范围。即,通过“认为新行单元为一个文档”的这样一种固定的选择方法,如果在逐条列记部分的情况下为每个语义单元创建新行,则整个逐条列记部分就不能被选择用作候选范围。

例如,将考虑一种情况,其中,从例如以下所示的一个目标文档中提取问题“什么是常规的摘要方法?”的摘要。

(目标文档)

“通过常规的摘要技术,<新行1>

1.对使用自然语言构建的问题进行语素分析并将其划分为单词。进一步地,基于语义分析,确定特定单词的含义(时间、人物、地点等等)。<新行2>

2.也对一组摘要目标文档进行语素和语义分析。目标范围被认为符合固定的选择方法,即,例如“新行单元”或“句点单元”的文档单元。将在每个目标范围上执行的语素和语义分析结果与在问题上执行的语素和语义分析结果相比较。最相近的目标范围被确定为文档的摘要。<新行3>

这就是怎样执行常规的摘要技术。”<新行4>

以上目标文档具有4个新行。不过,将通过新行从彼此之中分离出来的每个范围认为是一个候选范围。因此,对于问题“什么是常规的摘要方法”,无法将整个目标文档提供作为摘要,尽管其适合作为摘要。

发明内容

考虑到上述情况做出本发明。本发明的目的是提供创建文档摘要的能任意设置候选范围的系统和方法,所述候选范围之一被提取作为问题的摘要。

为了实现以上发明目的,本发明使用了下面描述的方法。

本发明提供创建文档摘要的系统和方法,所述系统和方法基于输入检索条件检索文档,并基于输入摘要创建条件从所检索的文档中提取适合于摘要的范围,其中,基于输入范围设置条件在所检索的文档中设置候选范围,所述的候选范围之一被提取作为摘要。为提取适合于摘要的部分,提取被设置的候选范围之一。范围的设置条件包括例如限制了所检索文档的至少一个限制条件和候选范围的格式条件。可以通过交互输入接收装置输入这样的范围设置条件。将涉及上述相关系统和方法的本发明制作成允许计算机执行上述过程的程序。

使用上述方法的本发明甚至能从用各种表达形式的文档中提取适合作为摘要的部分。进一步地,设置范围设置条件能够限制将要检索的文档以及仔细指定候选范围。因此,能够创建更精确的摘要。

将在以下的描述中提出本发明的其它目标和优点,部分目标和优点通过描述将显而易见,或者可以通过实施本发明而认识到。可以依靠在下文中具体指出的手段及组合而实现并获得本发明的目标和优点。

附图说明

被并入并且组成说明书一部分的附图示例了本发明的实施例,并与上面给出的综述及下面对实施例的详细描述一起用于解释本发明的原理。

附图1是示出了根据本发明实施例的用于创建文档摘要的方法所应用的文档摘要创建系统的示例的功能框图;

附图2是示出了用于输入摘要创建条件、检索条件和范围设置条件的交互输入屏幕的示例的概图;

附图3是详细示出了检索引擎的功能配置的示例的框图;

附图4是示出了根据本发明实施例的用于创建文档摘要的方法所应用的文档摘要创建系统的操作流程图;

附图5是示出了由文档检索部所检索的文档的示例的图;

附图6是示出了被设置了候选范围的文档的示例的图;

附图7是示出了被设置了候选范围的另一个文档的示例的图;及

附图8是示出了由摘要提取部所提取的摘要的示例的图。

具体实施方式

参照附图,将给出实施本发明的最佳模式的描述。

附图1是示出了根据本发明实施例的用于创建文档摘要的方法所应用的文档摘要创建系统的示例的功能框图。

根据本发明实施例的文档摘要创建系统10包括通过例如因特网的通信网络12连接在一起的客户端20和服务器30。服务器30基于客户端20输入的检索条件来检索文档。进一步地,服务器30通过基于客户端20输入的摘要创建条件提取适合于摘要的候选范围来创建文档摘要,所述候选范围被包括在基于客户端20输入的范围设置条件在所检索的文档中设置的那些候选范围中。

客户端20包括通过通信网络12与服务器30传送和接收数据的通信部22,包括如键盘和鼠标(未示出)的输入工具以使用户可以使用输入工具输入例如检索条件、摘要创建条件和范围设置条件的数据的输入部24,以及包括了例如用于显示通过通信部22从服务器30接收的数据和由输入部24输入的如检索条件、摘要创建条件和范围设置条件的数据的显示器的显示部26。为了从输入部24输入如检索条件、摘要创建条件和范围设置条件的数据,用户可以在显示部26上显示交互输入屏幕,并根据显示部26上显示的交互输入屏幕输入数据。

图2是示出了在显示部26上显示的便于用户可以从输入部24完全地输入摘要创建条件、检索条件和范围设置条件的交互输入屏幕40的示例的概图。

输入屏幕40包括摘要创建条件输入部42、检索条件输入部44和范围设置条件输入部48。

摘要创建条件输入部42包括应用复选部43a和问题输入部43b。为设置摘要创建条件,用户选中应用复选部43a(图2中示出了选中标记)并在问题输入部43b上输入使用自然语言构建的用于创建摘要的问题。

检索条件输入部44包括被选中以指定需要搜索的数据库名的应用复选部45a、用于输入包括在数据库部37中的被指定和搜索的多个数据库38(#1,#2,.....,#n)之一的名的数据库名输入部45b、被选中以指定将被检索的文档的资源(例如,URL)的应用复选部46a、如果应用复选部46a被选中则用于输入资源名的资源名输入部46b、被选中以指定如关键词、更新日期和文件格式的检索条件的申请复选部47a、以及如果应用复选部47a被选中则用于输入检索条件的检索条件输入部47b。

范围设置条件输入部48是用于输入范围设置条件的部,范围设置条件在文档中设置候选范围,所述候选范围之一被提取作为摘要。范围设置条件输入部48包括基选择部49和格式设置部50。为将候选范围指定为新行赋予最高优先权,用户在基选择部49中选中应用复选部49a。为将候选范围指定为句点赋予最高优先权,用户在基选择部49中选中应用复选部49b。对于在基选择部49中指定的优选项,在格式设置部50中设置更加详细的格式条件。对于将如图中的51b,52b,...,58b示出为格式条件的这样的特定项,选中与将被应用的项相应的应用复选部51a,52a,...,58a。如果选中应用复选部53a、57a和58a,则通过把相应的字符数输入到字符数输入部53c、把从开头的相应行数输入到开头行数输入部57c、把从结尾的相应行数输入到结尾行数输入部58c来指定特定的数值。图2中所示的格式设置部50仅仅是示例性的。可以通过增加其它项而输入更详细的范围设置条件。

服务器30包括基于通过使用例如图2所示的输入屏幕40的输入部24输入的检索条件、摘要创建条件和范围设置条件来检索文档并且创建所检索文档的摘要的通信部31,通信部31通过通信网络12与客户端20传送和接收数据;包括存储文档数据的一个或多个数据库38(#1,#2,...,#n)的数据库部37;以及基于由客户端20传送到通信部31的检索条件、摘要创建条件和范围设置条件在由数据库部37提供的数据库38(#1,#2,...,#n)中搜索文档并且创建所检索文档的摘要的检索引擎32。

图3是详细示出了检索引擎32的功能配置的示例的框图。检索引擎32包括文档检索部33、存储器34、候选范围设置部35和摘要提取部36。

当客户端20发送检索条件、摘要创建条件和范围设置条件到通信部31时,文档检索部33基于检索条件在由数据库部37提供的数据库38(#1,#2,...,#n)中搜索文档。文档检索部33将所检索的文档存储在存储器34中。

候选范围设置部35获取在存储器34中存储的文档。候选范围设置部35为基于包括于通过客户端20传送给通信部31的检索条件、摘要创建条件和范围设置条件之中的范围设置条件而获取的文档设置候选范围,所述候选范围之一被提取作为摘要。候选范围设置部35然后将获取的文档分离成所设置的候选范围。候选范围设置部35将被分离成候选范围的文档盖写并存储到存储器34中。

基于包括于由客户端20传送到通信部31的检索条件、摘要创建条件和范围设置条件之中的摘要创建条件,摘要提取部36在由自然语言构成的并被输入到问题输入部43b的问题上执行作为公知技术的语素和语义分析。语素和语义分析是公知的技术,因此将不再对其进行详细描述。

此外,摘要提取部36对存储在存储器34中的文档的每一候选范围类似地执行语素和语义分析。摘要提取部36将在问题上执行的语素和语义分析结果和在每个候选范围上执行的语素和语义分析结果进行比较。然后摘要提取部36提取通过比较结果示出的具有最高程度一致性的候选范围,作为适合于摘要的部分。然后摘要提取部36将提取的候选范围输出到通信部31。

然后,通信部31将对应于摘要提取部36所提取候选范围的数据通过通信网络12传送到客户端20。数据被客户端20的通信部22接收并在显示部26上显示。用户查看显示器以获取指定问题的摘要。

通过加载了存储在如磁盘的存储媒体中的程序或通过如因特网的网络下载的程序并使所述的程序控制其操作的计算机来实现按以上描述所配置的本系统10。

存储媒体的示例包括磁盘、软盘、硬盘、光盘(CD-ROM,DVD或类似产品)、磁光盘(MO或类似产品)和半导体存储器。所述存储媒体可以具有能存储程序并能被计算机读取的任何存储形式。

基于例如数据库管理软件或网络软件的安装在计算机或中间件(MW)上的程序中的指令,可以通过运行在计算机上的操作系统(OS)部分地执行用于实现实施例的每个过程。

此外,存储媒体的示例并不局限于那些独立于计算机的存储媒体,还包括那些下载并存储或暂时存储通过LAN、因特网或类似网络传送的程序的存储媒体。

根据实施例的存储媒体的数量并不局限于一个,还可以在多个媒体上执行根据实施例的过程。所述媒体可以被任意配置。

根据实施例的计算机基于存储媒体中存储的程序执行实施例中的过程。所述计算机可以是例如单一的装置如个人计算机,或者是由通过网络连接在一起的多个装置组成的系统。所述计算机的示例并不局限于个人计算机,还包括例如包含在信息处理设备中的算术处理装置或微型计算机。所述计算机是能基于所述程序实现本发明功能的设备和装置的总称。

现在,参考附图4中示出的流程图,将给出根据如上所述配置的实施例创建文档摘要的方法所应用的文档摘要创建系统10的操作的描述。

为了使用根据实施例创建文档摘要的方法所适用的文档摘要创建系统10来创建文档摘要,用户首先从输入部24中输入摘要创建条件、检索条件和范围设置条件(S1)。

用户通过选中在摘要创建条件输入部42中的应用复选部43a并输入由自然语言组成的问题(例如,信息影响生产力所通过的过程是怎么样的?)到问题输入部43b来指定摘要创建条件。

进一步地,用户通过选中检索条件输入部44中的应用复选部45a、46a和47a中想要的部并输入需要的数据到对应于所述选中的项目的部(45b、46b和47b中的任意几个)来指定检索条件。例如,通过选中应用复选部45a并输入将被搜索的数据库名(例如数据库38[#1,#2,...#n]中的一个)到数据库名输入部45b来指定将被检索的文档存储于其中的数据库38。进一步地,用户通过选中应用复选部46a并输入源名(例如,URL)到源名输入部46b来指定将被检索的文档的源(创建者)。此外,用户通过选中应用复选部47a并输入例如关键词、更新日期和文件格式到检索条件输入部47b来指定检索条件。

此外,在范围设置条件输入部48中,通过选中基选择部49中的应用复选部49a或49b,指定新行或句点被赋予最高优先权作为将被提取作为摘要的候选范围的设置条件。如果新行被赋予最高优先权,则将每个新行设置为候选范围。这样,如果指定了新行为在逐条列记部分中的每个项目,则将每个项目确定作为候选范围。另一方面,如果句点被赋予最高优先权,则将每个句子设置为候选范围。这样,即使指定了新行为逐条列记的部分中的每个项目,由于将从句点到句点的范围指定作为候选范围,则能将整个逐条列记的部分确定作为候选范围。然后,用户选中格式设置部50中提供的应用复选部51a,52a,...,58a中想要的部。如果已经选中应用复选部53a、57a和58a,则用户输入相应的字符数到字符数输入部53c、输入相应的从开头的行数到开头行数输入部57c、输入相应的从结尾的行数到结尾行数输入部58c。从而指定了候选范围的详细范围设置条件。

为了输入这些条件,用户可在指向显示部26上显示的交互输入界面40的时候输入想要的数据,附图2示出了其示例。

这样,将从输入部24输入的条件从输入部24传送到通信部22。然后,将所述条件通过网络12从通信部22传送到服务器30的通信部31。进一步将所述条件从通信部31传送到检索引擎32(S2)。

在检索引擎32中,文档检索部33基于客户端20传送的摘要创建条件、检索条件和范围设置条件在指定的数据库38中搜索文档(S3)。如果检索条件是例如输入到数据库名输入部45b的“数据库38(#1)”、输入到源名输入部46b的“nippon.com”和输入到检索条件输入部47b的“科学技术”,则检索数据库38(#1)中存储的、由“nippon.com”创建的并且包含关键词“科学技术”的文档。将所检索的文档存储在存储器34中。附图5示出了以这种方式检索的文档的示例。

然后,候选范围设置部35基于客户端20传送给通信部31的检索条件、摘要创建条件和范围设置条件,在通过文档检索部33存储于存储器34的文档中设置候选范围,将所述的候选范围之一提取作为摘要(S4)。例如,如果选中基选择部49中的应用复选部49a,则在存储于存储器34的文档中,每两个相邻的新行之间的区域是候选范围K(#1到#8),如附图6所示。另一方面,如果选中应用复选部49b,则在存储于存储器34的文档中,每个句子是候选范围G(#1到#7),如附图7所示。进一步地,更详细的范围设置条件符合在格式设置部50中设置的内容。在存储器34中盖写并存储被划分为这些候选范围的文档。

摘要提取部36基于客户端20传输给通信部31的检索条件、摘要创建条件和范围设置条件在使用自然语言构建的被输入到问题输入部43b的问题上执行语素和语义分析(S5)。例如,如果将问题“信息对生产力产生影响所通过的过程是怎么样的?”输入到问题输入部43b,则语素分析提取单词“信息”,“生产力”、“影响”、“产生”和“过程”。此外,将每个被提取的单词和系统10中提供的字典数据(未示出)进行比较来确定单词的含义。例如,如果提取单词“2004”、“Taro Tokyo”和“Hachioji”,则将这些单词和字典数据进行比较。因此,“2004”被识别为一个日期,“Taro Tokyo”为一个人,而“Hachioji”为一个地点。

此外,摘要提取部36在存储于存储器34的文档中的每个候选范围上执行类似的语素和语义分析(S6)。然后,将在问题上执行的语素和语义分析结果和在每个候选范围上执行的语素和语义分析结果进行比较(S7)。

在所有的候选范围上执行上述比较(S8)。如果比较结果示出,对于语素和语义分析结果,没有候选范围和问题相一致(S9:No),则系统确定没有适合于摘要的候选范围并且不创建任何摘要(S11)。另一方面,如果任何候选范围和问题相一致(S9:Yes),则将具有最高程度一致性的一个候选范围提取作为摘要(S10)。

摘要提取部36输出所提取的候选范围到通信部31,通信部31然后通过网络12传送所述候选范围到客户端20。数据被客户端20的通信部22接收并显示在显示部26上。用户查看显示内容来获取指定问题的摘要。附图8示例了依此获取的摘要结果。附图8示出了按附图7中所示而设置的候选范围集G(#1)到G(#7)的其中一个G(#5)。候选范围G(#5)包含单词“信息”、“生产力”、“影响”和“产生”,并从而对于问题“‘信息’对‘生产力’‘产生’‘影响’所通过的过程是怎么样的?”具有最高程度的一致性。因此,将候选范围G(#5)提取作为摘要。

如上所述,通过根据实施例的用于创建文档摘要的方法所应用的文档摘要创建系统,能够基于以上结果任意设置候选范围,所述的候选范围之一被提取作为摘要。结果,甚至可以从各种表达方式的文档中提取适合作为摘要的部分。进一步地,设置范围设置条件能够限定将被检索的文档并仔细指定候选范围。从而能够创建更加精确的摘要。

对于本领域普通技术人员将可以容易地实现其它优点和修改。因此,本发明广义上并不局限于这里示出和描述的特定的细节和典型的实施例。因此,可以不脱离由所附的权利要求及其等价物所定义的本发明的精神或范围而做出各种修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号