首页> 中国专利> 使用文本分析从源文档中识别相关文档集合的系统和方法

使用文本分析从源文档中识别相关文档集合的系统和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种用于处理文档以便生成相关文档集合的系统和方法。提供了这样一种系统，其包括：文本分析系统，用于分析包含在源文档中的非结构化数据并且提取关于源文档的结构化信息集合；以及比较系统，用于通过比较结构化信息集合与根据出版物集合索引的元数据来识别相关文档集合。

著录项

公开/公告号CN1967535A

专利类型发明专利
公开/公告日2007-05-23

原文格式PDF
申请/专利权人国际商业机器公司;
展开▼

申请/专利号CN200610110127.4
发明设计人史蒂芬·凯恩·鲍伊尔;杰弗里·托马斯·克鲁伦;威廉·斯科特·斯班格勒;塔帕斯·卡努恩格;罗伯特·李·安格尔;詹姆斯·J·罗德斯;赫什尔·J·R·韦恩斯特劳布;大卫·C·马丁;里查德·亨尼西;詹姆斯·威廉·库伯;
展开▼

申请日2006-07-31
分类号G06F17/30(20060101);
代理机构中国国际贸易促进委员会专利商标事务所;
代理人吴丽丽
地址美国纽约
入库时间 2023-12-17 18:37:50

法律信息

法律状态公告日

法律状态信息

法律状态
2010-03-17

授权

授权
2007-07-18

实质审查的生效

实质审查的生效
2007-05-23

公开

公开

说明书

技术领域

本发明总体上涉及使用文本分析来从源文档中识别文档集合，更具体地说，涉及一种用于对诸如专利之类的技术参考文献以及MeSH数据库使用文本分析来识别相关参考文献集合的系统和方法。

背景技术

最近几年，已经看到了生物技术领域的迅速成长，其中对于拥有发现权的机构而言，那些发现价值数亿美元。然而，所面临的难题是，研究和开发通常所需的成本巨大。考虑到所涉及的美元数目，公司必须完全了解特殊生物技术领域的技术前景。

特殊领域的大部分技术前景可以从诸如专利参考文献以及其它科学论文之类的技术参考文献中收集获得。从这种参考文献中，人们可以确定该技术的当前状态，什么技术是专有的，什么技术属于公用领域等。然而，其中的一个难题涉及迅速地并且有效地定位与技术努力有关的相关参考文献。

在很多情况下，研究人员可能具有初始文档，例如专利、期刊文章、患者记录等，并且往往想找到与初始文档相关的技术参考文献的扩展集。已知各种用于搜索技术参考文献的方法。普遍采用的方法包括单词搜索，其中把关键字输入到数据库中以便识别包括所述关键字的参考文献。其它方法包括利用分类数据。例如，在使用专利的情况下，可以基于指定给每项专利的分类和子分类代码来识别相关专利。甚至在其它的方法中，研究者可以检查初始文档中引用的参考文献列表。

虽然这些技术中的每一种技术都很有用，但是每一种技术都因明显的原因而受到限制。由于不同的作者往往使用多个不同的术语涉及类似的概念，由此生成了许多无用的结果，所以单词搜索是受限的。此外，在使用专利的情况下，共用相同的分类/子分类代码的专利数目可能总计非常大，并且不是始终包括正被搜索的相关特征。相反，技术文档上列出的所引用参考文献的数目通常是仅仅指向预先存在的参考文献的相对短的列表，这可以提供良好的起点，但是实际上它几乎肯定是不全面的。

因此，当试图了解特殊学科领域的技术前景时，在搜索和分析技术参考文献方面目前存在明显的限制。

幸运的是，生物技术领域中的非专利文献多少更加容易被用户使用。近几年来，美国国家医学图书馆(National Library of Medicine，NLM)已经开发了一种被称为通用医学语言系统(Universal MedicalLanguage System，UMLS)的科学系统，其用于医学信息的国际协调，并且用于改善对医学和科学文献的访问。所述UMLS(http：//umls.nlm.nih.gov/)的目标在于帮助研究人员智能地从各种各样的不同电子生物医学信息源中检索并且整合信息。它可以用于按照用不同的源表示类似的概念的方法来克服差异。对用户而言，这样做更易于链接来自病人记录系统、书目数据库、事实数据库、专家系统等的信息。

所述UMLS知识服务还可以帮助进行数据创建和出版物索引。一部分UMLS包含医学主题词表(Medical Subject Heading，MeSH)代码，其充当用于构造科学文献分类的本体(ontology)要点的基础。为此，NLM具有专职人员用于系统地在所有实际识别出的科学期刊中对数百万科技出版物进行索引。这样做形成了诸如MedLine(以及其它数据库)之类的这种国家资源的基础。当NLM索引编辑者分类并且索引这些期刊时，他们使用MeSH本体(ontology)来执行此操作，并且在这样做的过程中，创建用于描述正被索引的文章的非常重要的元数据集合。例如，所述索引编辑者通常阅读文章，并且产生文章(即，化学文件)中提及的所有化学制品的列表。

在最高级别，索引编辑者使用各种MeSH限定词代码来确定正被索引的文章是否涉及化学制品、外科、遗传学等。在更加细化的级别中，他们经由数目大于750,000个的概念代码的广泛系统来对文章进行分类。这充当用于进一步分类并且索引其它内容的丰富的元数据源。

使人遗憾的是，没有自动的机构允许用户为没有被NLM或者其它类似元数据数据库进行索引的输入文档(例如，专利文献、报纸文章、患者记录等)查找相关的技术参考文献。因此，存在对这样一种系统的需要，所述系统可以为所输入的参考文献识别技术参考文献的扩展集。

发明内容

本发明通过提供如下方面来致力于解决上述问题以及其它问题。

在第一方面中，本发明提供了一种文档处理系统，包括：文本分析系统，用于分析源文档中包含的非结构化数据，并且提取关于所述源文档的结构化信息集合；以及比较系统，用于通过把结构化信息集合与根据出版物集合索引的元数据进行比较来识别相关文档集合。

在第二方面中，本发明提供了一种存储在计算机可读介质上的、用于处理内容源的计算机程序产品，包括：被配置为用于分析内容源中包含的非结构化数据并且用于提取关于内容源的结构化信息集合的程序代码；以及被配置为用于通过把结构化信息集合与根据出版物集合索引的元数据进行比较来识别相关文档集合的程序代码。

在第三方面中，本发明提供了一种用于处理源文档的方法，包括：分析所述源文档中包含的非结构化数据；提取关于所述源文档的结构化信息集合；并且通过把结构化信息集合与根据出版物集合索引的元数据进行比较来识别相关文档集合。

在第四方面中，本发明提供了一种用于采用用于处理文档的应用程序的方法，包括：提供一种计算机基础设施，所述计算机基础设施可操作用于：分析内容源中包含的非结构化数据并且提取关于所述内容源的结构化信息集合；并且通过把结构化信息集合与根据出版物集合索引的元数据进行比较来识别相关文档集合。

在第五方面中，本发明提供了包含在传播信号中的计算机软件，其用于实现用于处理文档的应用程序，所述计算机软件包括用于使计算机执行如下功能的指令，所述功能为：分析所述源文档中包含的非结构化数据；提取关于所述源文档的结构化信息集合；并且通过把结构化信息集合与根据出版物集合索引的元数据进行比较来识别相关文档集合。

附图说明

根据如下结合附图对本发明各个方面的详细描述，将使本发明的这些以及其它特征更加易于理解，其中：

图1描述了具有依照本发明实施例的文档处理系统的计算机系统。

图2描述了依照本发明实施例的用于搜索注释文档的搜索引擎。

具体实施方式

现在参考附图，图1描述了具有文档处理系统18的计算机系统10，所述文档处理系统18用于分析所输入的源文档28并且生成相关文档集合30。另外，文档处理系统18还可以生成注释文档32，其包括用于识别相关文档集合30的元数据34。所述注释文档32可以存储在注释文档数据库40中(即，与其它注释文档一起)。所述相关文档集合30包括在某种程度上涉及或者与所输入的源文档28有关的出版物的列表。

应该理解的是，源文档28可以包括任何类型的文档，但是通常包括“非结构化信息”。所生成的相关文档集合30可以包括可经由元数据数据库36识别的任何文档。例如，在一个说明性的实施例中，源文档28可以包括公开了特殊遗传序列的涉及生物技术的专利文献，并且所述相关文档集合30包括用于论述特殊遗传序列的生物技术参考文献(即，期刊文章等)的列表。在另一个实施例中，源文档28可以包括用于公开特殊条件或者疾病的患者记录，并且所述相关文档集合30可以包括与所述条件或者疾病有关的科学文章。

在又一实施例中，文档处理系统18可以输入包含非结构化信息的任何类型的内容源，而不是输入源文档28。说明性的内容源可以包括诸如音频文件、视频数据、图像、流式数据、网页等的多媒体数据。

为了生成相关文档集合30，文档处理系统18包括：文本分析系统20，用于从源文档28中提取包括关键字的“结构化信息”，所述关键字诸如是化学制品名称、疾病、基因等；比较系统22，用于把所述结构化信息与存储在元数据数据库36中的元数据相匹配以便定位所述相关文档集合30；聚集和排名系统24，用于对相关文档集合30和/或相关联的元数据/结构化信息进行聚集和排名；以及注释系统，用于生成包括元数据34的注释文档32。

文本分析系统20提供了一种用于分析非结构化信息以便生成结构化信息集合的系统。文本分析系统20例如可采用IBM^TM的非结构化信息管理体系结构(Unstructured Information ManagementArchitecture，UIMA)来实现。结构化信息可以被视为这样一种信息，其预定含义在数据的结构或格式中被清晰并且明确地表示出来。结构化信息的典型示例是关系型数据库表。非结构化信息可以被视为这样一种信息，其预定含义仅仅通过其形式大概地隐含，并因此需要翻译以便近似表示并且提取其预定含义。其示例包括自然语言文档、语音、音频、静止图像、网页和视频。据估计，所有公司的信息的百分之八十都是非结构化的。

在分析非结构化内容的过程中，非结构化信息管理(UIM)应用程序可利用包括统计和基于规则的自然语言处理(NLP)、信息检索、机器学习、本体和自动推理在内的各种技术。UIM应用程序可以查阅结构化源，以便帮助辨析非结构化内容的语义。例如，化学名称数据库可有助于集中对医学文摘进行分析。UIM应用程序通常产生结构化信息资源，其清楚地表示出从非结构化信息输入中推导出的内容。这些结构化资源因此能经由应用程序集合——适当的访问方法进行访问。一个简单的示例是搜索索引和查询处理器，其用于使文档可按照主题进行访问，并且根据它们与由用户指定的关键概念的相关性对它们进行排名。一个更加复杂的示例是形式本体和推理系统，其例如允许用户探究所述概念、它们的关系以及包含在包括数百万篇文档的集合中的逻辑暗示。

文本分析系统20可以被实现用来从源文档28中识别出有关特殊技术领域(例如，生命科学)的结构化信息，所述结构化信息包括关键字，诸如化学名称、疾病、基因、分子等。其它信息、诸如化学文摘(CAS)编号的列表和SMILES(“simplified molecular input lineentry specification，简化分子输入线性输入规范”，它是一种用于使用短ASCII字母数字字符串来清晰描述化学分子结构的规范)的列表也可以由文本分析系统20从源文档28中推导出来。

比较系统22把文本分析系统20的结果与元数据数据库36中的信息进行比较，以便识别出相关文档集合30。元数据数据库36包括从技术参考文献的综合集合中索引的元数据，所述技术参考文献也就是诸如科学期刊文章的出版物。在一个说明性的实施例中，元数据数据库36包括用于相关联的出版物的MedLine文摘数据库，其包括由MeSH代码、多个代码、化学列表、CAS数字、SMILES数据等组成的元数据。比较系统22由此识别出其相关联的元数据与文本分析系统20所获得的结构化信息相匹配的出版物。每一个这种匹配都会识别出技术参考文献，所述技术参考文献可以被添加到相关文档集合30中。聚集和排名系统24可以被实现用来聚集结果并且对相关文档集合30内的文档进行排名。

注释系统26可用于利用从元数据数据库36以及从文本分析系统20中得到的元数据34来注释所述源文档28。注释文档32中的元数据34同样可以由聚集和排名系统24来进行处理/排名。在源文档28包括专利的示例中，例如可以利用MedLine元数据来生成已注释的专利，其中所述MedLine元数据包括与包含和源专利相同的化学制品的技术参考文献相关联的索引数据、MeSH数据等。

在说明性的实施例中，所述元数据数据库36可以被加载作为独立的明星方案(star schema)，其是还包含注释文档数据库40的较大数据仓库的一部分。

所述聚集和排名系统24能依照任何方式来实现。例如，如果相关文档集合30内的多个参考文献包括相同的元数据，那么元数据的这些实例可以被聚集为单个重要性排名增加的清单。此外，聚集和排名系统24能识别出参考文献和/或元数据的“类别”，该类别被认为是比其它方面更加重要。此外，聚集和排名系统24能过滤参考文献和/或元数据，以便从结果中除去某些参考文献或者元数据。

同样地，注释系统26也可以依照任何方式来实现。例如，所述元数据34可以存储在文档数据库的附加字段中。

应该理解的是，任何类型的元数据都可用于本发明的情形中，以便识别出相关文档集合30并且注释源文档28。说明性的元数据类型包括MedLine限定词代码、化学制品、分子结构、MeSH代码、概念代码、分类、本体等。诸如软件、机械、电气等的涉及非生物技术的专利同样可以依照类似方式、基于例如现有的或已开发的元数据本体和分类、利用域专用元数据来进行注释。

图2描述了采用图1的注释文档数据库40的数据挖掘(datamining)系统42。数据挖掘系统42包括搜索系统44和元数据分类系统46，其允许用户输入元数据查询48以便生成搜索结果集合50。

一般说来，图1的计算机系统10(以及图2的数据挖掘系统42)例如可以包括台式电脑、膝上型电脑、工作站等。此外，计算机系统10可以作为客户端和/或服务器的一部分来实现。计算机系统10通常包括处理器12、输入/输出(I/O)14、存储器16和总线17。所述处理器12可以包括单个处理单元，或者可以跨越一个或多个处理单元而分布在一个或多个位置、例如在客户机和服务器上。存储器16可以包括任何已知类型的数据存储和/或传输介质，其中包括磁介质、光学介质、随机存取存储器(RAM)、只读存储器(ROM)、数据高速缓存、数据对象等。此外，存储器16可以驻留在单个物理位置上，并包括一种或多种类型的数据存储设备，或者可以依照各种形式分布在多个物理系统上。

I/O 14可以包括用于与外部资源交换信息的任何系统。外部设备/资源可以包括任何已知类型的外部设备，其中包括监视器/显示器、扬声器、存储设备、其它计算机系统、手持设备、键盘、鼠标、语音识别系统、语音输出系统、打印机、传真机、传呼机等。总线17提供了计算机系统10中的每个组件之间的通信链路，并且同样可以包括任何已知类型的传输链路，其中包括电的、光学的、无线的传输链路等。虽然未示出，但是诸如高速缓冲存储器、通信系统、系统软件等的附加组件也可以并入在计算机系统10中。

对计算机系统10的访问可以经由网络36来提供，所述网络诸如是因特网、局域网(LAN)、广域网(WAN)、虚拟专用网络(VPN)等。通信可以经由专用硬布线连接(例如，串行端口)、或者经由可编址连接来进行，所述可编址连接可以利用有线和/或无线传输方法的任意组合。此外，还可以使用诸如令牌环网、以太网、WiFi或者其它常规通信标准的常规网络连接。另外，可以通过基于常规的TCP/IP套接字的协议来提供连接。在这种情况下，因特网服务供应商可用于建立互连性。此外，如上所述，可以在客户端-服务器或者服务器-服务器的环境下进行通信。

应该理解的是，本发明的教导是作为基于预订或者付费的商业方法而提供的。例如，包括文档处理系统的计算机系统10可以由服务供应商来创建、维护和/或利用，所述服务供应商为顾客提供此处所述的功能。也就是说，如上所述，服务供应商可以提供对相关文档集合的识别、提供对注释文档的处理和/或提供注释文档数据库40。

应该理解的是，此处所述的系统、功能、机构、方法、引擎和模块可以用硬件、软件或者硬件和软件的组合来实现。它们还可以通过任何类型的计算机系统或者适合于实施此处所述方法的其它设备来实现。硬件和软件的典型组合可以是具有计算机程序的通用计算机系统，当载入并且执行所述计算机程序时，该程序控制所述计算机系统，使其执行此处所述的方法。作为选择，还可以利用包含用于实现本发明的一个或多个功能任务的专用硬件的专用计算机。在进一步的实施例中，本发明的所有部分例如可以经由诸如因特网的网络、依照分布式方式来实现。

本发明还可以被嵌入到计算机程序产品中，该计算机程序产品包括能够实现此处所述的方法和功能的所有特征，并且当将其载入计算机系统时，能够实现这些方法和功能。在本文中，诸如计算机程序、软件程序、程序、程序产品、软件等的术语意味着这样一组指令的依照任何语言、代码或符号的任何表示，所述指令用于使具有信息处理能力的系统直接、或者在进行如下步骤之一或两者后执行特殊的功能，所述步骤包括：(a)转换为另一种语言、代码或符号；和/或(b)依照不同材料形式再现。

已经为了举例说明和描述的目的给出了对本发明的先前描述。这不意味着穷举或者把本发明限制为所公开的具体形式，并且显然许多修改和变化都是可能的。对于本领域技术人员来说显而易见的这种修改和变化应该包括在本发明的范围内，其中本发明的范围由所附权利要求书来限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 使用文本分析从源文档中识别相关文档集合的系统和方法 [P] . 中国专利： CN100594495C . 2010.03.17
2. 使用文本分析从源文档中识别相关文档集合的系统和方法 [P] . 中国专利： CN1967535A . 2007-05-23
3. System and method for using text analytics to identify a set of related documents from a source document [P] . 美国专利： US9495349B2 . 2016-11-15

机译：使用文本分析从源文档中识别一组相关文档的系统和方法
4. System and method for using text analytics to identify a set of related documents from a source document [P] . 美国专利： US2007112748A1 . 2007-05-17

机译：使用文本分析从源文档中识别一组相关文档的系统和方法
5. System and method to identify documents in a database which relate to a given document by using recursive searching and no keywords [P] . 美国专利： US2001027452A1 . 2001-10-04

机译：通过使用递归搜索而不使用关键字来识别数据库中与给定文档相关的文档的系统和方法