首页> 中国专利> 使用权利要求分析排序知识产权文档的方法和系统

使用权利要求分析排序知识产权文档的方法和系统

摘要

本发明提供了一种用于在专利检索系统中重排序搜索结果的方法和系统,其中查询文本全部或部分地来源于专利权利要求,所述专利权利要求可来自于现有的专利或预期的权利要求。所述重排序基于候选专利的若干特征,诸如与所述权利要求的文本相似度、国际专利分类号或其他分类或主题关联性或重叠以及候选者的内部引用结构。一个备选方面提供了基于自动生成的训练数据来训练的重排序器,由此避免了昂贵且花费时间的专家评注步骤。

著录项

  • 公开/公告号CN102792262A

    专利类型发明专利

  • 公开/公告日2012-11-21

    原文格式PDF

  • 申请/专利权人 汤姆森路透社全球资源公司;

    申请/专利号CN201180008432.1

  • 申请日2011-02-01

  • 分类号G06F7/00(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人张懿;王忠忠

  • 地址 瑞士巴尔

  • 入库时间 2023-12-18 07:26:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-10

    未缴年费专利权终止 IPC(主分类):G06F 7/00 专利号:ZL2011800084321 申请日:20110201 授权公告日:20160810

    专利权的终止

  • 2020-05-01

    专利权的转移 IPC(主分类):G06F7/00 登记生效日:20200414 变更前: 变更后: 申请日:20110201

    专利申请权、专利权的转移

  • 2020-05-01

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F7/00 变更前: 变更后: 申请日:20110201

    专利权人的姓名或者名称、地址的变更

  • 2018-07-20

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F7/00 变更前: 变更后: 申请日:20110201

    专利权人的姓名或者名称、地址的变更

  • 2016-08-10

    授权

    授权

  • 2013-02-13

    实质审查的生效 IPC(主分类):G06F7/00 申请日:20110201

    实质审查的生效

  • 2012-11-21

    公开

    公开

查看全部

说明书

技术领域

本发明大体上涉及自然语言处理、信息检索并且更具体地涉及确定文档内的术语的相关性。本发明涉及术语或文档的其他方面的统计加权以确定所述术语或方面与该文档、尤其是与该文档的内容如何相关或对其如何重要。此外,本发明涉及供与法务、企业及其他专业领域相关的服务传递使用的过程、软件和系统。本发明涉及这样的系统,其向诸如与专业服务相关的服务的订户的用户提供搜索功能、处理搜索术语并且跨文档数据库应用搜索语法,以及显示响应于所述搜索功能和处理而生成的搜索结果。

背景技术

随着印刷机、排版、打字机、计算机实现的字处理和海量数据存储装置的出现,由人类生成的信息的量已经显著地并且以日益加速的步伐上升。结果,对收集和存储、识别、追踪、分类和编目以检索和发布这种不断增长的海量信息有持续且不断增长的需要。对例如书籍和其他文字作品的信息进行编目和分类的一种传统形式是杜威十进制系统。在专利领域中,仅在美国就已经公告了上百万的专利。每个专利被公告为具有一组权利要求,其限定了由美国授权并且由专利权人拥有的产权。除了公告的专利之外,目前可得到的用于搜索和查看的已公开专利申请的数量也在不断增长。每个已公开的专利申请同样地包含对该发明的一个或多个权利要求。美国专利局使用基于主题的分类系统按本领域的技术中心、分类和子分类放置所提交的专利申请以更高效地处理专利权利要求的搜索及授权或者驳回。此外,一组国际专利分类号进一步按主题对专利和申请进行分类。历史上,被指派来审查专利申请的审查员将查阅“鞋(shoes)”,即与特定子分类相关联并且包含基于由先前的发明人所公开和要求权利的主题而被分在一组的专利集合的盒子。在电子搜索之前,审查员将手动查阅所述鞋以努力找到现有技术,这是非常乏味、耗时并且低效的。电子数据库有效地将专利文档放置在电子“鞋”中以供搜索。

在许多领域和行业中,例如包括金融和法律领域以及技术领域,存在内容和增强体验提供商,诸如汤森路透公司(The Thomson Reuters Corporation)。这样的提供商识别、收集、分析和处理供生成内容使用的关键数据,所述内容诸如为法律相关的报告、文章等等,供专业人员以及例如律师等在相应行业中所涉及的其他人员消费。各个领域和行业中的提供商不断寻找产品和服务来提供给订户、客户及其他顾客,并且寻找使他们的公司在竞争中与众不同的方法。这样的提供努力创建和提供增强工具,包括搜索和排序工具,以使客户能够更高效和有效地处理信息并且做出知情的决定。

例如,随着跨例如已公告的专利、已公开的专利申请的数据库等大量数据和文档进行搜索的技术和复杂方法的进步,专业人员及其他用户在做出专业和商业决定时越来越多地依赖于数学模型和算法。例如用于跨专利文档的大型数据库应用搜索术语的现有方法由于他们常常不充分地集中在所关心的关键信息上以产生一组集中的并且良好排序的文档来最接近地匹配所表达的搜索术语和数据,而具有相当大的改进空间。尽管这样的基于计算机的系统具有缺点,但较之于手动搜索、识别、过滤和分组IP文档而言已有明显进步,手动搜索、识别、过滤和分组IP文档过于花费时间、成本高、效率低并且不一致。

搜索引擎被用于响应用户定义的查询或搜索术语来检索文档。为此,搜索引擎可对术语出现在一个文档中的频率与那些术语出现在数据库或数据库网络内的其他文档中的频率进行比较。这有助于搜索引擎确定文档内不同术语各自的“重要性”,并且由此确定与给定查询最匹配的文档。用于将出现在一个文档中的术语与文档集合比较的一种方法被称为术语频率-反文档频率(TFIDF)。在这个方法中,术语总数与主题文档内的所有术语相比较的百分率被赋值(作为分子),并且除以术语在其中出现的文档在文集中的百分比的对数(作为分母)。更具体地,TFIDF将权重赋值为用于评估词语对文档集合或文集中的一个文档的覆盖(tile)重要性的统计测量。覆盖词语的相对“重要性”与覆盖次数或这样的词语出现在文档中的“频率”成比例地增加。将重要性与该词语出现在包括文集的文档中的频率相抵消或比较。TFIDF被表达为log(N/n(q)),其中q是查询术语,N是集合中的文档的数量,而N(q)是包含q的文档的数量。TFIDF及这种加权方案的变型通常被诸如谷歌的搜索引擎在给定用户查询的情况下用作评分和排序文档的相关性的方法。一般地,对于包括在用户查询中的每个术语而言,可基于对与每个术语相关联的分数求和而就相关性对文档排序。可基于相关性及其他确定因素将响应于用户查询的文档排序并且呈现给用户。

发明内容

本发明提供了用于重排序专利文档检索系统中的搜索结果的方法和系统,其中查询文本全部或部分地来源于专利权利要求,所述专利权利要求可来自于现有的专利。该重排序基于候选专利的一个或多个特征,诸如与所述权利要求的文本相似度、国际专利分类号或其他分类关联性或重叠以及候选者的内部引用结构。本发明的一个特征提供了基于自动生成的训练数据来训练的重排序器,由此避免了昂贵且花费时间的专家评注步骤。在实现中,可自动地或半自动地,即以某种程度的人工干预来执行本发明的概念。

发明人、专利审查员、代理人和律师需要可靠的专利检索系统来例如调查现有技术、研究专利权利要求的有效性或者为诉讼做准备。专利检索更为特殊和专业化并且例如在下列方面不同于一般的网络搜索:1) 查询文本-专利检索中的查询经常是权利要求,其具有某种固定结构并且可能非常长,而典型的基于网络的搜索查询是非常短的,包括很少的术语;2) 专利文档-专利通常具有标准结构,其包括诸如名称、作者、申请日、IPC(国际专利分类号(IPC))、引用、摘要、技术概要和权利要求等字段,而网络文档可能具有各种格式和内容;以及3) 搜索目的-专利检索的主要目的是找到与被搜索专利相关的现有专利,例如可使指定的专利或专利申请的权利要求无效的现有专利,而网络搜索的目标为找到相关的文档或回答用户问题。考虑到这些区别,与典型的基于网络的搜索引擎和系统相关联的信息检索算法不是很好地适用于为专利检索工作。

现有方法以不同方式修改基线信息检索算法。一些方法修改术语加权策略,例如使用TF(术语频率)来代替TF-IDF(术语频率-反文档频率)(H. Mase和M. Iwayama. 2007. 日立的Ntcir-6专利检索实验. NTCIR-6研讨会纪要,第403-406页);一些方法研究统计语言模型中的平滑效果(J. Kim、Y.H. Lee、S.H. Na和J.H. Lee. 2007. ntcir-6英文专利检索子任务中的浦项科技大学. NTCIR-6研讨会纪要,第393-395页);一些方法使用查询扩展策略(Y.H. Tseng、C.Y. Tsai和D.W. Huang. 2007. 使用不同专利代理对美国专利商标局专利文档的无效搜索. NTCIR-6研讨会纪要,第390-392页;H. Tanioka和K. Yamamoto. 2007. 使用查询扩展和强调的通路检索系统. NTCIR-6研讨会纪要,第428-432页;H.>

在过去,已针对专利检索提出了不同的检索方法。Kim等人(Kim等人, 2007)使用带有Jelinek-Mercer平滑的基线语言模型来进行专利检索。基于他们的结果,平滑是否有助于检索性能是不确定的。Fujii(Fujii, 2007)结合两个搜索,一个搜索基于使用Okapi BM25(S. Robertson、S. Walker、S. Jones、M.M. Hancock-Beaulieu和M. Gatford. 1994. Okapi at trec-3. 第三届文本检索大会纪要,第109-126页)的文本检索,而另一个搜索基于引用,其中基于来自于文本检索的前N个文档的引用来计算引用得分。这两个得分的乘积被用于最终排序。

两阶段专利检索方法由Mase等人提出(H. Mase、T. Matsubayashi、Y. Ogawa、M. Iwayama和T. Oshio. 2005. 考虑权利要求结构的两阶段专利检索方法的提议. ACM亚洲语言信息处理学报(TALIP),4(2): 190-206)。在阶段一,使用标准信息检索方法,其中将专利的整个文本用作检索对象。在阶段二,仅将权利要求文本用于重排序来自于第一阶段的前N个专利,其中相关性得分基于使用不同加权策略的一组选择性的权利要求术语。最终的相关性得分是来自这两个阶段的得分的线性组合。在另一篇论文中(Mase和Iwayama,2007),Mase等人比较若干检索方法,其中所述方法使用不同的术语加权策略、查询扩展策略和文档过滤策略。这些方法显示了较之于基线方法的改进,但由于对整个专利文本和术语选择的使用而导致需要进行大量计算。

查询扩展是改进专利检索的另一种尝试。Tseng等人(Tseng等人,2007)使用选自初始检索中的前6个文档的一些关键术语来扩展权利要求查询。Nanba(Nanba, 2007)使用下义词、缩写词、同义词和有关术语来扩展查询。Aono(Aono, 2007)针对专利检索提出了基于类别的潜在语义索引(LSI)方法。具体而言,他们的算法首先基于IPC(国际专利分类)将整个专利集合分类成各类别,随后对每个类别反复地应用LSI。并且在给定查询权利要求的情况下,与其最相似的类别中的前50个专利作为无效候选被返回。

与现有方法相比,除其他优点以外,本发明提供了下列优点:1) 通过机器学习来自动学习排序模型,已知系统试探性地结合来自于多个源的不同排序结果;2) 自动生成训练数据,即使没有消除昂贵且花费时间的人工相关性判断步骤,也极大地减少了这样的步骤;以及3) 有效并且可高效计算的特征组。在一种实现中,本发明提供了以毫秒级的速度显著地改进基线搜索的算法。

在一个备选实施例中,本发明提供了一种用于处理与专利权利要求术语相关的用户查询以生成响应于所述查询的一组专利文档的基于计算机的系统,所述系统包括:搜索引擎,其由计算机执行并且适于接收查询以及基于所述查询搜索包含在至少一个数据库中的专利文档的权利要求,并且适于产生第一组候选专利文档;以及重排序模块,其包括可由所述计算机执行的代码并且适于至少部分地基于与所述专利相关联的一组特征来重排序所述第一组候选专利文档以及生成第二组经排序的专利文档,所述重排序模块适于基于先前执行的学习过程对所述一组特征进行加权。在一个备选方案中,所述重排序可至少部分地基于包括与要求权利的发明的主题相关的至少一个分类特征的一组特征。另外,重排序模块还可适于为所述第一组候选专利文档中的每个专利生成与所述一组特征相关联的一组特征得分,所述重排序模块适于至少部分地基于所述一组特征得分重排序来生成所述第二组经排序的专利文档。此外,所述重排序模型还可适于为所述第一组候选专利文档中的每个专利生成至少部分地来源于一组特征得分的总得分,所述重排序模块适于至少部分地基于与所述第一组候选专利文档中的每个专利相关联的总得分重排序来生成所述第二组经排序的专利文档。所述一组特征可包括来自包括下列各项的集合的一个或多个:专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-c(rank-c),其表示所述第一组候选专利中的专利的任何权利要求的最低排位;sim(c, c),其表示所述查询与所述第一组候选专利中的专利的权利要求之间的最高相似度得分;sim(c, cs),其表示所述查询与所述第一组候选专利中的专利的所有权利要求之间的相似度得分;sim(c, 名称),其表示所述查询与所述第一组候选专利中的专利的名称之间的相似度得分;sim(c, 摘要),其表示所述查询与所述第一组候选专利中的专利的摘要之间的相似度得分;sim(关键概念, 关键概念),其表示所述查询的关键概念与所述第一组专利中的专利的关键概念之间的相似度得分;sim(关键概念, 名称),其表示所述查询的关键概念与所述第一组专利中的专利的名称之间的相似度得分;sim(关键概念, 摘要),其表示所述查询的关键概念与所述第一组专利中的专利的摘要之间的相似度得分;IPC-重叠,其表示所述第一组专利中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利的IPC分类号之间重叠的IPC分类号的数量;以及直接引用(direct-Cite),其表示所述一组初始高排位专利文档中引用所述第一组专利文档中的专利或被所述第一组专利文档中的专利引用的专利的数量。此外,所述一组特征得分可被归一化并且可包括IPC-重叠,所述IPC-重叠表示所述第一组专利文档中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量,所述重排序模块还适于计算IPC-重叠,其包括适于定义两个IPC分类号之间的重叠得分、基于IPC分类号结构将每个IPC分类号分为多个级的代码,并且其中两个IPC分类号之间的第一级重叠产生第一得分并且两个IPC分类号之间的第二级重叠产生第二得分。给定专利文档的IPC-重叠可以是该专利的IPC分类号与所述一组初始高排位专利文档的所有IPC分类号之间的平均重叠得分,并且在专利具有低IPC-重叠得分的情况下,其可以被分配相对低的相关性得分。可基于先前执行的学习过程来配置所述重排序模块,其包括自动生成的训练数据,所述自动生成的训练数据被处理以建立将被分配给所述一组特征中的各个特征的相关性权重。所述学习模块可收集训练数据并且至少部分地基于所收集的训练数据为所述一组特征分配相关性权重。所述搜索引擎可包括适于产生所述第一组候选专利文档的基于基线文本的检索系统。所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述搜索引擎处理以对包括在所述第一组候选专利文档中的专利进行划界(delimit)或加权。所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述重排序模块处理以对所述一组特征进行划界或加权。

在第二实施例中,本发明提供了用于接收和处理搜索查询并且向用户呈现搜索结果的方法,所述方法包括:接收包括表示专利权利要求搜索的术语的查询;使用搜索引擎从数据库中检索第一组专利文档,所述第一组专利文档中的每一个包括响应于所述查询的一个或多个权利要求;基于一组专利特征重排序所述第一组专利文档以生成一组经重排序的专利文档;以及为显示而从所述一组经重排序的专利文档生成响应于所述查询的权利要求的有序列表。

在还有第三实施例中,本发明提供了一种用于接收和处理搜索查询并且向用户呈现搜索结果的方法,所述方法包括:接收包括表示专利权利要求搜索的术语的查询;使用搜索引擎从数据库中检索一组专利权利要求,所述一组专利权利要求中的每一个响应于所述查询;排序具有来自所述一组专利权利要求的一个或多个权利要求的一组专利文档;使用一组专利特征重排序所述一组专利文档以生成一组经重排序的专利文档;以及为显示从所述一组经重排序的专利文档生成响应于所述查询的专利权利要求的有序列表。

在还有另一实施例中,本发明提供了在其上存储有将由机器执行以进行操作的指令的机器可读介质,所述指令包括用于下列操作的指令:呈现包括用于接收查询输入的输入框的图形用户界面屏幕;接收与专利权利要求术语相关的查询;针对与在包括专利文档的数据库中所表示的专利文档相关联的权利要求处理所述查询以生成响应于所述查询的一组候选专利文档;至少部分地基于一组专利特征重排序所述一组候选专利文档并且生成第二组经排序的专利文档;以及为查看而显示与所述一组经排序的专利文档相关联的图形用户界面屏幕。

附图说明

为了便于全面理解本发明,现在对附图进行参考,在附图中用相同的标号引用相同的元素。这些图不应被解释为限制本发明,而是旨在作为示例并且用于参考。

图1是示出用于实现本发明的示例性的基于计算机的系统的示意图;

图2是示出实现本发明的示例性方法的搜索流程图的第一部分;

图3是示出实现本发明的示例性方法的搜索流程图的第二部分;以及

图4是示出本发明的实现的流程图;

图5是用于实现本发明的基于处理器的系统的硬件配置的示意图;

图6是示出具有用于输入在处理本发明时所用的查询数据的一组域的示例性用户界面屏幕的屏幕截图;

图7是示出结合本发明的用于输入搜索数据并且启动搜索的示例性用户界面屏幕的屏幕的第一部分;

图8是示出结合本发明的用于输入搜索数据并且启动搜索的示例性用户界面屏幕的屏幕的第二部分;以及

图9是示出通过处理本发明所得到的搜索结果屏幕的屏幕截图。

具体实施方式

现在将参照如附图所示的示例性实施例来更详细地描述本发明。虽然此处参照示例性实施例来描述本发明,但应理解的是,本发明不限于这样的示例性实施例。具有本领域的普通技术并且可以理解此处的示教的那些人员将认识到另外的实现、变型和实施例以及本发明所适用的其他应用,这在此处被充分预计为包含在此处所公开和要求权利的本发明的范围之内,并且就此而言,本发明可具有显著的实用性。

本发明提供了用于专利文档搜索和检索的系统。在一个示例性实施例中,在给定权利要求文本cq作为查询的情况下,本发明返回包含相似权利要求的专利文档并且基于相关性得分对它们进行排序。所述系统适用于其中cq来自现有的专利文档,例如专利或专利申请,或者并不是现有已公告或待定的权利要求的应用。在一个示例性实施例中,本发明包括三个步骤:1)>cq的权利要求文本从权利要求的全域中检索一组权利要求;2)>

“专利文档”如该术语在说明书中被使用的那样意指美国和非美国的专利以及已公开或披露的专利申请,并且还意指全部或部分地来源于这样的文档的文档。例如,美国专利包括下列字段、特征或术语,其可以是独立定义的可搜索字段:摘要;申请日;申请序列号;申请类型;专利权人所在城市;专利权人所在国家;专利权人姓名;专利权人所在州;助理审查员;代理人或代理机构;权利要求;说明/说明书;外国优先权;外国参考文献;政府利益;国际分类或IPC;发明人所在城市;发明人所在国家;发明人姓名;发明人所在州;公告日;其他参考文献;母案信息;专利号;专利类型;PCT信息;主审查员;再公告数据;名称;相关的美国申请数据;当前的美国分类;以及被引用信息。其他体系可使用包括专利文档的相似的或另外的字段。本发明允许用户构造查询以包括与权利要求相关的文本作为主要的或唯一的搜索术语。用户也可构造这样的查询,即除了权利要求文本查询术语之外,还包括另外的查询术语来特别地限制或增强诸如上文所列的那些的其他术语的重要性。以这种方式,用户可例如基于权利要求文本进行搜索并且将响应的一组专利文档缩窄至与特定的专利权人、发明人、IPC或其他分类、日期范围、公告日等相关的那些专利文档。以这种方式,由用于处理所述查询的搜索引擎产生的一组候选专利文档可以被减少或特别指出以适应用户的特定搜索需要或目标。在备选方式中,系统可以被配置为允许用户输入和配置系统,使得重排序模块对诸如上文所列的那些的特定专利相关字段进行划界或加权,或者在重排序过程中对与专利相关字段相关联的特征进行划界或加权。

根据本发明的一种实现,对于第一步骤,即对一组初始权利要求或一组初始候选专利文档的检索,使用无监督的基于学习的检索(ULR)算法,例如基于WIN搜索(Turtle, 1994)的算法。由于权利要求文本通常较长并且具有特定于域的性质,像WIN那样被设计用于一般信息检索的搜索引擎作为用于将最相关的权利要求或专利文档识别和返回为排在最前面的候选者的手段不是很有效,由此使重排序成为必须。在这个示例中,仅在查询中使用权利要求文本。然而,如在别处所描述的那样,另外的术语或步骤可被用于获得一组初始候选权利要求或专利文档。接着,重排序步骤包括对初始组中的每个专利的若干数值特征的计算,这将在下文中更详细地被解释。在一个实施例中,基于支持向量机(SVM)的排序器,例如(T. Joachims. 2002b. 使用点击链接型数据优化搜索引擎. ACM知识发现和数据挖掘(KDD)大会纪要,第133-142页)可被用于重排序候选专利文档。另外,可基于自动生成的数据、训练数据来训练排序模型,将在下文中详细解释训练数据的生成。

下面的讨论提供了对本发明的示例性实施例的特征提取方面的更详细的描述。在给定查询权利要求cq的情况下,例如WIN搜索引擎的搜索引擎被用于搜索搜索空间中的专利的所有单独的权利要求。在这个示例中,产生排在最前面的一组结果的专利,例如前100个中的专利被看作为候选池。对于候选池中的每个专利pi,计算一组特征。下面的示例描述用于计算的十个特征。这些特征充分利用了专利的不同字段,诸如名称、摘要、IPC、参考文献和权利要求。这些特征可包括下列示例性字段中的一些或全部:专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-c,其表示第一组候选专利中的专利的任何权利要求的最低排位;sim(c,>

例如,排位-c是0:9ri,其中ripi的任何权利要求在初始的WIN搜索中的最低排位。由于初始搜索不考虑单独的权利要求,因此pi可具有出现在排在最前面的一组结果中的若干权利要求。实施例可使用那些权利要求之中的最低排位来为pi计算特征。就sim(c,>pi的权利要求与cq之间的最高相似度得分。这个特征根据由WIN搜索引擎提供的相似度得分将排位特征向上增大。可通过除以这个特征对于特定查询的最高得分而对该特征进行归一化。接着是sim(c,>cq与pi的所有权利要求之间的相似度得分。同样地,可通过最高得分对这个特征进行归一化。接着是sim(c,>cq与pi的名称之间的相似度得分,其如上文所述那样被归一化。接着是sim(c,>cq与pi的摘要之间的相似度得分,其如上文所述那样被归一化。接着是sim(关键概念,>cq的关键概念与pi的关键概念之间的经归一化的相似度得分。通常,独立权利要求的起始句包含诸如下列各项的词语:包含、由…组成、包括、在于(in>

另一个术语是sim(关键概念,>cq的关键概念与pi的名称之间的经归一化的相似度得分。另一个术语是sim(关键概念,>cq的关键概念与pi的摘要之间的经归一化的相似度得分。另一个术语是IPC-重叠。IPC-重叠特征基于pi的IPC与源专利组的IPC之间重叠的IPC的数量,所述源专利组例如可被定义为候选池中的前十个专利。为了计算IPC-重叠,优选的是首先定义两个IPC之间的重叠得分。在一个示例性的实例中,可基于结构将每个IPC分为三个级。例如,像A61K¡009=02那样的IPC具有三个级A61K(级1)、A61K-009(级2)以及A61K¡009=02(级3)。两个IPC之间的单级重叠给出例如为0.3的预定义得分。两个IPC的重叠得分是来自于三个级的得分的总和。例如,A61K¡009=02与A61K¡009=10之间的重叠得分是0.6,这是因为它们在级1和级2重叠。可将pi的IPC重叠定义为pi的IPC与所有源专利的所有IPC之间的平均重叠得分。这个特征基于下述假设:即源专利中的大部分所共有的IPC将反映查询权利要求的主题。因而,如果专利具有低IPC-重叠得分,则其不大可能是相关专利。将要讨论的下一个特征是直接引用,其与IPC-重叠的相似,这是因为直接引用表示引用pi或被pi引用的源专利的数量,用源专利的总数对其进行归一化。

本发明的这个优选实施例的下一个方面是自动生成训练数据。重排序器算法自动学习诸如上文所描述的那些的特征的重要性,以充分利用这些特征。在优选实施例中,训练数据被使用。可通过结果的人工评注来收集训练数据,但这是耗时且昂贵的过程。代替地,本发明包括自动生成训练数据的方法。第一步是被选择为一组目标专利的第一权利要求的查询的自动生成。通过WIN搜索引擎来运行这些查询以得到一组候选专利并且如上文所描述的那样计算这些候选专利的特征。可将训练“标签”分配给这些特征向量。

标签的生成依赖于知道查询权利要求从其中被选择的专利。所分配的国际专利分类号(IPC)和被引用的专利包含关于特定专利的丰富信息。优选实施例定义下列规则来判断候选专利p与目标专利ptarget的相关性。首先,如果p的IPC与ptarget的IPC匹配,并且引用ptarget或被ptarget引用,那么pptarget相关,并且被分配为A级。第二,如果p的IPC与ptarget的IPC匹配,但既没有被ptarget引用也没有引用ptarget,那么认为pptarget有些相关,并且被分配为C级。第三,如果p的IPC与ptarget的IPC不匹配,并且既没有被ptarget引用也没有引用ptarget,那么判断pptarget不相关,并且被分配为F级。在一种方式中,如果各IPC在第二级相同,则它们可以被定义为匹配。自动分配A级、C级和F级的过程不是无错的,但其显示了相对的相关性。只要具有更高等级的专利更有可能与目标专利相关,那么自动生成的训练数据就将令人满意地训练重排序模型。

基于世界知识产权组织,IPC(国际专利分类号)被分为八个部。在下面的实验性示例中,IPC的A部部分中的所有专利被用作整个搜索空间,其包括大约五十万个专利。对于每个专利而言,名称、IPC、摘要和权利要求是已知的。重要的是注意到本发明不需要使用专利的全文。在本实例中,从五十万个专利之中,随机选出10,000个专利来生成训练和测试数据。具体而言,在这个示例中,对于每个专利,第一权利要求被用于生成其候选专利并且使用下文所详细讨论的规则来自动为它们分配A/C/F级。没有产生任何A级的查询专利被放弃。在这个示例性测试中,查询中的79个被分离并且被用于测试,而剩余的查询被用于训练。数据组被平衡以具有大约相同数量的A级、C级和F级,但对C级和F级进行二次采样。总体来说,大约5,000个专利被选择作为目标,产生大约40,000个标记的特征向量。具有多项式(度=2)核的SVM-light(T. Joachims. 2002a. 使用支持向量机学习分类文本. 学位论文.Kluwer)被用在这个示例中以训练排序模型。

对79个测试查询权利要求进行重排序。对于这些测试查询,前5个搜索结果被发送给专利专家来分配A级、C级和F级,其中A意指非常相关,C意指有些相关,而F意指不相关。进而将该人工评级与下面自动生成的计算机评级比较。就计算机评级与人工评级的相似度而言,表1显示了对于大约600个候选专利在给定人工评级的情况下的计算机评级的条件概率。表1显示了当专家将专利判断为非常相关(人工评级为A)时,计算机评级很少为F;并且当专利被判断为不相关(人工评级为F)时,计算机评级很少为A。当专利被判断为有些相关(C)时,计算机评级很可能也为C。这表明计算机评级在区分非常相关、相关和不相关的专利时是可靠的。

P(计算机评级|人工评级)ACFA0.400.510.09C0.230.660.11F0.080.540.38

表1:计算机评级对比人工评级

接着,通过首先基于计算机评级将检索结果与基线WIN搜索相比较来检验该结果。在表2中,MAP(A)是当只有A专利被认为相关时的平均精确度,MAP(AC)是当A和C专利被认为相关时的MAP,pre@kA是当只有A专利被认为相关时排位k处的精确度,并且pre@kAC意指当A和C专利都被认为相关时排位k处的精确度。如表2所示,本发明的这个示例性实施例大体上比基线搜索表现更好。例如,本发明的方法将pre@10AC从0.16提高到0.38,并且将pre@5AC从0.72提高到0.85。MAP显示了38%的性能提高。

MAP(A)pre@1ACpre@5ACpre@10ACWIN0.850.800.750.72ULR0.900.920.880.85MAP(A)pre@1Apre@5Apre@10AWIN0.470.230.160.14ULR0.650.580.380.28

表2:基于计算机评级的实验结果

表3显示了基于人工评级的结果。对于这个比较,用于人工评级的两组结果被发送,一组具有直接引用特征而一组不具有直接引用特征。只有前5个搜索结果由人类专家来评估。Pre@1A和Pre@5A表明直接引用有助于将更多的A级专利推送到前面。为了这个测试的目的,在给定人工评级与计算机评级如上文所示的那样匹配良好这一事实的情况下,人类专家不评估基线WIN搜索结果。基于测试,清楚的是本发明的方法比基线方法明显表现更好。

特征组pre@1ACpre@5ACpre@1Apre@5A没有直接引用0.910.840.620.42有直接引用0.910.870.680.49

表3:基于人工评级的实验结果

本发明的方法较之于WIN所具有的一个显著优点在于其不仅使用基于文本相似度的特征,而且还使用例如基于IPC和引用的特征,这通常包含与在文本中找到的信息互补的信息。例如,在实验中进行的一个测试查询针对关于储存系统(家具)的搜索,包含像储藏室、底座、支撑结构、搁板等词。基于文本相似度,WIN在其前5个中返回一些不相关的专利,例如一个专利关于用于可进入展示冷藏柜的库存控制系统,而另一个专利关于磁带盒储存系统。本发明的方法从其高排位的组中排除这样的不相关专利,举例来说是因为这些不相关专利的IPC不同于候选池的主要IPC并且它们具有低的引用得分。因此,本发明的这个示例性实施例的方法将这样的不相关专利放置在排位中更远地靠下的位置。

以这种方式,本发明的方法提供了无监督的基于重排序的专利检索系统,其比基于基线文本的检索系统明显更好。本发明的方法使用一组丰富的特征并且可基于自动生成的训练数据进行训练,由此使得该方法在运行时非常高效。尽管在描述本发明时讨论了特定的示例性特征,例如IPC-重叠和直接引用,但本领域的普通技术人员不会这样把本发明限制于这些所表达的特征,并且将理解对具有另外的特征的本发明的使用也会产生有利的结果。例如,可应用这些特征的其他编码并且可采用基于共同引用及IPC之间的其他距离度量的特征。

参考图1,上述过程并且如下面更详细地讨论的那样可连同以示例性系统100的形式示出的硬件与软件的组合以及通信连网一起来执行。在这个示例中,系统100提供用于搜索、检索、分析以及排序权利要求和/或专利文档的框架。系统100可连同例如West Services Inc.,即汤森路透公司的一部分的专业服务供应商的系统提供一起被使用,并且在这个示例中包括中央网络服务器/数据库设施101,其包括网络服务器102、例如NOVUS的专利文档数据库103、具有专利权利要求分析器105、特征提取模块106、重排序模块107和学习模块108作为组件的专利文档检索系统104。中央设施101可被远程用户109诸如经由例如为因特网的网络126访问。可使用基于因特网或(全球范围的)网络的、基于桌上型计算机的或应用网络实现的组件的任意组合来实现系统100的各个方面。这个示例中的远程用户系统109包括经由诸如PC计算机等的计算机110操作的GUI界面,其可包括硬件与软件的典型组合,如相对于计算机110所示的那样包括系统存储器112,操作系统114,应用程序116、图形用户界面(GUI)118、处理器120和存储装置122,存储装置122可包含诸如电子文档的电子信息124。可以在为远程用户提供对可搜索的数据库的访问时采用下文所详细描述的本发明的方法和系统。特别地,远程用户可使用基于专利权利要求的搜索查询来搜索专利文档数据库以检索和查看所关心的专利文档。因为专利文档的量非常大,本发明提供了评分和排序过程,其便于有效和高效的并且大大改进的搜索和检索操作。客户机侧应用软件可被存储在机器可读介质上并且包括例如由计算机110的处理器120执行的指令,并且基于网络的界面屏幕的呈现便于用户系统109与中央系统101之间的交互。操作系统114应适用于系统101以及此处所描述的浏览器功能,例如Microsoft Windows Vista(商务版、企业版和终极版)、Windows 7或带有适当的服务包的Windows XP专业版。该系统可要求远程用户或客户机与处理能力的最低阈值水平,例如英特尔奔腾III的例如为500MHz的速度、最小存储水平及其他参数相兼容。

在这个示例中如此描述的配置是众多配置中的一种并且就本发明而言不是限制性的。中央系统101可包括诸如在LAN、WAN、以太网、令牌环、FDDI环或其他通信网络基础设施上的服务器、计算机和数据库的网络。若干合适的通信链路中的任何通信链路都是可用的,举例来说诸如为无线、LAN、WLAN、ISDN、X.25、DSL和ATM型网络中的一个或组合。执行与系统101相关联的功能的软件可包括桌上型计算机或服务器或网络环境内的自给式应用,并且可利用诸如SQL 2005或以上版本或者SQL Express、IBM DB2或其他合适的数据库的本地数据库来存储文档、集合以及与处理这样的信息相关联的数据。在示例性实施例中,各种数据库可以是关系数据库。在关系数据库的情况下,各种数据表被创建并且使用SQL或本领域中已知的一些其他数据库查询语言将数据插入这些表中和/或从这些表格中选择数据。在使用表和SQL的数据库的情况下,可使用举例来说诸如为MySQL™、SQLServer™、Oracle 8I™、10G™或一些其他合适的数据库应用的数据库应用来管理数据。可将这些表组织成RDS或对象关系数据架构(ORDS),如本领域中已知的那样。

图2和图3示出了示例性专利权利要求分析器基于java的垂直系统200,其接受专利权利要求的文本(其可例如在Westlaw上已经由用户以搜索的形式输入,或可已经来源于现有专利中的权利要求文本),并且识别和检索一组响应的专利文档,例如包括最相似的权利要求中的100个的一组。在用圆圈#1示出的步骤1中,诸如Westlaw的订户的用户输入或选择权利要求文本以进行分析。基于查询输入,UI(用户界面)层将权利要求文本发送至CDO(协作数据对象)层。在步骤2中,CDO层创建包含权利要求文本的JSON(Java脚本对象注释)请求,并且经由HTTP POST请求将其提交给该垂直系统。在步骤3中,Spring控制器接收该请求,并且启动(kick off)处理。在步骤4中,使用权利要求文本作为查询针对w_ip_claimscs集合组进行初始的自然语言搜索以找到最相关的权利要求中的多达100个。注意到w_ip_claimscs搜索w_ip_ptclaims关系集合以返回关系结果。在一种方式中,可将一个版本的单个权利要求存储在集合内这个集合组引用的每个关系之内。在一种实现中,可使用例如Novus API的与数据库相关联的应用编程接口(API)直接进行搜索。

在步骤5中,一系列步骤(6-8)并行发生。按应用的实例创建的固定线程池管理线程创建、重新使用以及排队(具体而言,这个池是ExecutorService的实例,其为与Java并发实用程序(Java Concurrency Utility)一起被包括的任务调度框架的一部分)。在步骤6中,针对w_ip_bibliocs集合组(其由关系集合构成)进行6种自然语言搜索。在一种方式中,这可基于(一个或多个)相同的关系集合,w_ip_biblio(书志目录集合或备选地为文档集合或其他集合格式)域基于所述(一个或多个)相同的关系集合。因此,实际上,搜索这个集合组即搜索所述域。这些搜索的目标不是要找到特定的关系;相反地,是要收集自然语言搜索得分并且对信息进行排序。搜索是针对各种字段的排列搜索,其中所述查询或者包括被传递到该垂直系统中的权利要求文本或者包括“关键概念”文本,所述“关键概念”文本通过由备选服务或源提供的代码从权利要求文本生成。在步骤7中,获取关系(getRelationships)请求被发给w_ip_biblio。所返回的关系产生既被用于显示渲染也被用于到PcaRecommendationMgr中的输入的元数据。在步骤8中,HTTP GET请求由暴露MT图像服务的服务器端小程序(servlet)构成。这个调用被进行以返回链接到专利PDF文档所需的信息。例如,图像服务这个服务器端小程序可被用于得到图像元数据以便在由垂直系统返回的结果中提供PDF链接。可进行一个请求来得到多个图像的元数据。

在步骤9中,搜索元数据(以及通过获取关系调用返回的元数据中的一些)被提供给PcaRecommendationMgr,其为所返回的100个权利要求产生最优的排序顺序。在步骤10中,所推荐的权利要求被编译成XML结果,该XML结果作为字符串被插入由Spring控制器创建的JSON响应中。在步骤11中,CDO接收并且缓存所推荐的权利要求结果。在步骤12中,UI将XML文档转换成HTML结果并且通过对所返回结果的UI操作进行进一步的过滤。

图4是用于处理本发明的专利文档检索系统的示例性方法400的图示。方法400包括用于接收和处理搜索查询并且向用户呈现搜索结果的过程框402-410。注意到此处所显示和/或描述的过程、功能和数据组通常作为编码的程序指令和/或数据被存储在诸如电子、光学、磁性或铁磁介质的机器可读介质中。这些过程、功能和数据组与单个计算或数据处理系统内的或者例如经由局域或广域网互连的多个系统内的一个或多个处理器结合被使用。在步骤402中,用户输入包括表示专利权利要求搜索的术语的查询。在步骤404中,系统执行搜索引擎以从数据库中检索第一组专利文档,该第一组专利文档中的每一个包括响应于用户查询的一个或多个权利要求。在步骤406中,可选地,系统收集训练数据并且为一组特征分配权重,其可在为各个特征评分时被使用。在步骤408中,系统基于一组专利特征重排序第一组专利文档以生成一组经重排序的专利文档。这可通过生成可根据其进行相似度确定的一组特征得分来完成。该系统还可利用已知技术对该组得分进行归一化。所述方法可包括使用阈值评分规定对该组文档进行划界。在步骤410中,系统为显示而从所述一组经重排序的专利文档生成响应于查询的权利要求或专利文档的有序列表。

现在参照图5,以计算机系统500的示例形式示出机器的示例性表示,可在计算机系统500内执行一组指令以使该机器执行此处所讨论的方法中的任何一个或多个。特别地,系统500以及这个系统的变型可被用于实现图1的专利文档检索系统104和/或该系统的组件,例如专利权利要求分析器105、特征提取106、重排序模块107和学习模块108。在备选实施例中,该机器作为独立设备操作或可连接(例如连网)到其他机器。在连网的部署中,该机器可在服务器-客户机网络环境中以服务器或客户机的能力进行操作,或者在对等(或分布式)网络环境中作为对等机器进行操作。该机器可包括服务器计算机、客户机计算机、个人计算机(PC)、网络路由器、交换机或桥接器,或能够执行指定将由该机器采取的行动的一组指令(顺序的或相反)的任何机器。此外,尽管仅示出了单个机器,但术语“机器”也可被理解为包括单独地或联合地执行一组(或多组)指令来执行此处所讨论的方法中的任何一个或多个的机器的任何集合。

示例计算机系统500包括处理器502(例如中央处理单元(CPU)、图形处理单元(GPU)或两者)、主存储器504和静态存储器506,它们经由总线508彼此通信。计算机系统500还可包括视频显示单元510、键盘或其他输入设备512、光标控制设备514(例如鼠标)、存储单元516(例如硬盘驱动器)、信号生成设备518以及网络接口设备520。

存储单元516包括机器可读介质522,在其上存储有具体实施此处所示意的方法或功能中的任何一个或多个的一组或多组指令(例如软件524)。软件524在由计算机系统500对其的执行期间也可完全或至少部分地驻留在主存储器504内和/或处理器502内,主存储器504和处理器502也构成机器可读介质。软件524还可经由网络接口设备520在网络526上被传送或接收。

尽管机器可读介质522在示例性实施例中被示出为单个介质,但术语“机器可读介质”应被理解为包括单个介质或多个介质(例如集中式或分布式的数据库和/或相关联的缓存或服务器),其存储一组或多组指令。术语“机器可读介质”也应被理解为包括能够存储、编码或承载由机器执行的一组指令并且使得机器执行本发明的方法中的任何一个或多个的任何介质。相应地,术语“机器可读介质”应被理解为包括但不限于固态存储器、光学和磁性介质以及载波信号。

图6示出了示例性的用户界面屏幕截图,其中对用户呈现具有用于输入查询数据的一组域的“专利权利要求定位器”实用程序。在这个示例性的GUI中,用户可输入1) 专利号、2) 已公开的专利申请号或者3) 表示要用在搜索中的权利要求语言的自定义文本。在输入与用户搜索相关联的数据时,专利权利要求定位器功能如上文所描述的那样针对专利文档的数据库处理所述查询,并且返回响应于查询的一组或一列权利要求或专利。

图7和图8示出了示例性用户界面屏幕,其中对用户呈现搜索及其他功能的面板(图7)以及来自已公告的美国专利US PAT 7,448,994的一组权利要求(图8)。从图7的面板中,用户可浏览所述实用程序,以进行诸如查看该专利的历史、排序(order)该专利的文件历史、查看有关该专利的诉讼列表、查看与该专利相关联的转让、查看有关该专利的族谱、查看在产生该专利的申请中提交的原始的一组权利要求的表示、查看最终公告的一组权利要求、查看在该专利中引用的现有技术、查看该专利等的功能。

图8示出了示例性的用户界面屏幕,其中对用户呈现来自已公告的美国专利US PAT 7,448,964的一组权利要求,用户可从中进行选择和提交。在选择和提交将被分析的权利要求时,专利检索系统使用上文所描述的本发明的技术针对(一个或多个)数据库应用查询,并且生成响应于查询的权利要求或专利的列表。在这个示例中,用户已从'964专利中选择了权利要求1并且按下了“分析”按钮。图9表示示例性的搜索结果屏幕截图,其中被搜索的权利要求,即'964专利的权利要求1连同被系统识别为与所提交的权利要求相似的一组或一列匹配的权利要求一起被呈现。与结果得到的一组权利要求相关联的专利的链接连同一组识别信息,例如专利号、发明人姓名、公告日以及代理人姓名一起被提供。

本发明不应被限制在此处所描述的具体实施例的范围内。应充分预计的是,除了此处所描述的那些实施例之外,本发明的其他各种实施例和变型将从前述说明和附图中变得对本领域的普通技术人员显而易见。因此,这样的其他实施例和变型例旨在落入以下所附权利要求的范围内。此外,尽管此处已在特定实施例和实现及应用的上下文中以及在特定环境下描述了本发明,但本领域的普通技术人员将理解,本发明的实用性不限于此并且本发明可为任意数量的目的以任意数量的方式和环境被有益地应用。相应地,应考虑此处所公开的本发明的全面外延和精神来解释下面所陈述的权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号