首页> 中国专利> 基于现有本体产生新概念的系统和方法

基于现有本体产生新概念的系统和方法

摘要

提供基于现有本体自动产生新概念的系统及其方法。所述系统基于自然语言格式表达的新概念描述在现有本体中建立新概念,包括:正规化部件,用于接收并分析新概念描述,以将其转换成正规化概念描述并输出,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;以及新概念产生部件,用于基于正规化后的新概念描述,识别每一个正规化概念描述部分中的核心术语,并将所识别到的核心术语、相关特征以及核心术语间的关系提取出来,以便用户根据现有本体建立新概念。因此,本体可以轻而易举地被管理、扩充或重用,同时又能保持本体的小尺寸和低复杂性。

著录项

  • 公开/公告号CN1877566A

    专利类型发明专利

  • 公开/公告日2006-12-13

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN200510077807.6

  • 申请日2005-06-09

  • 分类号G06F17/27;G06F17/30;

  • 代理机构北京市柳沈律师事务所;

  • 代理人郭定辉

  • 地址 美国纽约阿芒克

  • 入库时间 2023-12-17 17:59:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2010-06-16

    授权

    授权

  • 2007-02-14

    实质审查的生效

    实质审查的生效

  • 2006-12-13

    公开

    公开

说明书

技术领域

本发明总的来说涉及一种用于对以自然语言表示的描述进行处理的系统及其方法。具体地说,本发明涉及一种基于以自然语言格式表达的新概念描述、在现有本体中建立新概念的系统及其方法。

背景技术

本体(Ontology)是涉及某些感兴趣的领域的共享理解(sharedunderstanding)的术语,其时常被考虑成一组类别(概念)、关系、功能、公理和实例。通过提供一个清楚而且正式的描述,本体可以大大地协助用户以及应用(application)来理解公知领域知识。其被看作是知识管理方面的支柱。

在过去十年内,已建立了相当数量的本体,其大多数是由关于某些确定领域的通用概念所组成的。然而,在实际应用中,具体应用环节时常需要更加详细的概念。这些详细概念是针对某一确定应用的、更具体的概念,我们称其为新概念,其描述是以自然语言格式表示的确定概念的特性的描述,可以利用现有的本体的概念来表示。通常地说,创建这些详细概念可以仅仅借助于手工进行。要创建这些新概念的人们不得不仔细检查整个本体,标识本体中的新概念和现有概念之间的关系,这整个过程是一种高强度的劳动,并且容易出现差错。总之,有效地建立这些新概念是一件具有挑战性的工作。

发明内容

因此,本发明的目标是提供一种基于现有本体自动产生新的概念的系统及其方法。该系统对本体中的组成部分的重复使用率有极大的提高。该系统不仅提高了建立新概念的效率,而且还明显有利于与本体有关的应用。

为了实现本发明的上述和其他目的,提供一种基于以自然语言格式表达的新概念描述、在现有本体中建立新概念的系统,包括:正规化部件,用于接收并分析新概念描述,以将其转换成正规化概念描述并输出,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;以及新概念产生部件,用于基于正规化后的新概念描述,识别每一个正规化概念描述部分中的核心术语,并将所识别到的核心术语、相关特征以及核心术语间的关系提取出来,以便用户根据现有本体建立新概念。

为了实现本发明的上述和其他目的,提供一种基于以自然语言格式表达的新概念描述、在现有本体中建立新概念的方法,包括步骤:鉴别所接收到的新概念描述是否具有正规化的格式,如果所接收到新概念的描述不具有正规化的格式,则将非正规化格式的新概念描述转换成正规化的描述,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;识别每一个正规化概念描述部分中的核心术语,并提取所识别出的核心术语、相关特征以及核心术语间的关系,由此根据现有本体产生新概念的表达式。

为了实现本发明上述和其他目的,提供一种计算机产品,用于在其上以计算机可读形式存储计算机程序代码,以使得计算机系统执行所述计算机程序代码来实现步骤:鉴别所接收到的新概念描述是否具有正规化的格式,如果所接收到新概念的描述不具有正规化的格式,则将非正规化格式的新概念描述转换成正规化的描述,其中所述正规化概念描述包括一个或多个具有核心术语的描述部分,所述描述部分只能含有在所述现有本体中能辨识的术语,而所述核心术语包括中心词、零个或多个特性;以及识别每一个正规化概念描述部分中的核心术语,并提取所识别出的核心术语、相关特征以及核心术语间的关系,由此根据现有本体产生新概念的表达式。

本发明基于以自然语言格式表达的新概念描述,在现有本体的基础上,动态地产生新概念。通过本发明的上述方法和系统,将可以轻而易举地管理某领域的本体,同时又能保持本体的小尺寸和低复杂性。

附图说明

本领域熟练技术人员通过参考附图可以更好地理解本发明,并且可以明白本发明的众多目的、特征和优点,在附图中,采用的相同标记表示相似或相同的部件,其中:

图l是示出根据本发明的一个实施例的、基于新概念的描述自动或部分自动地建立新概念的系统的方框图;

图2是示出根据本发明的一个实施例的、自动或部分自动地建立新概念的方法的流程图;

图3是详细地示出根据本发明的一个实施例的、基于新概念的描述自动或部分自动地建立新概念的系统的方框图;

图4是示出根据本发明的一个实施例的、图3所示的正规化器的方框图;

图5是示出根据本发明的一个实施例的、图3所示的新概念表达式产生器的结构的框图;

图6是示出将非正规化概念描述转换成正规化概念描述的流程图;

图7是示出根据本发明的一个实施例的、产生新概念的算法的流程图;

图8示出了以有向图表示的某领域的本体的一个实例;以及

图9示出了以有向图表示的某领域的本体的另一个实例。

具体实施方式

以下对本发明的实施例进行详细说明。应该注意,以下描述不应当用来限制本发明。相反,根据本发明的发明构思,本领域普通技术人员可以进行适当改变,这些改变可以落入紧随说明书的权利要求书所限定的发明范围之内。

图1是示出根据本发明的一个实施例的、基于新概念的描述自动或部分自动地建立新概念的系统的方框图。参照图1,自动或部分自动地建立新概念的系统包括正规化部件110和新概念产生部件120。

正规化部件110用于接收并分析以自然语言格式表达的新概念描述,以将其转换成正规化概念描述并输出。所述正规化概念描述包括一个或多个具有中心词、零个或多个特性的描述部分,其中所述描述部分只能是可以在现有本体中辨识的术语。在存在多个描述部分的情况下,各描述部分之间的关系可以是AND/OR/NOT这样的逻辑关系。

应该注意,所述特性(或称为属性)是中心词所代表的个体之间的二元/多元关系,也就是说,属性把两个个体连接在一起。例如,属性″兄弟″可能会把张三和张四这两个个体连接起来,而属性″身高″会把张三和″180公分″连接起来;属性可以有反向属性,例如父亲的反向属性是儿子;属性也可以被限制为只能拥有一个值,即所谓的函数属性;属性还可以是具有传递性或是对称的。在不同的场合,属性也被称作槽(Slot)、角色(Role)、关系(Relation)或者特性(Attribute)等等。

新概念产生部件120用于基于正规化后的新概念描述,根据现有本体为新概念产生表达式。根据所产生的表达式,用户可以利用自然语言格式的新概念描述创建所述新概念。

这里,所述新概念是针对某一确定应用的、更具体的概念,所谓新概念描述是以自然语言格式表示的确定概念的特性的描述,而所述现有本体是目前已经针对很多领域建立的本体,相应领域的基本概念以及这些基本概念的特性已经包含在这些本体中。自然语言描述的一个例子是“自然人身份的贷款者资料”。

图2是示出根据本发明的一个实施例的、自动或部分自动地建立新概念的方法的流程图。参照图2,在步骤S210,正规化部件110鉴别所接收到的、以自然语言格式表达的新概念描述是否具有正规化的格式。如果在步骤S210鉴别出所述新概念描述具有正规化的格式,则处理转移到步骤S220,在其中,由新概念产生部件120根据现有本体为新概念产生表达式。

在步骤S220中产生新概念的形式化表达式的方式有以下几种:通过在现有本体的基本概念的范围上施加约束来创建新概念;以及将施加/没有施加约束的现有本体的基本概念执行交/并/补操作创建新概念。后一种创建新概念的方式可以表示为施加/没有施加约束的现有本体的基本概念的“AND”、“OR”和“NOT”逻辑操作。

如果在步骤210中鉴别出所接收到新概念的描述不具有正规化的格式,则处理转移到步骤S230,在其中,正规化部件110将非正规化格式的新概念描述转换成正规化的描述,并提取每个描述部分中的核心术语、相关特征以及核心术语间的关系。所谓核心术语包括中心词、零个或多个特性。正规化就是将非正规化概念描述分段为一个或多个具有中心词、零个或多个特性的描述部分,并且保存各个描述部分之间的关系,所述关系可以是AND/OR/NOT这样的逻辑关系。这里,如上所述,一个正规化的描述包括一个或多个描述部分,其中子短语(即,所述描述部分)只能是可以在现有本体中辨识的术语。

接下来,处理转移到如上所述的步骤S220,以利用正规化后的新概念描述和相应的核心术语,基于现有本体创建新概念。

接下来,处理还可以执行步骤S240来确认所产生的新概念,并根据确认结果,利用新概念产生部件120对未通过确认的、所产生的新概念进行修改,其中这种修改是本领域技术人员可以根据现有本体来进行的。然后,结束该处理。

值得注意的是,在这里所描述的所有操作步骤不是都必须出现在每一个实际的实施例中。例如,在提取出核心术语、相关特征以及核心术语间的关系以后,用户可以跳过自动概念产生操作步骤S220,而直接创建新概念。应该注意,根据正规化之后的结果,本领域的普通技术人员应该可以直接写出新概念所对应的表达式。例如,如果正规化后得到:”男人并且年龄>30”这样的结果,那么用户自己直接写出:

“<owl:Class>

      <owl:unionOf rdf:parseType=“Collection”/>

…”形式的表达式。

图3是详细地示出根据本发明的一个实施例的、基于新概念的描述自动或部分自动地建立新概念的系统的方框图。参考附图3,根据该实施例的、建立新概念的系统包括正规化描述鉴别器310、描述正规化器320、核心术语识别器330、新概念表达式产生器340以及新概念确认器350。

所述正规化描述鉴别器310用于接收关于新概念的描述,鉴别所述新概念描述是否为正规化概念描述,并直接输出被鉴别为正规化概念描述。

所述描述正规化器320与正规化描述鉴别器310相连,用于分析被正规化描述鉴别器310鉴别为非正规化概念描述,并将所述非正规化概念描述转换成正规化概念描述,然后输出已转换的正规化概念描述。这里,如上所述,所述新概念描述是以自然语言的格式出现的。此外,所述正规化概念描述包括一个或多个描述部分,各个描述部分之间的关系可以是AND/OR/NOT这样的逻辑关系,并且一般来说,每个描述部分中应该有中心词、零个或多个特性。

图4是示出根据本发明的一个实施例的、图3所示的描述正规化器320的方框图。参照图4,图3所示的所述描述正规化器320包括概念描述分段器410、概念识别器420和概念替换器430。概念描述分段器410用于将所接收到的非正规化概念描述分成一个或多个描述部分,其中各个描述部分之间的关系可以是AND/OR/NOT这样的逻辑关系。一般来说,每个描述部分中应该有中心词、零个或多个特性。与所述概念描述分段器410的概念识别器420用于对于所分段出的每个描述部分,识别出其中的、诸如类别和特性之类的核心术语。与所述概念识别器420相连的概念替换器430用于如果所识别出来的核心术语(名称)不具有正规化的形式,则以其在本体中的相应的正规化的形式替换,其中,所述替换是基于所在领域的同义词集和句子相似算法来执行的。这样,通过所述描述正规化器320的处理,原来非正规化概念描述可以转换成正规化概念描述。

值得注意的是,所述概念识别器420与将在下文中描述的所述核心术语识别器330具有相同的结构和功能。

图5示出了根据本发明的一个实施例的新概念表达式产生器340的结构的框图。参考图5,所述新概念表达式产生器340包括最短路径产生器510、语言表达式产生器520和组合表达式产生器530。

以下假定新概念描述中的描述部分为Part1,…,Partn(n>=1),每个描述部分的核心术语H1,…,Hn,每个描述部分Parti中的术语和特性分别为Ci1,…,Cim(m>=0)和Proi1,…,Proiw(w>=0),这里,m=0意味着没有任何其他术语,而w=0意味着在相应描述部分中没有任何特性。

在上述假定下,所述新概念表达式产生器340中的最短路径产生器510对每一个Cij(1<=j<=m),找出从Hi到Cij的最短路径Pathij,该路径应该满足下列要求:

a)如果w>0,则包含某个Proit(1<=t<=w),

b)不包含任何循环,

c)对于该路径中的任何节点Ni,如果Ni为类别,则跟随着边Ej,如果Ej为特性,则目标必须是类别或实例,而如果Ej为父类包容关系(例如,”人”就是”男人”的父类(supper class),”人”和”男人”之间的关系就是“父类包容关系”,类似的关系对比如:(动物,脊椎动物)、(学生,高中生)、(公司,IT公司)等等),则目标必须是类别。

所述语言表达式产生器520接收所述最短路径产生器510的输出,并且利用所述最短路径产生器产生的Pathij,以一定的语言产生相应的表达式Eij。这种语言诸如为OWL(web ontology language,万维网本体语言)或描述逻辑(Description logic)。本方法并不限于上述两种语言。

然后,组合表达式产生器530接收所述语言表达式产生器520所产生的每个Parti中的所有表达式Eij,并基于Cij之间的关系(AND/OR/NOT)(默认设置为AND),将每个Parti中的所有表达式Eij(j的取值范围为1到m)与对应关系组合到一个组合表达式CEi

具体地说,组合表达式产生器530在产生组合表达式CEi时,首先判断所述描述部分的数量是否大于1。如果判定为所述描述部分的数量大于l,则基于Parti之间的关系(AND/OR/NOT)(默认设置为AND),组合表达式CEi(1<i<=n)并产生最终的概念表达式。否则,如果组合表达式产生器530判定为所述描述部分的数量等于1,则将CEi作为最终的概念表达式。

图6示出了将非正规化概念描述转换成正规化概念描述的流程图。参照图6,在正规化非正规化概念描述的过程中,在步骤S610,利用所述描述正规化器320的所述概念描述分段器410,将非正规化概念描述分段为一个或多个具有中心词、零个或多个特性的描述部分,并且保存各个描述部分之间的关系,所述关系可以是AND/OR/NOT这样的逻辑关系。

在步骤S620,利用所述描述正规化器320中的所述概念识别器420,对于每个描述部分,识别出包含在其中的、诸如类别和特性之类的核心术语。

接下来,在步骤S630,判断所识别出来的核心术语是否具有正规化的形式。如果在步骤S630中鉴别出来的概念中不具有正规化形式的概念,则处理转到步骤S640,在其中基于本体所在领域的同义词集和句子相似算法,以所述核心术语在本体中的相应的正规化的形式替换对应的所述核心术语,然后结束该处理过程。

如果在步骤S630中所鉴别出来的概念都具有正规化的形式,则处理直接结束。

以下以一个例子说明上述处理过程。考虑描述:“自然人和法人拥有的文件(documents which are held by natural person and legal person)”,该描述只包含一个描述部分。关于包含“文件”、“自然人”概念的本体和包含“文件←→材料”同义词对的对应同义词集,其正规化格式是“[自然人AND法人拥有文件(documents which are held by natural person AND legal person])”。

而对于描述:“信用贷款或抵押贷款(credit loan or mortgage loan)”,其可以被分成两个的描述部分:“信用贷款(credit loan)”和“抵押贷款(mortgageloan)”,它们之间的关系是“OR”。该描述的正规化格式是“[信用贷款]OR[抵押贷款]”。

再回到附图3,通过正规化描述鉴别器310和描述正规化器320输出的新概念描述具有正规化的形式。所述正规化后的新概念描述被输入到核心术语识别器330。核心术语识别器330识别每一个正规化概念描述部分中的核心术语,并将所识别到的核心术语、相关特征以及核心术语间的关系提取出来。核心术语识别器330识别核心术语的方式有两种,其中的一种方式是使用在自然语言处理区域中的核心术语识别方法。例如,对于上述描述:“自然人和法人拥有的材料(documents which are held by natural person and legalperson)”,借助于现有算法(参见EP 1217533:Method and computer systemfor part-of-speech tagging of incomplete sentences.Inventor(s):TARBOURIECH NELLY(FR);POIRIER HERVE(FR);并参见Williams,Geoffrey.(2002)`Corpus-driven lexicography and the specialized dictionary:headword extraction for the parasitic plant research dictionary′,in Anna Braaschand Claus Povlsen(eds.)Proceedings of the Tenth EURALEX InternationalCongress,EURALEX 2002,Copenhagen:Center for Sprogteknologi,II,859-864),可以发现这个短语中的“文件”是一个核心术语。这意味着“文件”就是这个描述中的核心术语。

另一种方式是基于现有本体来分析描述中存在的概念。所述本体可以被看成有向图G,在该有向图G中,节点表示术语,而有向边表示术语之间的关系。给定n个术语,令ci表示第i个术语,令d(ci,cj)表示有向图G中的第i个术语ci和第j个术语cj之间的距离,而令s(nodei)表示第i个术语ci可以到达的、在有向图G中的相关术语的总数。对于存在于描述中的每一个术语ci,可以通过以下两个因素来确定其在所属的描述部分中的重要性:

1)s(ci):术语ci可以到达的、在该描述部分中的术语的总数。越重要的术语可以到达越多的术语;

2)术语ci与该概念描述中的所有其它术语之间的距离之和。越重要的术语会具有越小的距离和。

术语ci的重要性被记为Di,可以通过如下公式来计算:

> >>D>i>>def>>=>>>s>>(>>c>i>>)>>> >Σ>>j>=>1>>>n>,>j>≠>i> >d>>(>>c>i>>,>>c>j>>)>>>>>s>

该描述中的核心术语ck是具有最大重要性的值,其中k可以由以下公式确定:

(1≤k≤n)∧(Dk=Max(Di|i=l,n))

核心术语识别器330利用这个公式,可以找出所述核心术语。

例如,对于概念描述部分“[自然人AND法人拥有的文件(documentswhich are held by natural person AND legal person)”,可以计算出D文件=1,D自然人=0,D法人=0。显然,D文件是其中的最大值,所以术语“文件”为该描述中的核心术语。

再参照图3,在核心术语识别器330提取出正规化描述中的核心术语、相关特征以及核心术语间的关系之后,新概念表达式产生器340可以自动产生新概念。

图7是示出根据本发明的一个实施例的、图3所示的新概念表达式产生器340用来产生新概念的算法的流程图。通过对核心术语识别器330所识别出的核心术语进行特性的限制和/或对它们执行并、补和交操作,新概念表达式产生器340产生新概念表达式。

新概念表达式产生器340产生新概念的算法描述如下:

如上所述,若给定新概念描述中的描述部分为Part1,…,Partn(n>=1),每个描述部分的核心术语H1,…,Hn,每个描述部分Parti中的术语和特性分别为Ci1,…,Cim(m>=0)和Proi1,…,Proiw(w>=0),(这里,m=0意味着没有任何其他术语,而w=0意味着在相应描述部分中没有任何特性)。

在步骤S710,新概念表达式产生器340首先对每一个Cij(1<=j<=m),找出从Hi到Cij的最短路径Pathij,该路径应该满足下列要求:

a)如果w>0,则包含某个Proit(1<=t<=w),

b)不包含任何循环,

 c)对于该路径中的任何节点Ni,如果Ni为类别,则跟随着边Ej,如果Ej为特性,则目标必须是类别或实例,而如果Ej为父类包容关系,则目标必须是类别;

然后利用Pathij,以一定的语言产生相应的表达式Eij,这样的语言诸如为OWL或描述逻辑。

然后,处理将基于Cij之间的关系(AND/OR/NOT)(默认设置为AND),将每个Parti中的所有表达式Eij(j的取值范围为1到m)与对应关系组合到一个组合表达式:CEi。具体地说,处理将转移到步骤S720,在其中,判断所述描述部分的数量是否大于1。

如果在步骤S720中判定所述描述部分的数量大于1,则处理转移到步骤S730,在该步骤中,新概念表达式产生器340基于Parti之间的关系(AND/OR/NOT)(默认设置为AND),组合表达式CEi(1<i<=n)并产生最终的概念表达式。然而,结束处理。

而如果在步骤S720中判定所述描述部分的数量等于1,则新概念表达式产生器340将CEi作为最终的概念表达式,然后结束处理。

通常地说,万维网本体语言(OWL)可以全部支持这些类型的表达式。例如,“自然人或法人扮演的借用者的文件”可以由OWL表示为:

<owl:Class>

   <rdfs:subClassOf rdf:about=”#Document”/>

   <rdfs:subClassOf>

         <owl:unionOf rd:parseType=”Collection”/>

          <owl:Restriction>

          <owl:onProperty rdf:resource=”#Playedby”/>

        <owl:allValuesFrom rdf:resource=”NaturalPerson”/>

     </owl:Restriction>

     <owl:Restriction>

      <owl:onProperty rdf:resource=”#Playedby”/>

      <owl:allValuesFrom rdf:resource=”LegalPerson”/>

   </owl:Restriction>

 </owl:unionOf> </rfds:subClassOf></owl:Class>

所述描述“信用贷款或抵押贷款”可以由OWL表示为:<owl:Class>   <owl:unionOf rdf:parseType=”Collection”/>

 <owl:class rdf:about=”#CreditLoan”>

   <owl:class rdf:about=”#MortgageLoan”>  </owl:unionOf></owl:Class>

再参照图3,接下来,由新概念表达式产生器340所产生的新概念将由新概念确认器350确认是否确实是所要的新概念,并且在必要时可以修改所产生的新概念。最后,用户基于新概念确认器350输出获得新的类别。显然,这里所获得的类别是以新类别的形式化表达的。

以下将提供特定应用场景来说明如何应用本发明的方法。这个特定应用场景的主要构思是根据关于某一确定应用的用户描述,自动选择现有的实例。

例1:现有类别与特性限制的联合:

图8给出了以有向图表示的某领域的本体的一个实例。参考图8,在这个特定应用场景中,自动选择现有实例的主要步骤是:

1)由用户描述实例的限制

例如,如果用户要获得所有现有喜欢酒的男人和喜欢茶的女人,他可以给定类似于“喜欢酒的男人和喜欢茶的女人(male who likes wine and femalewho likes tea)”这样的描述;

2)正规化正规化之后,该描述将成为“[喜欢酒男人]AND[喜欢茶女人]([man who likes wine]AND[woman who likes tea])”;

3)识别核心术语

对于上述例子,对于[喜欢酒男人]([man who likes wine])来说,核心术语为“男人(man)”,而对于[喜欢茶女人]([woman who likes tea])来说,核心术语为“女人(woman)”;

4)产生新类别

该发明的系统利用正规化了的描述及其核心术语,按照如下方式产生新类别:

<owl:Class>

   <owl:unionOf rdf:parseType=”Collection”/>

      <owl:Class>

      <rdfs:subClassOf rdf:about=”#man”/>

      <rdfs:subClassOf>

         <owl:Restriction>

           <owl:onProperty rdf:resource=”#like”/>

           <owl:allValuesFrom rdf:resource=”#wine”/>

            </owl:Restriction>

   </rdfs:subClassOf>

       </owl:Class>

         <owl:Class>

      <rdfs:subClassOf rdf:about=”#woman”/>

      <rdfs:subClassOf>

         <owl:Restriction>

           <owl:onProperty rdf:resource=”#like”/>

           <owl:allValuesFrom rdf:resource=”#tea”/>

            </owl:Restriction>

  </rdfs:subClassOf>

      </owl:Class>

  </owl:unionOf>   </owl:Class>

这里,以OWL格式表示新类别。接下来,用户需要检查该表达式并确认该新类别是否确实为其所要的新类别的;以及

5)获得实例

本发明的系统利用该新类别,可以检查现有实例并选择符合该新类别的定义的那些实例。选择结果是符合描述“喜欢酒的男人和喜欢茶的女人”的那些人。

例2:特性限制

图9出了以有向图表示的某领域的本体的另一个实例。参考图9,在这个特定应用场景下,自动选择现有实例的主要步骤是:

1)由用户描述实例的限制

例如,如果用户要获得所有现有由自然人扮演他们的借用者、他们的目的是买小汽车或房产的贷款,用户可以给定类似于“其借用者是自然人并且其目的是买小汽车或房产的贷款(loan that its borrower is a natural person and itspurpose is to buy car or house)”这样的描述;

2)正规化正规化之后,该描述将成为“[其借用者是自然人并且其目的是买汽车房产贷款]([loan that its borrower is a natural person and itspurpose is to by automobile or house])”;

3)识别核心术语

对于上述例子,核心术语为“贷款(loan)”;

4)产生新类别

该发明的系统利用正规化了的描述及其核心术语,按照如下方式产生新类别:   <owl:Class>

  <rdfs:subClassOf rdf:about=”#Loan”/>

  <rdfs:subClassOf>

     <owl:Restriction>

       <owl:onProperty rdf:resource=”#borrower”/>

       <owl:allValuesFrom rdf:resource=”#NaturalPerson”/>

         </owl:Restriction>  </rdfs:subClassOf>  <rdfs:subClassOf>

         <owl:Restriction>

            <owl:onProperty rdf:resource=”#purpose”/>

            <owl:allValuesFrom>

              <owl:Class>

            <owl:unionOf rdf:parseType=”Collection”/>

              <owl:class rdf:about=”#Automobile”>

                    <owl:class rdf:about=”#House”>

                    </owl:unionOf>

                </owl:Class>

               <owl:allValuesFrom>

            </owl:Restriction>

   </rdfs:subClassOf>   </owl:Class>

这里,以OWL格式表示新类别。接下来,用户需要检查该表达式并确认该新类别是否确实为其所要的新类别的;以及

5)获得实例

本发明的系统利用该新类别,可以检查现有实例并选择符合该新类别的定义的那些实例。选择结果是符合描述“其借用者是自然人并且其目的是买小汽车或房产的贷款”的那些。

利用现有方法,用户必须构造一组复杂的查询语句来获得需要的实例,而利用本发明的方法,用户可以仅仅通过提供需要的实例的自然语言的描述,就获得需要的实例。因此,本发明提供了一种轻松和自动的方式来供用户查询数据用。

虽然上面主要以硬件结构或方法步骤来描述了本发明的优选实施例,但根据本发明的系统操作方法也可以实施为计算机程序软件。例如,按照本发明的示范实施例的方法可以体现成一种计算机程序产品,它可以使得计算机执行所示范的一种或多种方法。所述计算机程序产品可以包括计算机可读的介质,其上包含计算机程序逻辑或代码,用于使得所述系统能够按照一种或多种示范方法运行。

所述计算机可读存储介质可以是被安装在计算机主体中的内置介质或者被布置使得它可以从计算机主体拆卸的可移动介质。所述内置介质的示例包括但不限于可重写的非易失性存储器,诸如RAM、ROM、快闪存储器和硬盘。可移动介质的示例可以包括但不限于:光存储媒体,诸如CD-ROM和DVD;磁光存储媒体,诸如MO;磁存储媒体,诸如软盘(商标)、盒带和可移动硬盘;具有内置的可重写的非易失性存储器的媒体,诸如存储卡;具有内置的ROM的媒体,诸如ROM盒。

根据本发明的方法的程序也可以被提供为外部提供的传播信号和/或在载波中包括的计算机数据信号的形式。体现为示范方法的一个或多个指令或功能的所述计算机数据信号可以被承载在用于通过执行示范方法的指令或功能的实体来发送和/或接收的载波上。而且,这样的程序当被记录在计算机可读存储媒体上时可以容易地被存储和分发。

本发明的上述说明本质上仅仅是示范性的,不脱离本发明的要旨的改变都应该包含在本发明的范围内。这样的改变不被看作与本发明的精神和范围的脱离。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号