首页> 中国专利> 基于RDF图路径游走的知识发现装置及方法

基于RDF图路径游走的知识发现装置及方法

摘要

本发明公开了一种基于RDF图路径游走的知识发现装置,包括输入模块,链接数据RDF模块,推理模块和输出模块,其中链接数据RDF模块能够对概念多且关系复杂的链接数据进行建模从而构建出RDF图,并通过在子图内部的步移和子图之间的跳转进行游走寻找新的路径,并结合推理模块推理出新的知识,从而能够在海量复杂的链接数据中发现更多的隐式知识,在实际应用中具有广泛的价值。本发明还公开了一种基于RDF图路径游走的方法,通过对链接数据进行RDF建模,并控制智能体在子图内部的步移和子图之间的跳转同时依据知识推理规则动态的发现新知识并更新RDF图,因而具有较强的灵活性和多变性。

著录项

  • 公开/公告号CN102722569A

    专利类型发明专利

  • 公开/公告日2012-10-10

    原文格式PDF

  • 申请/专利权人 浙江理工大学;

    申请/专利号CN201210180149.3

  • 发明设计人 张宇;张华熊;于彤;

    申请日2012-05-31

  • 分类号G06F17/30;

  • 代理机构杭州天勤知识产权代理有限公司;

  • 代理人胡红娟

  • 地址 310018 浙江省杭州市下沙高教园区2号大街5号

  • 入库时间 2023-12-18 06:47:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-21

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20141022 终止日期:20160531 申请日:20120531

    专利权的终止

  • 2014-10-22

    授权

    授权

  • 2012-12-05

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120531

    实质审查的生效

  • 2012-10-10

    公开

    公开

说明书

技术领域

本发明涉及面向链接数据的知识发现领域,特别是涉及一种基于RDF 图路径游走的知识发现装置和方法。

背景技术

近年来,互联网正经历巨大的变革,其发展趋势正从文件互联网逐步 发展成为数据互联网。万维网的发明人Tim berners-Lee号召政府部门和个 人开发自己的数据并发布到网上,这样其他人就可以关联并使用这些数 据。链接数据并不添加语义到信息中,但是它能够更好地承载已经拥有的 语义信息。因此,尽管链接数据并不是语义的,但是数据层面的链接将能 够为创建一个真正的语义网络奠定坚实的基础。

链接数据作为一种数据表达的新媒介,强调数据资源彼此之间的关联 关系,因而更具有机器可读性,使得机器能够自动地理解和处理海量的在 线数据。在这种背景下,如何能有效地从海量的链接数据中进行知识发现 就成为一个亟待解决的重要问题。

链接数据利用RDF(Resource Description Framework)资源描述框架进 行知识表达,因此可以被建模成为一个有向的、带标注的多概念RDF图, 在RDF中,数据资源可以被描述成一个三元组,包含:主语、谓词和宾 语,如图1所示。一个RDF三元组能够反映出一个简单语句的基本结构, 例如:“Bob interests_in AI book”,上述语句表明Bob对人工智能领域的 书籍感兴趣。主语是一个在线用户“Bob”,宾语是一个具体的商品类别“AI Book”,分别表示为RDF图中的一个节点,而谓词是有向边上的标注 “interests_in”,方向是由主语“Bob”指向宾语“AI Book”,所表达的含 义是用户Bob对AI Book这个领域感兴趣。

基于图游走的知识发现方法已经成为面向链接数据进行知识发现的 一种重要方法,传统基于链接数据的知识发现方法主要关注于单个子图, 往往忽略了多个子图彼此之间的关联关系,因而所能推理出的衍生知识十 分有限。还有一部分方法综合考虑了多个子图之间的关联关系,但是由于 这些方法关于子图的关联模式是固定的,不能够实现独立子图之间的动态 构建和重组,缺乏足够的灵活性和多变性,从而使得一些隐式的知识很难 被发现和挖掘出来。

发明内容

本发明的目的在于提供一种面向链接数据基于RDF图路径游走的知 识发现方法,通过基于RDF图路径的游走,动态地构建和重组RDF图, 从而推理出新知识。

本发明提供了一种基于RDF图路径游走的知识发现装置,用于在采 用资源描述框架RDF建模的链接数据中发现知识,包括输入模块,链接 数据RDF模块,推理模块和输出模块,其中:

输入模块接收链接数据、推理规则和控制命令的输入,将链接数据发 送到链接数据RDF模块进行RDF建模,将推理规则发送到推理模块进行 存储,并接收和转发控制命令;

链接数据RDF模块对所获取的链接数据进行预处理,利用RDF对链 接数据进行知识表达,建立RDF图;并接收输入模块转发的控制命令, 基于RDF图的路径游走寻找新的路径;

推理模块用于存储推理规则,并根据RDF游走路径查找推理规则, 进行匹配并推理出新知识;

输出模块,用于输出推理模块推理出的新知识。

进一步地,所述的链接数据RDF模块包括通用领域本体单元,RDF 预处理单元和RDF知识路径寻找单元,其中:

通用领域本体单元,用于记录资源标识符URI和描述链接数据之间的 属性关系;

RDF预处理单元,利用通用领域本体,根据链接数据构造RDF图;

RDF知识路径寻找单元,用于根据控制命令输入的游走起点,控制智 能体从起点出发,在RDF图中游走寻找新的路径,如果两个节点间具有 事实关系或两个节点间根据推理规则具有事实关系,那么智能体就沿着所 述事实关系对应的RDF链接从一个节点步移到达另外一个节点,如果两 个RDF图之间有共同节点,那么智能体通过跳转从一个RDF图跳转到另 外一个RDF图中去,当游走到某个节点不再满足其他任何条件时,那么 路径游走过程停止,或返回起点去找寻其他可能的路径。

进一步地,所述的通用领域本体单元中包括有朋友的朋友工程FOAF 本体,语义链接在线社区工程SIOC本体,电子商务Web词汇GoodRelations 本体或用户自定义的本体中的一个或多个。采用通用领域本体,可以方便 的加入和减少本体,灵活多样。

所述RDF预处理单元还用于接收推理模块推理出的新知识,在RDF 图中增加新的链接。通过及时更新RDF图,可以动态地重组RDF图,增 加智能体的游走路径,从而推理出更多新的知识。

本发明还提供了一种基于RDF图路径游走的知识发现方法,用于在 采用资源描述框架RDF建模的链接数据中发现知识,包括步骤:

步骤1、接收链接数据,利用通用领域本体对链接数据进行RDF建模, 形成RDF图;

步骤2、接收控制命令,控制智能体在RDF图中游走寻找新的路径;

步骤3、根据智能体游走路径,查询推理规则进行知识推理;

步骤4、输出推理出的新知识。

进一步地,所述步骤2包括步骤:

控制命令输入游走起点,智能体从起点出发,在RDF图中游走寻找 新的路径;

如果两个节点间具有事实关系,那么智能体就沿着所述事实关系对应 的RDF链接从一个节点步移到达另外一个节点;

如果两个RDF图之间有共同节点,那么智能体通过跳转从一个RDF 图跳转到另一个RDF图中去;

当游走到某个节点不再满足其他任何条件时,那么路径游走过程停 止,或返回起点去找寻其他可能的路径。

进一步地,所述方法还包括:如果两个节点间根据推理规则具有事实 关系,那么智能体就沿着所述事实关系对应的RDF链接从一个节点步移 到达另外一个节点。

所述不再满足其他任何条件是指当前节点后面没有新的节点,或者推 理规则中没有和当前节点相匹配的推理规则。

所述方法进一步包括:智能体每经过一个节点,都去查询与该节点有 关的推理规则进行匹配,根据相匹配的规则进行知识推理,从而及时发现 新的知识,并在RDF图中增加新链接。可以及时发现新的知识,动态更 新RDF图。

本发明同现有技术相比,具有的有益效果是:本发明所提出的方法针 对链接数据的多图模态,依据子图的独立性能够灵活地构建复杂多概念 图,然后能有效地建立链接数据中实体关系和图路径之间的映射模式,通 过在子图内部的步移和子图之间的跳转并依据知识推理规则动态的发现 新知识并更新RDF图,具有较强的灵活性和多变性。本发明基于RDF图 路径游走的装置通过链接数据RDF模块为概念多且关系复杂的链接数据 构建RDF图,其中RDF知识路径寻找单元能够通过在子图内部的步移和 子图之间的跳转,寻找更多的游走路径,并结合推理模块推理出更多的隐 式知识,因而能够从海量复杂的链接数据中发现更多的隐式知识,在实际 应用中具有广泛的价值。

附图说明

图1是RDF的一个典型示例图;

图2是本发明知识发现装置结构图;

图3是本发明知识发现装置链接数据RDF模块结构示意图;

图4是本发明实施例采用的RDF图;

图5是本发明知识发现方法流程图;

图6是描述基于RDF图进行知识推理的示意图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实 施例不构成对本发明的限定。

如图2所示,本发明面向链接数据基于RDF图路径游走的知识发现 装置,包括输入模块201,链接数据RDF模块202,推理模块203和输出 模块204。

输入模块201接收链接数据、推理规则以及控制命令的输入,将链接 数据发送到链接数据RDF模块202进行RDF建模,将推理规则发送到推 理模块203存储,并接收控制命令转发到链接数据RDF模块202通过智 能体的游走寻找新的路径。

链接数据RDF模块202对所获取的链接数据进行RDF建模,利用资 源描述框架RDF对链接数据进行知识表达,并建立RDF图,并根据控制 命令通过智能体的游走寻找新的路径。链接数据RDF模块202如图3所 示,包括通用领域本体单元301,RDF预处理单元302和RDF知识路径 寻找单元303。

其中通用领域本体单元301记录资源标识符URI和描述链接数据之间 的属性关系,该通用领域本体可以根据需要选择现有的本体,如FOAF(朋 友的朋友工程),SIOC(语义链接在线社区工程)和GoodRelations(电子 商务Web词汇)等现有本体,也可以自定义本体;

RDF预处理单元302用来对链接数据进行预处理,构造RDF图,完 成RDF建模;

具体地,一个RDF三元组能够清晰地表达出一个关于链接数据的陈 述,其中主语是一个RDF的资源标识符URI(Universal Resoure Identifier) 引用或者一个空白节点;谓词是一个RDF的URI引用;宾语是一个RDF 的URI引用,或者是一个文字标注或一个空白节点。一个RDF三元组可 以被建模成一个RDF子图,主语作为一个节点指代某个概念,谓词指代 概念的属性特征或者指代主语与宾语之间的关系,宾语作为一个节点指代 另一个概念或一个具体的属性值,有向边从主语指向宾语,属性值或关系 描述被标注在有向边上。子图和子图之间通过共同的节点彼此关联在一起 能够构成一个完整的链接数据超图G,G可以被看作是由若干个子图 所组成。每个子图都能够独立地描述两个实体之间的 关联关系或者是某个实体所具备的某种属性,子图和子图之间既彼此独 立,又通过共同的节点相互关联在一起从而组成一个复杂图,即链接数据 可以被建模成一个包含多个概念和多种不同关系的复杂RDF超图G。

本实施例如图4所示,图G由三个子图组成,分别是ga,gb和gc。 子图ga和gb通过共同节点“Bob”相互关联起来,而子图gb和gc通过 共同节点“Peter”相互关联起来。其中子图ga描述的是用户Bob的FOAF 文件,表明用户Bob所感兴趣的领域。子图gb描述的是用户Bob和Peter 之间的关系,即Bob是Peter的朋友。子图gc是用户Peter的FOAF文件, 描述了用户Peter是AI Book领域的专家。综上所述,利用RDF图能够很 好地对链接数据进行建模。

RDF知识路径寻找单元303根据智能体的游走来寻找新的路径,根据 控制命令输入的起点,控制智能体在RDF图中游走寻找新的路径。

推理模块203用于存储推理规则,当智能体游走到某个节点并显示出 这个节点存在某种关系时,智能体就到推理模块203中检索与该关系相关 的推理规则,当事实情况满足推理规则中要求的所有条件时,就可以根据 相匹配的规则推理出新知识。然后将新知识发送到输出模块204进行输出。 其中事实情况就是指当前链接数据所呈现出来的情况,例如Bob对人工智 能领域的书籍AI Book感兴趣,这就是一条事实。

同时推理模块203将推理出来的知识反馈给链接数据RDF模块202, 链接数据RDF模块202在原RDF超图中增加一条代表新知识的RDF链 接。

需要说明的是,推理规则主要依据以下两个方面进行制定:一是经验 常识,类似于数学上的公理,是不证自明的;这类推理规则主要由领域专 家根据经验和常识来制定,例如:一个用户经常在线浏览电影的影评,那 么可以推断出该用户对电影领域感兴趣。

另一方面的推理规则来源于数据挖掘与关联分析,通过对一定样本空 间的数据进行挖掘和分析,从而发现链接数据之间的隐藏关系或预测出一 定的结论。接下来采用归纳推理的方法,利用测试数据集对上述发现的关 系或结论的正确性加以检验,验证通过的最终转化为推理规则,即根据某 些链接数据及这些数据之间的相互关系能够推理出一定的结论。

例如一个信任推理规则A,在领域d内,对于任意的用户u和v,如 果同时满足:

(1)、用户u对领域d感兴趣;

(2)、用户u和v是朋友关系;

(3)、用户v是领域d内的一个专家。

那么就可以推理出用户u在领域d内信任用户v。

已经制定好的规则(rule)通过输入模块201被添加到推理模块203 中,不同的规则根据其所涉及的关系进行索引,在知识推理的过程中,当 事实情况显示出用户之间存在某种关系时,则根据该关系到规则库中检索 到相关的推理规则并进行匹配,根据相匹配的规则进行知识推理。

如图5所示,为本发明基于RDF图路径游走的知识发现方法,包括 步骤:

步骤501、接收链接数据,对链接数据进行RDF建模,形成RDF图;

步骤502、接收控制命令,控制智能体在RDF图中游走寻找新的路径;

步骤503、根据智能体游走路径,查询推理规则进行知识推理;

步骤504、输出推理出的新知识。

具体地,控制命令由输入模块输入,包括起点信息,链接数据RDF 模块接收到控制命令后,智能体就在RDF图中进行游走,寻找新的路径, 推理模块根据游走路径进行知识推理。

需要说明的是,智能体可以在RDF图G中进行路径游走,共有两种 游走方式:一是在子图之间,从一个子图中跳转到另外一个子图中去;二 是在子图的内部,从一个节点步移到达另外一个节点。

对于第一种游走方式,只要两个子图之间有共同节点,那么通过该共 同节点,智能体就能够从一个子图跳转到另外一个子图中去。例如在图4 中,子图ga和gb有共同节点Bob,那么智能体能够从子图ga跳转到子 图gb中。对于第二种游走方式,在某个子图的内部,如果当前的事实描 述能够满足RDF链接(RDF link)上的条件,那么智能体就能够沿着这个 RDF链接从一个节点一步到达另外一个节点。仍然以图4为例,Bob和 Peter是朋友关系,这是一个已知的事实,那么智能体从节点Bob出发, 由于其满足friendOf这一条件,所以智能体能够从节点Bob到达另外一个 节点Peter。

整个游走的过程可以被看作是一组路径的集合,一条路径可以表示为 一个序列(p0,t1,p1,...,tk,pk),其中pi指代的是智能体所在的位置, 也就是图G中一个具体的节点,而ti指代的是从p(i-1)到pi的转换(对于 所有i,1≤i≤k)。路径游走的过程从起点p0开始,到终点pk结束。

为了便于描述,本发明采用如下转换操作符来表示智能体的游走:

Step:指在某个子图中,智能体通过一个RDF链 接,从节点p(i-1)到节点pi的位置转换,可以写成一个四元组 (gm,(pi-1,Step,pi)),注意Step指的是在某个子图的内部从一个节点经 过一步而到达其邻近节点的一种状态转换;

Jump:指通过一个共同的节点,从一个子图gm跳转到另外一个子图 gn的一种转换,可以写成一个四元组(gm,pi,Jump,gn),注意其中 gm和gn指代的是不同的子图,但是它们通过一个共同的节点pi联系起 来。

通过Step和Jump等一系列的转换操作符,智能体能够实现在复杂 RDF图中的路径游走。

智能体从RDF图中的起点出发,当满足两个节点具有某种关系的事 实,或者是根据推理规则在RDF图中进行游走,在同一个子图内从一个 节点Step到另一个节点,或通过共同节点在子图间进行Jump;如果当前 节点后面没有新的节点,或者推理规则中没有和当前节点匹配的推理规则 的时候,智能体没有任何其他的游走路径,则游走过程停止,智能体停留 在该节点处或者回到起点去找寻其他可能的路径。在图4中,Bob对人工 智能领域的书籍感兴趣,根据这一事实,智能体可以从节点Bob到达节点 AI Book,而从节点AI Book没有新的路径可走,因此智能体停留在此处, 接下来智能体回到节点Bob再去寻找新的其他路径。

由于不同子图彼此之间可能有多个共同节点,一个子图也可能与多个 其它子图拥有同一个共同节点,那么这些子图相互关联在一起就会变化出 多种不同的路径组合,因此,整个RDF图中会呈现出不同的游走路径, 从而最终获得不同的推理结论。

以图6为例,子图ga和gb有一个共同节点“Bob”,因此可以从子 图ga通过转换操作符Jump跳转到子图gb,即图6中标注为2的虚线路 径。在子图gb中,已知的事实是“Bob是Peter的朋友”,也就是说满足 两个节点之间具有朋友关系这一条件,因此经由图6中标注为3的有向边, 可以从节点“Bob”通过转换操作符Step到达节点“Peter”。子图gb和gc有一个共同节点“Peter”,从子图gb通过转换操作符Jump可以跳转到子 图gc,即图6中标注为4的虚线路径。在子图gc中,根据已知事实“Peter 是AI Book领域的专家”,即满足两个节点之间具有“expert_in”关系,那 么智能体能够经由图6中标注为5的有向边从节点“Peter”通过转换操作 符Step到达节点“AI Book”。那么,整条游走路径就可以表示成如下的形 式:

(ga:Bob,Jump,gb:Bob,Step,gb:Peter,Jump,gc:Peter,Step,AI Book) 基于上述路径,智能体从Bob出发,最终到达AI Book,并且子图gc中 的节点AI Book和子图ga中的节点AI Book指的是同一个概念,子图和 子图中的节点Peter指的是同一个用户(图6中标注为6的有向边),因此 可以分别归并成一个节点,与前面定义的信任推理规则A相匹配,则可以 推理出Bob在AI Book领域是信任Peter的,即:

(Bob:trusts Peter:AIbook)

即根据推理规则将多条游走路径合并成一条新链接,这条新的链接代 表了通过推理和路径发现而获取的衍生知识,本发明利用转换操作符Infer 来表述推理出新发掘知识的转换操作,即在RDF图中增加了一条新的从 Bob指向Peter的新链接7,如图6所示,而这个推理出的结论也被添加到 RDF图中以便后续的知识发现使用。新链接的增加,使得RDF图中的路 径更加丰富,路径游走的变化更多,从而能够进一步地衍生出更多的新知 识。

整个知识推理的过程可以被看作是基于RDF图路径游走的过程。在 路径游走的过程中,可以采取宽度优先的方法,每到达一个节点,根据该 节点现有的关系都去存储有推理规则的推理模块中寻找是否有与其匹配 的推理规则,如果有则可以根据该规则获得新的衍生知识,新的衍生知识 将作为一条新的有向边添加到RDF图中。接下来,智能体在新的RDF图 中继续游走,寻找下一个可以扩展的节点并重复上述过程,直到整个RDF 图中没有新节点可以扩展为止。在整个游走的过程中,不断有新的知识被 推理出来,而在新知识的基础上又有更多的新知识被发现,从而实现整个 知识发现过程。

上述实施例中的衍生知识发现过程在现实生活中具有重要的实际应 用价值。当前,在线购物和在线推荐网站层出不穷,如何适应新形式下的 商品营销和推广是目前互联网行业亟待解决的一个重要问题。根据对在线 链接数据进行知识推理,能够有效地发现用户彼此之间的信任关系、朋友 关系以及推荐关系等隐式知识,从而为更好地为广告投放和目标营销提供 可靠的依据。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背 离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明 作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所 附的权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号