首页> 中国专利> 基于用户定制的本体实例匹配系统及方法

基于用户定制的本体实例匹配系统及方法

摘要

本发明提供一种基于用户定制的本体实例匹配系统及方法,该基于用户定制的本体实例匹配系统包括组件模块和配置模块;该组件模块,包括多个原子组件;该配置模块,用于接收用户输入的定制信息,并根据该定制信息生成匹配任务定制文件,以及根据该匹配任务定制文件从该组件模块中选取用户所需的原子组件以执行本体实例匹配任务,该匹配任务定制文件包括:待匹配本体O1和O2的URI位置、匹配参数和匹配流程。本发明能够使用户能够根据匹配本体的特征,对原子组件进行定制和组装来设计自己需要的本体的实例匹配流程,生成合适的匹配任务,并获得精确地匹配结果。

著录项

  • 公开/公告号CN104133673A

    专利类型发明专利

  • 公开/公告日2014-11-05

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN201410319194.1

  • 发明设计人 邵超;胡琳梅;李涓子;

    申请日2014-07-04

  • 分类号G06F9/44(20060101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人李相雨

  • 地址 100084 北京市海淀区清华园北京100084-82信箱

  • 入库时间 2023-12-17 01:54:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-26

    授权

    授权

  • 2014-12-10

    实质审查的生效 IPC(主分类):G06F9/44 申请日:20140704

    实质审查的生效

  • 2014-11-05

    公开

    公开

说明书

技术领域

本发明涉及语义万维网技术领域,尤其涉及一种基于用户定制的 本体实例匹配系统及方法。

背景技术

语义Web由万维网的创始人Tim Berners-Lee提出,是探索新一代互 联网发展的重要技术。目前语义Web技术已经得到了广泛的发展,并涌 现出大量的实际应用,如LinkedData、语义维基等。伴随着语义网的发 展,越来越多的数据采用本体的方式来描述。然而不同的本体之间的 异构造成数据交换和语义互操作的新的障碍。本体的异构分为两个层 面,模式层异构和实例层的异构。由于现在大量大规模本体知识库的 公开,每个知识库的实例个数较大,不可能和模式层一样能够进行人 工对齐,所以自动对齐本体知识库的实例层的技术成为了目前语义网 技术的一大热点。

目前国内外已有很多关于本体实例匹配方法的研究,并且有不少 的本体实例匹配系统被开发出来并得到应用,比较著名的系统包括 ASMOV,SLINT+,Sigma,Paris,Codi等等,这些系统在有的数据集 上面能够取得较好的结果,但并不能在所有的本体实例匹配任务中都 获得令人满意的匹配结果。例如他们全部都不能处理两个本体的实例 的谓语个数变化较大的时候的匹配任务,而且这些系统都是基于相似 度比较来确定匹配对,以及有的系统在做匹配的时候没有充分利用已 有的信息,有的系统只能适用特定的数据集。并且大部分的系统都是 有固定的匹配流程,以及采用统一的匹配策略,统一的计算相似度的 方案。这些在实际的知识库的匹配中都会带来不良的影响。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何充分利用本体的实体信息,并根 据需求对匹配流程进行组装,获得精确地匹配结果。

(二)技术方案

为解决上述技术问题,本发明的技术方案提供了一种基于用户定 制的本体实例匹配系统,包括组件模块和配置模块;

所述组件模块,包括多个原子组件;

所述配置模块,用于接收用户输入的定制信息,并根据所述定制 信息生成匹配任务定制文件,以及根据所述匹配任务定制文件从所述 组件模块中选取用户所需的原子组件以执行本体实例匹配任务,所述 匹配任务定制文件包括:待匹配本体O1和O2的URI位置、匹配参数 和匹配流程。

进一步地,所述组件模块中的原子组件包括:

预处理器,用于在完成实际的匹配操作执行前初始化匹配任务, 包括,解析本体、规范化本体中术语、去噪音以及具体的匹配器中所 用到的数据结构的建立;

阻塞器,采用倒排索引操作实现本体实例之间的候选对的生成;

相似度计算工具,用于计算对齐谓语的值的相似度;

相似度聚合器,用于对于多个属性的相似度进行聚合;

匹配策略器,用于基于信息的匹配策略和基于相似度比较的策略 进行实例对齐;

验证器,用于剔除错误的本体实例匹配对;

结果评估器,用于依据指定的评价指标对优化后的本体实例匹配 结果进行评估。

进一步地,所述组件模块中的原子组件还包括翻译器,用于处理 不同语言的本体实例匹配任务时将语言进行统一化。

进一步地,所述相似度计算工具包括:基于tfidf的余弦相似度计 算工具,基于编辑距离的相似度计算工具,基于wordNet相似度计算 工具。

进一步地,所述相似度聚合器对于多个属性的相似度进行聚合的 方法包括:平均聚合方法,sigomid聚合方法,加权指数平均聚合方法。

为解决上述技术问题,本发明还提供了一种上述系统进行本体实 例匹配的方法,包括:

S1:用户输入定制信息,并通过配置模块根据所述定制信息生成 匹配任务定制文件,以及根据所述匹配任务定制文件从所述组件模块 中选取用户所需的原子组件;

S2:初始化匹配任务,包括解析本体、规范化本体中术语、去噪 音以及具体的匹配器中所用到的数据结构的建立;

S3:采用倒排索引操作生成本体实例之间的候选对,得到候选对 集合以及唯一信息实例集合;

S4:对候选对集合进行谓语相似度计算,然后将谓语相似度进行 相似度聚合,然后将候选对及其分数作为节点,按分数从高到低进入 优先队列;

S5:对新产生的唯一信息实例集合,利用唯一主语匹配策略进行 实例的对齐操作,然后将新产生的对齐的实例对利用剩一宾语匹配策 略产生新的实例匹配对,根据新产生的实例匹配对更新唯一信息实例 集合,然后利用该新产生的实例匹配对来更新优先队列中相关候选对 的分数,以及产生新的候选对并计算其分数,重复该步骤直至没有产 生新的唯一信息实例集合;

S6:对于候选对集合,使用得分匹配策略获取得分最高的候选对, 如果获取的候选对的分数低于预设的阈值则跳转到S7,否则把该获取 的候选对作为实例匹配对,然后更新相应的候选对的分数,并且产生 新的候选对,以及更新唯一信息实例集合,跳转到S5;

S7:对对齐的实例匹配对进行验证。

进一步地,所述步骤S4中对相似度进行聚合的方式为:

ExpAgg(S)=ΣsiSwi,*exp(wi,,*Si)ΣsiSwi,*exp(wi,*1)

其中S是所有的谓语的相似度的值的集合,wi’是第i个谓语的相似 度的权重,wi”为第i个谓语的权重。

(三)有益效果

本发明提供的本体实例匹配系统中,用户可以根据本体实例的特 征,对预先定义的模块进行组装,来进行本体实例的匹配。其匹配流 程是一个迭代的模式,这种模式可以有效控制匹配错误的传播。本发 明的阻塞方法可以大大降低匹配候选对的个数,使得系统可以高效的 处理大规模本体的实例匹配,且其中的相似度聚合方法可以对数值高 的相似度给予合理的权重,有利于消除本体匹配的噪声的影响。通过 三种策略组合方式,可以有效避免相似度计算的冷启动问题,根据用 户自定义的匹配方案可以应对不同的匹配任务,并得到精确的匹配结 果。

附图说明

图1是本发明实施方式提供的一种基于用户定制的本体实例匹配 系统的示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

图1是本发明实施方式提供的一种基于用户定制的本体实例匹配 系统的示意图,该系统包括组件模块1和配置模块2;

所述组件模块1,包括多个原子组件11;

所述配置模块2,用于接收用户输入的定制信息,并根据所述定制 信息生成匹配任务定制文件,以及根据所述匹配任务定制文件从所述 组件模块中选取用户所需的原子组件以执行本体实例匹配任务,所述 匹配任务定制文件包括:待匹配本体O1和O2的URI位置、匹配参数 和匹配流程。

其中,所述组件模块1中的原子组件11包括:

预处理器,用于在完成实际的匹配操作执行前初始化匹配任务, 包括,解析本体、规范化本体中术语、去噪音以及具体的匹配器中所 用到的数据结构的建立;其中,预处理器主要完成实际的匹配操作执 行前的必要初始化工作,例如本体实例的解析等。另外,本体中术语 的规范化、去噪音以及具体匹配方法中所用到的特定数据结构的建立, 一般也在预处理阶段完成,尤其是术语的规范化直接影响了后面的匹 配策略的效果,例如生日在有的知识库里面表示成“月-日-年”,而在 有的本体实例里面表示成“年/月/日”,这会导致相似度比较出现很大 的误差,所以可以通过预处理器对那些可以规范的术语进行规范。

阻塞器,采用倒排索引操作实现本体实例之间的候选对的生成; 该阻塞器用于本体实例之间的候选匹配对的生成,本发明实现了一种 全新的阻塞器,不同与以往的将所有的信息进行倒排索引,可以利用 tfidf的排序作为特征,抽取部分“关键词”来做倒排索引,并且在做 倒排索引的时候要配合谓语一起;对本体的实例进行阻塞操作来选取 候选匹配对,可以大大减少比较次数。例如,可以抽取tfidf排在前五 的词,其原因是因为我们发现本体的实例有一个特征:有的实例拥有 的信息可能只有很少一部分实例才有,所以可以把这种信息抽取出来, 只有拥有这种信息的实例对才可能会匹配。

相似度计算工具,用于计算对齐谓语的值的相似度;其中,所述 相似度计算工具包括:基于tfidf的余弦相似度计算工具,基于编辑距 离的相似度计算工具,基于wordNet相似度计算工具。其中,对本体 的实例的谓语的相似度计算可以定制不同的方式。属性的相似度计算 工具可以从这里选择。因为每对属性的相似度计算方式可能有所差别, 这样定制的方式有助于高效准确的对齐知识库。例如在计算生日这个 属性的时候,我们可能会认为两个一模一样的生日相似度为1,其他情 况都是0,而在计算评论的相似度的时候,可能是一个0-1的实数。

相似度聚合器,用于对于多个属性的相似度进行聚合;其中,所 述相似度聚合器对于多个属性的相似度进行聚合的方法包括:平均聚 合方法,sigomid聚合方法,加权指数平均聚合方法。由于每对实体拥 有多对个属性,在计算每对属性之后,我们需要将他们聚合成一个相 似度的值,传统的聚合相似度的方法包括平均聚合法和sigomid聚合 法,但是这两种聚合方法在有的时候并不适用,尤其是在两个本体的 每对实例的对齐属性个数变化较大的时候,这个时候每对实例可能会 有很多噪声数据,所以可以采用加权指数平均聚合方法,它会对那些 不是噪声数据的准确信息给予很高的权重,使得可以减弱噪声的影响 而获得准确的匹配结果。

匹配策略器,用于基于信息的匹配策略和基于相似度比较的策略 进行实例对齐;可以选择基于信息的匹配策略和基于相似度比较的策 略,本发明中的系统可以实现三个匹配策略:第一个是利用较为特殊 的信息来直接找到匹配对;第二个是利用现有的匹配对来确定其对应的 信息是对齐的;第三个是将相似度最高的一对实例作为匹配对。

验证器,用于剔除错误的本体实例匹配对,该验证器用于剔除部 分明显错误的本体实例匹配对,上述错误主要是由于在计算相似度的 时候,最开始各个匹配对是否对齐是未知的,这个时候计算的相似度 是不可信的。但是最后的时候由于找到了较多个数匹配对,而此时相 似度可以被认为是可信的,所以此时可以根据相似度来剔除那些相似 度低的匹配对。

结果评估器,用于依据指定的评价指标对优化后的本体实例匹配 结果进行评估。

优选地,所述组件模块中的原子组件还包括翻译器,用于处理不 同语言的本体实例匹配任务时将语言进行统一化。利用翻译的方法可 以处理不同语言的本体实例的匹配。当面临跨语言的本体实例对齐任 务时,由于目前人们对跨语言的本体实例的研究很少,导致没有直接 计算两个跨语言的实例的相似度的方法,因此可将两种不同的语言转 换成一种语言,然后利用同一种语言的知识库对齐方案来做跨语言的 任务。

此外,本发明实施方式还提供了一种上述的系统进行本体实例匹 配的方法,包括:

S1:用户输入定制信息,并通过配置模块根据所述定制信息生成 匹配任务定制文件,以及根据所述匹配任务定制文件从所述组件模块 中选取用户所需的原子组件;具体地,系统从配置模块开始,在这里 用户可以根据匹配任务来选择接下来的匹配模块和各种参数;

S2:初始化匹配任务,包括解析本体、规范化本体中术语、去噪 音以及具体的匹配器中所用到的数据结构的建立;如果是跨语言的任 务,还包括翻译器的搭建

S3:采用倒排索引操作生成本体实例之间的候选对,得到候选对 集合以及唯一信息实例集合;具体地,数据进入阻塞器,在这里进行 倒排索引操作,在这里它会将每个实体的三元组的每个宾语抽5个 TFIDF最高的词,然后加上谓语来作为倒排索引的索引键值,它还会 把整个宾语和谓语合起来作为键值。最后利用这两种倒排表生成候选 对集合以及唯一信息实例集合;其中,步骤S3对数据进行倒排索引的 时候,可以抽取每一个宾语的5个词,他们的tfidf值是排在前5.这样 防止其他的不太重要的词对倒排索引的质量的影响,而且最终可以结 合谓语一起参与倒排索引,且在本发明实施中不局限与抽5个词,只 要是抽的词占整个宾语的比重比较少,都会大大减少倒排索引之后生 成候选对的个数。

S4:对候选对集合进行谓语相似度计算,然后将谓语相似度进行 相似度聚合,然后将候选对及其分数作为节点,按分数从高到低进入 优先队列;具体地,将候选对集合通过相似度计算工具进行各个谓语 相似度计算,然后将谓语相似度导入到相似度聚合器进行相似度聚合, 然后将候选匹配对以及他们的分数作为节点,按分数从高到低进入优 先队列。

S5:对新产生的唯一信息实例集合,利用唯一主语匹配策略进行 实例的对齐操作,然后将新产生的对齐的实例对利用剩一宾语匹配策 略产生新的实例匹配对,根据新产生的实例匹配对更新唯一信息实例 集合,然后利用该新产生的实例匹配对来更新优先队列中相关候选对 的分数,以及产生新的候选对并计算其分数,重复该步骤直至没有产 生新的唯一信息实例集合;

S6:对于候选对集合,使用得分匹配策略获取得分最高的候选对, 如果获取的候选对的分数低于预设的阈值则跳转到S7,否则把该获取 的候选对作为实例匹配对,然后更新相应的候选对的分数,并且产生 新的候选对,以及更新唯一信息实例集合,跳转到S5;

S7:对对齐的实例匹配对进行验证。

其中,所述步骤S4中对相似度进行聚合的方式为:

ExpAgg(S)=ΣsiSwi,*exp(wi,,*Si)ΣsiSwi,*exp(wi,*1)

其中S是所有的谓语的相似度的值的集合,wi’是第i个谓语的相似 度的权重,wi”为第i个谓语的权重。该聚合函数会偏向于对分值越大的 数给予很高的权重,这样可以减少那些分值小的数的影响。

其中,上述步骤S5和S6在匹配实例的时候,可以选择多种策略一 起来决定匹配对的选取,并且在最开始选取的时候可以不是基于相似 度的比较,由于最开始的时候相似度计算依赖于匹配对,这种耦合的 情况会导致最开始的时候相似度计算不可靠,在经过前两个策略来选 取匹配对之后,我们使用基于相似度的比较来决定匹配对,最后这三 个策略是一个迭代过程。步骤S5和步骤S6构成了一个迭代流程,这样 的迭代方法有助于得到高准确的匹配对,由于最开始的时候是基于比 较特殊的信息找到的匹配对,这个匹配对是很准确的。这个迭代流程 只有在不能通过特殊信息找到匹配对的时候才会用相似度来找匹配 对,而且每次找匹配对的时候都是只抽取一个分数最高的作为匹配对, 这样逐步迭代的方案,使得之后找到的匹配对的相似度能基本反映他 们真实的相似度。

其中,在步骤S3中为了减少候选匹配对的个数而使用了阻塞技术, 充分利用实例的一个描述信息特性,但是由于可能有的实例确实没有 比较特殊的描述特性,就会在这一步被遗漏,所以在接下来每次找到 匹配对之后会增加候选对,它是通过实例可能会有很丰富的关系信息 来增加的。例如当我们知道A毕业于清华大学,B毕业于C,如果A 和B是对齐的,我们就推测C和清华大学可能是对齐的,所以他们应 该加入到候选对集合里面。

本发明实施方式提供的本体实例匹配系统中,用户可以根据本体 实例的特征,对预先定义的模块进行组装,来进行本体实例的匹配。 其匹配流程是一个迭代的模式,这种模式可以有效控制匹配错误的传 播。本发明的阻塞方法可以大大降低匹配候选对的个数,使得系统可 以高效的处理大规模本体的实例匹配,且其中的相似度聚合方法可以 对数值高的相似度给予合理的权重,有利于消除本体匹配的噪声的影 响。通过三种策略组合方式,可以有效避免相似度计算的冷启动问题, 根据用户自定义的匹配方案可以应对不同的匹配任务,并得到精确的 匹配结果。

以上实施方式仅用于说明本发明,而并非对本发明的限制,有关 技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下, 还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明 的范畴,本发明的专利保护范围应由权利要求限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号