首页> 中国专利> 用于知识图谱构建过程中关系类型的自动辨析方法及装置

用于知识图谱构建过程中关系类型的自动辨析方法及装置

摘要

本申请实施例公开了一种用于知识图谱构建过程中关系类型的自动辨析方法及装置。所述方法包括:获取多个数据源;针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;根据所述中心关系类型将所述子图进行分组,得到多组图;根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。

著录项

  • 公开/公告号CN114780730A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 华中农业大学;

    申请/专利号CN202210464829.1

  • 申请日2022-04-25

  • 分类号G06F16/35;G06F16/36;G06K9/62;G06N3/04;G06N3/08;G06N5/02;

  • 代理机构北京众达德权知识产权代理有限公司;

  • 代理人张晓冬

  • 地址 430070 湖北省武汉市洪山区狮子山街1号

  • 入库时间 2023-06-19 16:06:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及数据处理技术领域,尤其涉及一种用于知识图谱构建过程中关系类型的自动辨析方法及装置。

背景技术

在知识图谱的构建过程中,各个结构化数据源中的异质异构数据,一般需要映射到一个公共数据模型以实现异质异构数据的标准化。由于通过人工将异质异构的数据源映射到公共数据模型费时费力,而且容易出错,企业开发了一些将结构化数据源自动映射到公共数据模型的软件系统,包括IBM InfoSphere Data Architect、Microsoft BizTalkMapper、Altova MapForce和Stylus Studio。上述这些系统都基于Clio提出的异质异构数据映射管理的基本框架。近些年来,已有一些方法来实现了异质异构数据映射管理的自动化,它们集中于自动化地对数据源的属性进行语义标记。但是在现实的异质异构数据的映射管理工作中,除了需要对数据源的属性进行语义标记外,还需要精确的描述源属性之间的语义关系。这就是结构化数据源与公共数据模型的关系类型匹配问题。

近年来,在解决结构化数据与公共数据模型的关系类型匹配问题上已经取得了一些研究进展。作为一种异质异构数据自动化映射工具,Karma[2,3,4,19,20]使用户能够快速、轻松地集成来自数据库、电子表格、JSON和Web API等各种数据源的数据。在Karma[3,4]中,可以给定来自新源的一些样本数据,利用领域本体中的知识和已知的语义模型构建一个权重图,表示新源的可信语义模型的空间;然后利用斯坦纳树算法计算包含消歧关系的顶部k个语义模型。Limaye等人使用YAGO注释web表并使用机器学习方法生成二进制关系,但这种方法仅限于在雅古本体论中定义的标签和关系。Venetis等人提出了一种可扩展的方法来描述Web上表的语义,该方法利用了从Web上自动提取的类标签和关系的数据库来恢复表的语义,如果列中有足够数量的值在类标签数据库中使用该标签标识,则它们将类标签附加到列上,对于二进制关系也是如此。这两种方法都只是通过简单地匹配关系的源节点和目标节点来推断对列之间的二进制关系,它们从表发布语义数据方面来看非常有用,但在学习关系的语义方面的作用是有限的。一些其他工作利用了链接开放数据(LOD)云来捕获源的语义:Schaible等人从链接数据中提取模式级模式(SLPs),并生成一个词汇表术语列表,以便在建模任务中重用。SLPs是(sts,ps,ots)三元组,其中sts和ots是RDF类型的集合,ps是RDF对象属性的集合。例如,SLP表示通过对象属性将某些实例连接到某些实例。Taheriyan等人挖掘LOD中出现的小图模式,并将它们组合起来构建一个图,用于推断语义关系。要使用Karma,最终用户首先导入他们希望用于建模数据的领域本体。然后系统自动为源数据的每一列提出语义标签,再利用创建的语义标签和领域本体来学习高质量的关系,最后加载数据源的语义模型。

Karma已经被用来模拟史密森尼美国艺术博物馆的数据,然后将其发布到LD云中。然而,这项技术存在一些局限性:在将数据源集成到基于语义模型的知识图,以及在两个公认的实体实例之间消除多种关系类型的歧义时不不是那么有效。但由于在使用的公共数据模型中,一对相邻的类之间可能存在多种关系,这一要求在D2D CRC的综合执法(ILE)项目中相当常见。例如,人这个类和位置这个类之间有54种不同的关系类型,人和人之间有119种关系类型。据我们所知,之前的工作中没有专门处理数据集成上下文中区分知识图类型的关系。现亟需一种方法用于消除数据源中包括数据库和电子表格在内的数据字段之间不同类型的关系。

发明内容

本申请实施例提供了一种用于知识图谱构建过程中关系类型的自动辨析方法及装置,可以消除数据源中包括数据库和电子表格在内的数据字段之间不同类型的关系,实现将结构化数据源转换为基于公共数据模型的链接开放数据的任务自动化。

第一方面,本申请实施例提供了一种用于知识图谱构建过程中关系类型的自动辨析方法,其包括:获取多个数据源;

针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;

根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;

将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;

根据所述中心关系类型将所述子图进行分组,得到多组图;

根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;

根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;

根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。

在一些实施例中,所述根据公共数据模型将所述数据源转换成初始知识图,包括:

根据所述数据源确定一中心关系类型以及相应的锚点,根据所述中心关系类型以及所述锚点构造初始边界图;

采用深度优先和广度优先的搜索方法对所述初始边界图进行扩展,得到所述初始知识图。

在一些实施例中,所述根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图,包括:

根据所述多组图中的每一组图给定一边界图数据集,所述边界图数据集中的每个边界图都有锚点和中心关系;

根据预设的频繁子图提取条件,使用gSpan算法提取所述边界图数据集中的频繁子图。

在一些实施例中,所述预设的频繁子图提取条件为:

寻找子图g满足s.t.support(g)≥minSup,其中,support(g)表示子图g在所述边界图数据集中图的数量,设置最小边界数和最小节点数作为子图g的界。

在一些实施例中,所述根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集,包括:

根据所述频繁子图的中心关系类型从所述频繁子图中确定目标频繁子图;

根据所述预设频繁子图提取算法从所述目标频繁子图中选取所述判别特征集。

在一些实施例中,所述分类器为神经网络或决策树。

在一些实施例中,根据所述判别特征集编码特征矩阵,构建分类器之后,所述方法还包括:

将所述分类器应用于初始的结构化数据源,将所述结构化数据源转换为基于公共数据模型的链接开放数据。

第二方面,本申请实施例还提供了一种用于知识图谱构建过程中关系类型的自动辨析装置,其包括:包括获取单元和处理单元:

所述获取单元,用于获取多个数据源;

所述处理单元,用于针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;根据所述中心关系类型将所述子图进行分组,得到多组图;根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。

第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现上述方法。

本申请实施例提供了一种用于知识图谱构建过程中关系类型的自动辨析方法及装置。其中,所述方法包括:获取多个数据源;针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;根据所述中心关系类型将所述子图进行分组,得到多组图;根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。本方案可以消除数据源中包括数据库和电子表格在内的数据字段之间不同类型的关系,实现将结构化数据源转换为基于公共数据模型的链接开放数据的任务自动化。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析方法的应用场景示意图;

图2为本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析方法的流程示意图;

图3为本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析方法的一原理示意图;

图4为本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析方法的一边界图示意图;

图5为本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析方法中使用本体的数据属性语义标注关系表的属性的一示意图;

图6为本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析方法中提取每组图的频繁子图的一示意图;

图7为本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析装置的示意性框图;

图8为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

本申请实施例提供了一种用于知识图谱构建过程中关系类型的自动辨析方法及装置。

该用于知识图谱构建过程中关系类型的自动辨析方法的执行主体可以是本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析装置,或者集成了该用于知识图谱构建过程中关系类型的自动辨析装置的计算机设备,其中,该用于知识图谱构建过程中关系类型的自动辨析装置可以采用硬件或者软件的方式实现,该计算机设备可以为终端或服务器,该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。

为了消除数据源中包括数据库和电子表格在内的数据字段之间不同类型的关系,我们扩展了Karma并提出了一种新的方法。该技术有利于将结构化数据源转换为基于公共数据模型的链接开放数据的任务自动化。该方法消除数据源中包括数据库和电子表格在内的数据字段之间不同类型的关系歧义,在实体实例的下,公共数据模型中对应的一对类(例如人和地点)之间存在多种关系,我们的方法的主要贡献的这样一种机制,在知识图的两个公认的实体实例之间区分并获得正确的关系类型。

请参阅图1,图1为本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析方法的应用场景示意图。该用于知识图谱构建过程中关系类型的自动辨析方法应用于图1中的计算机设备10中,该计算机设备10获取多个数据源;针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;根据所述中心关系类型将所述子图进行分组,得到多组图;根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。

图2是本申请实施例提供的用于知识图谱构建过程中关系类型的自动辨析方法的流程示意图。如图2所示,该方法包括以下步骤S110-190。

其中,将S110-190划分为三个阶段,第一个阶段S110-140:数据源映射到通用数据模;第二个阶段S140-180:构建分类器;第三个阶段S190:分类器的应用。

以下对本申请中的三个阶段进行详细说明:

S110、获取多个数据源。

其中,本实施例中的数据源可以为电子表格。

S120、针对各数据源,根据公共数据模型将所述数据源转换成初始知识图。

本实施例中,为每个数据源生成一个语义模型,然后将每个数据源摄取到一个知识图中,最终获得一个基于公共数据模型和其他一些数据源的初始知识图,该知识图中包含未知关系x在内的大量语义内容,如图3所示,图3本申请的原理示意图。

具体地,步骤S120包括:根据所述数据源确定一中心关系类型以及相应的锚点,根据所述中心关系类型以及所述锚点构造初始边界图;然后采用深度优先和广度优先的搜索方法对所述初始边界图进行扩展,得到所述初始知识图。

即,找一个中心关系r及其相应的锚点x

S130、根据预设的数据属性对所述初始知识图进行属性标记,得到知识图。

具体地,如图5所示,图5为使用本体的数据属性语义标注关系表的属性的示意图,用数据属性标记其属性,确定应该如何连接语义标签以捕获数据的预期含义。

S140、将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心。

具体地,如图6所示,图6为本申请实施例提供的提取每组图的频繁子图的一示意图,将知识图切片成一多个子图(如B

S150、根据所述中心关系类型将所述子图进行分组,得到多组图。

即根据这些图的中心关系将其分成组(例如图6中的t或n)。

S160、根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图。

在一些实施例中,步骤S160具体包括:根据所述多组图中的每一组图给定一边界图数据集,所述边界图数据集中的每个边界图都有锚点和中心关系;根据预设的频繁子图提取条件,使用gSpan算法提取所述边界图数据集中的频繁子图,其中,所述预设的频繁子图提取条件为:寻找子图g满足s.t.support(g)≥minSup,其中,support(g)表示子图g在所述边界图数据集中图的数量,设置最小边界数和最小节点数作为子图g的界。

具体地,即包括以下步骤:

S161、给定一个边界图数据集BGD={G

S162、设置最小边数和最小节点数作为g的界。

S163、使用gSpan算法提取BGD里的频繁子图,以此表示BDG的图模式。

S170、根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集。

在一些实施例中,步骤S170包括:根据所述频繁子图的中心关系类型从所述频繁子图中确定目标频繁子图;根据所述预设频繁子图提取算法从所述目标频繁子图中选取所述判别特征集。

具体地,即包括以下步骤:

S171、假设有一组关系类型R={r

S172、基于(S171)提出了区分关系类型作为边界图分类任务的问题:给定一组N训练示例的形式是示例的特征向量是标签(中心关系类型r,r∈R),学习算法寻找一个函数g,X→Y,其中X是输入空间,Y是输出空间。

S173、令BG

S180、根据所述判别特征集编码特征矩阵,构建分类器。

具体地,接步骤S173,令F′

其中,该分类器述分类器为神经网络或决策树。构建完分类器之后,即可利用该分类器实现知识图谱构建过程中关系类型的自动辨析。

例如,让频繁子图G

表1

S190、将所述分类器应用于初始的结构化数据源,将所述结构化数据源转换为基于公共数据模型的链接开放数据。

第三阶段将得到的分类器应用于初始的结构化数据源,最终将结构化数据源转换为基于公共数据模型的链接开放数据。(整个过程如图3所示)

为了进一步理解本申请中的用于知识图谱构建过程中关系类型的自动辨析方法,下面以YAGO应用数据集上进行的一项全面的性能研究,详细描述本申请的实施过程。

如表1所示,YAGO是一个庞大的语义知识库,目前已收集1000多万起暴力事件(如人员、组织、城市等...)、99种关系类型以及关于这些实体的1.2亿多个实例。下面显示了一个典型的YAGO实例:

首先,执行第一阶段的步骤,将知识图切片成一组图定的关系类型位于这组图的中心,然后根据这些图的中心关系将其分成组。K.V.Kortriik是一个比利时职业足球俱乐部,并附有实体组织的注释。Wouter Wrancken是比利时足球协会的前防守中场,在这种情况下,人与组织之间的关系是表演。

表2

接着,执行第二阶段的步骤,假设我们有一组边界图(BG

进行多轮实验,在实验的i

根据预设的评分公式(参考文献4.Taheriyan,M.,Knoblock,C.,Szekely,P.,Ambite,J.L.:Learning the Semantics of Structured Data Sources.Web Semantics:Science,Services and Agents on the World Wide Web(2016).),每个边被分配权重1-x/(n+1),其中是已知边界图的数目,是边缘标记的图标识符的数目。接下来,分别比较每个测试图的预测值与真实值。对于每个测试图,如果预测值与真值等价将测试结果y

基于此,执行第三阶段的步骤,以R

其余的39(44-5=39)边界图被用来作为训练集。在第二轮中提取5个边界图,以学术顾问(R

表3(包括以下4个表)显示了我们从不同关系类型的YAGO切片的边界图(#BG)的数量。例如,在两个个人实体之间有4种不同的关系类型,即:影响(R

表3

最后将该方法分别应用于100、400和1000YAGO边界图(|L|=2,|I|=10)和1666个图(|L|=2,|I|=5)表4为本次试验的实验结果,准确率都在85%以上。

表4

综上所述,本申请有利于解决结构化数据中实体实例之间模糊关系类型,既可以作为独立的数据源匹配技术,也可以作为现有数据源关系匹配技术的补充。该方法包括以下步骤:步骤一:将电子表格映射到通用数据模型;步骤二:通过机器学习构建合适的分类器;步骤三:将得到的分类器应用于初始的结构化数据源,最终将结构化数据源转换为基于公共数据模型的链接开放数据。本申请的方法相对于现有技术的有益效果是:1)该技术有利于将结构化数据源转换为基于公共数据模型的链接开放数据的任务自动化;2)可以消除数据源中包括数据库和电子表格在内的数据字段之间不同类型的关系;3)在实例级区分两个实体之间的许多关系类型;4)既可以作为独立的数据源匹配技术,也可以作为现有数据源关系匹配技术的补充具有广泛的适用性。

图7是本申请实施例提供的一种用于知识图谱构建过程中关系类型的自动辨析装置的示意性框图。如图7所示,对应于以上用于知识图谱构建过程中关系类型的自动辨析方法,本申请还提供一种用于知识图谱构建过程中关系类型的自动辨析装置。该用于知识图谱构建过程中关系类型的自动辨析装置包括用于执行上述用于知识图谱构建过程中关系类型的自动辨析方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图7,该用于知识图谱构建过程中关系类型的自动辨析装置包括获取单元701和处理单元702:

所述获取单元701,用于获取多个数据源;

所述处理单元702,用于针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;根据所述中心关系类型将所述子图进行分组,得到多组图;根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。

在一些实施例中,所述处理单元702在执行所述根据公共数据模型将所述数据源转换成初始知识图步骤时,具体用于:

根据所述数据源确定一中心关系类型以及相应的锚点,根据所述中心关系类型以及所述锚点构造初始边界图;

采用深度优先和广度优先的搜索方法对所述初始边界图进行扩展,得到所述初始知识图。

在一些实施例中,所述处理单元702在执行所述根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图步骤时,具体用于:

根据所述多组图中的每一组图给定一边界图数据集,所述边界图数据集中的每个边界图都有锚点和中心关系;

根据预设的频繁子图提取条件,使用gSpan算法提取所述边界图数据集中的频繁子图。

在一些实施例中,所述预设的频繁子图提取条件为:

寻找子图g满足s.t.support(g)≥minSup,其中,support(g)表示子图g在所述边界图数据集中图的数量,设置最小边界数和最小节点数作为子图g的界。

在一些实施例中,所述处理单元702在执行所述根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集步骤时,具体用于:

根据所述频繁子图的中心关系类型从所述频繁子图中确定目标频繁子图;

根据所述预设频繁子图提取算法从所述目标频繁子图中选取所述判别特征集。

在一些实施例中,所述分类器为神经网络或决策树。

在一些实施例中,所述处理单元702在执行所述根据所述判别特征集编码特征矩阵,构建分类器之后,还用于:

将所述分类器应用于初始的结构化数据源,将所述结构化数据源转换为基于公共数据模型的链接开放数据。

需要说明的是,所属领域的技术人员可以清楚地了解到,上述用于知识图谱构建过程中关系类型的自动辨析装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。

上述用于知识图谱构建过程中关系类型的自动辨析装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8,图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备800可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。

参阅图8,该计算机设备800包括通过系统总线801连接的处理器802、存储器和网络接口805,其中,存储器可以包括非易失性存储介质803和内存储器804。

该非易失性存储介质803可存储操作系统8031和计算机程序8032。该计算机程序8032包括程序指令,该程序指令被执行时,可使得处理器802执行一种用于知识图谱构建过程中关系类型的自动辨析方法。

该处理器802用于提供计算和控制能力,以支撑整个计算机设备800的运行。

该内存储器804为非易失性存储介质803中的计算机程序8032的运行提供环境,该计算机程序8032被处理器802执行时,可使得处理器802执行一种用于知识图谱构建过程中关系类型的自动辨析方法。

该网络接口805用于与其它设备进行网络通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备800的限定,具体的计算机设备800可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器802用于运行存储在存储器中的计算机程序8032,以实现如下步骤:

获取多个数据源;

针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;

根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;

将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;

根据所述中心关系类型将所述子图进行分组,得到多组图;

根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;

根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;

根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。

在一些实施例中,处理器802在实现所述根据公共数据模型将所述数据源转换成初始知识图步骤时,具体实现如下步骤:

根据所述数据源确定一中心关系类型以及相应的锚点,根据所述中心关系类型以及所述锚点构造初始边界图;

采用深度优先和广度优先的搜索方法对所述初始边界图进行扩展,得到所述初始知识图。

在一些实施例中,处理器802在实现所述根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图步骤时,具体实现如下步骤:

根据所述多组图中的每一组图给定一边界图数据集,所述边界图数据集中的每个边界图都有锚点和中心关系;

根据预设的频繁子图提取条件,使用gSpan算法提取所述边界图数据集中的频繁子图。

在一些实施例中,所述预设的频繁子图提取条件为:

寻找子图g满足s.t.support(g)≥minSup,其中,support(g)表示子图g在所述边界图数据集中图的数量,设置最小边界数和最小节点数作为子图g的界。

在一些实施例中,处理器802在实现所述根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集步骤时,具体实现如下步骤:

根据所述频繁子图的中心关系类型从所述频繁子图中确定目标频繁子图;

根据所述预设频繁子图提取算法从所述目标频繁子图中选取所述判别特征集。

在一些实施例中,所述分类器为神经网络或决策树。

在一些实施例中,处理器802在实现所述根据所述判别特征集编码特征矩阵,构建分类器步骤之后,还实现如下步骤:

将所述分类器应用于初始的结构化数据源,将所述结构化数据源转换为基于公共数据模型的链接开放数据。

应当理解,在本申请实施例中,处理器802可以是中央处理单元(CentralProcessing Unit,CPU),该处理器802还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。

因此,本申请还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:

获取多个数据源;

针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;

根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;

将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;

根据所述中心关系类型将所述子图进行分组,得到多组图;

根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;

根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;

根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。

在一些实施例中,所述处理器在执行所述程序指令而实现所述根据公共数据模型将所述数据源转换成初始知识图步骤时,具体实现如下步骤:

根据所述数据源确定一中心关系类型以及相应的锚点,根据所述中心关系类型以及所述锚点构造初始边界图;

采用深度优先和广度优先的搜索方法对所述初始边界图进行扩展,得到所述初始知识图。

在一些实施例中,所述处理器在执行所述程序指令而实现所述根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图步骤时,具体实现如下步骤:

根据所述多组图中的每一组图给定一边界图数据集,所述边界图数据集中的每个边界图都有锚点和中心关系;

根据预设的频繁子图提取条件,使用gSpan算法提取所述边界图数据集中的频繁子图。

在一些实施例中,所述预设的频繁子图提取条件为:

寻找子图g满足s.t.support(g)≥minSup,其中,support(g)表示子图g在所述边界图数据集中图的数量,设置最小边界数和最小节点数作为子图g的界。

在一些实施例中,所述处理器在执行所述程序指令而实现所述根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集步骤时,具体实现如下步骤:

根据所述频繁子图的中心关系类型从所述频繁子图中确定目标频繁子图;

根据所述预设频繁子图提取算法从所述目标频繁子图中选取所述判别特征集。

在一些实施例中,所述分类器为神经网络或决策树。

在一些实施例中,所述处理器在执行所述程序指令而实现所述根据所述判别特征集编码特征矩阵,构建分类器步骤之后,还实现如下步骤:

将所述分类器应用于初始的结构化数据源,将所述结构化数据源转换为基于公共数据模型的链接开放数据。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号