首页> 中国专利> 基于近似本体匹配的知识图谱融合方法

基于近似本体匹配的知识图谱融合方法

摘要

本发明提供基于近似本体匹配的知识图谱融合方法,包括:对待融合的知识图谱的集合进行初始化,构建倒排索引,依据所述倒排索引获取本体的共现情况,获取近似匹配本体,根据近似匹配本体提取候选实体对,在名称候选实体对集合和近似匹配本体集合中计算候选实体对在属性上的相似度,根据相似度向量的分量对候选实体初步判别,利用实体的文本特征对所述歧义实体和近义实体进行二次筛选;通过对于知识图谱的本体层进行粗筛,依据筛选结果对计算过程分块,达到缩减计算规模的目的。在各块内利用属性、名称、文本等特征计算实体相似度。

著录项

  • 公开/公告号CN113032516A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN202110581624.7

  • 申请日2021-05-27

  • 分类号G06F16/31(20190101);G06F16/35(20190101);G06F16/36(20190101);G06F40/289(20200101);G06F40/295(20200101);G06K9/62(20060101);

  • 代理机构11662 北京华夏泰和知识产权代理有限公司;

  • 代理人孙剑锋;李雪

  • 地址 100190 北京市海淀区中关村东路95号

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本申请涉及人工智能知识融合领域,尤其涉及基于近似本体匹配的知识图谱融合方法。

背景技术

知识图谱是由一系列实体与关系组成的,蕴含大量结构化信息的图。它将互联网中的知识以更符合人类基本认知的形式展现出来,在现如今已被广泛应用于人工智能领域的相关应用当中。然而,不同的组织机构在构建知识图谱时,往往有不同的需求与理念,所以这些知识图谱通常拥有不同的模式结构,同一个现实事物在不同的图谱当中有不同的表现形式。在单一的知识图谱当中,所蕴含的知识往往是片面,或是有侧重的,通常情况下,我们希望使用的知识图谱所蕴含的信息尽可能全面,需要在图谱当中查漏补缺,融合不同的知识图谱从而增强下游应用。

现有的知识融合技术主要关注知识图谱的名称、关系、属性特征,将特征通过嵌入等方法变换,从而可以计算向量的距离来表示相应特征的相似程度,从而匹配异构知识图谱中的实体。

申请公布号CN112507122A提供了一种基于知识图谱的高分多源遥感数据融合方法,主要流程包括知识图谱信息抽取、知识图谱信息融合、新图谱生成、新数据融合。本技术通过对不同数据源高分影像抽取知识图谱,并对其进行深度挖掘,分析关联信息,建立两个知识图谱之间的映射关系,从而将新的知识图谱与不同数据源的影像融合成新的遥感影像。这种基于知识图谱的数据融合方式,能够直观有效的表达出不同数据源影像之间错综复杂的关系,充分利用不对称的非结构化信息,更大程度上提高了多源数据融合的可能性。

申请公布号CN111522968A提供了一种知识图谱融合方法及装置,获取目标知识图谱和多个其他知识图谱,对其他知识图谱中包含的实体进行数据预处理,并将数据预处理后的实体组成实体集,从实体集中删除与所有高价值实体之间的距离均大于第一距离阈值的低价值实体,得到目标实体集,对目标实体集进行聚类得到多个目标子集,计算目标子集中的包含的每个实体的属性信息,计算每个实体与目标知识图谱中包含的每个实体之间的相似度,基于相似度确定为目标实体,获取各个目标实体之间的实体关系,将各个目标实体、以及各个实体关系写入目标知识图谱中。本技术方案,将多个知识图谱进行融合,构建统一的知识图谱,从而提高数据获取的效率,实现业务办理的快速实现。

申请公布号CN111159423A公开了一种实体关联方法、装置及计算机可读存储介质,包括:获取待处理文本的特征向量;根据待处理文本中实体之间的关系构造实体对;针对每一个实体对在知识图谱中获取非泛化关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体对与待处理文本的第一相似度;针对待处理文本中每一个实体在知识图谱中获取关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体与待处理文本的第二相似度;根据包含待处理文本中实体的实体对对应的第一相似度和实体对应的第二相似度获取实体与知识图谱的关联得分;当关联得分超过预设阈值,将实体关联到第二相似度对应的知识图谱节点上。由于利用了多实体之间的关系,因此提高了实体的关联成功率。

现有技术中采用的融合方法存在的主要问题是:

1. 计算量大。首先,大规模知识图谱的实体进行两两判断带来庞大的计算量,其次,对于各项特征训练嵌入模型所采用的深度学习方法,不仅耗时,还对计算资源有相当的要求;

2. 标注数据。为了将不同知识图谱统一到相同的向量空间中,往往需要一定的标注数据,这些数据需要耗费大量人力;

3. 泛化性差。不同知识图谱的嵌入模型仅适用其本身,难以泛化。

发明内容

有鉴于此,本发明提供一种基于近似本体匹配的知识图谱融合方法包括:

S1:对待融合的知识图谱的集合进行初始化,构建倒排索引;所述初始化的方法为:对实体名称的字段和属性值字段进行分词,得到名称分词和属性值分词;

S2:依据所述倒排索引获取本体的共现情况,获取近似匹配本体,具体方法为:

S21:在倒排索引中统计名称分词在本体类型上的共现情况,将共现程度高的本体类型划分为近似匹配类型;

S22:在倒排索引中统计属性值分词在本体属性上的共现情况,将共现程度高的本体属性划分为近似匹配属性;

S23:结合所述近似匹配类型与所述近似匹配属性,获得所述近似匹配本体;

S24:在对待融合的知识图谱的集合中重复步骤S21-S23,得到近似匹配本体集合;

S3:根据所述近似匹配本体提取候选实体对,具体方法为:

S31:在所述近似匹配本体集合中统计名称分词在不同实体上的共现情况,共现程度高的实体划分为名称候选实体对;

S32:计算每两个实体的邻域在所述近似匹配本体集合中的相似程度,得到所述名称候选实体对;

S33:结合步骤S31- S32中结算的所述名称候选实体对,得到名称候选实体对集合;

S34:统计属性值分词在在所述近似匹配本体集合中的共现情况,获得属性候选实体对,得到属性候选实体对集合;

S4:在所述名称候选实体对集合和近似匹配本体集合中计算候选实体对在属性上的相似度,得到由数值属性相似度、类别属性相似度和字符串属性相似度构成的相似度向量;实体的属性主要分为:数值型属性、类别型属性和字符串属性;

S5:根据所述相似度向量的分量对候选实体初步判别,具体判别方法为:

S51:在所述候选实体对集合中将所述相似度向量的所有分量一致数大于等于三分之二的实体对标记为匹配实体;

S52:在所述候选实体对集合中将所述相似度向量的所有分量一致数小于等于三分之一的实体对标记为不匹配实体;

S53:将在所述候选实体对集合中将所述相似度向量的所有分量一致数处于三分之二到三分之一之间的实体对标记为歧义实体;

S6:利用实体的文本特征对所述歧义实体和近义实体进行二次筛选,将文本特征相似度满足设定范围的实体对标记为匹配实体,所述文本特征为:一段用于详细描述实体的非结构化文本。

优选的,所述构建倒排索引的方法为:

以所述名称分词和属性值分词作为键,来源本体、来源实体作为值,构建倒排索引表;

所述来源实体为:所述名称分词和属性值分词所属的实体;

所述来源本体为:所述名称分词和属性值分词所属的实体对应的本体。

优选的,所述结合所述近似匹配类型与所述近似匹配属性,获得所述近似匹配本体的具体方法为:

所述近似匹配属性属于所述近似匹配类型所属的本体,则认为所述本体为所述近似匹配本体。

优选的,所述计算每两个实体的邻域在所述近似匹配本体集合中的相似程度采用Jaccard相似度,

其中,

Neighbor(A)代表实体A的邻域实体对应的本体集;

Neighbor(B)代表实体B的邻域实体对应的本体集。

优选的,将名称分词共现次数超过实体名称总名称分词数一半的实体加入名称候选实体对;每两个实体的邻域在所述近似匹配本体集合中的相似程度大于0.6的实体加入名称候选实体对。

优选的,所述数值属性相似度的计算方法为:名称候选实体对的所述数值属性差小于设定阈值认为一致,设置为1,不一致设置为0。

优选的,所述类别属性相似度的计算方法为:名称候选实体对的所述类别属性相等认为一致,设置为1,不一致设置为0。

优选的,所述字符串属性相似度的计算方法为:依据所述近似匹配属性,采用属性值分词共现与字符串相似度计算方法共同度量,具体计算方法为:

其中,

i和j分别表示字符串saA中的元素和字符串saB的中的元素下标,下标从1开始,saA指实体A的字符串类型属性,saB指实体B的字符串类型属性;

w

优选的,所述字符串属性相似度是否一致的计算方法为:

利用人工设定的阈值进行筛选,阈值范围在[0.6,0.8]之间,若所述字符串属性相似度大于阈值,则认为实体对在所述字符串属性上一致,否则认为不一致。

优选的,所述利用实体的文本特征对所述歧义实体进行二次筛选的方法为:

S61:将所述属性候选实体对集合减去所述属性候选实体对集合与所述名称候选实体对集合的交集,作为近义实体的集合,即

S62:利用所述歧义实体和近义实体的文本特征和预训练好的模型,判断所述歧义实体和近义实体的文本的相似程度;

S63:将文本特征相似度满足范围在[0.6,0.8]之间的实体对标记为匹配实体。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:

1. 使用倒排索引来构建知识图谱的背景特征,以较小的计算代价为知识图谱实体匹配的全局计算剪枝,将计算规模限制在有限的近似本体范围下。在此基础上,又通过对实体名称、邻域集合的初步筛选,进一步提炼出候选实体对,有效提升了计算效率。

2.综合考虑的知识图谱的名称、邻域、属性、文本特征,综合判别实体之间是否匹配。同时,对于无法直接判定是否一致的实体,加入了利用文本信息进行二次判别的过程,提高了召回率。

附图说明

图1为本发明实施例提供的一种基于近似本体匹配的知识图谱融合方法流程图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示,本申请实施例提供的基于近似本体匹配的知识图谱融合方法,包括:

1. 输入知识图谱:知识图谱由本体层与实体层构成,本体层为知识图谱的抽象表示,其对应的实例化形式就是实体层,本申请实施例输入的知识图谱为具有一般形式的知识图谱:

S1:对待融合的知识图谱的集合进行初始化,构建倒排索引;所述初始化的方法为:主要进行图谱字段的归一化处理,对实体名称的字段和属性值字段进行分词,;得到名称分词和属性值分词;

所述构建倒排索引的方法为:

以所述名称分词和属性值分词作为键,来源本体、来源实体作为值,构建倒排索引表;{

所述来源实体为:所述名称分词和属性值分词所属的实体;

所述来源本体为:所述名称分词和属性值分词所属的实体对应的本体;

S2:通过对倒排索引表的一次遍历,依据所述倒排索引获取本体的共现情况,获取近似匹配本体,具体方法为:

S21:在倒排索引中统计名称分词在本体类型上的共现情况,将共现程度高的本体类型划分为近似匹配类型;将与名称分词集重叠数排名前5的类型划分为该本体的近似匹配类型;

S22:在倒排索引中统计属性值分词在本体属性上的共现情况,将共现程度高的本体属性划分为近似匹配属性;将与属性值分词集重叠数排名前5的属性划分为该本体的近似匹配属性;

S23:结合所述近似匹配类型与所述近似匹配属性,获得所述近似匹配本体;

所述结合所述近似匹配类型与所述近似匹配属性,获得所述近似匹配本体的具体方法为:

所述近似匹配属性属于所述近似匹配类型所属的本体,则认为所述本体为所述近似匹配本体;一个本体对应的近似匹配本体数量不大于3个;

S24:在对待融合的知识图谱的集合中重复步骤S21-S23,得到近似匹配本体集合;

S3:根据所述近似匹配本体提取候选实体对,具体方法为:

S31:在所述近似匹配本体集合中统计名称分词在不同实体上的共现情况,共现程度高的实体划分为名称候选实体对;

S32:计算每两个实体的邻域在所述近似匹配本体集合中的相似程度,得到所述名称候选实体对;

所述计算每两个实体的邻域在所述近似匹配本体集合中的相似程度采用Jaccard相似度,

其中,

Neighbor(A)代表实体A的邻域实体对应的本体集;

Neighbor(B)代表实体B的邻域实体对应的本体集;

S33:结合步骤S31- S32中结算的所述名称候选实体对,得到名称候选实体对集合;

将名称分词共现次数超过实体名称总名称分词数一半的实体加入名称候选实体对;每两个实体的邻域在所述近似匹配本体集合中的相似程度大于0.6的实体加入名称候选实体对;

S34:统计属性值分词在在所述近似匹配本体集合中的共现情况,获得属性候选实体对,得到属性候选实体对集合;从倒排索引中统计属性值分词在近似匹配本体内的共现情况,将属性值分词共现3次以上的实体对加入属性候选实体对;

S4:在所述名称候选实体对集合和近似匹配本体集合中计算候选实体对在属性上的相似度,得到由数值属性相似度、类别属性相似度和字符串属性相似度构成的相似度向量,

实体的属性主要分为:数值型属性、类别型属性和字符串属性;

所述数值属性相似度的计算方法为:名称候选实体对的所述数值属性差小于设定阈值认为一致,设置为1,不一致设置为0;

其中,

na

na

上述设定阈值设置为数值归一化后的10

所述类别属性相似度的计算方法为:名称候选实体对的所述类别属性相等认为一致,设置为1,不一致设置为0;

其中,

ca

ca

所述字符串属性相似度的计算方法为:依据所述近似匹配属性,采用属性值分词共现与字符串相似度计算方法共同度量,具体计算方法为:

其中,

i和j分别表示字符串saA中的元素和字符串saB的中的元素下标,下标从1开始,saA指实体A的字符串类型属性,saB指实体B的字符串类型属性;

w

所述字符串属性相似度一致的计算方法为:

利用人工设定的阈值进行筛选,阈值为0.6,若所述字符串属性相似度大于阈值,则认为实体对在所述字符串属性上一致,否则认为不一致;

S5:根据所述相似度向量的分量对候选实体初步判别,具体判别方法为:

S51:在所述候选实体对集合中将所述相似度向量的所有分量一致数大于等于三分之二的实体对标记为匹配实体;

S52:在所述候选实体对集合中将所述相似度向量的所有分量一致数小于等于三分之一的实体对标记为不匹配实体;

S53:将在所述候选实体对集合中将所述相似度向量的所有分量一致数处于三分之二到三分之一之间的实体对标记为歧义实体;

S6:利用实体的文本特征对所述歧义实体和近义实体进行二次筛选,将文本特征相似度满足设定范围的实体对标记为匹配实体,所述文本特征为:一段用于详细描述实体的非结构化文本;

所述利用实体的文本特征对所述歧义实体进行二次筛选,将文本特征相似度满足设定范围的实体对标记为匹配实体的方法为:

S61:将所述属性候选实体对集合减去所述属性候选实体对集合与所述名称候选实体对集合的交集,作为近义实体的集合,即

S62:利用所述歧义实体和近义实体的文本特征和预训练好的模型,判断所述歧义实体和近义实体的文本的相似程度;所述文本特征为:区别于属性,是一段用于详细描述实体的非结构化文本;

利用余弦相似度度量文本特征的相似程度,其中a,b分别为利用预训练模型生成的文本向量表示。

S63:将文本余弦相似度大于0.7的实体对标记为匹配实体并输出。

应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。

类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。

由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号