首页> 中国专利> 一种面向空间知识图谱的地理实体匹配与融合方法

一种面向空间知识图谱的地理实体匹配与融合方法

摘要

本发明提出了一种面向空间知识图谱的地理实体匹配与融合方法。本发明构建地理实体对象数据集,将空间邻近的地理实体对作为待匹配地理实体对集合,提取名称字面、名称语音、名称词袋、几何、类别相似度获得相似度特征集合;人工标记一定数量的样本,以其与对应的相似度特征为输入、标签值为输出,训练地理实体匹配深度学习网络模型,预测每个待匹配地理实体对并过滤得到匹配地理实体对集合;最后合并获得匹配地理实体集合,制定策略对属性冲突进行消解从而获得融合结果并发布为空间知识图谱。本发明提高了地理实体的匹配精度,避免了人为干扰因素,构建了高精度的地理实体匹配与融合模型,增强了地理实体库的可用性和数据可追溯性。

著录项

  • 公开/公告号CN112163101A

    专利类型发明专利

  • 公开/公告日2021-01-01

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN202011194857.3

  • 申请日2020-10-30

  • 分类号G06F16/36(20190101);G06F16/28(20190101);G06F16/29(20190101);G06K9/62(20060101);G06N20/20(20190101);

  • 代理机构42222 武汉科皓知识产权代理事务所(特殊普通合伙);

  • 代理人许莲英

  • 地址 430072 湖北省武汉市武昌区珞珈山武汉大学

  • 入库时间 2023-06-19 09:24:30

说明书

技术领域

本发明属于地理信息系统领域,尤其涉及一种面向空间知识图谱的地理实体匹配与融合方法。

背景技术

地理实体是智能地理信息智能服务的基础,融合多源地理实体数据,构建空间知识图谱,可以为各类地理信息服务提供更加丰富完整的地理位置信息。然而,表达同一地理实体的不同来源的地理实体数据在数据结构、地名表达、几何坐标和分类体系等方面存在着差异,从而导致在地理实体融合后会产生歧义。多源地理实体融合需要对这些潜在的差异进行消除并对高维相似特征进行提取,找到匹配的地理实体对象进行属性消歧。现有的地理实体匹配方法大多结合使用多维特征进行计算,涵盖了地理实体对象的空间属性及非空间属性,大致可分为基于空间几何位置特征的匹配与基于非空间属性特征的匹配。随着地理实体对象属性的不断丰富,仅选取单一的属性值作为匹配特征难以实现高精度的匹配效果,将空间位置相似度特征与非空间属性相似度特征结合使用,能够进一步提高相似地名对象匹配的准确性。在得到相应的相似度特征后,需要对所有特征进行加权计算进行最终的匹配判断,而如何对权重进行合理分配是其中的重要问题,目前的方法普遍基于专家经验进行权重分配。但是,人为分配权重具有很大的主观因素,容易出现权重分配不当的情况,从而导致匹配精度的下降。因此,在地理实体数据匹配和融合过程中,需要研究如何有效地提取相似度特征,基于机器学习方法对这些相似度特征进行融合,提高地理实体数据的匹配精度和融合效果。

发明内容

因而为解决上述问题,本发明提供了一种面向空间知识图谱的地理实体匹配与融合方法,从融合多源地理实体数据构建空间知识图谱出发,针对多源地理实体之间存在的差异与相似特征,实现基于深度学习的多源地理实体匹配与融合方法。

本发明的技术方案为一种面向空间知识图谱的地理实体匹配与融合方法,包括以下步骤:

步骤1,构建数据结构、空间坐标系均相同的地理实体对象数据集;

步骤2,根据步骤1中所述数据供应商的类别体系中不同层级的类别的集合中所有类别进行遍历,基于人工标注的方法寻找不同数据供应商中匹配相似的类型;

步骤3,根据不同地理实体供应商提供的地理实体数据构建地理实体数据集,在地理实体数据集中筛选出空间直线距离小于空间距离阈值的地理实体,以构建待匹配地理实体对集合,根据待匹配地理实体对集合分别提取名称字面相似度、名称语音相似度、名称词袋相似度、几何相似度、类别相似度,进一步构建待匹配地理实体对相似度特征集合;

步骤4,从待匹配地理实体对集合中随机选取一定数量的待匹配地理实体对,人工基于经验逐一对比判断每一个随机选择的待匹配地理实体对中两个实体的名称是否近似、空间位置是否邻近、类别是否相同,如果都是,则认为该待匹配地理实体对相似,属于匹配关系,将其划分为正样本,否则划分为负样本,并进行标签标注,获取地理实体匹配样本集合;

步骤5,构建地理实体匹配深度学习网络模型,以地理实体匹配样本集合作为输入数据,将待匹配地理实体对相似度特征集合中获取的对应的待匹配地理实体对匹配样本的相似度特征作为输入数据,地理实体匹配样本集合的样本的标签值为输出进行优化训练,构建训练后地理实体匹配深度学习网络模型;

步骤6,将待匹配的地理实体对集合中的所有待匹配地理实体对,依次通过训练后地理实体匹配深度学习网络模型进行预测得到每个待匹配地理实体对的预测结果,进一步根据每个待匹配地理实体对的预测结果进行过滤筛选得到匹配地理实体对集合;

步骤7,将匹配地理实体对集合中包含相同地理实体的地理实体对进行合并,获得匹配地理实体集合;

步骤8,根据匹配地理实体集集合中所有匹配地理实体集中的地理实体之间的各个属性判断是否相同,进一步获取得到各个匹配地理实体集中存在的属性冲突;

步骤9,根据各个匹配地理实体集中存在的属性冲突,人工制定冲突解决策略对属性冲突进行消解,从而融合匹配地理实体集获得匹配地理实体集融合实体集合;

作为优选,步骤1中所述地理实体对象数据集定义为:

GeoEntityCollection

其中,GeoEntityCollection

第n个数据供应商中第m个地理实体对象为:

GeoEntity

n∈{1,2,…,N},m∈{1,2,…,M

其中,N为数据供应商的数量,M

所述GE

所述GE

GE

n∈{1,2,…,N},m∈{1,2,…,M

其中,GeoCS

GE

GE

其中,GE

所述GE

GE

l∈{1,2,…,L

其中,L

所述第n个数据供应商的类别体系由多个类别层级组成,具体定义为:

TypeClass

l∈{1,2,…,L

其中,TypeLevel

TypeLevel

TypeLevel

l∈{1,2,…,L

其中,type

所述GE

GE

k∈{1,2,…,K

其中,

若GE

若数据供应商n中有两个地理实体对象GE

作为优选,步骤2所述基于人工标注的方法寻找不同数据供应商中匹配相似的类型为:

对type

n∈{1,2,…,N},l∈{1,2,…,L

type

n1≠n2,n1,n2∈{1,2,…,N}

l1∈{1,2,…,L

t1∈{1,2,…,T

作为优选,步骤3所述筛选出空间距离小于阈值的地理实体为:

GeoDis(GE

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

步骤3所述待匹配地理实体对集合为:

PreMatchC={

其中,N表示地理实体供应商的数量,M

步骤3所述提取名称字面相似度为:

Sim

Sim

(GE

其中,GE

步骤3所述提取名称语音相似度为:

Sim

Sim

hon(GE

其中,GE

步骤3所述提取名称词袋相似度为:

Sim

Sim

其中,GE

步骤3所述提取几何相似度为:

Sim

Sim

其中,GE

步骤3所述提取类别相似度为:

Sim

Sim

其中,GE

步骤3所述构建待匹配地理实体对相似度特征集合为:

PreMatchSimC={PreMatchSim

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,PreMatchSimC表示待匹配地理实体对相似度特征集合,PreMatchSim

PreMatchSim

Sim

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

作为优选,步骤4所述地理实体匹配样本集合表示为:

MatchSampleC={MatchPSampleC,MatchNSampleC}

其中,MatchPSampleC为正样本集合,MatchNSampleC为负样本集合,表示为:

MatchPSampleC={MatchPSample

sp∈{1,2,…,SP}

MatchNSampleC={MatchNSample

sn∈{1,2,…,SN}

其中,SP为正样本个数,SN为负样本个数,MatchPSample为待匹配地理实体对标注后的待匹配地理实体对正匹配样本,MatchNSample为待匹配地理实体对标注后的待匹配地理实体对负匹配样本,表示为:

MatchPSample∈{<

Label

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

MatchNSample∈{<

Label

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,<

作为优选,步骤5所述构建深度地理实体匹配深度学习网络模型为:

所述深度地理实体匹配深度学习网络模型由第一个网络模型、第二个网络模型串联构成;

所述第一个网络模型由输入层、2个隐藏层、输出层依次串联级联构成;

所述输入层由数量为K1=3个输入节点并联构成,依次为每个待匹配地理实体对样本

所述隐藏层1由L11=32个节点并联构成,表示为:

HiddenLayer

node

Sim

i∈{1,2,…,32}

其中,HiddenLayer

所述隐藏层2由L12=32个节点并联构成,表示为:

HiddenLayer

node

i,j∈{1,2,…,32}

其中,HiddenLayer

所述输出层选用ReLU函数作为激活函数最终输出提取出的名称相似度Sim

Sim

+node

i∈{1,2,…,32}

其中,node

所述第一个网络模型的损失函数表示为:

OFunc

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,Label

第二个网络模型由输入层、2个隐藏层、输出层依次串联级联构成;

所述输入层由数量为K2=3个输入节点并联构成,依次为每个待匹配地理实体对

所述隐藏层1由L21=32个节点并联构成,表示为:

HiddenLayer

node

Sim

i∈{1,2,…,32}

其中,HiddenLayer

所述隐藏层2由L22=32个节点并联构成,表示为:

HiddenLayer

node

i,j∈{1,2,…,32}

其中,HiddenLayer

所述输出层选用Sigmoid函数作为激活函数将输出结果映射到0,1之间,表示为;

Output(n1,n2,m1,m2)=1/(1+e

OutputTmp(n1,n2,m1,m2)=node

+node

i∈{1,2,…,32}

其中,Output(n1,n2,m1,m2)表示地理实体匹配样本集合的样本

所述第二个网络模型的损失函数模型表示为:

OFunc

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,Label

所述深度地理实体匹配深度学习网络模型的总体损失函数为:

CFunc=OFunc

∑(Sim

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,Label

所述深度地理实体匹配深度学习网络模型的总体寻优函数为:

OFunc=Mimimize(CFunc)

函数Minimize表示寻优函数的目标是获取输入公式的最小值,使用梯度下降法进行求解;

步骤5所述构建训练后地理实体匹配深度学习网络模型为:

node

Sim

node

Sim

+node

node

Sim

node

Output(n1,n2,m1,m2)=1/(1+e

OutputTmp(n1,n2,m1,m2)=node

+node

i,j∈{1,2,…,32},

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N},

m1∈{1,2,…,M

其中,Sim

作为优选,步骤6所述进一步根据每个待匹配地理实体对的预测结果进行过滤筛选得到匹配地理实体对集合为:

每个待匹配地理实体对的预测结果为Output(n1,n2,m1,m2);

将Output(n1,n2,m1,m2)>α=0.5的匹配地理实体对集合,表示为:

MatchC=

Output(n1,n2,m1,m2)>α=0.5,

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N},

m1∈{1,2,…,M

其中,N表示地理实体供应商的数量,M

作为优选,步骤7所述匹配地理实体集合为:

CMatchC={CMatch

CMatch

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,C表示匹配地理实体集个数,CMatch

作为优选,步骤8所述进一步获取得到各个匹配地理实体集中存在的属性冲突为:

Cx

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,Cx

作为优选,步骤9所述融合匹配地理实体集获得匹配地理实体集融合实体集合为:

FusionEntityC={FusionEntity

FusionEntity

FusionEntity

其中,FusionEntityC表示匹配地理实体集融合实体集合,C表示匹配地理实体集融合实体的个数,与匹配地理实体集个数相同;FusionEntity

所述匹配地理实体集融合实体的名称,当匹配地理实体集存在名称属性冲突时采用“接受所有冲突的值”的策略来获取,否则取匹配地理实体集中所有地理实体的相同的名称,表示为:

FusionEntity

FusionEntity

c=1,2,…,C,

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,FusionEntity

所述匹配地理实体集融合实体的经纬度坐标,当匹配地理实体集存在几何属性冲突时采用“在冲突值中选取平均值”的策略来获取,否则取匹配地理实体集中所有地理实体的相同的经纬度坐标,表示为:

FusionEntity

FusionEntity

c=1,2,…,C,

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,FusionEntity

所述匹配地理实体集融合实体的类别,当匹配地理实体集存在类别属性冲突时采用“选择在冲突值中出现频率最高的值”的策略来获取,否则取匹配地理实体集中所有地理实体的相同的类别,表示为:

FusionEntity

Cx

FusionEntity

c=1,2,…,C,

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,FusionEntity

所述匹配地理实体集融合实体的标签,当匹配地理实体集存在标签属性冲突时采用“接受所有冲突的值”的策略来获取,否则取匹配地理实体集中所有地理实体的相同的标签,表示为:

FusionEntity

FusionEntity

c=1,2,…,C,

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,FusionEntity

本发明的优点是:

兼顾了空间实体的空间与非空间属性,综合考虑了实体名称、几何位置和类别结构等特征对相似度进提取,提高了地理实体的匹配精度;

引入了基于深度学习技术的神经网络模型对相似度特征进行抽取、组合与训练,避免了人为干扰因素,构建了高精度的地理实体匹配与融合模型;

使用知识图谱对地理实体匹配和融合结果进行表达,并引入了空间溯源模型,增强了地理实体库的可用性和数据可追溯性。

附图说明

图1:是本发明实施例的总体实现架构图。

图2:是本发明实施例的类别融合示意图。

图3:是本发明实施例的地理实体匹配神经网络模型结构图。

图4:是本发明实施例的空间知识图谱本体模型结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合实例对本发明作进一步详细描述,应当理解,此处所描述的实施案例仅用于说明和解释本发明,并不用于限定本发明。

本发明提供了一种面向空间知识图谱的地理实体匹配与融合方法,从融合多源地理实体数据构建空间知识图谱出发,针对多源地理实体之间存在的差异与相似特征,实现基于深度学习的多源地理实体匹配与融合方法。

实施例总体实现架构参见附图1。首先,对地理实体数据的分类体系进行比较和合并,使用人工语义映射的方法在多个地理实体分类体系中寻找具有相似语义特征的类别进行融合;在这基础上兼顾地理实体的空间与非空间属性,综合考虑实体名称、几何位置和类别结构等特征对相似度进提取,并引入深度学习技术对相似度特征进行组合与训练,获取匹配的地理实体;最后制定出相应的冲突解决策略对匹配的地理实体进行属性消歧,从而融合多源地理实体数据构建空间位置知识图谱。主要过程包括以下步骤:

本发明的技术方案为一种面向空间知识图谱的地理实体匹配与融合方法,包括以下步骤:

步骤1,构建数据结构、空间坐标系均相同的地理实体对象数据集;

步骤1中所述地理实体对象数据集定义为:

GeoEntityCollection

N}

其中,GeoEntityCollection

第n个数据供应商中第m个地理实体对象为:

GeoEntity

n∈{1,2,…,N},m∈{1,2,…,M

其中,N为数据供应商的数量,M

所述GE

所述GE

GE

n∈{1,2,…,N},m∈{1,2,…,M

其中,GeoCS

GE

GE

其中,GE

所述GE

GE

l∈{1,2,…,L

其中,L

所述第n个数据供应商的类别体系由多个类别层级组成,具体定义为:

TypeClass

l∈{1,2,…,L

其中,TypeLevel

TypeLevel

TypeLevel

l∈{1,2,…,L

其中,type

所述GE

GE

k∈{1,2,…,K

其中,

若GE

若数据供应商n中有两个地理实体对象GE

步骤2,根据步骤1中所述数据供应商的类别体系中不同层级的类别的集合中所有类别进行遍历,基于人工标注的方法寻找不同数据供应商中匹配相似的类型;

步骤2所述基于人工标注的方法寻找不同数据供应商中匹配相似的类型为:

对type

n∈{1,2,…,N},l∈{1,2,…,L

type

n1≠n2,n1,n2∈{1,2,…,N}

l1∈{1,2,…,L

t1∈{1,2,…,T

如数据供应商1的第2层类别的第1个类型type

步骤3,根据不同地理实体供应商提供的地理实体数据构建地理实体数据集,在地理实体数据集中筛选出空间直线距离小于空间距离阈值的地理实体,以构建待匹配地理实体对集合,根据待匹配地理实体对集合分别提取名称字面相似度、名称语音相似度、名称词袋相似度、几何相似度、类别相似度,进一步构建待匹配地理实体对相似度特征集合;

步骤3所述筛选出空间距离小于阈值的地理实体为:

GeoDis(GE

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

步骤3所述待匹配地理实体对集合为:

PreMatchC={

其中,N表示地理实体供应商的数量,M

步骤3所述提取名称字面相似度为:

Sim

Sim

(GE

其中,GE

步骤3所述提取名称语音相似度为:

Sim

Sim

hon(GE

其中,GE

步骤3所述提取名称词袋相似度为:

Sim

Sim

其中,GE

步骤3所述提取几何相似度为:

Sim

Sim

其中,GE

步骤3所述提取类别相似度为:

Sim

Sim

其中,GE

步骤3所述构建待匹配地理实体对相似度特征集合为:

PreMatchSimC={PreMatchSim

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,PreMatchSimC表示待匹配地理实体对相似度特征集合,PreMatchSim

PreMatchSim

Sim

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

步骤4,从待匹配地理实体对集合中随机选取一定数量的待匹配地理实体对,人工基于经验逐一对比判断每一个随机选择的待匹配地理实体对中两个实体的名称是否近似、空间位置是否邻近、类别是否相同,如果都是,则认为该待匹配地理实体对相似,属于匹配关系,将其划分为正样本,否则划分为负样本,并进行标签标注,获取地理实体匹配样本集合;

步骤4所述地理实体匹配样本集合表示为:

MatchSampleC={MatchPSampleC,MatchNSampleC}

其中,MatchPSampleC为正样本集合,MatchNSampleC为负样本集合,表示为:

MatchPSampleC={MatchPSample

sp∈{1,2,…,SP}

MatchNSampleC={MatchNSample

sn∈{1,2,…,SN}

其中,SP为正样本个数,SN为负样本个数,MatchPSample为待匹配地理实体对标注后的待匹配地理实体对正匹配样本,MatchNSample为待匹配地理实体对标注后的待匹配地理实体对负匹配样本,表示为:

MatchPSample∈{<

Label

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

MatchNSample∈{<

Label

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,<

步骤5,构建地理实体匹配深度学习网络模型,以地理实体匹配样本集合作为输入数据,将待匹配地理实体对相似度特征集合中获取的对应的待匹配地理实体对匹配样本的相似度特征作为输入数据,地理实体匹配样本集合的样本的标签值为输出进行优化训练,构建训练后地理实体匹配深度学习网络模型;

步骤5所述构建深度地理实体匹配深度学习网络模型为:

所述深度地理实体匹配深度学习网络模型由第一个网络模型、第二个网络模型串联构成,如图3所示;

所述第一个网络模型由输入层、2个隐藏层、输出层依次串联级联构成;

所述输入层由数量为K1=3个输入节点并联构成,依次为每个待匹配地理实体对样本

所述隐藏层1由L11=32个节点并联构成,表示为:

HiddenLayer

node

Sim

i∈{1,2,…,32}

其中,HiddenLayer

所述隐藏层2由L12=32个节点并联构成,表示为:

HiddenLayer

node

i,j∈{1,2,…,32}

其中,HiddenLayer

所述输出层选用ReLU函数作为激活函数最终输出提取出的名称相似度Sim

Sim

+node

i∈{1,2,…,32}

其中,node

所述第一个网络模型的损失函数表示为:

OFunc

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,Label

第二个网络模型由输入层、2个隐藏层、输出层依次串联级联构成;

所述输入层由数量为K2=3个输入节点并联构成,依次为每个待匹配地理实体对

所述隐藏层1由L21=32个节点并联构成,表示为:

HiddenLayer

node

Sim

i∈{1,2,…,32}

其中,HiddenLayer

所述隐藏层2由L22=32个节点并联构成,表示为:

HiddenLayer

node

i,j∈{1,2,…,32}

其中,HiddenLayer

所述输出层选用Sigmoid函数作为激活函数将输出结果映射到0,1之间,表示为;

Output(n1,n2,m1,m2)=1/(1+e

OutputTmp(n1,n2,m1,m2)=node

+node

i∈{1,2,…,32}

其中,Output(n1,n2,m1,m2)表示地理实体匹配样本集合的样本

所述第二个网络模型的损失函数模型表示为:

OFunc

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,Label

所述深度地理实体匹配深度学习网络模型的总体损失函数为:

CFunc=OFunc

∑(Sim

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N}

m1∈{1,2,…,M

其中,Label

所述深度地理实体匹配深度学习网络模型的总体寻优函数为:

OFunc=Mimimize(CFunc)

函数Minimize表示寻优函数的目标是获取输入公式的最小值,使用梯度下降法进行求解;

步骤5所述构建训练后地理实体匹配深度学习网络模型为:

node

Sim

node

Sim

+node

node

Sim

node

Output(n1,n2,m1,m2)=1/(1+e

OutputTmp(n1,n2,m1,m2)=node

+node

i,j∈{1,2,…,32},

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N},

m1∈{1,2,…,M

其中,Sim

步骤6,将待匹配的地理实体对集合中的所有待匹配地理实体对,依次通过训练后地理实体匹配深度学习网络模型进行预测得到每个待匹配地理实体对的预测结果,进一步根据每个待匹配地理实体对的预测结果进行过滤筛选得到匹配地理实体对集合;

步骤6所述进一步根据每个待匹配地理实体对的预测结果进行过滤筛选得到匹配地理实体对集合为:

每个待匹配地理实体对的预测结果为Output(n1,n2,m1,m2);

将Output(n1,n2,m1,m2)>α=0.5的匹配地理实体对集合,表示为:

MatchC=

Output(n1,n2,m1,m2)>α=0.5,

n1≠n2,n1∈{1,2,…,N},n2∈{1,2,…,N},

m1∈{1,2,…,M

其中,N表示地理实体供应商的数量,M

步骤7,将匹配地理实体对集合中包含相同地理实体的地理实体对进行合并,获得匹配地理实体集合;

步骤7所述匹配地理实体集合为:

CMatchC={CMatch

CMatch

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,C表示匹配地理实体集个数,CMatch

步骤8,根据匹配地理实体集集合中所有匹配地理实体集中的地理实体之间的各个属性判断是否相同,进一步获取得到各个匹配地理实体集中存在的属性冲突;

步骤8所述进一步获取得到各个匹配地理实体集中存在的属性冲突为:

Cx

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,Cx

步骤9,根据各个匹配地理实体集中存在的属性冲突,人工制定冲突解决策略对属性冲突进行消解,从而融合匹配地理实体集获得匹配地理实体集融合实体集合;

步骤9所述融合匹配地理实体集获得匹配地理实体集融合实体集合为:

FusionEntityC={FusionEntity

FusionEntity

FusionEntity

其中,FusionEntityC表示匹配地理实体集融合实体集合,C表示匹配地理实体集融合实体的个数,与匹配地理实体集个数相同;FusionEntity

所述匹配地理实体集融合实体的名称,当匹配地理实体集存在名称属性冲突时采用“接受所有冲突的值”的策略来获取,否则取匹配地理实体集中所有地理实体的相同的名称,表示为:

FusionEntity

FusionEntity

c=1,2,…,C,

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,FusionEntity

所述匹配地理实体集融合实体的经纬度坐标,当匹配地理实体集存在几何属性冲突时采用“在冲突值中选取平均值”的策略来获取,否则取匹配地理实体集中所有地理实体的相同的经纬度坐标,表示为:

FusionEntity

FusionEntity

c=1,2,…,C,

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,FusionEntity

所述匹配地理实体集融合实体的类别,当匹配地理实体集存在类别属性冲突时采用“选择在冲突值中出现频率最高的值”的策略来获取,否则取匹配地理实体集中所有地理实体的相同的类别,表示为:

FusionEntity

Cx

FusionEntity

c=1,2,…,C,

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,FusionEntity

所述匹配地理实体集融合实体的标签,当匹配地理实体集存在标签属性冲突时采用“接受所有冲突的值”的策略来获取,否则取匹配地理实体集中所有地理实体的相同的标签,表示为:

FusionEntity

FusionEntity

c=1,2,…,C,

Nc<=N,n1≠n2≠nNc,

n1∈{1,2,…,N},n2∈{1,2,…,N},nNc∈{1,2,…,N},

m1∈{1,2,…,M

其中,FusionEntity

步骤10,基于本体建模语言OWL(Web Ontology Language)进行空间知识图谱本体建模,模型可如图4所示,将匹配地理实体集融合实体集合、生成该结果的地理实体匹配与融合过程表示为RDF(Resource Description Framework)格式的数据文件作为空间知识图谱进行发布。

应当理解的是,本申请书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本申请专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本申请权利要求所保护的范围情况下,还可以做出替换或变形,均落入本申请的保护范围之内,本申请的请求保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号