首页> 中国专利> 知识图谱对齐模型的训练方法、对齐方法、装置及设备

知识图谱对齐模型的训练方法、对齐方法、装置及设备

摘要

本申请公开了一种知识图谱对齐模型的训练方法、对齐方法、装置及设备,属于人工智能及云技术领域。方法包括:获取第一实体对集,第一实体对集包括多个未标注对齐结果的第一实体对;基于各个第一实体对的预测对齐概率,从各个第一实体对中筛选出多个第一候选实体对;计算各个第一候选实体对的不易对齐度;基于各个第一候选实体对的不易对齐度,从各个第一候选实体对中筛选出多个第一目标实体对;获取各个第一目标实体对的标注对齐结果,根据各个第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型。本申请通过两次筛选,大大减少了需要标注的实体对数量,节约了时间成本,提高了模型的训练速度,提高了对齐效率。

著录项

  • 公开/公告号CN112966124A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN202110539698.4

  • 发明设计人 张子恒;齐志远;赖盛章;陈曦;

    申请日2021-05-18

  • 分类号G06F16/36(20190101);G06F40/30(20200101);G06F40/194(20200101);G06N20/00(20190101);

  • 代理机构11138 北京三高永信知识产权代理有限责任公司;

  • 代理人张所明

  • 地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本申请实施例涉及人工智能及云技术领域,特别涉及一种知识图谱对齐模型的训练方法、对齐方法、装置及设备。

背景技术

知识图谱是由相互连接的实体以及实体之间的关系所构成,知识图谱对齐技术对构建大规模高质量的知识图谱具有重要意义。通常情况下,基于训练好的知识图谱对齐模型,对两个知识图谱中的实体进行对齐,以实现在一个知识图谱中引入其他知识图谱的内容,从而整合不同粒度不同垂域的知识图谱。

相关技术中,预先获取两个知识图谱,对于一个知识图谱中的任一个实体以及另一个知识图谱中的任一个实体,人工对这两个实体进行对齐标注,按照这种方式,将两个知识图谱中的实体进行对齐标注,将标注好的知识图谱作为训练数据集,基于训练数据集训练得到知识图谱对齐模型,以基于知识图谱对齐模型进行实体对齐。

上述方式中,训练数据集的数量非常大,人工对训练数据集的各个实体对进行标注,需要耗费大量的时间,影响模型的训练速度,从而影响对齐效率。

发明内容

本申请实施例提供了一种知识图谱对齐模型的训练方法、对齐方法、装置及设备,可用于提高模型训练速度,提高对齐效率。所述技术方案如下。

一方面,本申请实施例提供了一种知识图谱对齐模型的训练方法,所述方法包括:

获取第一实体对集,所述第一实体对集包括多个未标注对齐结果的第一实体对,所述第一实体对包括第一知识图谱中的实体和第二知识图谱中的实体;

基于各个第一实体对的预测对齐概率,从所述各个第一实体对中筛选出多个第一候选实体对;

计算各个第一候选实体对的不易对齐度,任一个第一候选实体对的不易对齐度用于指示对所述任一个第一候选实体对进行对齐的困难程度;

基于所述各个第一候选实体对的不易对齐度,从所述各个第一候选实体对中筛选出多个第一目标实体对;

获取所述各个第一目标实体对的标注对齐结果,根据所述各个第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型。

另一方面,本申请实施例提供了一种知识图谱对齐方法,所述方法包括:

获取至少两张待对齐的知识图谱;

基于知识图谱对齐模型对所述至少两张待对齐的知识图谱进行实体对齐,得到知识图谱对齐结果,所述知识图谱对齐模型是按照上述任一所述的知识图谱对齐模型的训练方法训练得到的。

另一方面,本申请实施例提供了一种知识图谱对齐模型的训练装置,所述装置包括:

第一获取模块,用于获取第一实体对集,所述第一实体对集包括多个未标注对齐结果的第一实体对,所述第一实体对包括第一知识图谱中的实体和第二知识图谱中的实体;

筛选模块,用于基于各个第一实体对的预测对齐概率,从所述各个第一实体对中筛选出多个第一候选实体对;

计算模块,用于计算各个第一候选实体对的不易对齐度,任一个第一候选实体对的不易对齐度用于指示对所述任一个第一候选实体对进行对齐的困难程度;

所述筛选模块,还用于基于所述各个第一候选实体对的不易对齐度,从所述各个第一候选实体对中筛选出多个第一目标实体对;

第二获取模块,用于获取所述各个第一目标实体对的标注对齐结果,根据所述各个第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型。

在一种可能的实现方式中,所述计算模块,用于对于任一个第一候选实体对,基于所述任一个第一候选实体对中各个实体的字符特征,计算所述任一个第一候选实体对的字符相似度;基于所述字符相似度,确定所述任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,所述计算模块,用于对于任一个第一候选实体对,基于所述任一个第一候选实体对中各个实体的语义特征,计算所述任一个第一候选实体对的语义相似度;基于所述语义相似度,确定所述任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,所述计算模块,用于对于任一个第一候选实体对,基于所述任一个第一候选实体对的实体属性数量、所述第一知识图谱的实体属性数量、以及所述第二知识图谱的实体属性数量,计算所述任一个第一候选实体对的实体属性占比;基于所述实体属性占比,确定所述任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,所述计算模块,用于对于任一个第一候选实体对,基于所述任一个第一候选实体对中各个实体的三元组数量、所述第一知识图谱中各个实体的三元组数量、以及所述第二知识图谱中各个实体的三元组数量,计算所述任一个第一候选实体对的三元组占比;基于所述三元组占比,确定所述任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,所述计算模块,用于对于任一个第一候选实体对,基于所述第一知识图谱中各个实体的三元组数量,确定所述任一个第一候选实体对中第一知识图谱中的实体的权重、以及基于所述第二知识图谱中各个实体的三元组数量,确定所述任一个第一候选实体对中第二知识图谱中的实体的权重;基于所述任一个第一候选实体对中第一知识图谱中的实体的权重以及第二知识图谱中的实体的权重,计算所述任一个第一候选实体对的权重;基于所述任一个第一候选实体对的权重,计算所述任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,所述第二获取模块,用于对于任一个第一目标实体对,在标注交互界面上显示所述任一个第一目标实体对的链接信息,所述链接信息包括所述任一个第一目标实体对中各个实体的实体属性信息和三元组信息;响应于根据所述任一个第一目标实体对的链接信息,在所述标注交互界面上针对所述任一个第一目标实体对进行的标注对齐操作,得到所述任一个第一目标实体对的标注对齐结果。

在一种可能的实现方式中,所述知识图谱对齐模型的训练装置还包括:

确定模块,用于对于任一个第一实体对,基于第一知识图谱对齐模型确定所述任一个第一实体对的预测对齐概率;

所述第二获取模块,用于根据所述各个第一目标实体对的预测对齐概率和标注对齐结果,对所述第一知识图谱对齐模型进行训练,得到第二知识图谱对齐模型;响应于满足训练结束条件,将所述第二知识图谱对齐模型作为目标知识图谱对齐模型。

在一种可能的实现方式中,所述第二获取模块,还用于响应于不满足所述训练结束条件,将所述第二知识图谱对齐模型作为下一次训练的知识图谱对齐模型,获取第二实体对集,所述第二实体对集包括多个未标注对齐结果的第二实体对,所述第二实体对包括第三知识图谱中的实体和第四知识图谱中的实体;对于任一个第二实体对,基于所述下一次训练的知识图谱对齐模型确定所述任一个第二实体对的预测对齐概率;基于各个第二实体对的预测对齐概率,从所述各个第二实体对中筛选出多个第二候选实体对;计算各个第二候选实体对的不易对齐度;基于所述各个第二候选实体对的不易对齐度,从所述各个第二候选实体对中筛选出多个第二目标实体对;获取所述各个第二目标实体对的标注对齐结果,根据所述各个第二目标实体对的预测对齐概率和标注对齐结果,对所述下一次训练的知识图谱对齐模型进行训练,得到第三知识图谱对齐模型;响应于满足所述训练结束条件,将所述第三知识图谱对齐模型作为所述目标知识图谱对齐模型。

在一种可能的实现方式中,所述第二获取模块,用于基于所述各个第一实体对的预测对齐概率,从所述各个第一实体对中筛选出多个易对齐实体对;根据各个易对齐实体对的预测对齐概率,确定所述各个易对齐实体对的标注对齐结果;根据所述各个第一目标实体对的预测对齐概率和标注对齐结果、所述各个易对齐实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型。

另一方面,本申请实施例提供了一种知识图谱对齐装置,所述装置包括:

获取模块,用于获取至少两张待对齐的知识图谱;

对齐模块,用于基于知识图谱对齐模型对所述至少两张待对齐的知识图谱进行实体对齐,得到知识图谱对齐结果,所述知识图谱对齐模型是按照上述任一所述的知识图谱对齐模型的训练方法训练得到的。

在一种可能的实现方式中,所述对齐模块,用于基于知识图谱对齐模型确定各个待对齐实体对的预测对齐概率,所述任一个待对齐实体对包括所述至少两张待对齐的知识图谱中属于不同知识图谱的任两个实体;响应于所述任一个待对齐实体对的预测对齐概率大于或者等于目标对齐概率,将所述任一个待对齐实体对进行对齐。

另一方面,本申请实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一所述的知识图谱对齐模型的训练方法。

另一方面,本申请实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一所述的知识图谱对齐方法。

另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一所述的知识图谱对齐模型的训练方法。

另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一所述的知识图谱对齐方法。

另一方面,还提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行,以实现上述任一种知识图谱对齐模型的训练方法。

另一方面,还提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行,以实现上述任一种知识图谱对齐方法。

本申请实施例提供的技术方案至少带来如下有益效果:

本申请实施例提供的技术方案是基于各个第一实体对的预测对齐概率,从各个第一实体对中初步筛选出多个第一候选实体对,然后基于各个第一候选实体对的不易对齐度,从各个第一候选实体对中再次筛选出第一目标实体对,获取第一目标实体对的标注对齐结果,以通过第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型,通过两次筛选,大大减少了需要标注的实体对数量,节约了时间成本,提高了模型的训练速度,从而提高了对齐效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种知识图谱对齐模型的训练方法或者知识图谱对齐方法的实施环境示意图;

图2是本申请实施例提供的一种知识图谱对齐模型的训练方法的流程图;

图3是本申请实施例提供的一种知识图谱的示意图;

图4是本申请实施例提供的一种标注交互界面的显示图;

图5是本申请实施例提供的一种知识图谱对齐模型的训练图;

图6是本申请实施例提供的一种知识图谱对齐模型的训练效果图;

图7是本申请实施例提供的一种知识图谱对齐方法的流程图;

图8是本申请实施例提供的一种知识图谱对齐模型的训练装置的结构图;

图9是本申请实施例提供的一种知识图谱对齐装置的结构图;

图10是本申请实施例提供的一种电子设备的结构示意图;

图11是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种知识图谱对齐模型的训练方法或者知识图谱对齐方法的实施环境示意图,如图1所示该实施环境包括电子设备11,本申请实施例中的知识图谱对齐模型的训练方法或者知识图谱对齐方法可以由电子设备11执行。示例性地,电子设备11可以包括终端设备或者服务器中的至少一项。

终端设备可以是智能手机、游戏主机、台式计算机、平板电脑和膝上型便携计算机中的至少一种。

服务器可以为一台服务器,或者为多台服务器组成的服务器集群,或者为云计算平台和虚拟化中心中的任意一种,本申请实施例对此不加以限定。服务器可以与终端设备通过有线网络或无线网络进行通信连接。服务器可以具有数据处理、数据存储以及数据收发等功能,在本申请实施例中不加以限定。

本申请实施例的知识图谱对齐模型的训练方法或者知识图谱对齐方法,可以基于人工智能技术实现,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例的知识图谱对齐模型的训练方法或者知识图谱对齐方法所涉及到的数据,可以基于云技术实现,在方案实施时所涉及的数据处理/数据计算可以基于云计算实现,在方案实施时所涉及的数据可保存于区块链上。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。

作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。

云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing )、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

基于如图1所示的实施环境,本申请实施例提供了一种知识图谱对齐模型的训练方法,以图2所示的本申请实施例提供的一种知识图谱对齐模型的训练方法的流程图为例,该方法可由图1中的电子设备11执行。为便于理解,下面将对本申请实施例所涉及的名词进行解释和说明。

实体(英文全称:Entity)是客观存在并可互相区别的事物,例如,实体包括但不限于猫、狗等。在本申请实施例中,实体是知识图谱的基本单元,是知识图谱中承载信息的重要单元。

知识图谱是由相互连接的实体和实体之间的关系构成,也就是说,知识图谱是由一条条知识组成,每条知识为一个主实体-关系-客实体(Subject-Predicate-Object,SPO)三元组,知识图谱中的节点为主实体或者客实体,边为主实体与客实体之间的关系。

知识图谱对齐(英文全称:Knowledge Graph Alignment)也称实体对齐,旨在判断两个或者多个不同知识图谱中的实体是否指向真实世界中的同一个对象,如果多个实体表征同一个对象,则在这些实体之间构建对齐关系。

如图2所示,本申请实施例的知识图谱对齐模型的训练方法包括步骤S21-步骤S25。

步骤S21,获取第一实体对集,第一实体对集包括多个未标注对齐结果的第一实体对,第一实体对包括第一知识图谱中的实体和第二知识图谱中的实体。

其中,第一知识图谱和第二知识图谱为不同的知识图谱,本申请实施例中不限定知识图谱的大小、内容等,例如,第一知识图谱和第二知识图谱均是与医药相关的知识图谱。

基于第一知识图谱中的一个实体(主实体或者客实体)和第二知识图谱中的一个实体(主实体或者客实体)构建第一实体对。由于第一知识图谱、第二知识图谱中均包括至少一个SPO三元组,即第一知识图谱、第二知识图谱中均包括至少两个实体,因此,可以构建多个第一实体对,从而得到包括多个未标注对齐结果的第一实体对的第一实体对集。构建多个第一实体对时,本申请实施例不对第一知识图谱和第二知识图谱的获取方式进行限定,可基于应用场景或者训练需求来获取相关的知识图谱,进而获取两个知识图谱中的实体,构建得到多个第一实体对。

步骤S22,基于各个第一实体对的预测对齐概率,从各个第一实体对中筛选出多个第一候选实体对。

对于任一个第一实体对,可以基于第一知识图谱对齐模型确定该任一个第一实体对的预测对齐概率,其中,第一知识图谱对齐模型是训练过的对齐模型,模型的结构不作限定,例如第一知识图谱对齐模型可以是利用本实施例提供的方法,在本次训练之前得到的知识图谱对齐模型。此外,除了采用训练过的对齐模型来获取第一实体对的预测对齐概率的方式外,也可以根据公式计算该任一个第一实体对的预测对齐概率,计算预测对齐概率的公式不做限定。

基于各个第一实体对的预测对齐概率,从中筛选出大于或者等于第一对齐概率、小于或者等于第二对齐概率的预测对齐概率,将筛选出的预测对齐概率所对应的第一实体对,作为第一候选实体对。其中,第一对齐概率小于第二对齐概率,本申请实施例不对第一对齐概率以及第二对齐概率的大小进行限定,可基于经验设置,或者基于应用场景设置,还可以根据实际情况进行调整。

本申请实施例中,若任一个第一实体对的预测对齐概率小于第一对齐概率,说明该任一个第一实体对大概率不对齐,可以认为该任一个第一实体对是不对齐的;若任一个第一实体对的预测对齐概率大于第二对齐概率,说明该任一个第一实体对大概率对齐,可以认为该任一个第一实体对是对齐的。筛选出大于或者等于第一对齐概率、小于或者等于第二对齐概率的预测对齐概率,筛选出的预测对齐概率所对应的第一候选实体对,其对齐的概率与不对齐的概率是相近的,从第一候选实体对中挑选出训练目标知识图谱对齐模型的训练样本,不仅可以降低人工标注的训练样本数量,减少标注时间,加快模型的训练速度,提高对齐效率,还可以保证模型的对齐效果。

步骤S23,计算各个第一候选实体对的不易对齐度,任一个第一候选实体对的不易对齐度用于指示对任一个第一候选实体对进行对齐的困难程度。

本申请实施例中,对于任一个第一候选实体对,根据该任一个第一候选实体对的字符相似度、语义相似度、实体属性占比、三元组占比和权重的至少一项,计算该任一个第一候选实体对的不易对齐度。

为了便于描述和说明,下面将从一个信息(字符相似度、语义相似度、实体属性占比、三元组占比、权重中的任一项)的角度,详细说明计算不易对齐度的方式。对于计算不易对齐度时采用至少两个信息的情况,可以按照本申请实施例所提供的方式进行组合计算,在本申请实施例中不再赘述。

本申请实施例的一种可能实现方式,计算各个第一候选实体对的不易对齐度,包括:对于任一个第一候选实体对,基于任一个第一候选实体对中各个实体的字符特征,计算任一个第一候选实体对的字符相似度;基于字符相似度,确定任一个第一候选实体对的不易对齐度。

其中,实体的名称相似性(即字符相似度)与知识图谱对齐模型的对齐效率息息相关。针对一个实体的两个名称,若两个名称相同或者相似,知识图谱对齐模型容易将这两个名称判定为一个实体,即容易将这两个名称对齐;若两个名称相差较大,知识图谱对齐模型容易将这两个名称判定为两个不同的实体,即不容易将这两个名称对齐。

基于上述特点,本申请实施例在计算第一候选实体对的不易对齐度时,综合考虑了第一候选实体对的字符相似度,以基于第一候选实体对的不易对齐度,从第一候选实体对中筛选出目标知识图谱对齐模型的训练样本,从而提升模型的性能和召回率。

本申请实施例中,对于任一个第一候选实体对中的任一个实体,该任一个实体包括至少一个字符,确定任一个实体中各个字符的字符特征。若该任一个实体包括一个字符,则将该字符的字符特征作为任一个实体的字符特征;若该任一个实体包括至少两个字符,则将任一个实体中各个字符的字符特征按照顺序进行拼接,将拼接后的字符特征作为任一个实体的字符特征。

对于任一个第一候选实体对,根据该任一个第一候选实体对中各个实体的字符特征,计算该任一个第一候选实体对的字符相似度,根据该任一个第一候选实体对的字符相似度,计算该任一个第一候选实体对的不易对齐度。示例性地,该过程可以用下式表示。

其中,

在本申请实施例中,字符串编辑距离的数值大于或者等于0、且小于或者等于1,字符串编辑距离的数值越大,表示第一候选实体对中的两个实体的名称越相似,通过

本申请实施例的另一种可能实现方式中,计算各个第一候选实体对的不易对齐度,包括:对于任一个第一候选实体对,基于任一个第一候选实体对中各个实体的语义特征,计算任一个第一候选实体对的语义相似度;基于语义相似度,确定任一个第一候选实体对的不易对齐度。

实体对的语义相似性与知识图谱对齐模型的对齐效率息息相关,实体对的语义相似性通过实体对的语义相似度来表示,语义相似度的数值大于等于0且小于等于1。针对一个实体对,若该实体对的语义相似度的数值越大,表示该实体对中两个实体的语义越相近,模型越容易将这两个实体判定为一个实体,即越容易将这两个实体对齐;若该实体对的语义相似度的数值越小,表示该实体对中两个实体的语义越不相近,模型越容易将这两个实体判定为不是一个实体,即越容易将这两个实体不对齐;若该实体对的语义相似度的数值在0.5左右,模型判定该实体对的两个实体是否为同一个实体时,会出现极大的不确定性。

基于上述特点,本申请实施例在计算第一候选实体对的不易对齐度时,综合考虑了第一候选实体对的语义相似度,以基于第一候选实体对的不易对齐度,从第一候选实体对中筛选出目标知识图谱对齐模型的训练样本,从而提升模型的对齐准确率。

本申请实施例中,对于任一个第一候选实体对中的任一个实体,该任一个实体包括至少一个字符,确定任一个实体中各个字符的字符特征。若该任一个实体包括一个字符,则将该字符的字符特征作为任一个实体的语义特征;若该任一个实体包括至少两个字符,则根据任一个实体中各个字符的字符特征、各个字符的位置特征、以及各个字符之间的关联关系等,确定任一个实体的语义特征。

对于任一个第一候选实体对,根据该任一个第一候选实体对中各个实体的语义特征,计算该任一个第一候选实体对的语义相似度,根据该任一个第一候选实体对的语义相似度,计算该任一个第一候选实体对的不易对齐度。示例性地,该过程可以用下式表示。

其中,

本申请实施例的另一种可能实现方式中,计算各个第一候选实体对的不易对齐度,包括:对于任一个第一候选实体对,基于任一个第一候选实体对的实体属性数量、第一知识图谱的实体属性数量、以及第二知识图谱的实体属性数量,计算任一个第一候选实体对的实体属性占比;基于实体属性占比,确定任一个第一候选实体对的不易对齐度。

对于知识图谱中的任一个实体,该实体对应有实体属性,实体属性也可以称为键值对(英文全称:Key-Value),例如,实体为人时,实体属性可以为身高和身高的数值。实体的实体属性数量决定了该实体的信息丰富程度,知识图谱对齐模型对于信息丰富程度较高的实体对更容易进行实体对齐,即实体对的实体属性数量越多,知识图谱对齐模型越容易判定该实体对是否为同一个实体。

基于上述特点,本申请实施例在计算第一候选实体对的不易对齐度时,综合考虑了第一候选实体对的实体属性占比,以基于第一候选实体对的不易对齐度,从第一候选实体对中筛选出目标知识图谱对齐模型的训练样本,从而提升模型的性能和召回率。

本申请实施例中,对于任一个第一候选实体对,计算该任一个第一候选实体对中两个实体的实体属性数量之和,将计算结果作为该任一个第一候选实体对的实体属性数量;对于第一知识图谱,计算该第一知识图谱中各个实体的实体属性数量之和,将计算结果作为该第一知识图谱的实体属性数量;对于第二知识图谱,计算该第二知识图谱中各个实体的实体属性数量之和,将计算结果作为该第二知识图谱的实体属性数量。

计算第一知识图谱的实体属性数量与第二知识图谱的实体属性数量之和,将任一个第一候选实体对的实体属性数量与数量之和的比值,作为该任一个第一候选实体对的实体属性占比,基于该任一个第一候选实体对的实体属性占比,计算该任一个第一候选实体对的不易对齐度。示例性地,该过程可以用下式表示。

其中,

本申请实施例的另一种可能实现方式中,计算各个第一候选实体对的不易对齐度,包括:对于任一个第一候选实体对,基于任一个第一候选实体对中各个实体的三元组数量、第一知识图谱中各个实体的三元组数量、以及第二知识图谱中各个实体的三元组数量,计算任一个第一候选实体对的三元组占比;基于三元组占比,确定任一个第一候选实体对的不易对齐度。

对于知识图谱中的任一个实体,该实体对应有SPO三元组。实体的SPO三元组数量决定了该实体的信息丰富程度,知识图谱对齐模型对于信息丰富程度较高的实体对更容易进行实体对齐,也就是说,实体对的SPO三元组数量越多,知识图谱对齐模型越容易判定该实体对是否为同一个实体。

基于上述特点,本申请实施例在计算第一候选实体对的不易对齐度时,综合考虑了第一候选实体对的三元组占比,以基于第一候选实体对的不易对齐度,从第一候选实体对中筛选出目标知识图谱对齐模型的训练样本,从而提升模型的性能和召回率。

本申请实施例中,对于任一个第一候选实体对,计算该任一个第一候选实体对中两个实体的三元组数量之和,将计算结果作为该任一个第一候选实体对的三元组数量;对于第一知识图谱,计算该第一知识图谱中各个实体的三元组数量之和,将计算结果作为该第一知识图谱的三元组数量;对于第二知识图谱,计算该第二知识图谱中各个实体的三元组数量之和,将计算结果作为该第二知识图谱的三元组数量。计算第一知识图谱的三元组数量与第二知识图谱的三元组数量之和,将任一个第一候选实体对的三元组数量与该数量之和的比值,作为该任一个第一候选实体对的三元组占比,基于该任一个第一候选实体对的三元组占比,计算该任一个第一候选实体对的不易对齐度。示例性地,该过程可以用下式表示。

其中,

本申请实施例的另一种可能实现方式中,计算各个第一候选实体对的不易对齐度,包括:对于任一个第一候选实体对,基于第一知识图谱中各个实体的三元组数量,确定任一个第一候选实体对中第一知识图谱中的实体的权重、以及基于第二知识图谱中各个实体的三元组数量,确定任一个第一候选实体对中第二知识图谱中的实体的权重;基于任一个第一候选实体对中第一知识图谱中的实体的权重以及第二知识图谱中的实体的权重,计算任一个第一候选实体对的权重;基于任一个第一候选实体对的权重,计算任一个第一候选实体对的不易对齐度。

本申请实施例中,对于知识图谱(包括但不限于第一知识图谱、第二知识图谱),根据知识图谱中各个实体的三元组数量,确定知识图谱中各个实体的权重。

在一种可能的实现方式中,在第N次循环时(N为大于等于1的正整数),确定当前知识图谱中三元组数量最多的实体,将该实体记为第N个实体,删除知识图谱中第N个实体以及第N个实体的三元组。若删除后的知识图谱中存在三元组,则将删除后的知识图谱作为下一次循环的知识图谱,并进入第N+1次循环;若删除后的知识图谱中不存在三元组,则采用等间隔算法确定这N个实体各自的权重,并确定最初的知识图谱中除这N个实体之外的其他实体的权重为目标权重值。示例性的,目标权重值为0。

例如,如图3所示,图3是本申请实施例提供的一种知识图谱的示意图。其中,初始的知识图谱如图3中的31所示,知识图谱31中包括实体A、B、C、D、E、F、G,实体A与实体B、D、E以及G之间存在关系,即实体A有4个三元组;实体B与实体A、D、E以及C之间存在关系,即实体B有4个三元组;实体C与实体B、E、F以及G之间存在关系,即实体C有4个三元组;实体D与实体A、B以及E之间存在关系,即实体D有3个三元组;实体E与实体A、B、C、D以及F之间存在关系,即实体E有5个三元组;实体F与实体C、E之间存在关系,即实体F有2个三元组;实体G与实体A、C之间存在关系,即实体G有2个三元组。

在第一次循环时,当前的知识图谱为知识图谱31,此时,实体E的三元组数量最多,将实体E记为第1个实体,删除知识图谱31中的实体E以及实体E的三元组,即删除实体E以及实体E的边,此时,删除后的知识图谱如知识图谱32所示,知识图谱32中包括实体A、B、C、D、F、G,实体A与实体B、D以及G之间存在关系,即实体A有3个三元组;实体B与实体A、D以及C之间存在关系,即实体B有3个三元组;实体C与实体B、F以及G之间存在关系,即实体C有3个三元组;实体D与实体A、B之间存在关系,即实体D有2个三元组;实体F与实体C之间存在关系,即实体F有1个三元组;实体G与实体A、C之间存在关系,即实体G有2个三元组。

第二次循环时,当前的知识图谱为知识图谱32,此时,实体A、B、C三者的三元组数量最多,可以随机选择一个实体记为第2个实体,例如,选择实体A记为第2个实体,删除知识图谱32中的实体A以及实体A的三元组,即删除实体A以及实体A的边,此时,删除后的知识图谱如知识图谱33所示,知识图谱33中包括实体B、C、D、F、G,实体B与实体D以及C之间存在关系,即实体B有2个三元组;实体C与实体B、F以及G之间存在关系,即实体C有3个三元组;实体D与实体B之间存在关系,即实体D有1个三元组;实体F与实体C之间存在关系,即实体F有1个三元组;实体G与实体C之间存在关系,即实体G有1个三元组。

第三次循环时,当前的知识图谱为知识图谱33,此时,实体C的三元组数量最多,选择实体C记为第3个实体,删除知识图谱33中的实体C以及实体C的三元组,即删除实体C以及实体C的边,此时,删除后的知识图谱如知识图谱34所示,知识图谱34中包括实体B、D、F、G,实体B与实体D之间存在关系,即实体B有1个三元组;实体D与实体B之间存在关系,即实体D有1个三元组;实体F、G均无三元组。

第四次循环时,当前的知识图谱为知识图谱34,此时,实体B、D的三元组数量最多,随机选择实体B记为第4个实体,删除知识图谱34中的实体B以及实体B的三元组,即删除实体B以及实体B的边,此时,删除后的知识图谱如知识图谱35所示,知识图谱35中包括实体D、F、G,实体D、F、G均无三元组,循环结束。

根据上述循环可以得知,第1-4个实体分别为实体E、A、C、B,可以采用等间隔算法确定这4个实体各自的权重,即实体E、A、C、B各自的权重依次为1、0.66、0.33、0,其他实体D、G、F的权重分别为0。

本申请实施例中,计算任一个第一候选实体对中第一知识图谱中的实体的权重与第二知识图谱中的实体的权重的乘积,将乘积结果作为任一个第一候选实体对的权重,并基于任一个第一候选实体对的权重,计算任一个第一候选实体对的不易对齐度。示例性地,该过程可以用下式表示。

其中,

在另一种可能的实现方式中,根据任一个第一候选实体对的字符相似度、语义相似度、实体属性占比、三元组占比和权重,计算该任一个第一候选实体对的不易对齐度。其中,字符相似度、语义相似度、实体属性占比、三元组占比和权重的计算方式见前文的相关描述,在此不再赘述。

本申请实施例中,根据字符相似度计算对应的不易对齐度,即前文所示的

步骤S24,基于各个第一候选实体对的不易对齐度,从各个第一候选实体对中筛选出多个第一目标实体对。

本申请实施例中,可以从各个第一候选实体对的不易对齐度中,筛选出大于或者等于目标不易对齐度的不易对齐度,将筛选出的不易对齐度所对应的第一候选实体对,作为第一目标实体对。其中,目标不易对齐度的大小不作限定,是根据人工经验得到的或者计算得到的,目标不易对齐度的计算方式也不做限定。

步骤S25,获取各个第一目标实体对的标注对齐结果,根据各个第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型。

对于任一个第一目标实体对,人工对该任一个第一目标实体对进行标注,从而获取到该任一个第一目标实体对的标注对齐结果。为便于人工标注,在一种可能的实现方式中,通过标注交互界面显示该任一个第一目标实体对,响应于人工在标注交互界面上针对该任一个第一目标实体对进行的标注对齐操作,获得该任一个第一目标实体对的标注对齐结果。

在另一种可能的实现方式中,获取各个第一目标实体对的标注对齐结果,包括:对于任一个第一目标实体对,在标注交互界面上显示任一个第一目标实体对的链接信息,链接信息包括任一个第一目标实体对中各个实体的实体属性信息和三元组信息;响应于根据任一个第一目标实体对的链接信息,在标注交互界面上针对任一个第一目标实体对进行的标注对齐操作,得到任一个第一目标实体对的标注对齐结果。

本申请实施例中,标注交互界面上显示有任一个第一目标实体对中各个实体的链接信息,通过触发任一个实体的链接信息,查看该链接信息对应的实体的相关信息,该相关信息包括但不限于实体属性信息和三元组信息,以根据任一个第一目标实体对中各个实体的链接信息确定是否对齐,从而在标注交互界面上执行标注对齐操作,响应于标注对齐操作,得到任一个第一目标实体对的标注对齐结果,标注对齐结果包括对齐或者不对齐。

如图4所示,图4是本申请实施例提供的一种标注交互界面的显示图。该标注交互界面以表格的形式显示各个第一目标实体对,针对任一个第一目标实体对,包括序号、第一知识图谱中的实体、第二知识图谱中的实体、以及是否对齐,其中,以正整数的形式表示第一目标实体对的序号,以链接信息的形式表示第一知识图谱中的实体和第二知识图谱中的实体,是否对齐中包括对齐选项和不对齐选项。如图4中,针对序号为6的第一目标实体对,第一知识图谱中的实体为链接信息6a,通过触发链接信息6a,查看这个第一目标实体对中属于第一知识图谱中的实体的实体属性信息和三元组信息,第二知识图谱中的实体为链接信息6b,通过触发链接信息6b,查看这个第一目标实体对中属于第二知识图谱中的实体的实体属性信息和三元组信息,通过链接信息6a和链接信息6b,确定是否对齐,如图4中选择了对齐选项,说明序号为6的第一目标实体对的标注对齐结果为对齐。

本申请实施例中,根据各个第一目标实体对的预测对齐概率和标注对齐结果,训练得到目标知识图谱对齐模型。

在一种可能的实现方式中,基于各个第一实体对的预测对齐概率,从各个第一实体对中筛选出多个第一候选实体对之前,还包括:对于任一个第一实体对,基于第一知识图谱对齐模型确定任一个第一实体对的预测对齐概率。

根据各个第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型,包括:根据各个第一目标实体对的预测对齐概率和标注对齐结果,对第一知识图谱对齐模型进行训练,得到第二知识图谱对齐模型;响应于满足训练结束条件,将第二知识图谱对齐模型作为目标知识图谱对齐模型。

本申请实施例中,第一知识图谱对齐模型的结构和大小不作限定,第一知识图谱对齐模型提取任一个第一实体对的特征信息,并根据特征信息确定任一个第一实体对的预测对齐概率,特征信息包括但不限于:第一实体对的三元组特征、第一实体对的属性特征、第一实体对的字符串特征、第一实体对的语义特征等中的至少一项,预测对齐概率大于等于0且小于等于1。

在根据各个第一目标实体对的预测对齐概率和标注对齐结果,对第一知识图谱对齐模型进行训练,得到第二知识图谱对齐模型时,根据各个第一目标实体对的预测对齐概率和标注对齐结果,按照第一知识图谱对齐模型的的损失函数计算损失值,并根据损失值优化第一知识图谱对齐模型的模型参数,将优化后的第一知识图谱对齐模型作为第二知识图谱对齐模型。本申请实施例中不对第一知识图谱对齐模型的的损失函数做限定。

当满足训练结束条件时,将第二知识图谱对齐模型作为目标知识图谱对齐模型,满足训练结束条件,包括对第一知识图谱对齐模型进行训练时所对应的次数为目标次数。

在另一种可能的实现方式中,根据各个第一目标实体对的预测对齐概率和标注对齐结果,对第一知识图谱对齐模型进行训练,得到第二知识图谱对齐模型之后,还包括:响应于不满足训练结束条件,将第二知识图谱对齐模型作为下一次训练的知识图谱对齐模型,获取第二实体对集,第二实体对集包括多个未标注对齐结果的第二实体对,第二实体对包括第三知识图谱中的实体和第四知识图谱中的实体;对于任一个第二实体对,基于下一次训练的知识图谱对齐模型确定任一个第二实体对的预测对齐概率;基于各个第二实体对的预测对齐概率,从各个第二实体对中筛选出多个第二候选实体对;计算各个第二候选实体对的不易对齐度;基于各个第二候选实体对的不易对齐度,从各个第二候选实体对中筛选出多个第二目标实体对;获取各个第二目标实体对的标注对齐结果,根据各个第二目标实体对的预测对齐概率和标注对齐结果,对下一次训练的知识图谱对齐模型进行训练,得到第三知识图谱对齐模型;响应于满足训练结束条件,将第三知识图谱对齐模型作为目标知识图谱对齐模型。

本申请实施例中,第二实体对集可以和第一实体对集相同,也可以不同,第三知识图谱为第一知识图谱或者第二知识图谱或者其他知识图谱,第四知识图谱是第一知识图谱或者第二知识图谱或者其他知识图谱。

当不满足训练结束条件时,将第二知识图谱对齐模型作为下一次训练的知识图谱对齐模型,基于下一次训练的知识图谱对齐模型确定第二实体对集中任一个第二实体对的预测对齐概率,从各个第二实体对的预测对齐概率中,筛选出大于或者等于第一对齐概率、小于或者等于第二对齐概率的预测对齐概率。之后,将筛选出的预测对齐概率所对应的第二实体对,作为第二候选实体对,根据任一个第二候选实体对的字符相似度、语义相似度、实体属性占比、三元组占比和权重的至少一项,计算该任一个第二候选实体对的不易对齐度。从各个第二候选实体对的不易对齐度中,筛选出大于或者等于目标不易对齐度的不易对齐度,将筛选出的不易对齐度所对应的第二候选实体对,作为第二目标实体对。通过人工对任一个第二目标实体对进行标注,从而获取到该任一个第二目标实体对的标注对齐结果。再根据各个第二目标实体对的预测对齐概率和标注对齐结果,计算下一次训练的知识图谱对齐模型的损失值,并根据损失值优化下一次训练的知识图谱对齐模型的模型参数,将优化后的下一次训练的知识图谱对齐模型作为第三知识图谱对齐模型。

当满足训练结束条件时,将第三知识图谱对齐模型作为目标知识图谱对齐模型;当不满足时,将第三知识图谱对齐模型作为下一次训练的知识图谱对齐模型,重新执行上述训练步骤。

基于第二实体对集得到目标知识图谱对齐模型的实现方式,可以见前述有关基于第一实体对集得到目标知识图谱对齐模型的实现方式,二者实现原理类似,在本申请实施例中不再赘述。

本申请实施例的另一种可能实现方式,根据各个第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型,包括:基于各个第一实体对的预测对齐概率,从各个第一实体对中筛选出多个易对齐实体对;根据各个易对齐实体对的预测对齐概率,确定各个易对齐实体对的标注对齐结果;根据各个第一目标实体对的预测对齐概率和标注对齐结果、各个易对齐实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型。

本申请实施例中,从各个第一实体对的预测对齐概率中,筛选出小于或者等于第三对齐概率的预测对齐概率,和/或,筛选出大于或者等于第四对齐概率的预测对齐概率,将筛选出的预测对齐概率所对应的第一实体对,作为易对齐实体对,其中,第三对齐概率小于或者等于第一对齐概率,第四对齐概率大于或者等于第二对齐概率,且第三对齐概率小于第四对齐概率。

对于任一个易对齐实体对,若该任一个易对齐实体对的预测对齐概率小于或者等于第三对齐概率,说明该任一个易对齐实体对大概率不对齐,则确定任一个易对齐实体对的标注对齐结果为不对齐;若该任一个易对齐实体对的预测对齐概率大于或者等于第四对齐概率,说明该任一个易对齐实体对大概率对齐,则确定任一个易对齐实体对的标注对齐结果为对齐。并根据各个第一目标实体对的预测对齐概率和标注对齐结果、各个易对齐实体对的预测对齐概率和标注对齐结果,训练得到目标知识图谱对齐模型。

本申请实施例提供的技术方案是基于各个第一实体对的预测对齐概率,从各个第一实体对中初步筛选出多个第一候选实体对,然后基于各个第一候选实体对的不易对齐度,从各个第一候选实体对中再次筛选出第一目标实体对,获取第一目标实体对的标注对齐结果,以通过第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型,通过两次筛选,大大减少了需要标注的实体对数量,节约了时间成本,提高了模型的训练速度,从而提高了对齐效率。

下面将结合图5详细举例说明本申请实施例的知识图谱对齐模型的训练方法,如图5所示,图5是本申请实施例提供的一种知识图谱对齐模型的训练图。在每一次训练操作时,获取第一知识图谱和第二知识图谱,标号51所指示的信息表示第一知识图谱,标号52所指示的信息表示第二知识图谱。根据第一知识图谱中的实体和第二知识图谱中的实体,构建第一实体对集,第一实体对集中包括多个第一实体对,标号53所指示的信息表示第一实体对集。将第一实体对集输入至第一知识图谱对齐模型中,由第一知识图谱对齐模型输出各个第一实体对的预测对齐概率。之后,根据各个第一实体对的预测对齐概率,从各个第一实体对中筛选出第一候选实体对,计算各个第一候选实体对的不易对齐度。再根据各个第一候选实体对的不易对齐度,从各个第一候选实体对中筛选出第一目标实体对,人工标注各个第一目标实体对的标注对齐结果,将人工标注后的第一目标实体对作为训练数据,根据训练数据优化第一知识图谱对齐模型的模型参数。

重复执行上述训练操作,直至训练次数达到目标次数,将优化后的第一知识图谱对齐模型作为目标知识图谱对齐模型。通过重复训练,可以提高模型的对齐性能。

如图6所示,图6是本申请实施例提供的一种知识图谱对齐模型的训练效果图。知识图谱对齐模型分别为基于多视图知识图谱嵌入的实体对齐(Multi-view KnowledgeGraph Embedding for Entity Alignment,MultiKE)模型、和基于图匹配神经网络的跨语言知识图对齐(Cross-lingual Knowledge Graph Alignment via Graph ConvolutionalNetworks,GCNAlign)模型,每一个模型分为三次训练,通过F1分数和人工标注量来体现模型的对齐性能。其中,F1分数又称为平衡F分数,是用来衡量模型精确率和召回率的一个指标,F1分数越大,模型的对齐性能越好,人工标注量是指人工标注第一目标实体对的数量。

对于MultiKE模型,第一次训练时,F1分数为0.896,人工标注量为1000,第二次训练时,F1分数为0.923,人工标注量为400,第三次训练时,F1分数为0.927,人工标注量为50;对于GCNAlign模型,第一次训练时,F1分数为0.895,人工标注量为1200,第二次训练时,F1分数为0.903,人工标注量为300,第三次训练时,F1分数为0.904,人工标注量为30。可以明显看出,随着训练次数的增加,模型的对齐性能越来越好,人工标注量越来越少。

在实际应用中,知识图谱对齐模型包括但不限于MultiKE模型和GCNAlign模型,示例性的,知识图谱对齐模型还可以为基于知识图嵌入的自举实体对齐(BootstrappingEntity Alignment with Knowledge Graph Embedding,BootEA)模型。

上述主要从方法步骤的角度介绍了知识图谱对齐模型的训练方法,下面将结合一个具体的场景进行阐述。本申请实施例的场景中,第一知识图谱和第二知识图谱均为与医疗相关的知识图谱(简称医疗知识图谱),即第一知识图谱为第一医疗知识图谱,第二知识图谱为第二医疗知识图谱,医疗知识图谱中的实体包括疾病、药品、发病部位、诊断科室、预防手段、症状表现等。第一知识图谱对齐模型为MultiKE模型。

在本申请实施例中,获取第一医疗知识图谱和第二医疗知识图谱,第一医疗知识图谱中包括实体“恶性肿瘤”和“发热”,第二医疗知识图谱中包括实体“癌症”和“放射科”。根据第一医疗知识图谱中的实体和第二医疗知识图谱中的实体,构建第一实体对集,第一实体对集中包括“恶性肿瘤-癌症”、“恶性肿瘤-放射科”、“发热-癌症”、“发热-放射科”四个第一实体对。将四个第一实体对输入至MultiKE模型中,由MultiKE模型输出“恶性肿瘤-癌症”的预测对齐概率、“恶性肿瘤-放射科”的预测对齐概率、“发热-癌症”的预测对齐概率、以及“发热-放射科”的预测对齐概率。若“恶性肿瘤-癌症”的预测对齐概率、和“恶性肿瘤-放射科”的预测对齐概率均大于第一对齐概率、小于第二对齐概率,则确定“恶性肿瘤-癌症”和“恶性肿瘤-放射科”为第一候选实体对,计算“恶性肿瘤-癌症”和“恶性肿瘤-放射科”的不易对齐度。若“恶性肿瘤-癌症”的不易对齐度大于目标不易对齐度,则确定“恶性肿瘤-癌症”为第一目标实体对,人工标注“恶性肿瘤-癌症”的标注对齐结果为对齐,根据标注有对齐的“恶性肿瘤-癌症”优化MultiKE模型的模型参数。

重复执行上述训练操作,直至训练次数达到目标次数,将训练后的MultiKE模型作为目标知识图谱对齐模型。

在实际应用中,还可以将知识图谱对齐模型的训练方法应用在除医疗之外的其他领域中,也就是说,第一知识图谱和第二知识图谱还可以为其他领域的知识图谱。例如,第一知识图谱和第二知识图谱为金融知识图谱、法律知识图谱、工业知识图谱等,利用其他领域的知识图谱训练知识图谱对齐模型的方式,与上述有关利用医疗知识图谱训练MultiKE模型的方式相类似,在此不再赘述。

基于如图1所示的实施环境,本申请实施例还提供了一种知识图谱对齐方法,以图7所示的本申请实施例提供的一种知识图谱对齐方法的流程图为例,该方法可由图1中的电子设备11执行。该方法包括步骤S71和步骤S72。

步骤S71,获取至少两张待对齐的知识图谱。

任两张待对齐的知识图谱为不同的知识图谱,本申请实施例中不限定知识图谱的大小、内容、以及获取方式等。例如,任一张待对齐的知识图谱是在网络抓取得到的或者是用户输入的。

步骤S72,基于知识图谱对齐模型对至少两张待对齐的知识图谱进行实体对齐,得到知识图谱对齐结果,知识图谱对齐模型是按照知识图谱对齐模型的训练方法训练得到的。

本申请实施例中的知识图谱对齐模型是按照本申请前述实施例所提供的知识图谱对齐模型的训练方法训练得到的,可以见本申请前述实施例的相关描述,在此不再赘述。

在一种可能的实现方式中,基于知识图谱对齐模型对至少两张待对齐的知识图谱进行实体对齐,得到知识图谱对齐结果,包括:基于知识图谱对齐模型确定各个待对齐实体对的预测对齐概率,任一个待对齐实体对包括至少两张待对齐的知识图谱中属于不同知识图谱的任两个实体;响应于任一个待对齐实体对的预测对齐概率大于或者等于目标对齐概率,将任一个待对齐实体对进行对齐。

基于至少两张待对齐的知识图谱中的一个知识图谱中的实体、以及至少两张待对齐的知识图谱中的另一个知识图谱中的实体,构成任一个待对齐实体对,将任一个待对齐实体对输入知识图谱对齐模型中,知识图谱对齐模型提取任一个待对齐实体对的特征信息,并根据特征信息确定任一个待对齐实体对的预测对齐概率,特征信息包括但不限于:待对齐实体对的三元组特征、待对齐实体对的属性特征、待对齐实体对的字符串特征、待对齐实体对的语义特征等中的至少一项,预测对齐概率大于等于0且小于等于1。

当任一个待对齐实体对的预测对齐概率大于或者等于目标对齐概率,将任一个待对齐实体对进行对齐,即建立任一个待对齐实体对中两个实体之间的对齐关系;当任一个待对齐实体对的预测对齐概率小于目标对齐概率,说明任一个待对齐实体对不对齐,此时,不对该任一个待对齐实体对做任何处理,或者,建立任一个待对齐实体对中两个实体之间的不对齐关系。其中,目标对齐概率是根据人工经验或者计算得到的,目标对齐概率的计算方式在此不做限定。

当任一个待对齐实体对进行对齐时,说明任一个待对齐实体对中的两个实体指向真实世界中的同一个对象,即任一个待对齐实体对所对应的两张待对齐的知识图谱中包含同一个对象,可以将任一个待对齐实体对所对应的两张待对齐的知识图谱进行合并,以实现将两个粒度不同、垂域不同的知识图谱进行整合,提高知识图谱的质量和覆盖度。

本申请实施例提供的技术方案是根据本申请前述实施例所提供的知识图谱对齐模型的训练方法所训练得到的知识图谱对齐模型,实现对至少两张待对齐的知识图谱进行实体对齐。在训练知识图谱对齐模型时,基于各个第一实体对的预测对齐概率,从各个第一实体对中初步筛选出多个第一候选实体对,然后基于各个第一候选实体对的不易对齐度,从各个第一候选实体对中再次筛选出第一目标实体对,获取第一目标实体对的标注对齐结果,以通过第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型,通过两次筛选,大大减少了需要标注的实体对数量,节约了时间成本,提高了模型的训练速度,从而提高了对齐效率。

上述主要从方法步骤的角度介绍了知识图谱对齐方法,下面将结合一个具体的场景进行阐述。本申请实施例的场景中,待对齐的知识图谱为医疗知识图谱,知识图谱对齐模型为前文所示的采用知识图谱对齐模型的训练方法,利用医疗知识图谱对MultiKE模型进行训练后得到的目标知识图谱对齐模型,即知识图谱对齐模型为训练好的MultiKE模型。

本申请实施例中,获取三张医疗知识图谱,分别记为医疗知识图谱1-3。其中,医疗知识图谱1中包含实体“感冒”和“喷嚏”,医疗知识图谱2中包含实体“伤风”,医疗知识图谱3中包含实体“复方阿司匹林”。根据属于不同医疗知识图谱的任两个实体,构建“感冒-伤风”和“感冒-复方阿司匹林”两个待对齐实体对,基于训练好的MultiKE模型确定“感冒-伤风”和“感冒-复方阿司匹林”的预测对齐概率。“感冒-伤风”的预测对齐概率大于目标对齐概率,将“感冒-伤风”进行对齐;“感冒-复方阿司匹林”的预测对齐概率小于目标对齐概率,则不对“感冒-复方阿司匹林”做任何处理。

通过上述方式,将“感冒-伤风”进行对齐,说明感冒和伤风指向真实世界中的同一个对象,即医疗知识图谱1和医疗知识图谱2包含同一个对象,可以将医疗知识图谱1和医疗知识图谱2进行合并,以实现了将两个粒度不同、垂域不同的医疗知识图谱进行整合,提高医疗知识图谱的质量和覆盖度。

在实际应用时,基于与上述有关医疗知识图谱对齐方法相类似的原理,可以将其他领域的知识图谱进行对齐,以实现将两个或者多个粒度不同、垂域不同的其他领域的知识图谱进行整合,提高其他领域的知识图谱的质量和覆盖度,例如,将两个金融知识图谱进行对齐,或者将两个法律知识图谱进行对齐,实现原理与上述将两个医疗知识图谱进行对齐的方法相类似,在此不再赘述。

如图8所示,图8是本申请实施例提供的一种知识图谱对齐模型的训练装置80的结构图,知识图谱对齐模型的训练装置80包括如下。

第一获取模块81,用于获取第一实体对集,第一实体对集包括多个未标注对齐结果的第一实体对,第一实体对包括第一知识图谱中的实体和第二知识图谱中的实体。

筛选模块82,用于基于各个第一实体对的预测对齐概率,从各个第一实体对中筛选出多个第一候选实体对。

计算模块83,用于计算各个第一候选实体对的不易对齐度,任一个第一候选实体对的不易对齐度用于指示对任一个第一候选实体对进行对齐的困难程度。

筛选模块82,还用于基于各个第一候选实体对的不易对齐度,从各个第一候选实体对中筛选出多个第一目标实体对。

第二获取模块84,用于获取各个第一目标实体对的标注对齐结果,根据各个第一目标实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型。

在一种可能的实现方式中,计算模块83,用于对于任一个第一候选实体对,基于任一个第一候选实体对中各个实体的字符特征,计算任一个第一候选实体对的字符相似度;基于字符相似度,确定任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,计算模块83,用于对于任一个第一候选实体对,基于任一个第一候选实体对中各个实体的语义特征,计算任一个第一候选实体对的语义相似度;基于语义相似度,确定任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,计算模块83,用于对于任一个第一候选实体对,基于任一个第一候选实体对的实体属性数量、第一知识图谱的实体属性数量、以及第二知识图谱的实体属性数量,计算任一个第一候选实体对的实体属性占比;基于实体属性占比,确定任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,计算模块83,用于对于任一个第一候选实体对,基于任一个第一候选实体对中各个实体的三元组数量、第一知识图谱中各个实体的三元组数量、以及第二知识图谱中各个实体的三元组数量,计算任一个第一候选实体对的三元组占比;基于三元组占比,确定任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,计算模块83,用于对于任一个第一候选实体对,基于第一知识图谱中各个实体的三元组数量,确定任一个第一候选实体对中第一知识图谱中的实体的权重、以及基于第二知识图谱中各个实体的三元组数量,确定任一个第一候选实体对中第二知识图谱中的实体的权重;基于任一个第一候选实体对中第一知识图谱中的实体的权重以及第二知识图谱中的实体的权重,计算任一个第一候选实体对的权重;基于任一个第一候选实体对的权重,计算任一个第一候选实体对的不易对齐度。

在一种可能的实现方式中,第二获取模块84,用于对于任一个第一目标实体对,在标注交互界面上显示任一个第一目标实体对的链接信息,链接信息包括任一个第一目标实体对中各个实体的实体属性信息和三元组信息;响应于根据任一个第一目标实体对的链接信息,在标注交互界面上针对任一个第一目标实体对进行的标注对齐操作,得到任一个第一目标实体对的标注对齐结果。

在一种可能的实现方式中,知识图谱对齐模型的训练装置80还包括如下。

确定模块,用于对于任一个第一实体对,基于第一知识图谱对齐模型确定任一个第一实体对的预测对齐概率。

第二获取模块84,用于根据各个第一目标实体对的预测对齐概率和标注对齐结果,对第一知识图谱对齐模型进行训练,得到第二知识图谱对齐模型;响应于满足训练结束条件,将第二知识图谱对齐模型作为目标知识图谱对齐模型。

在一种可能的实现方式中,第二获取模块84,还用于响应于不满足训练结束条件,将第二知识图谱对齐模型作为下一次训练的知识图谱对齐模型,获取第二实体对集,第二实体对集包括多个未标注对齐结果的第二实体对,第二实体对包括第三知识图谱中的实体和第四知识图谱中的实体;对于任一个第二实体对,基于下一次训练的知识图谱对齐模型确定任一个第二实体对的预测对齐概率;基于各个第二实体对的预测对齐概率,从各个第二实体对中筛选出多个第二候选实体对;计算各个第二候选实体对的不易对齐度;基于各个第二候选实体对的不易对齐度,从各个第二候选实体对中筛选出多个第二目标实体对;获取各个第二目标实体对的标注对齐结果,根据各个第二目标实体对的预测对齐概率和标注对齐结果,对下一次训练的知识图谱对齐模型进行训练,得到第三知识图谱对齐模型;响应于满足训练结束条件,将第三知识图谱对齐模型作为目标知识图谱对齐模型。

在一种可能的实现方式中,第二获取模块84,用于基于各个第一实体对的预测对齐概率,从各个第一实体对中筛选出多个易对齐实体对;根据各个易对齐实体对的预测对齐概率,确定各个易对齐实体对的标注对齐结果;根据各个第一目标实体对的预测对齐概率和标注对齐结果、各个易对齐实体对的预测对齐概率和标注对齐结果,得到目标知识图谱对齐模型。

应理解的是,上述图8提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

如图9所示,图9是本申请实施例提供的一种知识图谱对齐装置90的结构图,知识图谱对齐装置90包括如下。

获取模块91,用于获取至少两张待对齐的知识图谱。

对齐模块92,用于基于知识图谱对齐模型对至少两张待对齐的知识图谱进行实体对齐,得到知识图谱对齐结果,知识图谱对齐模型是按照上述任一种知识图谱对齐模型的训练方法训练得到的。

在一种可能的实现方式中,对齐模块92,用于基于知识图谱对齐模型确定各个待对齐实体对的预测对齐概率,任一个待对齐实体对包括至少两张待对齐的知识图谱中属于不同知识图谱的任两个实体;响应于任一个待对齐实体对的预测对齐概率大于或者等于目标对齐概率,将任一个待对齐实体对进行对齐。

应理解的是,上述图9提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图10示出了本申请一个示例性实施例提供的电子设备1300的结构框图。该电子设备1300可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常,电子设备1300包括有:处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1301可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1301所执行以实现本申请中方法实施例提供的知识图谱对齐模型的训练方法,或者实现本申请中方法实施例提供的知识图谱对齐方法。

在一些实施例中,电子设备1300还可选包括有:外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地,外围设备包括:射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。

外围设备接口1303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中,处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上;在一些其他实施例中,处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏1305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时,显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时,显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1305可以为一个,设置在电子设备1300的前面板;在另一些实施例中,显示屏1305可以为至少两个,分别设置在电子设备1300的不同表面或呈折叠设计;在另一些实施例中,显示屏1305可以是柔性显示屏,设置在电子设备1300的弯曲表面上或折叠面上。甚至,显示屏1305还可以设置成非矩形的不规则图形,也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地,摄像头组件1306包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1301进行处理,或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1307还可以包括耳机插孔。

定位组件1308用于定位电子设备1300的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件1308可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1309用于为电子设备1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中,电子设备1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于:加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以电子设备1300建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号,控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测电子设备1300的机体方向及转动角度,陀螺仪传感器1312可以与加速度传感器1311协同采集用户对电子设备1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在电子设备1300的侧边框和/或显示屏1305的下层。当压力传感器1313设置在电子设备1300的侧边框时,可以检测用户对电子设备1300的握持信号,由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时,由处理器1301根据用户对显示屏1305的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹,由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份,或者,由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1301授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置在电子设备1300的正面、背面或侧面。当电子设备1300上设置有物理按键或厂商Logo时,指纹传感器1314可以与物理按键或厂商Logo集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中,处理器1301可以根据光学传感器1315采集的环境光强度,控制显示屏1305的显示亮度。具体地,当环境光强度较高时,调高显示屏1305的显示亮度;当环境光强度较低时,调低显示屏1305的显示亮度。在另一个实施例中,处理器1301还可以根据光学传感器1315采集的环境光强度,动态调整摄像头组件1306的拍摄参数。

接近传感器1316,也称距离传感器,通常设置在电子设备1300的前面板。接近传感器1316用于采集用户与电子设备1300的正面之间的距离。在一个实施例中,当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变小时,由处理器1301控制显示屏1305从亮屏状态切换为息屏状态;当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变大时,由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图10中示出的结构并不构成对电子设备1300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

图11为本申请实施例提供的服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)701和一个或多个的存储器702,其中,该一个或多个存储器702中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器701加载并执行以实现上述各个方法实施例提供的知识图谱对齐模型的训练方法,或者实现上述各个方法实施例提供的知识图谱对齐方法。当然,该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器700还可以包括其他用于实现设备功能的部件,在此不做赘述。

在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述任一种知识图谱对齐模型的训练方法。

在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述任一种知识图谱对齐方法。

可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并执行,以实现上述任一种知识图谱对齐模型的训练方法。

在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并执行,以实现上述任一种知识图谱对齐方法。

应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号