首页> 中国专利> 知识库实体对齐方法和装置

知识库实体对齐方法和装置

摘要

本发明实施例提供一种知识库实体对齐方法和装置,所述方法包括使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且所述注意力增强的实体向量表示融合了实体邻居信息;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。本发明实施例提供的知识库实体对齐方法和装置,能充分地利用有限的预先对齐的实体对,很好地处理异构知识库之间的差异,提升实体对齐的效果。

著录项

  • 公开/公告号CN113282676A

    专利类型发明专利

  • 公开/公告日2021-08-20

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202010104948.7

  • 申请日2020-02-20

  • 分类号G06F16/28(20190101);G06N3/04(20060101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人马瑞

  • 地址 100084 北京市海淀区双清路30号清华大学

  • 入库时间 2023-06-19 12:18:04

说明书

技术领域

本发明涉及知识库处理技术领域,更具体地,涉及一种知识库实体对齐方法和装置。

背景技术

知识库可以为不同的应用提供各种结构化知识,由于这些知识库具有不尽相同的构造目的,知识之间存在很大的异构性,同时也会包含一些互补知识。为了更好的支持上层的跨语言问答系统、跨语言推荐系统等任务,融合不同的知识库成为一个重要的研究方向。其中,实体对齐就是知识库融合的一项关键技术。

知识库实体对齐方法的第一种方法,主要利用实体文本信息、实体属性信息、实体网络结构信息等,计算一系列相似度,然后通过人为设定的阈值,或是机器学习中的分类算法,来实现对给定实体对是否为等价实体的判定。这种对齐方法依赖于大量的人工特征设计来得到相似度计算方法,在知识库规模较大时,耗时耗力。另外,不同知识库的知识结构往往差异较大,难以针对所有实体对齐任务设计出一套统一且高效的特征抽取方法。

知识库实体对齐方法的第二种方法,采用基于表示学习的方法来对知识库中的实体进行对齐。主要的步骤是,使用知识库表示学习的方法,分别对需要对齐的两个知识库进行表示学习,得到实体的向量表示,然后依赖少量预先对齐的实体对(即等价实体对),最小化等价实体对之间实体的距离,达到将两个知识库的实体表示到同一个向量空间的目的,从而完成实体对齐,得到实体对齐的知识库。这种知识库实体对齐方法虽不依赖于人工特征设计,但效果受限于预先对齐的实体对数量,当预先对齐的等价实体对规模较小时,效果很难让人满意。其次,这类方法同样未能很好地处理异构知识库之间的差异,当两个知识库结构存在差异时,实体对齐的效果也会受到影响。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的知识库实体对齐方法、装置、电子设备和可读存储介质。

第一方面,本发明实施例提供一种知识库实体对齐方法,包括:使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。

在一些实施例中,所述使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示包括:对于任一知识库,获取所述任一知识库的实体及所有实体的邻居集合;将包括一个实体的向量表示矩阵

在一些实施例中,所述知识库实体对齐方法还包括:所述图注意力神经模型包括L层卷积层,每一层应用公式H

其中,

其中,

在一些实施例中,所述基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件包括:基于所述实体向量表示,获取待约束的实体;根据所述待约束的实体和随机初始化且学习得到的关系,获取所述知识库的事实三元组正例;基于所述事实三元组正例,获取对应的事实三元组负例;根据所述事实三元组正例和所述事实三元组负例,获得所述第一约束条件。

在一些实施例中,所述知识库实体对齐方法还包括:所述第一约束条件包括目标函数:

其中,[·]

在一些实施例中,所述基于预先确定的等价实体对集合,获得第二约束条件包括:所述第二约束条件包括目标函数:

其中,dist(e

在一些实施例中,所述基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐包括:使目标函数O=O

第二方面,本发明实施例提供一种知识库实体对齐装置,包括:编码模块,用于使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示;第一处理模块,用于基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;第二处理模块,用于基于预先确定的等价实体对集合,获得第二约束条件;计算模块,用于基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。

第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例知识库实体对齐方法、装置、电子设备和可读存储介质,利用共享参数设定下的图注意力神经网络作为编码器进行实体编码,使得实体之间的等价性能在整个图中传播。基于注意力增强的实体向量表示,引入随机初始化的关系向量表示,利用知识库表示学习方法和初始等价实体对对实体向量表示加以约束,引导图注意力编码器学习更好的注意力参数,同时参考知识库内部的实体之间的相互关系和知识库外已经对齐的等价实体对的隐含特征,能更加充分地利用有限的预先对齐的实体对,以较小的预先对齐的等价实体对集合,得到准确度较高的对齐效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的知识库实体对齐方法的流程图;

图2为本发明实施例的另一知识库实体对齐方法的流程图;

图3为本发明实施例的知识库实体对齐装置的结构示意图;

图4为本发明实施例的知识库实体对齐电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面参考图1描述本发明实施例的知识库实体对齐方法。

如图1所示,本发明实施例的知识库实体对齐方法包括步骤100-步骤400。

步骤100、使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息注意力增强的实体向量表示。

可以理解的是,对于需要对齐的两个知识库,形式化地表示为G

图注意力神经模型是一种新的用来操作图结构数据的神经网络结构模型,通过堆叠一些层,这些层的每个节点都融合了邻居节点的特征信息,实现了对节点的分类。实体向量表示是待对齐的知识库中实体的向量化表示,注意力增强的实体向量表示是融合了该实体的邻居实体信息的向量化表示。待对齐的知识库至少是两个,也可以是多个,本发明实施例不作具体限定,本发明实施例以待对齐的知识库是两个举例。

对于待对齐的知识库E

步骤200、基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件。

可以理解的是,表示学习又称学习表示,旨在将研究对象的语义信息表示为稠密低维实值向量,知识库表示学习主要是面向知识库中的实体和关系进行表示学习。常见的表示学习模型有翻译模型、距离模型和单层神经网络模型等,本发明实施例不作具体限定,本发明实施例以翻译模型中的TransE模型举例。第一约束条件是用于约束事实三元组的合理性,通过融合实体的邻居实体信息,即通过知识库内部的实体间的相互关系,利用TransE模型,提供约束条件。

步骤300、基于预先确定的等价实体对集合,获得第二约束条件。

可以理解的是,两个知识库G

步骤400、基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。

可以理解的是,实体对齐的任务就是利用少量已知的等价实体对,得到实体对齐的知识库,进而可以发现更多的等价实体对。基于第一约束条件和第二约束条件,即通过参考知识库内部的实体间的相互关系和知识库外已经对齐的等价实体对的隐含特征,从这两个方面同时进行约束,共同实现两个知识库之间的实体对齐。

本发明实施例提供的知识库实体对齐方法,利用共享参数设定下的图注意力神经网络作为编码器进行实体编码,使得实体之间的等价性能在整个图中传播。基于注意力增强的实体向量表示,引入随机初始化的关系向量表示,利用知识库表示学习方法和初始等价实体对对实体向量表示加以约束,引导图注意力编码器学习更好的注意力参数,同时参考知识库内部的实体之间的相互关系和知识库外已经对齐的等价实体对的隐含特征,能更加充分地利用有限的预先对齐的实体对,以较小的预先对齐的等价实体对集合,得到准确度较高的对齐效果。

在一些实施例中,步骤100、使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且注意力增强的实体向量表示融合了实体邻居信息包括:步骤110、对于任一知识库,获取任一知识库的实体及所有实体的邻居集合。

可以理解的是,对于任一知识库E

步骤120、将包括一个实体的向量表示矩阵

可以理解的是,对于知识库E

本发明实施例提供的知识库实体对齐方法,通过融合邻居实体的信息,发现等价实体对周围更多的新的等价实体,不受预先对齐实体对的限制,进一步提升实体对齐的效果。

在一些实施例中,步骤120的图注意力神经模型包括L层卷积层,每一层应用公式H

其中,

其中,

可以理解的是,基于图注意力神经模型的图注意力编码器是由多层图注意力神经网络层组成,每一层的计算方式为:

H

其中,

对于非线性激活函数σ(·),ReLU为函数名,·表示输入,函数功能为对于任意输入,函数输出0与输入之间的最大值。例如ReLU(3)=max(0,3)=3,ReLU(-5)=max(0,-5)=0。

对于自注意力机制作用下的连接性矩阵A

其中

其中

这样,从H

本发明实施例提供的知识库实体对齐方法,通过对实体和邻居实体进行图注意力实体编码,使得实体之间的等价性能在整个图中传播,进一步提升实体对齐的效果。

在一些实施例中,步骤200、基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件包括:基于实体向量表示,获取待约束的实体;根据待约束的实体和随机初始化且学习得到的关系,获取知识库的事实三元组正例;基于事实三元组正例,获取对应的事实三元组负例;根据事实三元组正例和事实三元组负例,获得第一约束条件。

可以理解的是,自然语言处理领域中,判断两个单词是不是一对上下文词与目标词,如果是一对,则是正样本,如果不是一对,则是负样本。采样得到一个上下文词和一个目标词,生成一个正样本。用与正样本相同的上下文词,再在字典中随机选择一个单词,生成一个负样本,这就是负采样。

将两个知识库G

下面参考表1描述本发明实施例使用的数据集的相关统计。

表1

如表1所示,利用本领域公开并广泛使用的数据集DBP15K和DWY100K评测本发明实施例。其中DBP15K包含三个由不同语言版本的DBpedia构建的跨语言数据集,每个数据集中包含15,000对等价实体对;DWY100K包含两个由不同数据源构建的跨源数据集,每个数据集中包含100,000对等价实体对,使用30%的等价实体对做训练,剩下的70%用于测试。

本发明实施例提供的知识库实体对齐方法,使用负采样方法,使生成的负比例随机生成的更具针对性,提升了模型的鲁棒性。

在一些实施例中,第一约束条件包括目标函数:

其中,[·]

可以理解的是,使用知识库表示学习的经典模型TransE对注意力增强的实体向量表示H

f(e

通过实验验证发现,本发明实施例提供的知识库实体对齐方法,可以提高实体对齐效果。

本实验采用如表1所示的数据集,一些超参数设置如下:图注意力编码器的网络层数L为3,向量表示维度d为128,AdaGrad算法的学习率为0.005,负采样数值K

表2

如表2所示,知识库表示学习方法TransE带来了效果的提升,尤其在Hits@10和MRR的提升上。这是由于加入的关系约束能使得实体表示更具区分度,同时也通过神经网络的方向传播引导了图注意力编码器学习了更好的注意力参数,使模型具备了容忍需要对齐的异构知识库结构之间差异的能力。

在一些实施例中,基于预先确定的等价实体对集合,获得第二约束条件包括:第二约束条件包括目标函数:

其中,dist(e

可以理解的是,e

通过实验验证发现,本发明实施例提供的知识库实体对齐方法,可以提高实体对齐效果。

本实验采用如表1所示的数据集,一些超参数设置如下:图注意力编码器的网络层数L为3,向量表示维度d为128,AdaGrad算法的学习率为0.005,负采样数值K

表3

如表3所示,从整体上看,GATR效果优于对比的现有方法。主要是因为GATR比MTransE、JAPE和AlignEA更充分地利用了有限的预先对齐的实体对,基于等价实体对周围有较大可能存在新的等价实体的假设,使得实体之间的等价性能在整个图中传播。另外,引入关系的向量表示对实体表示带来了约束,引导图注意力编码器学习更好的注意力参数,并增加实体表示的区分度。通过注意力参数的变化,很好地处理异构知识库之间的差异,对比GCN-Align带来了更好的实体对齐效果。

另外,还进行了一组对比,对比方法包括:GATR模型和自身的对比模型GATR(w/oNNS)模型,GATR(w/o NNS)模型采用的是随机采样的采样方法,用以观察负采样的方法对效果的影响。

表4

如表4所示,负采样方法对结果影响很大,尤其在更大规模的数据集DWY100K中,带来的效果提升更为明显,Hits@10比对比方法平均提升超过10%。这是由于使用的负采样方法能使生成的负例比随机生成的更具针对性,提升了模型的鲁棒性。

在一些实施例中,基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐包括:使目标函数O=O

如图2所示,可以理解的是,从两个知识库的三元组集合出发,利用共享参数设定下的图注意力神经网络作为编码器进行实体编码,得到融合了实体邻居信息的注意力增强的实体向量表示;基于注意力增强的实体向量表示,引入随机初始化的关系向量表示,利用知识库表示学习方法对注意力增强的实体向量表示加以约束;基于注意力增强的实体向量表示和初始等价实体对,对O

本发明实施例提供的知识库实体对齐方法,通过最小化实体等价对的两个实体在向量空间中的距离,充分利用了有限的预先对齐的实体对,进一步提升实体对齐的效果。

下面对本发明实施例提供的知识库实体对齐装置进行描述,下文描述的知识库实体对齐装置与上文描述的知识库实体对齐方法可相互对应参照。

如图3所示,该装置包括:编码模块710、第一处理模块720、第二处理模块730和计算模块740。

编码模块710用于使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示。

可以理解的是,对于待对齐的知识库E

第一处理模块720用于基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件。

可以理解的是,第一处理模块720通过知识库表示学习TransE模型,对注意力增强的实体向量表示进行约束,得到第一约束条件。

第二处理模块730用于基于预先确定的等价实体对集合,获得第二约束条件。

可以理解的是,第二处理模块730通过计算等价实体对的两个实体在向量空间中的距离,对注意力增强的实体向量表示进行约束,得到第二约束条件。

计算模块740,用于基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。

可以理解的是,计算模块740将第一约束条件和第二约束条件进行求和,得到一个总的目标函数,利用算法对目标函数进行优化,来实现两个知识库之间的实体对齐。

本发明实施例提供的知识库实体对齐装置,利用共享参数设定下的图注意力神经网络作为编码器进行实体编码,使得实体之间的等价性能在整个图中传播。基于注意力增强的实体向量表示,引入随机初始化的关系向量表示,利用知识库表示学习方法和初始等价实体对对实体向量表示加以约束,引导图注意力编码器学习更好的注意力参数,同时参考知识库内部的实体之间的相互关系和知识库外已经对齐的等价实体对的隐含特征,能更加充分地利用有限的预先对齐的实体对,以较小的预先对齐的等价实体对集合,得到准确度较高的对齐效果。

如图4所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行知识库实体对齐方法,该方法使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。

需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图4所示的处理器810、通信接口820、存储器830和通信总线840,其中处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信,且处理器810可以调用存储器830中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。

另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例所提供的方法,例如包括:使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号