首页> 中国专利> 一种基于多类交叉熵对比补全编码的知识表示学习框架

一种基于多类交叉熵对比补全编码的知识表示学习框架

摘要

本发明公开一种基于多类交叉熵对比补全编码的知识表示学习框架,该框架主要包括:语义结构特征提取模块(S)和自动对比补全编码模块(G)。语义结构特征提取模块(S)负责对实体、关系提取低级和高级语义结构特征并融合得到低级和高级语义结构特征;自动对比补全编码模块(G)负责预测出实体上下文向量,设置正负样本及其采样的方法(C3NCE),计算多类交叉熵对比损失函数,并通过优化该目标函数训练模型,得到知识图谱实体和关系的向量表示,并完成三元组补全任务。本发明所提的框架能够快速、稳定、准确地补全知识图谱中缺失信息的三元组,并很好地完成了知识表示学习任务,极大地提高了知识图谱构建的准确性和效率,应用前景广阔。

著录项

  • 公开/公告号CN112699247A

    专利类型发明专利

  • 公开/公告日2021-04-23

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202011545760.2

  • 申请日2020-12-23

  • 分类号G06F16/36(20190101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11250 北京三聚阳光知识产权代理有限公司;

  • 代理人张建纲

  • 地址 100084 北京市海淀区清华园1号

  • 入库时间 2023-06-19 10:43:23

说明书

技术领域

本发明涉及自然语言处理和机器学习领域,特别涉及一种基于多类交叉熵对比补全编码的知识表示学习框架。

背景技术

神经网络的进步极大地推动了自然语言处理的发展,改变了自然语言处理领域的研究面貌。传统特征工程的思维模式被神经网络模型学习自然语言特征的方式所取代。知识图谱是2012年由谷歌提出来的,随后在学术界和工业界都得到了广泛地运用,是自然语言知识存储的一种重要形式。自然语言处理的很多下游任务比如问答系统、关系抽取、实体分类等都越来越依赖于知识图谱的构建和表征的质量。同时,在大数据时代,知识产生和更新的速度十分快,依靠手工构造知识图谱需要耗费大量的人力、物力和财力,而且其速度也不能满足人们的要求,所以自动构建知识图谱的方法逐渐替代了传统手工构造的方法,但是这样就难免会发生信息丢失的情况,本发明就是通过学习已有三元组事实信息,补全缺失信息的三元组,并完成知识表示学习的任务。

目前,常见的知识表示学习方法,主要是通过设计打分函数(score Function),(例如transE、transR、transH等),利用边缘损失函数(Margin Loss)对三元组的头、尾实体向量和关系向量进行打分,对正样本打高分,负样本打低分,从而学习到实体、关系的向量表示。但是,此类方法最大的问题在于打分函数是不可学习的,受到人先验知识的限制,且边缘损失函数不能对正负样本进行自适应的加权学习,大大限制了表示学习的效果。近期提出的一些知识表示学习的方法对打分函数进行了参数化设计,并采用逻辑回归损失函数或二分类交叉熵损失函数,使得打分函数可以通过损失函数进行学习优化,得到一个更合理的打分函数,将知识图谱实体、关系的表示向量投影到一个更合理的表示空间进行对比计算,但是逻辑回归损失函数同样不能对正负样本进行自适应的加权学习,而二分类交叉熵损失函数由于正负样本数量的巨大差异则存在显著的样本不平衡问题。还有一些方法通过在打分之前提取高级语义特征,来提升打分的效果,进而提升知识表示学习的效果,但是高级的语义特征并一定适合知识图谱下游任务,就知识图谱三元组补全任务而言,既需要高级的语义类型特征也需要低级的细节特征。综上所述,针对目前知识表示学习方法存在的问题,本发明以对比学习框架为基础,将知识表示学习分解为两个步骤。第一步提取知识图谱实体、关系的不同层级的语义结构特征,将不同层级的特征进行融合,获得满足下游任务的语义特征;第二步对打分函数进行参数化设计,确保打分函数可学习,将三元组的表示向量投影到更有效的表示空间进行计算,同时使用带温度缩放因子的余弦相似度多类交叉熵损失函数,能够对正负样本进行自适应的加权学习,并避免了样本不平衡的问题,通过互信息估计的理论保证模型优化效果和可解释性。

发明内容

针对知识图谱三元组补全任务,本发明提供一种基于多类交叉熵对比补全编码的知识表示学习框架,其特征在于,包括以下步骤:

S1:采用语义结构特征提取的方法,通过嵌入神经网络Embedding提取实体和关系的低级语义特征l

s

s

S2:采用自动对比补全的编码方法,根据预测的实体位置不同,输入不同的拼接向量,选择现有的能量函数,或者设置全新的补全网络,得到预测向量的上下文向量;

S3:采用EntityBank的建立和正负样本采样的方法(C

S4:采用计算多类交叉熵对比损失函数的方法(NT-Xent),设置打分函数,密度比函数,通过计算多类交叉熵对比损失函数训练模型完成三元组补全任务,同时得到实体、关系的向量表示。

进一步地,上述步骤S2的具体实现过程为:

S21:当网络预测尾实体时,输入为头实体向量h和关系向量r的拼接向量(s

S22:当网络预测头实体时,输入为尾实体向量和关系向量r的拼接向量

S23:选用合适的能量函数(TransE、DistMult、ConvE等)设置补全函数g(·)或设计新的补全网络。

进一步地,上述步骤S3的具体实现过程为:

S31:补全尾实体,随机选取三元组集合

S32:补全头实体,随机选取三元组集合

S33:使用随机采样方法,从Entity Bank中采样1个正例和N-1个负例构成正负样本集合X={x

进一步地,上述步骤S4的具体实现过程为:

S41:根据选取的能量函数(TransE、DistMult、ConvE等)设置打分函数score,或根据相似性假设设置新的打分函数score为带温度缩放因子的余弦相似度函数score(u,v)=(

S42:根据打分函数计算score,设置密度比函数f(x,c)=exp(score(e(x),c));

S43:按照C

通过优化该目标函数训练语义结构特征提取模块(S)和自动对比补全编码模块(G),得到知识图谱实体和关系的向量表示。

由于本发明属于无监督学习,不需要设置额外的标签信息,极大地节省了人力、物力和财力,是一种有效的知识表示学习的方法。本发明通过设计自动补全三元组的知识图谱自监督学习任务,利用多类交叉熵的互信息估计方法充分挖掘知识图谱低级和高级语义结构特征,是一种有效的知识表示学习模型。

附图说明

图1:对比学习多类交叉熵互信息估计过程原理图;

图2:基于多类交叉熵对比补全编码的知识表示学习框架结构图。

具体实施方式

为使本发明所提的基于多类交叉熵对比补全编码的知识表示学习框架的特点更加清楚,所设计的自动补全三元组任务和知识表示学习方法的优势更加明显,下面结合附图和具体实施方式做进一步的详细说明。

首先进行知识图谱的基础符号定义,知识图谱定义为

图1是本发明提出的对比学习多类交叉熵互信息估计过程原理图,以补全尾实体为例进行说明,白色点和黑色点分别表示所要预测的尾实体的正样本和负样本在连续空间中的向量表示,f是密度比函数,g是补全函数,q(t|h,r)是在连续空间中预测的向量表示的分布,p(t|h,r)是向量表示的真实分布;通过对比学习多类交叉熵互信息估计方法优化密度比函数f,使得预测的上下文向量表示与正样本向量表示在表示空间逐渐拉近,与负样本向量表示在表示空间逐渐推远,从而训练本发明的语义结构特征提取模块(S)和自动对比补全编码模块(G),使得预测的向量表示分布逼近真实分布,也就是q(t|h,r)≈p(t|h,r)。

图2是本发明提出的基于多类交叉熵对比补全编码的知识表示学习框架,该框架设计了自动补全三元组的知识图谱自监督学习任务,并高效地完成知识表示学习工作。下面以补全尾实体为例对本发明进行介绍。本发明所提的框架包括两个模块:语义结构特征提取模块(S)和自动对比补全编码模块(G)。语义结构特征提取模块(S)包括嵌入实体、关系向量的神经网络Embedding,图卷积神经网络GCN,以及Embedding和GCN之间的Skip-connecting跳线连接,分别负责对实体、关系向量提取低级语义特征,提取高级语义结构特征,以及融合低级和高级语义结构特征;自动对比补全编码模块(G)进行自动补全三元组的自监督学习任务,包括补全编码网络,负责根据实体向量和关系向量的拼接向量预测出实体上下文向量。本发明所提框架主要涉及两个训练方法:正负样本采样和损失函数的设置。Entity Bank的建立和正负样本采样的方法(C

语义结构特征提取模块(S)主要包括嵌入神经网络Embedding和图卷积神经网络GCN。

嵌入神经网络Embedding,entity_embedding=nn.Embedding(M,d)初始化实体向量,num_embeddings为实体总数M,embedding_dim嵌入维度为d;relation_embedding=nn.Embedding(L,d)初始化关系向量,num_embeddings为关系总数L(含逆向关系),embedding_dim嵌入维度为d。利用Xavier初始化模型参数Embedding.weight,即从标准正态分布中初始化大小为(num_embeddings,embedding_dim)的矩阵,从矩阵对应行获取权重来表示对应标号的嵌入表示。通过嵌入神经网络Embedding得到知识图谱实体

图卷积神经网络GCN,这是专门处理图数据结构的神经网络。在多关系图中

Embedding和GCN之间的Skip-connecting跳线连接,这是为综合考虑低级和高级语义结构特征而设计的连接方式,图中嵌入神经网络Embedding输出的是实体和关系的低级语义特征,而经过图卷积神经网络GCN后的特征为包含知识图谱的拓扑结构信息的高级语义结构特征。通过实验表明,高级语义结构特征更加关注于实体和关系的类别、属性等特征,而低级语义特征则更加关注于具体样本的细节特征。将低级语义特征和高级语义结构特征融合得到知识图谱实体

s

s

自动对比补全编码模块(G),主要负责完成自动补全三元组的自监督学习任务,用于产生预测实体的上下文向量,其性能的好坏,直接决定了整个模型的表征能力。可以选用合适的能量函数(TransE、DistMult、ConvE等)设置补全函数g(·)或设计新的补全网络。本发明设置如下,双层MLP,输入维度为2d,其中第一个隐藏层输出后维度与输入保持不变,连接LayerNorm归一化层,之后过TanH激活层,再接一个全连接层输出d维的上下文向量。自动对比补全编码网络得到预测的上下文向量包括以下步骤:

S1:当网络预测尾实体时,输入为头实体向量h和关系向量r的拼接向量(

S2:当网络预测头实体时,输入为尾实体向量t和关系的逆向关系r

Entity Bank的建立和正负样本采样的方法(C

S1:补全尾实体。随机选取三元组集合

S2:补全头实体。随机选取三元组集合

S3:使用随机采样方法,从Entity Bank中采样1个正例和N-1个负例构成正负样本集合X={x

获得训练样本集合X后,计算多类交叉熵对比损失函数的方法(NT-Xent)。本发明计算的知识图谱表征的对比损失函数(NT-Xent),其表达式为:

其中f(·)是本发明提出的密度比函数,用以表示观测样本x与上下文向量c的概率密度比

以上所述的具体实施方法,对本发明的目的,技术方案和有益效果进行了详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神原则之内,所做的任何修改、等同替换,改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号