首页> 中国专利> 一种生成多关系图中节点的表示向量的方法

一种生成多关系图中节点的表示向量的方法

摘要

本发明实施例提供了一种生成多关系图中节点的表示向量的方法,本发明经过多关系图分解和编码后得到的编码后的单一关系子图,不仅可以降低预测难度,也可避免多关系图下潜在关联预测收到过多干扰,导致关联预测不够准确;然后潜在关联预测可以得到补充了潜在关联后的关系子图,能够实现挖掘多关系图中每一种关系情况中潜在关联信息,再聚合为挖掘了不同的潜在关系的多关系的特征聚合图,基于特征聚合图提取节点的表示向量,从而更好地为后续任务提供准确基础。

著录项

  • 公开/公告号CN113298234A

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN202110576078.8

  • 发明设计人 陈益强;黄武亮;蒋鑫龙;吴启晨;

    申请日2021-05-26

  • 分类号G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11280 北京泛华伟业知识产权代理有限公司;

  • 代理人王勇

  • 地址 100190 北京市海淀区中关村科学院南路6号

  • 入库时间 2023-06-19 12:19:35

说明书

技术领域

本发明涉及神经网络领域,具体来说涉及基于多关系型图提取节点的表示向量的领域,更具体地说,涉及一种生成多关系图中节点的表示向量的方法。

背景技术

随着互联网技术的发展,不论是数据规模还是数据种类都呈现指数级增长。在知识爆炸的今天,人们为互联网构建大量结构化的知识库,这种知识库会将数据依据彼此间的关联性进行分层分类管理,使资料的储存、管理及应用更加系统化。图结构数据(Graph)在知识库的存储、查找、应用等不同过程扮演着重要的角色。

知识图谱(Knowledge Graph)属于一种重要的图结构数据,其将知识存储为三元组的形式,一个三元组由头实体(Head Entity)、关系(Relation)和尾实体(Tail Entity)三部分组成。如果两个实体间存在着多种关系,则一般可以称此类图结构为多关系型图(Multi-relational Graph)或者多关系图。知识图谱的表示学习通过相关知识图谱嵌入方法(Knowledge Graph Embedding Techniques)将实体或关系投影到低维向量空间,学习到与任务相关的头实体、关系、尾实体的表示向量。此类方法可以高效地计算实体和关系之间的语义关联,对知识库、知识推理及应用有着重要的意义。知识图谱表示学习能够在许多方向有着很好的应用,例如实体间相似度的计算、知识图谱的补全、关系抽取、自动问答等多种任务。

图结构数据与图片分类中的图不相同。图片通常属于欧几里得空间(EuclideanSpace)数据,也被称为网格状(Grid)数据,而图结构数据属于非欧几里得空间(Non-Euclidean Space)。欧氏空间数据具有规整的排列特点,非边缘区域的节点具有相同的邻居个数与排列方式,通过二维卷积操作可以很好的提取节点和其邻居的局部特征。以上这些特性在卷积神经网络(Convolutional Neural Networks,CNN)中有着体现,卷积神经网络可以很好地借助卷积操作提取在同一幅图片中不同区域,或多幅图片间共享的局部特征和全局特征,并且通过卷积核的参数共享减少神经网络的参数量。另一方面,卷积操作本身为图片增加了一定的先验知识,如人脸检测任务中,一张人脸往往是在图片中集中的一块区域。这些特性带来了参数共享、平移不变性和空间坐标一致性,这也是卷积神经网络适用于图片数据的部分原因。图像的卷积神经网络不能够直接的应用于图结构数据上,因为无法直接的定义图上的卷积操作。

近年来,随着图神经网络(Graph Neural Networks,GNN)的发展,图上的卷积神经网络开始的得到广泛应用。这些方法基于图谱域卷积将图片的卷积引入图结构数据中,基于图卷积网络的表示学习方法开始出现;如专利申请文献CN112529115A提出一种基于图神经网络的对象聚类方法和系统。此外,也有许多基于图神经网络的多关系型图表示学习方法通常基于多关系型图卷积网络模型(R-GCN);如专利申请文献CN112417063A提出了一种基于异构关系网络的相容功能项推荐方法,利用实体之间存在的相似关系和相容关系,构建异构关系网络,之后利用网络表示学习的相关方法将初期构建的异构关系网络转换为向量化表示,实现下游应用节点分类;专利申请文献CN112417314A通过构建基于自杀风险个体知识图谱,以及建立双层注意力机制,有效解决了社交网络中对自杀意念分析存在数据不易获取以及数据稀少的问题。

但是,常见多关系型图卷积网络模型在图神经网络模型中使用的图结构仅考虑每种关系下直接相连的节点,没有充分考虑潜在的节点间关联。

发明内容

因此,本发明的目的在于克服上述现有技术的缺陷,提供一种生成多关系图中节点的表示向量的方法。

本发明的目的是通过以下技术方案实现的:

根据本发明的第一方面,提供一种生成多关系图中节点的表示向量的方法,包括步骤:A1、获取从多关系图中分解出的多个单一关系子图并对每个单一关系子图分别编码,得到编码后的多个单一关系子图;A2、对每个编码后的单一关系子图进行潜在关联预测并针对可能具有的潜在关联构建边,得到多个补充潜在关联后的关系子图;A3、对多个补充潜在关联后的关系子图进行聚合,得到基于潜在关联的特征聚合图;A4、从所述基于潜在关联的特征聚合图中提取每个节点的表示向量。

在本发明的一些实施中,步骤A1包括:A11、获取根据多关系图的关系种类中每一种关系分别从多关系图中提取的仅具有该关系的单一关系子图;A12、基于对不同的单一关系子图使用与之对应的不同编码器进行编码,得到编码后的多个单一关系子图。

在本发明的一些实施中,步骤A2包括:A21、根据每个编码后的单一关系子图中的现有连接关系为每个节点获取二阶可达邻居并建立两跳的边;A22、根据两跳的边所连接节点的节点特征使用边卷积算法生成两跳的边的第一特征;A22、针对两跳的边基于第一特征使用潜在关联预测算法预测其对应的潜在关联是否存在,保留可能具有的潜在关联对应的边。

在本发明的一些实施中,潜在关联预测算法是耿贝尔柔性最大值算法,通过输出的边的第二特征的值判断对应的两跳的边是否存在,其中,边的第二特征表示为:

其中,

在本发明的一些实施中,步骤A3包括;A31、使用节点特征聚合算法对多个补充潜在关联后的关系子图中的节点进行聚合,其中,节点特征聚合算法基于长短记忆神经网络根据不同补充潜在关联后的关系子图中的节点特征进行聚合,得到每个节点的聚合特征;A32、使用连接关系聚合算法对多个补充潜在关联后的关系子图中的连接关系进行聚合;A33、基于聚合后的节点和聚合后的连接关系得到基于潜在关联的特征聚合图。

在本发明的一些实施中,所述节点特征聚合算法对应的公式表示为:

其中,X

在本发明的一些实施中,步骤A4包括:A41、获取所述基于潜在关联的特征聚合图,包括节点、节点间连接关系、关联关系,其中,节点的特征采用聚合特征;A42、根据图神经网络从所述特征聚合图中提取每个节点的表示向量。

根据本发明的第二方面,提供一种用于实现第一方面的方法的多关系图中节点的表示向量生成系统,包括:多个编码器,用于获取从多关系图中分解出的多个单一关系子图并对每个单一关系子图分别编码,得到编码后的多个单一关系子图,每个编码器对一种单一关系子图进行编码;潜在关联预测模块,用于对每个编码后的单一关系子图进行潜在关联预测并针对可能具有的潜在关联构建边,得到多个补充潜在关联后的关系子图;聚合模块,用于对多个补充潜在关联后的关系子图进行聚合,得到基于潜在关联的特征聚合图;解码器,利用图神经网络从所述基于潜在关联的特征聚合图中提取每个节点的表示向量;所述多关系图节点的表示向量生成系统是使用节点的分类任务进行训练的,节点的标签基于所述节点的内容分类。

根据本发明的第三方面,提供一种多关系图的节点的分类方法,包括:基于第一方面所述方法或者第二方面所述的系统得到的节点的表示向量,通过Softmax分类器对节点进行分类。

根据本发明的第四方面,提供一种多关系图的节点的链路预测方法,包括:将两个节点作为节点对,利用基于第一方面所述方法或者第二方面所述的系统得到的节点的表示向量计算节点对中两个节点的表示向量的乘积作为链路连接概率;输出链路连接概率大于等于链接阈值的节点对和/或该节点对的链接概率。

根据本发明的第五方面,提供一种电子设备,包括:一个或多个处理器;以及存储器,其中存储器用于存储一个或多个可执行指令;所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现第一、三、四方面所述方法的步骤。

与现有技术相比,本发明的优点在于:

本发明经过多关系图分解和编码后得到的编码后的单一关系子图,不仅可以降低预测难度,也可避免多关系图下潜在关联预测收到过多干扰,导致关联预测不够准确;然后潜在关联预测可以得到补充了潜在关联后的关系子图,能够实现挖掘多关系图中每一种关系情况中潜在关联信息,再聚合为挖掘了不同的潜在关系的多关系的特征聚合图,基于特征聚合图提取节点的表示向量,从而更好地为后续任务提供准确基础。例如,分类任务或者链路预测任务。

附图说明

以下参照附图对本发明实施例作进一步说明,其中:

图1为根据本发明实施例的生成多关系图中节点的表示向量的方法的流程示意图;

图2为根据本发明实施例的生成多关系图中节点的表示向量的方法中对单一关系子图进行编码的流程示意图;

图3为根据本发明实施例的生成多关系图中节点的表示向量的方法中进行潜在关联预测的流程示意图;

图4为根据本发明实施例的生成多关系图中节点的表示向量的方法中对多个子图进行聚合的流程示意图;

图5为根据本发明实施例的生成多关系图中节点的表示向量的方法中提取节点的表示向量的流程示意图;

图6为根据本发明实施例的系统提取节点的表示向量的原理示意图。

具体实施方式

为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如在背景技术部分提到的,常见多关系型图卷积网络模型在图神经网络模型中使用的图结构仅考虑每种关系下直接相连的节点,没有充分考虑潜在的节点间关联。由此,会造成提取的节点的表示向量不够准确,不能更好地为后续应用提供基础。因此,本发明经过多关系图分解和编码后得到的编码后的单一关系子图,不仅可以降低预测难度,也可避免多关系图下潜在关联预测收到过多干扰,导致关联预测不够准确;然后潜在关联预测可以得到补充了潜在关联后的关系子图,能够实现挖掘多关系图中每一种关系情况中潜在关联信息,再聚合为挖掘了不同的潜在关系的多关系的特征聚合图,基于特征聚合图提取节点的表示向量,从而更好地为后续任务提供准确基础。例如,分类任务或者链路预测任务。

在对本发明的实施例进行具体介绍之前,先对其中使用到的部分术语作如下解释:

多关系图,是表示多个节点间的多种连接关系的图结构。一个多关系图可以表示为G=(V,E,R),其中,G表示一个具体的多关系图,V表示节点集合,如第i个节点表示为v

本发明提供一种生成多关系图节点的表示向量的方法,参见图1,包括步骤:A1、A2、A3、A4。为了更好地理解本发明,下面结合具体的实施例针对每一个步骤分别进行详细说明。

步骤A1:将多关系图分解多个单一关系子图并对每个子图分别编码,得到编码后的多个单一关系子图。

根据本发明的一个实施例,将该多关系图分解为多个单一关系的子图。之后对每一种单一关系子图使用一种编码器进行编码,此类编码器属于一种特定的图神经网络。每个关系子图的输出称为编码后的单一关系子图。步骤A1将输出每个单一关系子图经过采用第一图神经网络的编码器编码之后得到的编码后的单一关系子图。

图2示出根据本发明的一个实施例步骤A1的实施方式,其包括如下步骤:

步骤A11’:输入一个多关系图G=(V,E,R);其包括节点集合V、节点间的边集合E、关系种类集合R、节点特征集合X

步骤A12’:选择一种连接关系,将多关系图根据连接关系种类分解为多个单一关系的子图。即:将多关系图根据关系种类分解为多个单一关系的子图。对于任一未处理的关系r

步骤A13’:判断是否已提取所有的单一关系子图,若是,转至步骤A14’,若否,转至步骤A12’。即:重复步骤A12’,直到

步骤A14’:使用第一图神经网络对所有的单一关系子图进行编码,其中,不同的单一关系子图分别采用一个第一图神经网络。即:对每一种单一关系子图使用一种编码器(Encoder)进行编码,此类编码器属于一种特定的图神经网络。根据本发明的一个实施例,编码器可选用第一图神经网络,可表示为:

其中,

其中,ReLU(·)为修正线性激活函数,是经典的深度学习中非线性激活函数,

步骤A2:对每个单一关系子图进行潜在关联预测并针对可能具有的潜在关联构建边,得到多个补充潜在关联后的关系子图。

根据本发明的一个实施例,步骤A2对步骤A1得到的每一种编码后的单一关系子图进行潜在关联预测,补充单一关系子图中节点间存在的潜在关联关系。每一个编码后的单一关系子图经过补充潜在关联关系后称之为补充潜在关联后的关系子图

图3示出根据本发明的一个实施例的步骤A2的实施方式,其包括如下步骤:

步骤A20’:输入一个编码后的单一关系子图

步骤A21’:将每一个节点与其二阶邻居相连接,生成二跳图;对每一种编码后的关系子图使用潜在关联预测方法,得到补充潜在关联关系的关系子图。该潜在关联预测方法具体为一种根据现有连接关系为单一关系子图中每一个点获取所有二阶可达邻居,并且为该节点和所有二阶可达邻居构建连接边。其中,对图中任一节点v

步骤A22’:根据二跳图中两跳的边所连接节点的第二特征使用边卷积算法生成两跳的边的第一特征;即:通过每条边所连接的两个节点的表示向量使用边卷积(EdgeConv)算法生成边表示向量。其中,边卷积算法可表示为:

其中,

步骤A23’:针对两跳的边基于边的第一特征使用潜在关联预测算法预测边的第二特征,根据边的第二特征判断对应的潜在关联是否存在,保留可能具有的潜在关联对应的边。根据本发明的一个实施例,通过耿贝尔柔性最大值(Gumbel-Softmax)算法预测边是否存在。根据本发明的一个实施例,根据耿贝尔柔性最大值算法求边的第二特征可表示为:

其中,

步骤A3:对多个补充潜在关联后的关系子图进行聚合,得到基于潜在关联的特征聚合图。

根据本发明的一个实施例,本发明中,步骤A3对步骤A2得到的每一种补充潜在关联的关系子图进行聚合,具体的聚合操作包括节点特征聚合和连接关系聚合。步骤A3的输出为一个特征聚合图。

图4示出根据本发明的一个实施例的步骤A3的实施方式,其包括如下步骤:

步骤A30’:输入多个补充潜在关联后的关系子图;即:输入经由步骤A2得到的所有补充潜在关联后的关系子图。本步骤输入的补充潜在关联后的关系子图可表示为

步骤A31’:使用节点特征聚合算法对多个补充潜在关联后的关系子图中的节点进行聚合。即:使用节点特征聚合算法聚合所有补充潜在关联后的关系子图的节点特征。具体地,本实施例中选用节点特征聚合方法为使用长短记忆神经网络(Long-Short TermMemory Network,LSTM),对节点特征进行聚合。节点特征聚合算法可表示为:

其中,X

步骤A32’:使用连接关系聚合算法对多个补充潜在关联后的关系子图中的连接关系进行聚合;即:使用连接关系聚合算法聚合所有补充潜在关联后的关系子图的连接关系。连接关系聚合方法可表示为将所有的图取并集关系并选取非重复的边。连接关系聚合算法可表示为:

其中,Unique(·)代表去除集合中重复元素,∪(·)代表取并集,r

步骤A33’:基于聚合后的节点和聚合后的连接关系得到基于潜在关联的特征聚合图;即:基于步骤A31’得到的聚合后的节点特征和步骤A32’得到的聚合后的节点间连接关系,将这两类输出组合得到特征聚合图G

步骤A4:利用图神经网络从所述基于潜在关联的特征聚合图中提取每个节点的表示向量。

根据本发明的一个实施例,步骤A4对步骤A3得到的特征聚合图利用解码器进行解码。该解码器属于一种特定的图神经网络,其可以包含两层的图卷积网络。值得注意的是,在解码器中所使用的图神经网络不需要和步骤A1中选用的用于关系子图编码的图神经网络结构相同。换言之,步骤A1可以采用多个不同的第一图神经网络分别对每种单一关系子图进行编码。步骤A4可以采用不同于任何第一图神经网络的第二图神经网络根据特征聚合图进行处理,提取每个特征聚合图中节点的表示向量。

图5示出根据本发明的一个实施例的步骤A4的实施方式,其包括如下步骤:

步骤A41’:输入基于潜在关联的特征聚合图,包括节点、节点间连接关系、关联关系,其中,节点的特征采用聚合特征;即:输入经由步骤A3得到的特征聚合图;

步骤A42’:根据图神经网络从所述特征聚合图中提取每个节点的表示向量;即:利用第二图神经网络作为解码器进行解码,该解码器属于一种特定的图神经网络。该解码器的输出为特征聚合图每个节点的表示向量。

本发明的上述生成多关系图中节点的表示向量的方法可以应用于多个方面。

例如,本发明可以应用于基于AIFB数据集的分组任务;其把节点分为4个类,相当于4个组,分别用1、2、3、4表示不同分类。又例如,假设多关系图是一种社会网络图,连接关系可以是人员之间的关系,如亲属、朋友等,标签例如是:好人、罪犯。则Softmax分类器可以是对节点可能的类型,如好人、罪犯进行分类。

因此,根据本发明的一个实施例,提供一种用于多关系图的节点的分类方法,包括:基于前述生成多关系图中节点的表示向量的方法得到的节点的表示向量,通过Softmax分类器对节点进行分类;其中Softmax分类器的分类是根据多关系图的类型来决定的。

再例如,上述多关系图可以是社会网络图,连接关系可以是人员之间的关系,如亲属、朋友等,标签例如是:好人、罪犯。在这样的场景下,还可以基于链路预测方法,找出和罪犯有较大联系的人员,从而帮助警察发现可疑人员。又例如,应用到知识图谱补全任务中,例如将节点设为知识图谱的一个实体,而边为不同实体之间的连接关系,提取节点在本知识图谱中的表示向量后,通过链路预测对知识图谱构建过程中缺失的关系进行补全。如果通过人工,是需要通过大量时间进行分析推断的,所需时间成本高。为了提高效率,可以通过链路预测方法预测节点之间是否存在链接,或者说是否存在相互作用关系,从而降低时间成本。

因此,根据本发明的一个实施例,提供一种基于多关系图的节点的链路预测方法,包括:将两个节点作为节点对,利用基于前述生成多关系图中节点的表示向量的方法得到的节点的表示向量计算节点对中两个节点的表示向量的乘积作为链路连接概率;输出链路连接概率大于等于链接阈值的节点对和/或该节点对的链接概率。

链路预测基于的假设是越相似的节点,越有可能相互连接。而且,多关系图的节点的表示向量不止限于以上两种应用场景,现有技术中也有一些其他应用场景,在应用本发明提取出更精准的节点的表示向量的基础下,该表示向量应用到其他领域也可产生更好的效果。应当理解的是,连接阈值是自定义设置的,不同的应用场景下,链接阈值可以根据用户的需求设置。例如,可以将链接阈值设为0.5,输出链路连接概率大于等于链接阈值的节点对和该节点对的链接概率。

根据本发明的一个实施例,提供一种用于实现前述方法的多关系图中节点的表示向量生成系统,参见图6,包括:多个编码器,用于将多关系图分解多个单一关系子图并对每个子图分别编码,得到编码后的多个单一关系子图,每个编码器对一种单一关系子图进行编码;潜在关联预测模块,用于对每个编码后的单一关系子图进行潜在关联预测并针对可能具有的潜在关联构建边,得到多个补充潜在关联后的关系子图;聚合模块,用于对多个补充潜在关联后的关系子图进行聚合,得到基于潜在关联的特征聚合图;解码器,利用图神经网络从所述基于潜在关联的特征聚合图中提取每个节点的表示向量;所述多关系图节点的表示向量生成系统是使用节点的分类任务进行训练的,节点的标签基于所述节点的内容分类。根据本发明的一个实施例,编码器可以采用第一图神经网络。根据本发明的一个实施例,解码器选用第二图神经网络,可表示为:

Decoder=f

G

训练时,通过计算节点的表示向量与标签之间的交叉熵损失(Cross EntropyLoss),并使用反向传播(BP)算法对该损失进行反向传播,以实现更新系统中各模块的参数,包括多个编码器、潜在关联预测模块、聚合模块和解码器的参数。交叉熵损失可以由以下公式表示:

其中,i表示节点i,y

以下结合具体的实验过程与结果对本发明进行说明。本发明的实验中选用了多关系图分类任务数据集AIFB,以下将简述AIFB数据集的组成部分:

表1 AIFB数据集基本组成部分

该数据集中拥有176个有标签的节点,具体包括四种类别,该数据集上的任务是通过该多关系图对有标签节点进行分类。本实验将所有拥有标签的节点随机划分为训练集和测试集,其中训练集包含140个节点,测试集包含36个节点该数据集数据组成为文件,具体为

AIFB Data//根目录

│edge.txt//存放了多关系图的边信息,以及这条边所代表的连接关系

│node.txt//存放了多关系图的节点的标签信息

其中,edge.txt的每一行表示为两个数字,使用空格区分。该行表示了数据集中的一条边,两个数字表示这一条边所连接的两个节点的序号。如:某一行为:12 22,则表示这条边连接了12和22号节点,方向是从12号节点指向22号节点。node.txt每一行按顺序代表一个节点,具体内容为一个数字,表示该节点的标签属于哪一类。如第12行内容为4,则代表第12个节点的类别是第4类。

由于本数据集节点特征只包含ID,因此根据其ID使用自然语言处理任务中常见的随机初始化嵌入特征(Embedding)的方式为所有的节点随机生成64维初始特征(原始特征)。基于该AIFB数据集对系统进行训练,其中选用的分类任务损失函数为上述交叉熵损失。实验中设置的学习速率为1e-

表2 AIFB数据集上实验结果

从实验结果中可以看出本发明中提出的模型在AIFB数据集上与近年相关模型对比中,能够实现最高的分类准确率,表明了本发明的有效性。

需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号