首页> 中国专利> 科技论文引用关系表示学习方法、系统及存储介质

科技论文引用关系表示学习方法、系统及存储介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种科技论文引用关系表示学习方法、系统及存储介质，所述方法包括：获取科技论文的关系图，所述关系图中的各节点表示各科技论文，所述关系图中的各边表示科技论文之间的引用关系；基于所述关系图确定第一科技论文特征矩阵及科技论文邻接矩阵；构建图自动编码器；将所述第一科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器，得到各科技论文的第一嵌入表示。该方法可使科技论文引用关系得到更准确的表示。

著录项

公开/公告号CN114817578A

专利类型发明专利
公开/公告日2022-07-29

原文格式PDF
申请/专利权人北京邮电大学;
展开▼

申请/专利号CN202210745739.X
发明设计人薛哲;杜军平;宋杰;梁美玉;邵蓥侠;寇菲菲;
展开▼

申请日2022-06-29
分类号G06F16/38(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构北京金咨知识产权代理有限公司 11612;
代理人岳燕敏
地址 100876 北京市海淀区西土城路10号
入库时间 2023-06-19 16:11:11

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-09

授权

发明专利权授予
2022-08-16

实质审查的生效 IPC(主分类):G06F16/38 专利申请号:202210745739X 申请日:20220629

实质审查的生效

说明书

技术领域

本发明涉及领计算机技术领域，尤其涉及一种科技论文引用关系表示学习方法、系统及存储介质。

背景技术

图嵌入是一种用于将节点、边以及特征转换为向量空间（较低维度）的方法，同时最大限度地保留图结构和信息等属性。

最新研究表明，有多种方法可以学习图嵌入表示，每种方法都有不同的粒度级别。Deepwalk属于使用游走的图嵌入技术之一，这是图论中的一个概念，只要它们连接到公共边，就可以通过从一个节点移动到另一个节点来实现图的遍历。Node2vec是最早尝试从图形结构化数据中学习的深度学习方法之一；作为node2vec变体的修改，graph2vec本质上是学习嵌入图的子图；这些预先确定的子图有一组由用户指定的边数。同样，潜在子图嵌入被传递给神经网络进行分类。

与以前的嵌入技术不同，SDNE不使用随机游走技术。相反，它尝试从两个不同的指标中学习：一阶接近度（如果两个节点共享一条边，则认为它们相似）；二阶接近度（如果两个节点共享许多邻居，则认为它们相似）。LINE明确定义了两个函数；一个用于一阶接近，另一个用于二阶接近。二阶接近的表现明显优于一阶，这意味着更高阶可能会使准确性的提高趋于平稳。HARP通过更好的权重初始化改进解决方案并避免局部最优，并使用图粗化将相关节点聚合为“超级节点”，本质上是一个图预处理步骤，可简化图以加快训练速度。

互信息 (MI) 衡量两个随机变量之间的相互依赖关系，DGI是最早将互信息约束应用于图结构数据的方法，它最大化全局图摘要与其每个节点之间的互信息，以学习信息丰富的节点表示。但是目前DGI有两个限制；首先，DGI忽略了节点嵌入和节点属性之间的相互依赖关系；其次，DGI没有充分挖掘节点之间的各种关系。因而，现有的方法无法对关系图进行较好的表示学习，更无法得到科技论文引用关系的更准确的嵌入表示。因此，如何使科技论文引用关系得到更准确的表示是亟待解决的技术问题。

发明内容

有鉴于此，本发明提供了一种科技论文引用关系表示学习方法、系统及存储介质，以解决现有技术中存在的一个或多个问题。

根据本发明的一个方面，本发明公开了一种科技论文引用关系表示学习方法，所述方法包括：

获取科技论文的关系图，所述关系图中的各节点表示各科技论文，所述关系图中的各边表示科技论文之间的引用关系；

基于所述关系图确定第一科技论文特征矩阵及科技论文邻接矩阵；

构建互信息约束的图自动编码器；

将所述第一科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器，得到节点的第一嵌入表示；

将所述第一科技论文特征矩阵进行转置运算得到第二科技论文特征矩阵；

将所述第二科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器，得到节点的第二嵌入表示；

基于所述第一嵌入表示及所述第二嵌入表示确定所述图自动编码器的互信息约束损失。

在本发明的一些实施例中，所述方法还包括：所述图自动编码器包括多层卷积层。

在本发明的一些实施例中，互信息约束损失函数为：

其中，

在本发明的一些实施例中，基于互信息约束的图自动编码器的损失函数为：

其中，

在本发明的一些实施例中，所述图自动编码器为变分图自动编码器，将所述第一科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器，得到节点的第一嵌入表示，包括：

将所述第一科技论文特征矩阵及科技论文邻接矩阵输入至图卷积神经网络，基于图卷积神经网络确定高斯分布，从确定的所述高斯分布中采样得到第一嵌入表示。

在本发明的一些实施例中，基于图卷积神经网络确定高斯分布，包括：

基于图卷积神经网络计算均值与方差。

在本发明的一些实施例中，所述变分图自动编码器的损失包括交叉熵和KL散度。

在本发明的一些实施例中，基于互信息约束的变分图自动编码器的损失为：

其中，

根据本发明的另一方面，还公开了一种科技论文引用关系表示学习系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

根据本发明的另一方面，还公开了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

本发明所公开的科技论文引用关系表示学习方法及系统，基于科技论文的关系图确定第一科技论文特征矩阵及科技论文邻接矩阵，并将第一科技论文特征矩阵及科技论文邻接矩阵输入至基于互信息约束的图自动编码器，以基于图自动编码器得到各科技论文的第一嵌入表示，该方法可使科技论文引用关系得到更准确的表示。

除上述之外，本发明所公开的科技论文引用关系表示学习方法，将科技论文根据已有的关系构建成图，通过提出的编码器编码得到节点表示，再对学习到的节点表示构建一定的关系图谱，还可得到深层次的科技论文关联关系。并且本发明中所公开的基于互信息约束的变分图自动编码器，实现了互信息最大化约束在图结构科技论文数据中的应用，将最大化全局和局部表示的约束附加到图编码器，并共同优化自编码器的损失和最大化互信息，使得学习到的科技论文节点表示捕获了更丰富的图全局属性和节点邻域信息，从而提高了科技论文表示的质量。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。附图中的部件不是成比例绘制的，而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分，附图中对应部分可能被放大，即，相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本发明一实施例的科技论文引用关系表示学习方法的流程示意图。

图2为本发明一实施例的基于科技论文关联关系图网络和互信息约束的变分图自动编码器的整体架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

现有的无监督或自监督的图表示学习是一种在低维空间中表示图结构数据的通用技术，对于促进图数据挖掘任务具有重要意义。主要难点在于如何将图结构数据的原始节点特征和边关联编码到低维嵌入空间中。图自动编码器作为一种广泛使用的深度模型，被提出通过最小化图数据的重构图误差来以无监督的方式学习图嵌入，但其重构损失忽略了潜在表示的分布，导致嵌入效果不佳。但发明人在研究中发现，最大化局部节点表示之间的互信息以及图结构数据的全局表示，使学习的节点表示能够总结节点之间共享的信息，并可用于下游任务；因此，本发明提供一种科技论文引用关系表示学习方法及系统，联合优化图自动编码器的损失和互信息，从而使学习到的节点表示捕获更丰富的信息和节点交互，从而提高节点表示的质量及准确性。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

图1为本发明一实施例的科技论文引用关系表示学习方法的流程示意图，如图1所示，该科技论文引用关系表示学习方法至少包括步骤S10至S40。

步骤S10：获取科技论文的关系图，所述关系图中的各节点表示各科技论文，所述关系图中的各边表示科技论文之间的引用关系。

在该步骤中，首先将科技论文根据已有的关系构建成关系图；示例性的，由

步骤S20：基于所述关系图确定第一科技论文特征矩阵及科技论文邻接矩阵。

邻接矩阵记为

步骤S30：构建互信息约束的图自动编码器。

互信息

步骤S40：将所述第一科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器，得到节点的第一嵌入表示。

在该步骤中，是基于步骤S30构建的互信息约束的图自动编码器对科技论文引用关系进行表示学习，具体的将第一科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器，从而得到第一嵌入表示。

除上述之外，科技论文引用关系表示学习方法还可以包括以下步骤：步骤S50：将所述第一科技论文特征矩阵进行转置运算得到第二科技论文特征矩阵；步骤S60：将所述第二科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器，得到节点的第二嵌入表示；步骤S70：基于所述第一嵌入表示及所述第二嵌入表示确定所述图自动编码器的互信息约束损失。在该实施例中，第一科技论文特征矩阵可作为特征矩阵正样本，而第二科技论文特征矩阵作为特征矩阵负样本，基于特征矩阵正样本、特征矩阵负样本通过权重共享的图自动编码器可得到第一嵌入表示及第二嵌入表示，进而构建与第一嵌入表示及第二嵌入表示相关的互信息约束损失函数，基于该互信息损失函数可进一步的优化图自动编码器的参数，以使科技论文引用关系进一步得到更好的节点潜在表示。

示例性的，互信息约束损失函数为：

其中，

另外，若将基于图自动编码器表示学习到的节点嵌入矩阵记为

在一实施例中，图自动编码器的上一层图卷积神经网络（GCN）的输出作为后一层卷积网络的输入，如

具体的，本发明采用图卷积神经网络作为编码器，得到节点的潜在嵌入表示，该过程通过以下公式表示：

本发明中的图自动编码器可为普通图自动编码器或变分图自动编码器。当本发明的科技论文引用关系表示学习方法所采用的图自动编码器为互信息约束的图自动编码器时，基于互信息约束的图自动编码器的损失函数为：

其中，

变分图自动编码器是在上述自编码器的基础上加入了变分约束，在一实施例中，

将所述第一科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器，得到节点的第一嵌入表示，包括：将所述第一科技论文特征矩阵及科技论文邻接矩阵输入至图卷积神经网络，基于图卷积神经网络确定高斯分布，从确定的所述高斯分布中采样得到第一嵌入表示。并且，基于图卷积神经网络确定高斯分布包括基于图卷积神经网络计算均值与方差。对于该基于互信息约束的变分图自动编码器，其损失包括交叉熵和KL散度。

示例性的，在变分图自编码器中，节点的表示

进一步的，得到均值向量和协方差矩阵后，由于采样操作不能提供梯度信息，

进一步的，基于互信息约束的变分图自动编码器的损失函数为：

其中，

对于上述实施例的基于互信息约束的变分图自动编码器，在变分图自动编码器框架的基础上优化了节点表示所在的嵌入空间，并加入了互信息的约束可更好的学习到节点潜在表示，其整体架构示意图如图2所示。

具体的，基于损失函数

进一步的，对正负样本的单图通过构建的基于互信息约束的变分图自动编码器编码后，可以得到正负样本的节点表示

该实施例引入了互信息最大化的策略，即正样本图节点表示归属汇总向量

为了最大化互信息，本发明在联合样本（正例）和边际乘积（负例）之间使用具有标准二元交叉熵（BCE）损失的噪声对比目标，如下式为MIC-VGAE中互信息约束的损失函数：

示例性的，如下为构建基于互信息约束的变分图自动编码器和互信息约束的图自动编码器的流程算法：

输入：科技论文关系图

输出：节点表示

1.初始化所有网络参数

5.若模型采用变分图自动编码器：

6.依据

7.依据损失函数

8.否则：

9. 依据损失函数

10.

end while

对应的，本发明还公开了一种科技论文引用关系表示学习系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

通过上述实施例可以发现，该基于科技论文关联关系图网络和互信息约束的科技论文表示学习方法，将科技论文根据已有的关系构建成图，通过提出的编码器编码得到节点表示，再对学习到的节点表示构建一定的关系图谱，得到深层次的科技论文关联关系。并且，基于科技论文关联关系图网络和互信息约束的变分图自动编码器，可以通过全局图摘要最大化每个节点表示，以在无监督的情况下学习图节点表示。

在本发明中，实现了互信息最大化约束在图结构科技论文数据中的应用，并提出了一种策略，将最大化全局和局部表示的约束附加到图编码器，并共同优化自编码器的损失和最大化互信息，使得学习到的科技论文节点表示捕获了更丰富的图全局属性和节点邻域信息，从而提高了科技论文表示的质量。

综上所述，本发明所公开的科技论文引用关系表示学习方法及系统，基于科技论文的关系图确定第一科技论文特征矩阵及科技论文邻接矩阵，并将第一科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器，以基于图自动编码器得到各科技论文的第一嵌入表示，该方法可使科技论文引用关系得到更准确的表示。

另外，该发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM（EROM）、软盘、CD-ROM、光盘、硬盘、光纤介质、射频（RF）链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 科技论文引用关系表示学习方法、系统及存储介质 [P] . 中国专利： CN114817578A . 2022-07-29
2. 科技论文数据文本语义特征提取方法、系统及存储介质 [P] . 中国专利： CN114818737A . 2022-07-29
3. SEMANTIC RELATIONSHIP LEARNING DEVICE, SEMANTIC RELATIONSHIP LEARNING METHOD, AND STORAGE MEDIUM STORING SEMANTIC RELATIONSHIP LEARNING PROGRAM [P] . 美国专利： US2021312333A1 . 2021-10-07

机译：语义关系学习设备，语义关系学习方法和存储介质存储语义关系学习计划
4. Storage medium has data structure storing files with context information representing content of respective further file having file body which exhibits material reference to content of opened file [P] . 德国专利： DE102004013132B4 . 2006-06-14

机译：存储介质具有数据结构，该数据结构存储具有上下文信息的文件，该上下文信息表示具有文件主体的各个其他文件的内容，该文件主体表现出对打开文件的内容的实质性引用
5. Storage medium has data structure storing files with context information representing content of respective further file having file body which exhibits material reference to content of opened file [P] . 德国专利： DE102004013132A1 . 2005-10-20

机译：存储介质具有数据结构，该数据结构存储具有上下文信息的文件，该上下文信息表示具有文件主体的各个其他文件的内容，该文件主体表现出对打开文件的内容的实质性引用