首页> 中国专利> 一种基于实体图神经网络推理的事实验证方法及其系统

一种基于实体图神经网络推理的事实验证方法及其系统

摘要

本发明提出了一种基于实体图神经网络的推理模型(RoEG),利用实体级别的信息来获取细粒度的特征,并利用图注意力神经网络机制来实现推理过程。具体来说,为了捕获证据间的语义关联,RoEG首先引入实体作为图节点并构造三种类型的边。然后利用一个选择门机制来限制信息的传播,并利用图神经网络机制实现实体特征的更新传播。最后利用一个基于注意力机制的特征聚合器来聚合实体特征以辅助标签预测任务。通过在一个大型基准数据集上的进行实验,结果表明了模型的有效性,在标签准确率和得分上击败了目前的最优基准模型。特别是在需要多条证据共同作用作出判断的困难验证集上,相比最优模型有了很大的提升;随着实体数量的增加,RoEG具有更佳的性能表现。

著录项

  • 公开/公告号CN112765961A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利权人 中国人民解放军国防科技大学;

    申请/专利号CN202110044980.5

  • 申请日2021-01-13

  • 分类号G06F40/226(20200101);G06F40/211(20200101);G06F40/284(20200101);G06F40/295(20200101);G06N3/04(20060101);G06N5/04(20060101);G06F16/901(20190101);

  • 代理机构11403 北京风雅颂专利代理有限公司;

  • 代理人曾志鹏

  • 地址 410003 湖南省长沙市开福区德雅路109号

  • 入库时间 2023-06-19 10:54:12

说明书

技术领域

本发明属于一种事实验证方法,具体是涉及到一种基于实体图神经网络推理的事实验证方法及其系统。

背景技术

随着信息爆炸,人们饱受假新闻和误导信息的困扰。自动识别信息的真实性成为越来越重要的研究问题。事实验证通过基于提取得到的信息的推理来验证陈述的真实性,其能够将给定的陈述进行标签的分类,包括支持、反对以及信息不足三种,分别表示了提取的证据是否可以支持陈述的说法,或者是无法进行判断。

现有的事实验证主要可以分为两个类别,一个是基于自然语言推断的方法,另一个是基于图的方法。前一种方法通过构建陈述-证据对,然后利用交互式匹配模型来预测标签,他们通常将所有的证据结合成一个文本序列然后进行特征的提取。而基于图的模型主要利用不同的证据句子来构建图结构。但是上述方法的缺点在于句子级别的信息,容易忽视了细微的信息表示,如地点时间和人名等。并且现有方法主要还是利用黑盒结构来聚合句子级别的信息,不能够明确的模型化人类的推理过程,比如寻找一条推理的路径。

发明内容

本发明通过引入了实体级别的信息来进行证据特征的提取并构建推理图,以解决背景技术中所记载的问题。

本发明首先提供了一种基于实体图神经网络推理的事实验证方法,参见图3,包括以下步骤:

S1:根据给出的陈述提取陈述中的关键词,使用关键词选择证据并根据证据和关键词计算得到关键词向量。

证据提取主要包括文档检索和证据选择两个阶段,以给定的的陈述和如维基百科、百度百科等文档文库作为输入,来得到与陈述相关的证据句子。

本发明首先使用句法分析工具来提取给定的陈述中的实体,将实体作为关键词来检索得到相关性最高的几篇文档。然后,过滤掉不存在于离线维基百科文档中的文档结果。(由于数据集中采用的离线版本维基百科文档与我们使用在线版本的有一定的差异。)在证据选择阶段,本发明利用BERT作为检索模型来计算给定的陈述和检索的文章中的句子之间的相似度。训练阶段采用负样本策略,可以用以下公式表示:

L

其中,L

对于文本向量编码,本发明将给定的陈述和其相关的证据进行拼接,并将这样的陈述-证据序列输入预训练BERT来获取陈述的词向量表示

对于实体编码,由于每个实体是通过命名实体工具得到,本发明利用与实体相关的文本跨度来计算实体的向量表示。首先建立一个二元矩阵M

S2:将陈述和证据进行拼接构建陈述证据序列并获取陈述证据序列向量;将所述关键词作为所述证据的图节点并连接所述图节点形成图的边从而构建实体图。

为构建实体图的边关系,首先根据不同文章将证据进行分组:本发明采用了一个命名实体识别工具BERT来提取证据中的实体。这些实体被视为图节点,至于图的边则根据实体类别设计了三种边:句子级别链接、上下文级别链接以及文字级别链接。句子级别链接为出现在同一个句子中的两两实体之间的链接。上下文级别链接为出现不同的文章中的相同实体之间的链接。文章级别链接为由出现在文章题目中的中心实体与该文章中其他实体间的链接。不同类别的边表示了在推理过程中不同的信息流动方式。参见图1,图1中线条1、线条2和线条3分别表示句子级别链接、上下文级别链接以及文字级别链接。如图1所示,“The Rodney King riots took place in the most populous country in the USA”,通过构建基于实体的推理路径,“the Rodeny King riot→Los Angeles County→LosAngeles→the USA”可以辅助最后的判断。

S3:以所述关键词向量、所述实体图和所述陈述证据序列向量作为实体图神经网络的输入,得到预测标签。

得到实体向量表示后,利用图注意力神经网络来进行节点信息的传播,以此作为以信息推理的方式。本发明首先设计了一个选择门m来识别与给定陈述相关的实体,从而实体信息的传播被限制在由相关实体组成的子图之中,这样的选择过程由以下公式得到:

c=MeanPooling(C)

m=σ([γ

E′=[m

通过计算选择门m和初始的实体向量,相关的实体信息被保留下来。然后,第t步的信息过程可以描述为:

其中:

其中β

最后,利用融合层来将聚合后的实体和上文得到序列信息s进行拼接作为最后的特征,并利用一个全连接层来得到最后预测的标签L:

L=argmax(softmax(ReLU(W[a,s]+b)))

其中,

S4:通过预测标签对事实进行验证。

依托于上述方法,本发明还提供了一种基于实体图神经网络推理的事实验证系统,包括处理器、存储器以及存储于存储器中的可执行程序,处理器执行所述可执行程序时实现上述任一所述的步骤。

参见图2,图2为可执行程序的整个框架。

本发明提出的RoEG在大规模基准数据集上进行了实验,实验的结果表明本发明提出的提出的实体图模型在评价指标得分和标签预测准确率优于一些具有竞争力的基准模型。特别是在困难验证集,即需要多个证据才能做出判断的陈述组成的验证集,RoEG较基准模型的准确率有了极大的提升。本模型随着实体数量增加具有更好的表现。

总体来说,本发明引进实体做为推理过程中信息的携带者,帮助模型捕获细粒度信息;设计的基于实体图的推理方法,可以模型化人类的推理过程;模型效果超过基准模型,特别是对于需要多个证据进行推断的陈述集合。

附图说明

图1为本发明构建的实体图的边的三个类型示意图;

图2为本发明RoEG模型的总体框架图;

图3为本发明一种基于实体图神经网络推理的事实验证方法流程图。

具体实施方式

本实施例在FEVER数据集上进行实验。FEVER数据集是一种专门针对事实验证任务的基准数据集,其共含有185445条陈述和相关的证据集。表1展示了具体的数据分布。本实施例采用标签准确率(LA)和FEVER得分作为评价指标,标签准确率表示了陈述分类的准确率,而FEVER得分表示在至少提供一条完全正确的证据的情况下的标签准确率。除此以外,本实施例还建立了困难验证集来测试模型的推理能力,其由原验证集中需要多个证据来做出推断的陈述组成,共有10298个样本组成,约占了51%的验证集数量。在数据分析中本实施例发现超过一半的例子中,实体提取的数量小于20。因此本实施例分别建立了两种实体增强验证集,其中每个例子所提取出的实体数量分别超过10(entityenhanced@10)和20(entity enhanced@20)。这两种实体增强验证集分别由86%和38%的原验证集构成。

在实验中,本实施例将模型与其他五个表现优异的基准模型进行性能的比较,分别是:Athene,它是一种ESIM模型并且通过注意力机制来聚合陈述—证据对特征;UNC NL,它是一种基于神经语义匹配网络的模型并且以陈述和多个证据集合作为特征;UCL MRG,它是一种基于卷积神经网络的模型并通过注意力机制来聚合陈述—证据对特征;GEAR,它是一种基于图的神经网络模型通过注意力机制来结合证据句子;BERT-Concat,它是一种基于BERT微调的序列分类模型,以陈述和多个证据集合作为特征。

在图的构建阶段,本实施例将图中实体数量的最大值设为40,在编码阶段,本实施例利用BERT-base-uncased做为模型的编码器。其中输入陈述—证据集对最大序列长度设置为256,并且限制陈述的最大长度为16而证据的最大长度为240。本实施例将BERT隐藏层的维度大小d1设为768,实体的隐藏状态维度d2设置为384。在训练阶段,模型通过最小化交叉熵损失函数,并采用一个初始学习率3e-4,L2权重衰减值3e-5的Adam优化器。

表1

为了验证RoEG模型能够超过有竞争力的基准模型,本实施例在表2上展示了所有讨论模型的表现。首先,对于基准模型,可以看到基于BERT编码的模型如GREA,B-ERT-Concat相比较于之前的方法都要明显的提升。而其中基于图结构的模型GEAR在所有的评价指标上超过了非图结构的BERT-Concat模型,显示了图结构在信息推理上的能力。

将本实施例的模型RoEG与最好的基准模型GEAR进行比较,RoEG在FEVRE得分上具有更佳的表现,并且取得了一个较高的标签准确率。具体而言,相较于GEAR,其FEVER得分提升了0.41%。除此以外,RoEG显示了在验证集上0.59%和2.55%的提升。这样明显的提升可以表面,细粒度的实体特征加强了关键信息的表征,而通过实体间的边关系进一步加强了信息流动在不同的边之间。

表2模型表现

由于GEAR和BERT-concat是表2中表现最优异的两个模型,并且基于BERT编码,所以在本实施例在之后仅考虑这两个模型作为比较。为了验证RoEG对于需要多条证据来判断的陈述的效果相比较于其他模型,本实施例在困难验证集上测试了三个模型的多证据推理能力(包括RoEG),并把结果展示在表3中。可以看出,与之前相反,非图结构的BERT-cooncat模型在表现上优于图结构的模型GEAR,具体的在标签准确率和FEVER得分上提升了4.95%和4.89%。这些不同说明BERT-concat拥有更好的稳定性来保持一个较优的表现,而GEAR没有显示图结构在多证据推理上的能力。而将我们的RoEG与最佳模型BERT-concat进行比较,RoEG在两个指标上都优于后者,具体来说,RoEG提升了5.46%的标签准确率和4.87%的FEVRE得分。这表明了实体图的结构特征,即可以携带更细粒度的信息并且其边关系不仅可以帮助实现信息推理的过程,而这种推理过程有助于多个证据的陈述判断。将RoEG模型与另一图结构模型GEAR相比提升更为明显,更说明了RoEG模型的鲁棒性是优于GEAR的。

表3模型在困难验证集上性能的比较

本实施例在两个实体增强验证集(Entity enhacned@10,Entity enhacned@20)和原验证集上进行了实验。如表4所示,随着实体数量的增长,RoEG模型的性能也在同时增长,特别是在验证集Entityenhacned@20上,较其他验证集提升了至少1.62%的标签准确率。这说明了实体信息在在事实验证任务具有重要的作用,因为随着实体数量的增长,基于实体边的推理路径随之增加,本实施例可以利用高质量的实体进行图的推理,除此以外可以发现在原验证集和Entityenhacned@10验证集上,模型在推理层数为2的情况下相较于层数为1提升了至少1.1%的标签准确率,说明特定层数的推理可以帮助实体更好的聚合来自其邻居的信息,以辅助做出最后的推断。

表4模型原验证集和实体加强验证集上的标签准确率

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号