首页> 中国专利> 一种基于序列化证据抽取的推理阅读理解方法及系统

一种基于序列化证据抽取的推理阅读理解方法及系统

摘要

本发明涉及一种基于序列化证据抽取的推理阅读理解方法及系统。该方法训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;利用训练完成的基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。本发明通过GRU与注意力机制根据问题句子来序列化抽取证据文档中的句子作为证据句子的预测结果,将证据句子之间的相关关系考虑进去,逐步推理得到相关证据,同时覆盖问题中的重要信息。本发明从原来的独立预测每个证据句子变为序列化抽取证据句子,从而建模证据之间的相关性认证,从而提高了网络的安全可靠性。

著录项

  • 公开/公告号CN112347756A

    专利类型发明专利

  • 公开/公告日2021-02-09

    原文格式PDF

  • 申请/专利权人 中国科学院信息工程研究所;

    申请/专利号CN202011051087.7

  • 发明设计人 林政;付鹏;刘欢;王伟平;孟丹;

    申请日2020-09-29

  • 分类号G06F40/205(20200101);G06F40/216(20200101);G06N3/04(20060101);

  • 代理机构11200 北京君尚知识产权代理有限公司;

  • 代理人邱晓锋

  • 地址 100093 北京市海淀区闵庄路甲89号

  • 入库时间 2023-06-19 09:51:02

说明书

技术领域

本发明属于信息技术领域,具体涉及一种基于序列化证据抽取的推理阅读理解方法及系统。

背景技术

图神经网络的概念第一次在论文“Lecun Y,Bottou L.Gradient-based learningapplied to document recognition[J].Proceedings of the IEEE,1998,86(11):P.2278-2324”中提出,该论文将现存的神经网络模型扩展到处理图领域的数据。在一个图结构中,每一个节点由它自身的特征以及与其相连的节点特征来定义该节点。GNN的目标是学习得到一个状态的嵌入向量(embedding),这个向量包含每个节点的邻居节点的信息。图注意力网络(

基于图神经网络模型的已有方法直接采用多层感知机独立预测证据句子,缺乏相关证据关联建模。多个证据句子的选择,希望可以共同覆盖必要的相关信息来回答问题,因此证据句子的选择之间并非一个独立的过程,具有一定的相关性从而共同得出问题的答案。由于推理过程本身的关联性与有序性,推理句子选择本身也是有序的。然而,Nishida等人(Nishida K,Nishida K,Nagata M,et al.Answering while Summarizing:Multi-taskLearning for Multi-hop QA with Evidence Extraction[J].Proceedings of the 57thConference of the Association for Computational Linguistics,ACL 2019,2335-2345)提出了QFE模型,将证据句子的抽取过程建模成一个迭代推理的过程,每一步都选择一个相关的证据句子,同时,迭代更新一个状态向量,用于下一步的推理,整个模型基于原来的答案预测模型采用了多任务学习的方式进行训练。在预测相关证据句子时,对所有句子单独进行分类,预测每个句子是相关证据的概率,并没有考虑到选择证据句子之间的相关性与时序性。

发明内容

本发明的目的在于提供一种基于序列化证据抽取的推理阅读理解方法及系统。从人类寻找证据的推理过程来看,首先推理句子本身之间具有一定的关联性,推理过程始终围绕问题和已经获得的相关信息进行,可以用序列化的过程来建模这个推理的链式结构。本发明通过GRU与注意力机制根据问题句子来序列化抽取证据文档中的句子作为证据句子的预测结果,这个过程不同于此前的独立预测证据句子的过程。通过这个序列化抽取证据句子的过程,将证据句子之间的相关关系考虑进去,逐步推理得到相关证据,同时覆盖问题中的重要信息。本发明在抽取句子的过程中引入迭代更新问题表示的方式来计算问题注意力。

本发明采用的技术方案如下:

一种基于序列化证据抽取的推理阅读理解方法,包括以下步骤:

训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;其中:编码层使用BERT模型对输入的上下文序列C和问题Q进行编码,得到上下文编码C

利用训练完成的所述基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。

进一步地,所述的采用双向注意力机制对上下文编码C

首先,计算上下文序列C

其次,计算上下文到问题的注意力权值:α

同理,计算问题到上下文的注意力权值:β

进一步地,所述的根据C

1)C

2)对于X,将其通过一层全连接神经网络与最大池化层,得到推理状态的初始化表示X

3)证据抽取模型根据当前学习到的问题表示

4)证据抽取模型更新推理GRU的状态z

z

其中,z

5)证据抽取模型根据更新的推理状态z

α=softmaxσ(z

其中,σ=W[z

6)选择证据语句的计算概率的过程为:

进一步地,所述的根据证据句子的预测结果以及C

将证据句子的预测结果与原始输入词表示进行拼接,得到上下文序列C′;

利用上下文序列C′,采用堆叠方式的双向LSTM建模,分别输出答案片段开始位置在整个上下文中的概率分布,答案片段结束位置在整个上下文中的概率分布和答案的类型。

进一步地,所述的基于序列化证据抽取的阅读理解模型,其损失函数包括交叉熵计算的答案分布损失函数La和证据预测的损失函数Le。

一种采用上述方法的基于序列化证据抽取的推理阅读理解系统,其包括:

模型训练模块,用于训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;其中:编码层使用BERT模型对输入的上下文序列C和问题Q进行编码,得到上下文编码C

模型应用模块,用于利用训练完成的所述基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。

本发明的技术关键点在于:

1、模型的编码层使用BERT得到上下文和问题编码。

2、证据预测层根据当前学习到的问题表示、推理状态以及每个句子的表示,选取概率最大的一个句子作为本轮时间步的抽取结果作为证据句子,并更新推理GRU的状态。

3、答案预测层根据证据预测结果和上下文、问题编码来预测答案的类型和答案片段的开始和结束位置。

4、模型在训练过程中,引入正确的证据句子来引导模型向正确的方向推理。通过注意力正则使得每个推理步尽量关注问题的不同部分,而不是不断地重复抽取一方面的相关信息。

5、对上轮问题表示引入迭代计算,基于问题计算表示,以及使用问题注意力的正则项。

6、测试过程中模型完全依据自身在之前推理步中做出的决定,来更新当前推理状态,并从剩下的句子中抽取新的句子。

利用本发明提供的方法进行机器阅读理解,具有以下优点:

1、从原来的独立预测每个证据句子变为序列化抽取证据句子,从而建模证据之间的相关性认证,从而提高了网络的安全可靠性;

2、采用循环神经网络的方式建模整个序列化抽取,每一时间步更新推理状态,通过逐步推理得到相关证据。

3、采用注意力机制从文档文本中抽取句子,使得这些句子的内容能够回答问题,也就是覆盖到问题相关的重要信息,用于给出问题的答案。

4、基于问题注意力的正则项,从而使得问题在不同抽取步的注意力分布尽可能分散,避免重叠,防止模型对问题的某一方面过多的关注。

附图说明

图1是本发明方法中证据抽取部分的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。

本发明提供基于序列化证据抽取的阅读理解模型,输入内容是上下文文本和问题文本,输出是答案的类型(是、否、文本片段),答案文本以及相关证据句子的集合。如果答案是文本片段,则其是来自上下文文本中的一个连续短片段,不超过一句话。证据句子集合是回答问题的依据,答案就是根据证据句子得到的,证据集合中至少包含两个证据句子。

本发明的基于序列化证据抽取的阅读理解模型包括:编码层、推理交互层、证据预测层、答案预测层。整个模型的基本实现过程包括以下步骤:

1)编码层使用BERT(Bidirectional Encoder Representations fromTransformers)模型对输入的上下文序列C和问题Q进行编码,将问题Q与上下文序列C进行拼接,得到编码后的上下文序列和问题序列,即上下文编码C

2)推理交互层采用双向注意力机制对上下文编码C

3)证据预测层再根据C

4)答案预测层根据证据句子的预测结果和C

5)整个基于序列化证据抽取的阅读理解模型的损失函数分为交叉熵计算的答案分布损失函数La和证据预测的损失函数Le。

下面以机器阅读Hotpot QA并回答问题为例,说明本发明的基于序列化证据抽取的阅读理解模型。

1)编码层将问题与上下文序列进行拼接,作为BERT的输入进行编码,得到编码后的问题序列和上下文序列C

2)推理交互层采用双向注意力机制对编码后的问题序列和文档序列Q

采用双向注意力机制进行交互建模的具体计算如下:

首先,计算文档序列即上下文序列C

其中S

其次,计算文档(即上下文)到问题的注意力权值:

α

也就是对相似矩阵S

C

同理,计算问题到文档(即上下文)的注意力权值,这里取相似度矩阵列中最大值:

β

其中,col表示按列取最大值,S

再对问题向量(即问题序列Q

Q

3)证据预测层根据C

3.1)C

3.2)对于上下文表示X,本方法将其通过一层全连接神经网络与最大池化层,得到推理状态的初始化表示X

3.3)证据抽取模型根据当前学习到的问题表示

测试阶段模型会在每个时间推理步中,从当前未被抽取句子集合中选择一个句子,作为抽取结果。此时,模型完全依据自身在之前推理步中做出的决定,来更新当前推理状态,并从剩下的句子中抽取新的句子,直到抽取到xEOE句子。这个抽取过程在每个推理步中都会选取前m个合法的最大概率的未结束状态的句子集合,同时从中挑出已经结束抽取过程的结束状态的句子集合。这里的合法指的是句子集合中无重复抽取的选择,然后计算这m个计算结果的所有扩展结果,依然从中选取出已经结束状态的句子集合,以及前m个合法的最大概率的未结束状态的句子集合。从而不断得到结束状态的句子集合,最终结束状态句子集合达到m个或者搜索深度大于句子个数,则结束搜索过程,从结束状态句子集合中选择概率最大的句子集合作为证据抽取的结果。句子抽取阶段的集束搜索深度和大小设置为5和2。设抽取出的证据集合为E

3.4)证据抽取模型更新推理GRU(门控循环神经网络)的状态z

z

其中,z

3.5)证据抽取模型根据更新的推理状态z

α=softmaxσ(z

其中σ=W[z

3.6)选择证据语句的计算概率的过程为:

4)答案预测层根据证据句子的预测结果和C

5)计算损失函数,整个模型的损失函数分为答案分布的损失函数La和证据预测的损失函数Le,答案分布的损失函数包括答案的开始结束位置、答案类型,都使用概率分布的交叉熵计算。证据预测的损失函数中,第一部分是抽取句子集合的负对数似然函数,第二部分是基于问题注意力的正则项。第一部分根据证据e

i

其中,E表示证据集合,|E|表示所有证据,E\E

模型优化器使用Adam优化器,初始学习率为2e-4,衰减因子为1。模型训练的批大小为32,累计梯度更新步数为1。

增加证据句子抽取后的模型在证据句子预测上的性能提升较为明显,EM值达到了0.529,F1值达到了0.833。同时,答案预测中,EM值达到了0.558,F1值到达了0.702。综合性能EM值为0.337,F1值为0.610。EM值很高的原因可能是由于抽取过程中动态决定抽取句子的个数,可以让证据抽取句子过程匹配更精确,从而导致EM值较高。证据预测性能上的提升证明了证据句子抽取模型是有效的。

基于同一发明构思,本发明的另一个实施例提供一种采用上述方法的基于序列化证据抽取的推理阅读理解系统,其包括:

模型训练模块,用于训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;其中:编码层使用BERT模型对输入的上下文序列C和问题Q进行编码,得到上下文编码C

模型应用模块,用于利用训练完成的所述基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。

基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号