首页> 中国专利> 面向文本阅读理解的选择题生成方法、系统及存储介质

面向文本阅读理解的选择题生成方法、系统及存储介质

摘要

一种面向文本阅读理解的选择题生成方法、系统及存储介质,方法包括通过全文主旨级别的表征学习、词句间关系的表征学习以及答案级别的表征学习,从文本中生成问题;通过上下文‑问题稀疏化过滤,在融合上下文以及问题信息的同时过滤掉上下文中与问题不相关的信息;通过答案‑问题稀疏化过滤,在生成干扰项的过程中过滤掉正确答案相关的信息,从而避免生成与答案语义一致的干扰项。本发明采用多尺度表征及稀疏化过滤的方法,解决了现有面向文本阅读理解的选择题生成方法对于中学阅读理解数据集的文本偏长导致模型理解困难的问题,以及由于文本信息丰富而导致存在大量问句无关句的问题,本发明方法能够生成更优质的选择题。

著录项

  • 公开/公告号CN116860947A

    专利类型发明专利

  • 公开/公告日2023-10-10

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN202310951348.8

  • 申请日2023-07-31

  • 分类号G06F16/332(2019.01);G06F16/335(2019.01);G06F40/194(2020.01);G06F40/30(2020.01);G06N3/0442(2023.01);G06N3/0455(2023.01);G06N3/08(2023.01);

  • 代理机构西安通大专利代理有限责任公司 61200;

  • 代理人房鑫

  • 地址 710049 陕西省西安市碑林区咸宁西路28号

  • 入库时间 2024-04-18 19:44:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-10-27

    实质审查的生效 IPC(主分类):G06F16/332 专利申请号:2023109513488 申请日:20230731

    实质审查的生效

说明书

技术领域

本发明属于计算机文本处理技术领域,具体涉及一种面向文本阅读理解的选择题生成方法、系统及存储介质。

背景技术

一个完整的选择题需要一个问题以及若干个候选选项,因此选择题生成分为两个重要的生成式任务,分别是问题生成以及干扰项生成。问题生成从早期耗时耗力的手工构建到当前自动灵活的生成已经历了多年的研究。问题生成基于已有的研究大致分为三种类型:基于模板和规则的方法、基于简单循环神经网络的方法以及基于图神经网络推理的方法。基于模板和规则的方法虽然能生成语句通顺、语法正确的问题,但生成的问题过于死板,难以产生实际应用价值,且需要消耗大量人力来构造模版与规则;基于简单循环神经网络的方法生成的问题较为灵活,能满足简单的问题生成需求,但在中学阅读理解文本上表现不佳;基于图神经网络推理的方法缓解了长文本难以理解的问题,但人工建图的方式仍存在一定的局限性。

传统的干扰项生成会基于特定的规则或策略来做干扰项的选择,如从多个数据源中抽取若干个候选项,然后使用词频统计的方法选择干扰项或是选择与正确答案相似度高的词语作为干扰项。而对于篇幅较长的阅读理解文章而言,不能用死板的方式来生成干扰项,目前的多数研究借助神经网络模型完成。因此,在干扰项生成任务上,基于特定的规则或策略来选择干扰项的做法简单直接,能够满足简单的干扰项生成需求,但难以满足中学阅读理解的需要,且需要人力来构建规则、模版;而基于神经网络的方法能完全自动地生成长度更长、语义信息更丰富的干扰项,但现有的方法还无法很好地从冗长的阅读理解文章中提取关键信息,生成与问题相关且与正确答案不重复的干扰项。

发明内容

本发明的目的在于针对上述现有技术中的问题,提供一种面向文本阅读理解的选择题生成方法、系统及存储介质,针对冗长的阅读理解文章能够生成更优质的选择题。

为了实现上述目的,本发明有如下的技术方案:

一种面向文本阅读理解的选择题生成方法,包括:

通过全文主旨级别的表征学习、词句间关系的表征学习以及答案级别的表征学习,从文本中生成问题;

通过上下文-问题稀疏化过滤,在融合上下文以及问题信息的同时过滤掉上下文中与问题不相关的信息;

通过答案-问题稀疏化过滤,在生成干扰项的过程中过滤掉正确答案相关的信息,从而避免生成与答案语义一致的干扰项。

作为一种优选的方案,所述全文主旨级别的表征学习用于提取整个文本的一个全局信息,具体包括:

对于输入的词向量,按下式进行一次平均池化操作,将文本信息压缩:

式中,L

将文本信息压缩后的全局信息特征融合至每个单词的特征上,通过下式重复L

式中,φ(,)表示线性变换层;W表示可学习的参数;δ表示ReLU激活函数。

作为一种优选的方案,所述词句间关系的表征学习使用注意力机制提取文中词句间关联信息,采用神经网络架构,通过对输入的加权处理来提高对某些输入的关注度,所述的加权处理是动态的,根据任务的不同而有所变化,其中每个权重表示网络对于输入序列中不同位置的关注度。

作为一种优选的方案,所述注意力机制基于“查询-键-值”的机制,使用给定的文本词嵌入表示及位置编码信息作为输入,通过线性层将给定的文本词嵌入表示及位置编码信息映射为以下三个向量:查询向量Q、键向量K和值向量V,然后通过对查询向量和所有键向量进行一次点积运算,得到每个词对于其他所有词的注意力分布,再将所述注意力分布与每个词对应的值向量相乘,最后对所述注意力分布进行归一化及残差连接,得到最终的词句间关联特征CF,计算表达式如下:

Q=φ(C,W

K=φ(C,W

V=φ(C,W

式中,D表示键向量的维度;

作为一种优选的方案,所述答案级别的表征学习根据上下文词向量及答案词向量分别计算出查询向量Q

Q

K

式中,

作为一种优选的方案,所述从文本中生成问题的步骤中,首先将所述全文主旨级别的表征学习、词句间关系的表征学习以及答案级别的表征学习得到的表征进行融合得到多尺度表征:

MLF=GCF+CF+ACF

使用两层双向LSTM作为编码器的主体,对多尺度表征进行编码:

z

f

g

式中,H表示LSTM的隐藏状态表示,即

在解码器上使用另一个双层的单向LSTM作为主体,并在每个解码步中使用注意力机制动态地融合上一步的输出

p

p(y

式中,W

作为一种优选的方案,所述通过上下文-问题稀疏化过滤,在融合上下文以及问题信息的同时过滤掉上下文中与问题不相关的信息的步骤包括:

引入多头注意力机制来计算上下文表征与问题表征的注意力,计算表达式如下:

式中:φ(,)表示线性变换层;

使用卷积操作对获得的多头注意力进行压缩,计算表达式如下:

式中,Conv(,)表示卷积函数;

基于两次卷积后获得的结果,继续使用Sigmoid函数引入非线形,同时将输出的范围压缩至0到1之间,再使用指示函数将一定阈值下的注意力分数过滤掉,即置为0,而其余的部分则置为1,得到一个Attention Mask矩阵,即0-1矩阵;使用Mask矩阵对压缩后的Attention进行遮盖实现保留相对高的注意力分数的同时过滤掉相对低的注意力分数,即过滤掉低相关度的信息,最后再做一次Softmax计算以平衡矩阵的权重,计算表达式如下:

Attn

式中,

式中,

最后输出的结果为一个融合了稀疏后上下文信息的问题表示。

作为一种优选的方案,所述通过答案-问题稀疏化过滤,在生成干扰项的过程中过滤掉正确答案相关的信息,从而避免生成与答案语义一致的干扰项的步骤包括:

提取出答案整体的句级表示,计算每个词到答案的一个语义距离,并使用计算出的语义距离作为门控值来控制问题表示中每个词的信息权重分配,从而稀疏掉答案到问题中距离较近的词信息,计算表达式如下:

式中,

最后输出的结果即为融合了上下文信息,又过滤了其中与问题信息不相关的部分,同时还剔除了正确答案信息的问题表示结果,最终生成干扰项。

一种面向文本阅读理解的选择题生成系统,包括:

问题生成模块,用于通过全文主旨级别的表征学习、词句间关系的表征学习以及答案级别的表征学习,从文本中生成问题;

上下文-问题稀疏化过滤模块,用于通过上下文-问题稀疏化过滤,在融合上下文以及问题信息的同时过滤掉上下文中与问题不相关的信息;

答案-问题稀疏化过滤模块,用于通过答案-问题稀疏化过滤,在生成干扰项的过程中过滤掉正确答案相关的信息,从而避免生成与答案语义一致的干扰项。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述面向文本阅读理解的选择题生成方法。

相较于现有技术,本发明至少具有如下的有益效果:

采用多尺度表征及稀疏化过滤的方法,解决了现有面向文本阅读理解的选择题生成方法,对于中学阅读理解数据集的文本偏长导致模型理解困难的问题,以及由于文本信息丰富而导致存在大量问句无关句的问题,本发明面向文本阅读理解的选择题生成方法能够生成更优质的选择题,尤其在中学阅读理解数据集中能够取得较好的性能效果。

附图说明

为了更加清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作以简单地介绍,应当理解,以下附图仅示出了本发明部分实施例,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1本发明实施例面向文本阅读理解的选择题生成方法的模型总体框架图;

图2本发明实施例基于稀疏化过滤的干扰项生成模型总体框架图;

图3一个RACE数据集中的一篇阅读理解文章以及其中一道选择题的示意图;

图4本发明实施例基于多尺度表征问题生成的示意图;

图5本发明实施例基于稀疏化过滤干扰项生成的示意图;

图6RACE与SQuAD中问题词的分布情况图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员还可以在没有做出创造性劳动的前提下获得其他实施例。

请参阅图1与图2,本发明实施例面向文本阅读理解的选择题生成方法,包括以下步骤:

1)全文主旨级别的表征学习

全文主旨级别表征学习的主要目的在于提取整个文本的一个全局信息,对于输入的词向量,本发明实施例进行一次平均池化操作来将文章信息压缩,计算表达式如下:

式中:L

式中:φ(,)表示线性变换层;W表示可学习的参数;δ表示ReLU激活函数。

2)词句间关系的表征学习

在问题生成任务中,本发明实施例词句间关系的表征学习是一个不可缺少的步骤,类似于图建模学习的方法,能够让模型学习到文章的结构信息,并且不需要人为地去构建图来干预模型学习到的内容。使用注意力机制来提取文中词句间关联信息,它是一种神经网络架构,通过对输入的加权处理来提高对某些输入的关注度。这种加权处理是动态的,并且根据任务的不同会有所变化,其中每个权重表示网络对于输入序列中不同位置的关注度。这些权重可以表示为一个概率分布,这个分布提示网络关注输入序列中的哪些部分。这样动态加权处理的好处就在于让网络可以更加关注与任务相关的部分,而忽略与任务无关的部分,从而提高模型的效果和泛化能力。本发明实施例中使用到的注意力机制是基于“查询-键-值”(Query-Key-Value)的机制,其中查询是要寻找的内容,键和值是输入序列中的元素。查询和键可以看作是对应的,网络通过计算它们之间的相似度来得到权重。值是输入序列中的元素,对应权重表示网络关注该元素的程度。这种机制通常被称为“自注意力”(Self-Attention),因为输入序列被看作是自己的查询、键和值。在自注意力机制中,需要计算每个位置与其他所有位置的相似度。同时为了减少计算量,还可以引入注意力头(Attention Head)的概念,将输入序列划分为多个部分,每个部分分别计算注意力权重,然后将它们合并起来得到最终的注意力权重,经过了这样的操作,网络就可以同时关注多个相关的部分,从而提高模型的表现。

基于此,词句间关系的表征学习的具体流程为:使用给定的文章词嵌入表示及位置编码信息作为输入,使用线性层将它们映射为三个向量:查询向量(Query)、键向量(Key)和值向量(Value),然后通过对查询向量和所有键向量进行一次点积运算得到每个词对于其他所有词的注意力分布,再将该注意力分布与每个词对应的值向量相乘,最后,为得到最终的词句间关联特征(CF,Context Feature),会对该注意力分布进行归一化及残差连接,避免梯度消失问题,同时保证了数据特征分布的稳定性,加速模型收敛,计算表达式如下:

Q=φ(C,W

K=φ(C,W

V=φ(C,W

式中:D表示键向量的维度;

3)答案级别的表征学习

首先,根据上下文词向量及答案词向量分别计算出查询向量(Query)与键向量(Key),并对它们做一次点积运算得到上下文与词向量的相关性矩阵,其后会使用答案词向量通过线性层及激活函数来计算答案中每个词对于整体答案信息的贡献,最后融合上下文与答案的相关性矩阵及答案权重向量,即对它们做一次矩阵相乘运算,并将得到的权重分配到原始上下文特征中,计算表达式如下:

Q

K

式中:

上述三个级别的表征很好地表示了全文主旨、词句间联系、答案信息三个核心,最后将对这三个表征进行融合得到最终的多尺度表征:

MLF=GCF+CF+ACF

在编码器上将使用两层双向LSTM作为编码器的主体,对前面步骤中得到的多尺度表征进行编码,计算表达式如下:

z

f

g

式中:H表示LSTM的隐藏状态表示,即

在解码器上将使用另一个双层的单向LSTM作为主体。同时为了更好地融合上一步编码器所得的表示信息,在每个解码步中使用注意力机制动态地融合上一步的输出

p

p(y

式中:W

到此便完成了问题生成的步骤,得到问题后将进行干扰项的生成。该部分的编码及解码与问题生成类似不再赘述,主要说明重点的上下文-问题稀疏化过滤以及答案-问题稀疏化过滤部分。

4)上下文-问题稀疏化过滤

首先,本发明实施例引入多头注意力机制来计算文章上下文表征与问题表征的注意力,旨在从更多空间中获取更丰富的语义信息,为后续的稀疏打下基础,计算表达式如下:

式中:φ(,)表示线性变换层;

D

式中:Conv(,)表示卷积函数;

Attn

式中:

式中,

至此,得到了一个融合了稀疏后上下文信息的问题表示。

5)答案-问题稀疏化过滤

首先,本发明实施例将提取出答案整体的句级表示,随后,为了过滤掉答案的相关信息,本发明实施例将先计算每个词到答案的一个语义距离。并使用该距离信息作为门控值来控制问题表示中每个词的信息权重分配,从而稀疏掉答案到问题中距离较近的词信息:

式中:

该部分最后输出的结果即为融合了上下文信息,又过滤了其中与问题信息不相关的部分,同时还剔除了正确答案信息的问题表示结果,最终生成干扰项。

对于问题生成而言,若对数据集内的文本做一些标注,利用所制定的规则来标注出答案相关句,并在后续构建图时仅使用答案相关句及这些相关句中间的句子。这种方法抛弃了众多规则中认为不重要的句子,一方面确实消除掉了很大的噪音,但同时另一方面也有可能抛弃掉了许多潜在的相关重点句,而往往就是该种较为隐晦的句子所生成的问题比较难以回答。

针对该情况,本发明实施例认为不应该使用死板的规则来限定需要的语句,应该让模型自己具备学习能力,针对不同文章可能会有不同的句子选择方法。因此本发明实施例提出了多尺度表征,目的在于将筛选重点句的过程也交由模型训练,虽然可能会增加训练时间,但可以让模型生成出更高质量的问题。同时对于中学阅读理解文本,通过观察发现要想生成问题有三个重要的核心:(1)全文主旨,缺少主旨生成的问题很容易偏离文章中心,从而问出即使不需要通读文章也能回答的问题;(2)词句间关联,类似于图构建方法,学习词句间关联信息也是提取文章结构信息必不可少的部分;(3)答案信息,由于任务是基于答案之上的,因此需要使用答案信息来对问题的生成进行约束,同时高质量的问题也离不开高质量的答案。

对于干扰项生成而言,图3上展示了一个RACE数据集中的一篇阅读理解文章以及其中一道选择题的例子,用以说明基于一篇冗长文章,生成切合题目意思且与答案语义不重复的干扰项的难度很高。图3中的例子主要讲述在巴西北部的某个热带雨林中,外来人肆意砍伐这里的森林以寻找金子的一段历史,使用方框标记出与问题相关的关键词,由于文章篇幅过长,示例省略了一部分文字,使用省略号代替。在该文章中需要生成合适的干扰项,首先需要根据与问题相关的关键句找到关键词“forest”,虽然该词并未在问题中出现,但通过阅读整篇文章可推理出这些外来人在建造道路与机场时是以砍伐森林为代价的,因此,这个词对于这个问题而言是一个关键词。目前大部分研究都是根据单词匹配的方式寻找关键词,从该处便可以看出这就是模型难以寻找到关键句的原因。在找到关键句后还需要在众多语句中找出与问题相关的句子,如图中标注出的另外两条句子,同时还要进一步排除掉能推理出答案的相关句子。根据剩下的句子信息来生成干扰项,从该例中可以看出,排除无用信息的干扰,找到正确关键的句子对生成干扰项至关重要,因此想在该任务上解决取得较好的性能,要求提高模型在数据集上过滤噪声,寻找关键句的能力。这说明了本发明实施例中使用过滤的方法能很明显地过滤掉大量无关噪声,凸显关键句,说明了本发明实施例的可行性及优势。

对于问题生成研究,为说明本发明方法的有益效果,本发明实施例将对比其他现有研究模型。本发明实施例重新实现了几种当前常见的基于神经网络的文本生成方法,这些方法的代码都已在网络上公开发布。具体对比的研究如下所述:

(1)Seq2Seq:基础的端到端序列编码-解码模型,编码器与解码器都基于最基础的循环神经网络,同时使用注意力机制与拷贝机制对模型进行加强。

(2)Pointer-Generator:编码器与解码器都采用长短期记忆网络的序列编码-解码模型,同时借助Pointer机制解决了OOV问题与重复生成的问题。

(3)HERD:在序列编码-解码模型的基础上采用多层编码器来更好地对输入文本进行建模,可以同时捕获到句子级和词级的信息。

(4)Transformer:标准的基于Transformer的序列编码-解码模型,基于自注意力机制能有效的获取全局信息,并增强了模型的表达能力。

(5)EQG-RACE:在序列编码-解码模型的基础上,对输入文本进行图的构建来丰富文本结构信息,有效地收集了文中离散的答案相关信息并让模型具备更强的推理能力。

基于此,在教育领域阅读理解数据RACE以及通用领域数据集SQuAD上进行实验,同时采用BLEU、ROUGE及METEOR三种文本生成类任务的自动评估指标来比较本发明实施例与以往研究的结果。具体的对比实验结果如下表所示,其中MSRQG(Question Generationbased on Multi-Scale Representation)为本发明实施例的研究。

问题生成的自动评估对比结果

对表中的对比实验结果进行分析,可以得出:

(1)基础的序列编码-解码模型在应对长文本时较难维持如处理通用领域文本时的表现,对模型做出利于对长文本理解的转变,如使用LSTM或Transformer会使结果取得进一步的提升,如Pointer-generator以及HERD。而考虑到构建长文本的结构信息,如使用图建模的方法可以使结果得到更进一步的提升。在本发明实施例中继续对该方法进行改进,采用多尺度表征的方法来提取更丰富的信息,从全文主旨、词句间联系、答案信息三个方面入手,使最终的模型输出结果均优于前人的研究。

(2)除了中学英语阅读理解数据集,在通用领域数据集SQuAD中本发明实施例模型相比以往研究在BLEU-4上同样有明显提升,这说明了模型的普遍有效。但由于本发明实施例主要是针对问题生成任务在中学英语阅读理解数据集上遇到的难点而做的相关改进,因此在其他领域数据集中的提升略低于在中学英阅读理解数据集上的提升,但也一定程度上说明了模型的适用范围。

同时为了更好地评估本发明实施例生成问题的质量以证明模型的有效性,还引入了人工评估方法,实验结果如下表所示:

问题生成的人工评估对比结果

对表进行分析可知:

(1)本发明实施例中的问题生成模型与EQG-RACE在流畅程度与相关程度上均高于Pointer-Generator,这说明对于中学英语阅读理解这种文本较长的数据集,EQG-RACE与本实施例的研究均能提取到结构信息。

(2)而本发明实施例中的问题生成模型在可回答性上较两个模型均取得了明显的提升,这说明结合全文主旨、所有词句关联以及答案信息的表征能获得更强的文章与答案间的关联,这证明了多尺度表征模块的有效性。

为了验证多尺度表征中每个模块的有效性,本发明实施例还设计了一个消融实验,通过对比最基础的仅包含一种表征的模型实验结果、包含了两种表征的模型实验结果与包含所有三种表征的模型实验结果来验证每个尺度的表征对模型结果的影响,结果如下表所示。

问题生成的消融实验结果

其中,Full表示本发明实施例中基于多尺度表征的问题生成方法,包含全文主旨、词句间关联、答案信息三种尺度的表征。-Global表示在此基础之上删除全文主旨尺度的表征模块;-Attn表示在此基础之上再删除词句间关联尺度的表征模块;-Answer表示在此基础之上再删除答案信息尺度的表征模块。

根据该消融实验结果,可以看出在添加了答案信息尺度的表征模块后BLEU-3与BLEU-4有较明显的提升,证明了答案信息对生成正确问句具有较为重要的正向作用。同时添加了词句间关联尺度的表征模块在BLEU指标上有明显的提升,证明了该模块能很好地为模型提供丰富的句间与句内结构信息,且效果要优于此前研究的图建模方法。添加了全文主旨尺度的表征模块也在ROUGE、METEOR上有较好的表现,一定程度上表明了理解全文主旨信息对生成问句的重要性。综上消融实验结果,证明了各个表征模块对模型的贡献,充分说明了本发明多尺度表征学习模块的有效性。

在干扰项生成上,同样基于网络上已公开发布的代码重新实现了几种常见的干扰项生成方法,其中几个方法取得了该领域中最好的性能,具体对比的研究如下所述:

(1)Seq2Seq:基础的端到端序列编码-解码模型,编码器与解码器都基于最基础的循环神经网络,同时使用全局的注意力机制对模型进行加强。同时本发明实施例将该模型中编码器与解码器的长短期记忆网络的隐藏层大小均设为500。

(2)HRED(HieRarchical Encoder-Decoder):在序列编码-解码模型的基础上采用多层编码器来更好地对输入文本进行建模,可以同时捕获到句子级和词级的信息。该模型架构已在摘要生成、标题生成等多项文本生成任务里取得很好的结果,本发明实施例这里同样将该长短期记忆网络的隐藏层大小均设为500。

(3)HSA(HRED+Static Attention):以HERD作为基础模型架构,提出使用动态注意力与静态注意力两种注意力形式来融合文章、问题及答案的信息。动态注意力可以结合在每个循环时间步变化的句子级和单词级注意力来生成更具可读性的序列;静态注意力则是为了调节动态注意力,使其不关注与问题无关的句子或有助于正确选项的句子。

(4)CHN(Co-attention Hierarchical Network):在HSA模型的基础之上提出联合注意力机制来进一步加强文章和问题间的相互影响。一方面计算问题与文章的联合注意力,以让文章表征包含问题信息并与句子级文章表征相融合,另一方面提出添加额外的语义相似性损失计算,以推动生成的干扰项与文章更相关。

对比实验在教育领域阅读理解数据RACE上进行,并根据BLEU、ROUGE及METEOR等文本生成类任务的自动评估指标来比较本发明实施例与以往研究的结果。其中,由于数据集中的每个样例具有三个干扰项,因此本发明实施例对每个干扰项都进行了一次评估并给出不同模型在对应干扰项上的对比结果。具体的对比实验结果如下表所示,其中SparseDG(Distractor Generation based on Sparse filtering)为本发明实施例的研究。

干扰项生成的自动评估对比结果

分析表中数据可知:

(1)首先,HERD模型的各项基础指标较基础的Seq2Seq模型均有明显的提升,这表明中学阅读理解的篇幅较长、信息丰富,基础的序列编码-解码模型难以从序列形式对文章进行特征的提取,而HERD的层次结构对于保持长文本序列输入的语义信息很有效。在基于HERD模型的两个模型HSA与CHN中,CHN的各项检测指标要优于HSA,证明了文章与问题联合注意力模块的有效性,即融合文章信息与问题信息的必要性。

(2)其次,本发明实施例的实验结果在所有评估指标上都明显优于这四个研究的实验结果,证实了本发明在解决教育领域中难以生成切题且与答案语义不重复的候选项问题上的有效性。与HSA、CHN模型相比,本发明实施例在融合文章、问题的基础上有意识地稀疏掉部分信息,包括文章中其他无关信息与正确答案信息,实验结果表明了该稀疏模块的有效性。

为了更好地证明本发明的有效性,引入了人工评估方法,该评估的结果如下表所示。

干扰项生成的人工评估对比结果

分析该表可知,在流畅程度上本发明实施例模型没有明显的提升,这可能是模型更加关注于含有具体意义的重点词句而降低了对连接词等通用词语的关注。但在相关程度与干扰能力指标上本发明实施例模型较对比的模型均有明显提升,这证明了稀疏化过滤方法的有效性。

同时为了验证本发明实施例中提出的各个模块的有效性,设计了一些消融实验,通过控制变量的方法在其他模块不变的情况下去除某个模块来对比与原模型的实验结果。该消融实验的结果如下表所示,其中Full表示包含了所有模块的机遇稀疏化过滤的干扰项生成模型,其中包含上下文-问题稀疏化过滤模块、答案-问题稀疏化过滤模块以及基于问题的初始化模块;-C-Q Sparse表示在整体模型基础上删除了上下文-问题稀疏化过滤模块,但会以一个基础的上下文与问题融合表征来代替;-A-Q Sparse表示在整体模型基础上删除了答案-问题稀疏化过滤模块;-Question Initializer表示在整体模型基础上删除基于问题的初始化模块。

干扰项生成的消融实验结果

分析上表可知:

(1)在删除了上下文-问题稀疏化过滤模块后,BLEU-3、BLEU-4及METEOR指标的值分别下降了0.79、0.85及0.60,并且是所有模块中下降分数最多的,这说明对上下文的稀疏化过滤是本发明实施例中最重要的部分,若不对上下文中繁杂的信息进行过滤,则模型会被上下文中与问句无关的信息干扰从而影响最终生成的干扰项质量。因此,该实验结果很好地证明了上下文-问题稀疏化过滤的有效性。

(2)在删除了答案-问题稀疏化过滤模块后,BLEU-3、BLEU-4及METEOR指标的值分别下降了0.52、0.57及0.43,这是由于干扰项作为不正确的选项,应避免与正确答案语义相同,在过滤了最终表征里的正确答案信息后即可防止模型利用该信息生成正确的选项。因此,该实验结果很好地证明了答案-问题稀疏化过滤的有效性。

(3)在删除了基于问题的初始化模块后,BLEU-3、BLEU-4及METEOR指标的值分别下降了0.26、0.33及0.24,这说明了由问题信息编码的初始隐藏状态可以有效地帮助解码器生成在语义与语法上同时与问题更切合的干扰项。因此,该实验结果很好地证明了基于问题的初始化的有效性。

除此之外,图4展示了一个使用本发明实施例模型生成的问题与数据集中问题对比的案例以说明问题生成的效果和质量,该例中的文章讲述了一个社会人文类型的事件,对比原始问题与生成问题可知,可以看出本发明实施例模型所生成的问题与原始数据中的问题的语义基本一致,都是提问该小男孩买圣诞礼物事送给谁的,而本发明实施例模型生成的问题相比原始问题表述更加清晰,使用的词汇更多。同时,第一个问题并非是可以直接从文中找到原句从而简单地生成问题,而是需要经过多个句子的推理才能得出结论,可以看出本发明实施例生成的问题所包含的语义信息比原数据集中的问题更丰富,这说明模型学习到了文章中丰富的语义信息,在一定程度上证明了多尺度表征模块的有效性。而第二个问题主要关注文中小男孩经历了什么样的事,该问题更注重全文主旨以及哥哥句子间的关联,相关的信息在文中各处都被隐晦地提及,要求读者在文中最后通过新闻上描述的事件才能了解到事情全貌并从全文的信息中推理出该新闻事件即使发生在小男孩身上的事,因此该信息是需要阅读全文后才能总结得出的,这说明了本发明实施例的模型能更关注全文主旨信息,并结合文中各个句子间的信息来生成问题,证明了模型中多个尺度表征模块的有效性。

图5展示了一个由本发明实施例生成干扰项的案例,由于原文较长,省略了一些与问题无关的句子。在此基础之上,部分句子包含了能推理出答案的关键信息,在本发明实施例中会极力避免利用该信息生成干扰项,从生成的结果可以看出三个干扰项的语义信息确实没有与该信息相重叠。同时,文章中所有与干扰项相关的句子都被标记为不同颜色。从中可以看出对应的干扰项都是基于对应的句子信息生成的。首先这些句子均不与答案相关的句子相重叠,说明干扰项的生成不依赖于答案相关信息,证明了答案-问题稀疏化模块的有效性,保证了干扰项的语义不正确性;其次模型成功关注到了部分与问题相关的关键句,排除了其他无关句子的影响,说明了上下文-问题稀疏化模块的有效性;同时通过观察可发现不同干扰项对应的关键句并不相同,说明模型还很好地保证了干扰项的多样性。从干扰项语义上分析,生成的A选项提到让员工对自己的工作感到满意,但只说明这是一个高效的领导会做到的事而非回答实际问题,具有一定迷惑性;生成的B与C选项均是文中提到好领导会做的事,而非针对某个想成功的员工去做的事,因此在保持与正确回答不同时同样具备了一定的迷惑性,在一定程度上证明了干扰项生成的效果与质量。

通过实验对本发明实施例提出的面向文本阅读理解的选择题生成方法加以验证。

1)数据集选取

本发明实施例是基于中学阅读理解的文本进行的,因此实施例的所有训练与实验均基于教育领域的公开阅读理解数据集RACE(ReAding Comprehension dataset fromExaminations)进行。该数据集的原始版本包含来自中国学生中考及高考中英语考试的约27,000篇文章和约100,000个问题,每个问题由对应的文章、一个问句以及四个选项(一个正确答案和三个干扰选项)构成。与其他的阅读理解数据集不同,该数据集的文本涵盖了包括历史、生物、化学、物理、地理、社会学等多个学科的知识,文本的语义信息更加丰富且表达方式更加多样化,这就要求模型能够从如此多繁杂的信息中提取出需要的关键部分,同时该数据集还强调了长文本的阅读和推理能力,这就要求模型能够总结整个长文本,从其中得到核心的全文主旨信息,因此本发明实施例使用该数据集来开展实验。在问题生成研究中,另一个经常被使用到的数据集是SQuAD,它并非教育领域的数据集而是通用领域的数据集,可以从他们的问题词类型分布中初步看出它们的区别,如图6所示。该图展示了这两个数据集的问题词占比分布,尽管这两个数据集中“what”类型的问题都占比最大,但可以很明显地看出“why”和“how”这两种类型的问题在RACE中的占比都比在SQuAD中要大,这说明RACE中的问题比起SQuAD的问题来说更难,因为这两种类型的问题回答起来都需要一定的信息整合能力与阅读推理能力。而对于“who”、“where”、“where”、“when”及“what”这些细节回答类问题则是SQuAD中占比较多,这些问题属于事实回答类型,往往不太强调推理的能力。

2)平台配置

本实验主要基于一台深度学习服务器,其基本配置如下:

处理器为i7-6900K;内存为128G;显卡为4块NVIDIA

3)参数设置

在本发明实施例的模型中,编码器与解码器的LSTM隐藏层大小和词嵌入向量大小均为300,词嵌入向量的初始化词向量使用预训练的GloVe,并在此基础之上进行微调。

输入文章与输出问句的最大长度分别为400和30,生成单词的词汇表为常见的45,000个单词。训练时,使用Adam优化器,学习率设置为0.001,解码时集束搜索的大小设置为10。

具体的实验参数设置如下表所示。

模型参数表

4)评价指标

由于目前问题生成任务上的评估指标仍有所欠缺,因此目前大多数的研究仍基于文本生成类指标来自动评判生成问题的好坏,因此为了更好地对问题质量进行评价,问题生成这项任务一般会同时结合自动评估与人工测评两种方式来共同评价生成问题的好坏,将先后介绍自动评估指标的计算方式以及如何使用人工方式做评估。

以机器翻译为代表,问题生成的自动评估指标通常为BLEU、METEOR和ROUGE,其中BLEU-4为重点观察的指标。BLEU(Bilingual Evaluation Understudy)可以衡量生成句子与参考句子之间的相似程度。具体而言,BLEU会使用生成文本中的n-gram与参考文本中的n-gram进行比较,计算它们之间的重合程度,其中n-gram指的是连续的n个词语,BLEU-1、BLEU-2、BLEU-3、BLEU-4中的数字就对应着n-gram中的n。其计算公式如下所示:

式中:BP(brevity penalty)是一种惩罚因子,用于惩罚生成文本长度过长的情况;ω

METEOR=F

式中:F

式中:X表示生成文本,Y表示参考文本,LCS(X,Y)表示生成文本与参考文本的最长公共子序列的长度,m表示参考文本的长度,n表示生成文本的长度。

以上为常用的三个自动评估问题好坏的指标,但对于问题生成而言,机械式的计算生成文字与目标文字的匹配程度并不能准确地反应问题质量的好坏,因此大多数研究工作都会引入人工评分方式。以他们的评估方法作为参考,实验也将引入同样的人工评估方法,具体方法如下:在规模上,本实施例将使用随机选取的100个由本实施例模型生成的问题作为样本来进行评估;在流程上,本实施例邀请了三名至少持有学士学位并且通过了大学英语六级的研究人员来对这些自动生成的问题进行打分,在对每个问题打分结束后将选取三人分数的平均值作为问题的最终得分;在评分指标上,本实施例的评分将按照以下三个标准进行:(1)流畅程度:衡量这个问题是否流畅通顺,不存在语法错误;(2)相关程度:衡量这个问题与文章在语义上相关;(3)可回答性:衡量这个问题是否可以使用给出的正确答案来回答。对于每个指标,本实施例要求每个研究人员在0到5这个区间内对他们打分,分数越高说明在该指标上效果越好。

对于干扰项生成任务的人工评估方式和对问题生成的评估相似,在规模上,本实施例将随机选取100组由本发明实施例模型生成的干扰项作为样本组;在流程上,本实施例邀请了三名研究人员来对不同模型生成的干扰项进行打分,这三位研究人员均至少持有学士学位并且拥有大学英语六级的水平,在三位评分结束后本实施例将取三人的平均值作为最终得分。在评分指标上,将由以下三个标准构成:(1)流畅程度:衡量干扰项是否流畅,不存在语法错误;(2)相关程度:衡量干扰项是否与文章语义相关,即判断干扰项与文章是否是相关联的而非完全没有联系;(3)干扰能力:衡量干扰项是否能迷惑学生,干扰学生判断。每个指标的分数均在0到5之间,分数越高说明在该指标上效果越好。

本发明另一实施例还提出一种面向文本阅读理解的选择题生成系统,包括:

问题生成模块,用于通过全文主旨级别的表征学习、词句间关系的表征学习以及答案级别的表征学习,从文本中生成问题;

上下文-问题稀疏化过滤模块,用于通过上下文-问题稀疏化过滤,在融合上下文以及问题信息的同时过滤掉上下文中与问题不相关的信息;

答案-问题稀疏化过滤模块,用于通过答案-问题稀疏化过滤,在生成干扰项的过程中过滤掉正确答案相关的信息,从而避免生成与答案语义一致的干扰项。

本发明另一实施例还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述面向文本阅读理解的选择题生成方法。

示例性的,所述存储器中存储的指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在计算机可读存储介质中,并由所述处理器执行,以完成本发明面向文本阅读理解的选择题生成方法。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在服务器中的执行过程。

所述电子设备可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述电子设备还可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可以是所述服务器的内部存储单元,例如服务器的硬盘或内存。所述存储器也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是,上述模块单元之间的信息交互、执行过程等内容,由于与方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号