首页> 中国专利> 一种基于多任务学习的生成式阅读理解方法

一种基于多任务学习的生成式阅读理解方法

摘要

本发明提供了一种基于多任务学习的生成式阅读理解方法,所述方法包括如下步骤:获取目标问题和目标段落,获取目标问题和目标段落的对应的特征向量,将特征向量输入到目标阅读理解模型,获取目标答案;从而提高目标答案的准确性和可靠性。

著录项

  • 公开/公告号CN115952261A

    专利类型发明专利

  • 公开/公告日2023-04-11

    原文格式PDF

  • 申请/专利权人 北京中科闻歌科技股份有限公司;

    申请/专利号CN202211583589.3

  • 申请日2022-12-09

  • 分类号G06F16/332(2019.01);G06F16/33(2019.01);G06F40/30(2020.01);G06N3/0455(2023.01);G06N3/08(2023.01);

  • 代理机构北京锺维联合知识产权代理有限公司 11579;

  • 代理人安娜

  • 地址 100190 北京市海淀区北四环西路9号楼7层717室

  • 入库时间 2023-06-19 19:18:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-28

    实质审查的生效 IPC(主分类):G06F16/332 专利申请号:2022115835893 申请日:20221209

    实质审查的生效

  • 2023-04-11

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及信息处理领域,特别是涉及一种基于多任务学习的生成式阅读理解方法。

背景技术

机器阅读理解技术即机器自动基于给定的文本回答用户所提出的问题的技术,是当前自动问答领域的研究热点之一。近年来,随着大规模阅读理解数据集的构建以及预训练模型的提出,机器阅读理解技术取得了巨大发展。

目前主流的机器阅读理解模型通常将答案设定为段落中的一个连续片段,这种抽取式阅读理解模型存在一定的局限性,仅能直接以段落中的片段作为答案,导致在针对某些问题时,无法给出自然流畅的答案;此外,如果将问题与答案分离,仅根据答案无法获得完整清晰的信息。与抽取式阅读理解相比,生成式阅读理解不再局限于直接从段落片段中抽取答案,而是参考段落、问题、词表,生成更为自然和完整的表述作为答案。因此如何设计更好的生成式框架是机器阅读理解任务面临的重要挑战。

发明内容

针对上述技术问题,本发明采用的技术方案为:一种基于多任务学习的生成式阅读理解方法,所述方法包括如下步骤:

S100,获取目标问题和目标段落。

S200,获取目标问题和目标段落的对应的特征向量。

S300,将特征向量输入到目标阅读理解模型,获取目标答案。

本发明至少具有以下有益效果:

本发明通过目标阅读理解模型结合了抽取式阅读理解和生成式阅读理解,并在生成过程中引入了copy机制,生成了自然流畅的答案,同时提高了目标答案的准确性和可靠性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于多任务学习的生成式阅读理解方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种基于多任务学习的生成式阅读理解方法,如图1所示,所述方法包括如下步骤:

S100,获取目标问题和目标段落。

具体地,所述目标问题和目标段落可以由用户输入。

S200,获取目标问题和目标段落的对应的特征向量。

具体地,将目标问题和目标段落与既定标识符CLS、SEP进行拼接得到目标序列,其中,CLS置于首位,用于标识目标问题和目标段落的语义,SEP置于目标问题和目标段落的的中间,用于分割目标问题和目标段落的字符输入。

进一步地,将目标序列映射为字符嵌入、位置嵌入、句子类型嵌入,并将3种嵌入表示相加得到目标问题和目标段落对应的特征向量。

S300,将特征向量输入到目标阅读理解模型,获取目标答案。

具体地,目标阅读理解模型的获取包括以下步骤:

S10,获取训练用数据集X={X

S20,基于训练用数据集X,获取第一训练用输入数据集E={E

S30,基于第一训练用输入数据集E和第一训练用真实答案数据集F对构建的阅读理解模型进行训练,并将训练后的阅读理解模型确定为目标阅读理解模型。

更进一步地,S30具体包括以下步骤:

S31,将第一训练用输入数据集E分为s1个训练集和s2个验证集以及s3个测试集,其中s1+s2+s3=n。

可选地,s1:s2:s3=8:1:1。

S33,构建阅读理解模型并设置参数值,利用s1个训练集及其对应的s1个第一训练用真实答案数据对构建的阅读理解模型进行训练,得到训练后的阅读理解模型。

具体地,所述构建的阅读理解模型包括构建的抽取式阅读理解模型、UniLM的单向解码器、copy机制。

更进一步地,S33中,利用s1个训练集及其对应的s1个第一训练用真实答案数据对阅读理解模型进行训练包括如下步骤:

S331,获取s1个训练集对应的第二训练用输入数据集E′={E′

S332,将E′输入构建的抽取式阅读理解模型,获取E′的训练用语义向量集A和训练用抽取答案集Y;

具体地,所述构建的抽取式阅读理解模型包括UniLM模型的双向编码器层、全连接层、Softmax层。

进一步地,所述训练用抽取答案集的获取包括如下步骤:

S3321,将E′输入到UniLM模型的双向编码器中,获取对应的编码向量列表。

具体地,将E′输入到UniLM模型的双向编码器,获取每个文本对应的编码向量,组成编码向量列表。

S3322,将编码向量列表输入到全连接层,获取每一编码向量作为目标答案开头和结尾的第一概率值,所述第一概率值是指未经过归一化的概率值。

S3323,将第一概率值输入到Softmax层进行归一化处理,获取第二概率值。

S3324,基于第二概率值,获取训练用抽取答案集。

S333,将训练用语义向量集输入UniLM的单向解码器,获取训练用解码语义向量集。

S334,将训练用解码语义向量集输入copy机制并使用BIO标注,获取训练用标签序列集,所述训练用标签为O或者B、I和a、p的组合,其中a为训练用抽取答案和第一训练用真实答案数据共有字符串的标识,p为第一训练用真实答案数据和第一训练用输入数据对应的训练用段落共有字符串的标识,B为目标段落中字符串的标识,I为目标段落中可以组成连续片段的字符串的标识,O为预测字符串的标识。

具体地,当训练用标签为O,则说明训练用标签对应的值为预测内容,当训练用标签为B,那么mask掉不属于第二训练用输入数据对应的训练用段落中的字符串,当训练用标签为I,那么mask掉所有不能组成第二训练用输入数据对应的训练用段落中连续片段的字符串。也就是说,解码的时候通过mask的方式,保证当训练用标签为B或者I时,保证该训练用标签对应的值为第二训练用输入数据对应的训练用段落中的部分。

具体地,S334中所述训练用标签包括如下步骤:

S3341,当训练用标签是O时,采用copy机制进行预测训练用标签对应的值。

S3342,当训练用标签是B-a时,从训练用抽取答案中进行抽取字符串作为该训练用标签对应的目标答案。

S3343,当训练用标签是I-a时,从训练用抽取答案中抽取可以组成连续片段的字符串作为该训练用标签对应的目标答案。

S335,基于训练用抽取答案集和训练用标签序列集,预测训练用目标答案集。

S336,通过最小化损失函数,获取训练后的阅读理解模型,所述损失函数为第一训练用损失函数和第二训练用损失函数之和,所述第一训练用损失函数是训练用抽取答案和训练用真实答案的损失,所述第二训练用损失函数是训练用目标答案和训练用真实答案的损失。

S35,对训练后的阅读理解模型进行评估,将评估结果满足第一预设条件的模型确定为待测试阅读理解模型。

具体地,所述评估条件满足第一预设条件是s1个训练集的准确率大于第一准确率阈值,其中,第一准确率阈值可根据实际需求确定。

S37,利用s2个验证集及其对应的s2个第一训练用真实答案数据对待测试阅读理解模型进行验证,获取验证结果。

S39,当验证结果满足第二预设条件时,将待测试阅读理解模型确定为目标阅读理解模型。

具体地,所述测试结果满足第二预设条件是s2个训练集的准确率大于第二准确率阈值,其中,第二准确率阈值可根据实际需求确定。

具体地,在S39后还包括:利用s3个测试集及其对应的s3个第一训练用真实答案数据对目标阅读理解模型进行测试,获取对应的评估指标得分。

进一步地,本发明使用ROUGE-N作为评估指标,来判断目标copy模型的泛化能力。

具体地,本领域技术人员知晓,现有技术中任何一种获取ROUGE-N得分的方法,均属于本发明保护范围,此处不再赘述。

基于S10-S30,获取训练用数据集,并对训练用数据集进行处理,获取第一训练用输入数据集和第一训练用真实答案数据集,使用第一训练用输入数据集和第一训练用真实答案数据集对构建的阅读理解模型进行训练,将训练集对应的第二训练用输入数据集输入构建的抽取式阅读理解模型,获取训练用语义向量集和训练用抽取答案集,将训练用语义向量集输入UniLM的单向解码器,获取训练用解码语义向量集,并输入copy机制使用BIO标注,获取训练用标签序列,基于训练用标签序列预测训练用目标答案集,通过最小化损失函数获取训练后的阅读理解模型,通过训练最小化损失函数,使得训练用目标答案更加接近第一训练用真实答案数据。

综上,本发明通过同时将目标问题和目标段落输入到目标阅读理解模型进行抽取,获取目标答案,目标答案为自然流畅的答案,本发明融合了抽取式阅读理解模型和生成式阅读理解模型,并在生成过程种引入了copy机制,从而提高目标答案的准确性和可靠性。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号