首页> 中国专利> 基于多任务联合训练的文言文机器阅读理解方法

基于多任务联合训练的文言文机器阅读理解方法

摘要

本发明提供一种基于多任务联合训练的文言文机器阅读理解方法,包括如下步骤:建立基于多任务联合训练的文言文机器阅读理解模型,然后对文言文进行多任务联合训练;文言文机器阅读理解模型包括:上下文抽取模块、多模型编码模块、双向匹配模块、断句模块和答案分类模块;用上下文抽取模块,对文言文进行抽取,将结果输入多模型编码模块处理;用多模型编码模块对文言文编码,获得其向量化表示;用门机制将其融合;将所得结果输入双向匹配模块和断句模块中处理,用答案分类模块处理双向匹配模块和断句模块的输出结果,得到最终结果。本发明能够准确地针对文言文进行断句处理,并且能够兼顾古文与现代文同时存在的情况,更准确地处理文言文。

著录项

  • 公开/公告号CN113190659A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 中南大学;

    申请/专利号CN202110728240.3

  • 申请日2021-06-29

  • 分类号G06F16/33(20190101);G06F16/35(20190101);G06F40/126(20200101);G06F40/216(20200101);G06F40/30(20200101);G06K9/62(20060101);

  • 代理机构43228 长沙惟盛赟鼎知识产权代理事务所(普通合伙);

  • 代理人滕澧阳

  • 地址 410000 湖南省长沙市岳麓区麓山南路932号

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明具体涉及一种基于多任务联合训练的文言文机器阅读理解方法。

背景技术

机器阅读理解是自然语言处理中的一项重要任务,通过模型与算法使机器读懂人类语言,并回答相应问题。单项选择任务是机器阅读理解任务中的一个子任务,通过给定上下文,问题与选项,从多个选项中选取最佳的答案。现有机器阅读理解模型在单项选择任务上的常用框架为将上下文、问题、选项进行编码,获取它们的向量化表示,而后上下文、问题与选项进行交互,最后通过上下文、问题与选项的交互结果进行分类,从中选择概率最高的选项作为结果。

现有技术:中国发明专利公开说明书:公开号CN112269868A,公开日20210126,公开了一种基于多任务联合训练的机器阅读理解模型的使用方法,包括如下步骤:S1:建立基于多任务学习的阅读理解模型,将阅读理解任务分为多个子任务,设计多个子模块分别进行处理,并进行多任务联合训练,其中子模块包括文本编码模块;答案抽取模块;答案分类模块;支撑句判别模块;S2:将文本及问题输入文本编码模块,由文本编码模块进行编码,然后输入至答案抽取模块与答案分类模块与支撑句判别模块;S3:由答案抽取模块、答案分类模块与支撑句判别模块输出结果。

但是,因为文言文与现代文之间存在着巨大的差异,现有技术中的方法难以特别针对文言文做出有效地处理,并且解决文言文断句选择题与传统的阅读理解问题对模型具备的能力的要求不同,现有技术难以完成文言文断句类型的选择题。

又因为文言文和现代文之间继承和发展的关系,在文言文原文中可能出现接近现代文的段落。除此之外,使用机器阅读应用在文言文单项选择题目中的时候,由于文言文的阅读理解中往往存在以题目形式出现的现代文或选项;仅使用文言文模型的现有技术无法兼顾古文与现代文同时存在的情况,在文本编码中获得的向量化表示质量不佳。

因此,需要一种基于多任务联合训练的文言文机器阅读理解方法,来解决现有技术中的不足。

发明内容

本发明提供一种基于多任务联合训练的文言文机器阅读理解方法,能够准确地针对文言文断句问题中的问题句进行断句处理,并且能够兼顾古文与现代文同时存在的情况,更准确地处理文言文,从而解决现有技术中的问题。

基于多任务联合训练的文言文机器阅读理解方法,包括如下步骤:

步骤1,将目标文言文分为文本、问题和选项,建立基于多任务联合训练的文言文机器阅读理解模型,然后对所述文本、问题和选项进行多任务联合训练;所述文言文机器阅读理解模型包括:上下文抽取模块、多模型编码模块、双向匹配模块、断句模块和答案分类模块;

步骤2,使用上下文抽取模块,将目标文言文中的文本进行抽取,得到对问题与当前选项重要程度高的句子作为上下文;然后将所述上下文、问题和选项输入多模型编码模块进行处理;

步骤3,在多模型编码模块中使用GuwenBERT预训练语言模型与BERT预训练语言模型对上下文、问题和选项进行编码,获得其向量化表示;然后使用门机制将编码后的上下文、问题和选项的向量化表示分别进行融合;然后将得到的结果分别输入双向匹配模块和断句模块中进行处理;

步骤4,在断句模块中,基于CRF模型对步骤3中的输出结果进行断句,获得断句模块的损失,同时获取所述文本的最佳断句与选项匹配,得到当前选项是正确答案的可能性度量;

步骤5,使用答案分类模块分别处理步骤3中双向匹配模块和步骤4中断句模块的输出结果,并得到最终结果。

采用这样的方法,本发明使用断句模块对文言文进行断句处理,增强了断句的精度,使得机器阅读理解更好地应用于文言文中。本发明还使用针对文言文的GuwenBERT预训练语言模型与针对现代文的BERT预训练语言模型对上下文、问题和选项进行处理,兼顾古文与现代文同时存在的情况,从而得到更加精确的结果。

进一步的,所述步骤2包括:

步骤2.1,将所述文本根据其标点符号进行断句,将所述文本转化为包括多个子句的集合

步骤2.2,对集合S中的每一个子句与搜索句进行分词,创建词表与词袋模型,并由词表与词袋模型为所有子句与搜索句构建空间向量;

步骤2.3,为集合S中的每一个子句与搜索句的每一个词语计算词频和逆向文件频率,并计算每个词的TF-IDF值,计算公式为:

其中TF为计算词频,IDF为逆向文件频率;

步骤2.4,以子句与搜索句中每个词的TF-IDF值为句子的空间向量加权,计算搜索句与每个子句之间的余弦相似度,获取相似度较高的几个子句作为上下文。

预训练语言模型的最大输入文本长度一般限制为512个字符,而一篇文言文通常超过这一限制;采用这样的方法,本发明的上下文抽取模块使用TF-IDF算法结合余弦相似度在上下文中抽取与问题、选项最相关的几个句子作为新的上下文,缩短上下文的长度。而在完成文言文的阅读理解任务时,整个文言文中有帮助的往往只有几个关键句,使用余弦相似度在原始的文本中寻找与问题以及选项最匹配的几个句子,在缩短上下文长度并有效的排除部分无用信息,同时使用TF-IDF算法加权集合句子的关键信息,从而保留对获得正确答案最有价值的关键句,进一步提高筛选得到句子的质量。

进一步的,所述步骤3包括:

步骤3.1,使用GuwenBERT预训练语言模型与BERT预训练语言模型对上下文、问题与选项进行编码,分别获得如下两个预训练语言模型的上下文、问题与选项的向量化表示,公式如下:

其中,

步骤3.2,使用门机制分别将两个预训练语言模型获得的对上下文、问题、选项的向量化表示进行融合,计算公式如下:

其中,

文言文的原文中可能出现接近现代文的段落。除此之外,使用机器阅读应用在文言文单项选择题目中的时候,由于文言文的阅读理解中往往存在现代文与文言文相结合的题目与选项。而本发明的多模型编码模块拼接上下文、问题与答案作为输入,并使用针对文言文的GuwenBERT预训练语言模型与针对现代文的BERT预训练语言模型分别抽取原始文本的语义特征,获得原始文本的两个向量化表示,然后对其使用门机制融合两个表示。通过门机制能够动态的设定两种向量化表示的权重,使得两种向量化表示的融合更加灵活。从而兼顾古文与现代文同时存在的情况,能够对文言文做出更加精确地解读。

进一步的,所述双向匹配模块的处理步骤包括:

步骤a,分别对上下文与问题、问题与选项以及上下文与选项进行双向匹配,获得双向表示,公式如下:

其中,

步骤b,使用门机制融合步骤a中所述的双向表示,获得包含交互信息的最终表示,公式如下:

其中,

本发明的双向匹配模块使上下文、问题与选项交互,获取上下文与问题、问题与选项、上下文与选项之间的双向表示,采用这样的方法获取了上下文与问题、问题与选项、上下文与选项之间的相互关系,而不只关注单独的上下文、问题与选项,从而让本发明更加关注于有效的信息;而后用门机制将双向匹配的表示进行融合,能够动态的控制有效信息的权重,得到更加精确的结果。

进一步的,所述步骤4包括:

步骤4.1,设置标签为

步骤4.2,为每个选项增加掩码

其中,

步骤4.3,根据步骤4.2所述的Mask获得其中值为1的索引集合Index,并计算CRF模型的损失,公式如下:

其中,Rout为CRF中所有可能路径的集合,

步骤4.4,通过维特比算法获得步骤4.3中所述Rout集合中的概率最大的路径ptag,将所述ptag记为当前原始句的正确断句;然后将所述ptag与当前选项对应的标签序列otag的相应位进行同或运算,来得到其匹配程度;然后以所述匹配程度作为当前选项是否正确的可能性度量;公式如下:

其中,Sim为ptag与otag的匹配程度。

传统阅读理解模型在断句类型的问题上表现较差,难以正确预测出正确答案。本发明的断句模块将断句任务视为序列标注任务,针对断句类型的选择题增加基于CRF的断句模块与答案分类模块联合训练,基于CRF的断句模块在断句任务上能够取得较好的结果,根据其预测结果获得当前选项是否正确的度量对答案分类模块对断句问题的预测结果有补充的作用,能有效的提高模型在文言文选择题上的表现,增强了断句的精度。

进一步的,所述步骤5包括:

步骤5.1,对双向匹配模块的输出结果进行四分类处理,分别对应A、B、C和D四个选项为正确答案的概率;

步骤5.2,合并断句模块中得到的结果,并将其归一化,得到每个选项为正确答案的概率;

步骤5.3,以选项中是否包含分隔符作为标准,判断当前问题是否为断句问题,若结果为是,则与断句模块的输出结果结合;

步骤5.4,通过交叉熵损失函数计算预测结果与正确答案之间的损失,若当前问题是断句问题,则增加断句模块的损失。

进一步的,所述步骤5.1中每个选项为正确答案的概率为:

其中,

所述述步骤5.2中每个选项为正确答案的概率为:

其中,

进一步的,所述步骤5.3中的计算公式为:

其中,

所述步骤5.4中的计算公式为:

其中,

在面对文言文阅读理解题目时,传统的阅读理解模型不对问题进行分类,通过四分类直接获得每个选项是正确的答案的可能性,这样的方法在断句问题上的效果不好。本发明的答案分类模块根据双向匹配模块得到的表示进行四分类,分别对应选项A、B、C、D为正确答案的概率。将问题分为断句问题与其他问题,额外设计断句模块,若当前问题是一个断句问题,则将上述概率与断句模块的输出相加后作为最终的结果。得到了更准确的结果。

本发明的有益效果如下:

1.本发明的多模型编码模块拼接上下文、问题与答案作为输入,并使用针对文言文的GuwenBERT预训练语言模型与针对现代文的BERT预训练语言模型分别抽取原始文本的语义特征,获得原始文本的两个向量化表示,然后对其使用门机制融合两个表示。通过门机制能够动态的设定两种向量化表示的权重,使得两种向量化表示的融合更加灵活。从而兼顾古文与现代文同时存在的情况,能够对文言文做出更加精确地解读。

2.本发明使用断句模块对文言文进行断句处理,基于CRF的断句模块在断句任务上能够取得较好的结果,根据其预测结果获得当前选项是否正确的度量对答案分类模块对断句问题的预测结果有补充的作用,能有效的提高模型在文言文选择题上的表现,增强了断句的精度。

3.本发明本发明的双向匹配模块使上下文、问题与答案交互,获取了其相互关系,不只关注单独的上下文、问题与选项,从而让本发明更加关注于有效的信息;而后用门机制将双向匹配的表示进行融合,能够动态的控制有效信息的权重,得到更加精确的结果。

4.本发明的上下文抽取模块使用TF-IDF算法结合余弦相似度在上下文中抽取与问题、选项最相关的几个句子作为新的上下文,缩短上下文的长度,排除部分无用信息,同时使用TF-IDF算法加权集合句子的关键信息,从而保留对获得正确答案最有价值的关键句,进一步提高筛选得到句子的质量。

5.本发明使用答案分类模块,根据双向匹配模块得到的表示进行四分类,分别对应选项A、B、C、D为正确答案的概率。将问题分为断句问题与其他问题,额外设计断句模块,若当前问题是一个断句问题,则将上述概率与断句模块的输出相加后作为最终的结果。得到了更准确的结果。

附图说明

图1为本发明基于多任务联合训练的文言文机器阅读理解方法的流程图;

图2为本发明中目标文言文的数据拼接形式;

图3为本发明流程图中多模型编码模块的示意图;

图4为本发明流程图中答案分类模块的示意图。

具体实施方式

显然,下面所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

如图2所示,上下文(Context)、问题(Query)与选项(Option)构成一个数据单元,一条数据包含四个上述数据单元,分别对应选项A、B、C、D。

如图1-图4所示:

基于多任务联合训练的文言文机器阅读理解方法,包括如下步骤:

步骤1,将目标文言文分为文本、问题和选项,建立基于多任务联合训练的文言文机器阅读理解模型,然后对所述文本、问题和选项进行多任务联合训练;所述文言文机器阅读理解模型包括:上下文抽取模块、多模型编码模块、双向匹配模块、断句模块和答案分类模块;

步骤2,使用上下文抽取模块,将目标文言文中的文本进行抽取,得到对问题与当前选项重要程度高的句子作为上下文;然后将所述上下文、问题和选项输入多模型编码模块进行处理;

步骤3,在多模型编码模块中使用GuwenBERT预训练语言模型与BERT预训练语言模型对上下文、问题和选项进行编码,获得其向量化表示;然后使用门机制将编码后的上下文、问题和选项的向量化表示分别进行融合;然后将得到的结果分别输入双向匹配模块和断句模块中进行处理;

步骤4,在断句模块中,基于CRF模型对步骤3中的输出结果进行断句,获得断句模块的损失,同时获取所述文本的最佳断句与选项匹配,得到当前选项是正确答案的可能性度量;

步骤5,使用答案分类模块分别处理步骤3中双向匹配模块和步骤4中断句模块的输出结果,并得到最终结果。

采用这样的方法,本发明使用断句模块对文言文进行断句处理,增强了断句的精度,使得机器阅读理解更好地应用于文言文中。本发明还使用针对文言文的GuwenBERT预训练语言模型与针对现代文的BERT预训练语言模型对上下文、问题和选项进行处理,兼顾古文与现代文同时存在的情况,从而得到更加精确的结果。

所述步骤2包括:

步骤2.1,将所述文本根据其标点符号进行断句,将所述文本转化为包括多个子句的集合

步骤2.2,对集合S中的每一个子句与搜索句进行分词,创建词表与词袋模型,并由词表与词袋模型为所有子句与搜索句构建空间向量;

步骤2.3,为集合S中的每一个子句与搜索句的每一个词语计算词频和逆向文件频率,并计算每个词的TF-IDF值,计算公式为:

其中TF为计算词频,IDF为逆向文件频率;

步骤2.4,以子句与搜索句中每个词的TF-IDF值为句子的空间向量加权,计算搜索句与每个子句之间的余弦相似度,获取相似度较高的几个子句作为上下文。

预训练语言模型的最大输入文本长度一般限制为512个字符,而一篇文言文通常超过这一限制;采用这样的方法,本发明的上下文抽取模块使用TF-IDF算法结合余弦相似度在上下文中抽取与问题、选项最相关的几个句子作为新的上下文,缩短上下文的长度。而在完成文言文的阅读理解任务时,整个文言文中有帮助的往往只有几个关键句,使用余弦相似度在原始的文本中寻找与问题以及选项最匹配的几个句子,在缩短上下文长度并有效的排除部分无用信息,同时使用TF-IDF算法加权集合句子的关键信息,从而保留对获得正确答案最有价值的关键句,进一步提高筛选得到句子的质量。

所述步骤3包括:

步骤3.1,使用GuwenBERT预训练语言模型与BERT预训练语言模型对上下文、问题与选项进行编码,分别获得如下两个预训练语言模型的上下文、问题与选项的向量化表示,公式如下:

其中,

步骤3.2,使用门机制分别将两个预训练语言模型获得的对上下文、问题、选项的向量化表示进行融合,计算公式如下:

其中,

文言文的原文中可能出现接近现代文的段落。除此之外,使用机器阅读应用在文言文单项选择题目中的时候,由于文言文的阅读理解中往往存在现代文与文言文相结合的题目与选项。而本发明的多模型编码模块拼接上下文、问题与答案作为输入,并使用针对文言文的GuwenBERT预训练语言模型与针对现代文的BERT预训练语言模型分别抽取原始文本的语义特征,获得原始文本的两个向量化表示,然后对其使用门机制融合两个表示。通过门机制能够动态的设定两种向量化表示的权重,使得两种向量化表示的融合更加灵活。从而兼顾古文与现代文同时存在的情况,能够对文言文做出更加精确地解读。

所述双向匹配模块的处理步骤包括:

步骤a,分别对上下文与问题、问题与选项以及上下文与选项进行双向匹配,获得双向表示,公式如下:

其中,

步骤b,使用门机制融合步骤a中所述的双向表示,获得包含交互信息的最终表示,公式如下:

其中,

本发明的双向匹配模块使上下文、问题与选项交互,获取上下文与问题、问题与选项、上下文与选项之间的双向表示,采用这样的方法获取了上下文与问题、问题与选项、上下文与选项之间的相互关系,而不只关注单独的上下文、问题与选项,从而让本发明更加关注于有效的信息;而后用门机制将双向匹配的表示进行融合,能够动态的控制有效信息的权重,得到更加精确的结果。

所述步骤4包括:

步骤4.1,设置标签为

步骤4.2,为每个选项增加掩码

其中,

步骤4.3,根据步骤4.2所述的Mask获得其中值为1的索引集合Index,并计算CRF模型的损失,公式如下:

其中,Rout为CRF中所有可能路径的集合,

步骤4.4,通过维特比算法获得步骤4.3中所述Rout集合中的概率最大的路径ptag,将所述ptag记为当前原始句的正确断句;然后将所述ptag与当前选项对应的标签序列otag的相应位进行同或运算,来得到其匹配程度;然后以所述匹配程度作为当前选项是否正确的可能性度量;公式如下:

其中,Sim为ptag与otag的匹配程度。

传统阅读理解模型在断句类型的问题上表现较差,难以正确预测出正确答案。本发明的断句模块将断句任务视为序列标注任务,针对断句类型的选择题增加基于CRF的断句模块与答案分类模块联合训练,基于CRF的断句模块在断句任务上能够取得较好的结果,根据其预测结果获得当前选项是否正确的度量对答案分类模块对断句问题的预测结果有补充的作用,能有效的提高模型在文言文选择题上的表现,增强了断句的精度。

所述步骤5包括:

步骤5.1,对双向匹配模块的输出结果进行四分类处理,分别对应A、B、C和D四个选项为正确答案的概率;

步骤5.2,合并断句模块中得到的结果,并将其归一化,得到每个选项为正确答案的概率;

步骤5.3,以选项中是否包含分隔符作为标准,判断当前问题是否为断句问题,若结果为是,则与断句模块的输出结果结合;

步骤5.4,通过交叉熵损失函数计算预测结果与正确答案之间的损失,若当前问题是断句问题,则增加断句模块的损失。

所述步骤5.1中每个选项为正确答案的概率为:

其中,

所述述步骤5.2中每个选项为正确答案的概率为:

其中,

所述步骤5.3中的计算公式为:

其中,

所述步骤5.4中的计算公式为:

其中,

在面对文言文阅读理解题目时,传统的阅读理解模型不对问题进行分类,通过四分类直接获得每个选项是正确的答案的可能性,这样的方法在断句问题上的效果不好。本发明的答案分类模块根据双向匹配模块得到的表示进行四分类,分别对应选项A、B、C、D为正确答案的概率。将问题分为断句问题与其他问题,额外设计断句模块,若当前问题是一个断句问题,则将上述概率与断句模块的输出相加后作为最终的结果。得到了更准确的结果。

本发明的有益效果如下:

1.本发明的多模型编码模块拼接上下文、问题与答案作为输入,并使用针对文言文的GuwenBERT预训练语言模型与针对现代文的BERT预训练语言模型分别抽取原始文本的语义特征,获得原始文本的两个向量化表示,然后对其使用门机制融合两个表示。通过门机制能够动态的设定两种向量化表示的权重,使得两种向量化表示的融合更加灵活。从而兼顾古文与现代文同时存在的情况,能够对文言文做出更加精确地解读。

2.本发明使用断句模块对文言文进行断句处理,基于CRF的断句模块在断句任务上能够取得较好的结果,根据其预测结果获得当前选项是否正确的度量对答案分类模块对断句问题的预测结果有补充的作用,能有效的提高模型在文言文选择题上的表现,增强了断句的精度。

3.本发明本发明的双向匹配模块使上下文、问题与答案交互,获取了其相互关系,不只关注单独的上下文、问题与选项,从而让本发明更加关注于有效的信息;而后用门机制将双向匹配的表示进行融合,能够动态的控制有效信息的权重,得到更加精确的结果。

4.本发明的上下文抽取模块使用TF-IDF算法结合余弦相似度在上下文中抽取与问题、选项最相关的几个句子作为新的上下文,缩短上下文的长度,排除部分无用信息,同时使用TF-IDF算法加权集合句子的关键信息,从而保留对获得正确答案最有价值的关键句,进一步提高筛选得到句子的质量。

5.本发明使用答案分类模块,根据双向匹配模块得到的表示进行四分类,分别对应选项A、B、C、D为正确答案的概率。将问题分为断句问题与其他问题,额外设计断句模块,若当前问题是一个断句问题,则将上述概率与断句模块的输出相加后作为最终的结果。得到了更准确的结果。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号