首页> 中国专利> 一种基于BERT神经网络和多任务学习的主观题自动评阅方法

一种基于BERT神经网络和多任务学习的主观题自动评阅方法

摘要

本发明公开了一种基于BERT神经网络和多任务学习的主观题自动评阅方法,涉及人工智能与智慧教育的交叉领域。首先,使用经过大规模语料预训练的BERT神经网络进行编码,有效解决主观题自动评阅任务中语料过小的问题,并联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型。其次,使用所训练的多任务神经网络模型,从题干中提取代词成分来替换学生答案中的代词,确保学生答案语义的完整性。然后,将消代后的学生答案与标准答案形成句子对,送入BERT神经网络进行分类,得到学生答案的评分等级。通过消除学生答案中的代词,以更有效的方法解决主观题自动评阅问题。

著录项

  • 公开/公告号CN114579706A

    专利类型发明专利

  • 公开/公告日2022-06-03

    原文格式PDF

  • 申请/专利权人 桂林旅游学院;

    申请/专利号CN202210222404.X

  • 发明设计人 陈意山;吴晗;罗建华;

    申请日2022-03-07

  • 分类号G06F16/33;G06F16/35;G06F40/216;G06F40/30;G06K9/62;G06N3/04;G06N3/08;

  • 代理机构南宁东智知识产权代理事务所(特殊普通合伙);

  • 代理人裴康明

  • 地址 541006 广西壮族自治区桂林市雁山区雁山镇良丰路26号

  • 入库时间 2023-06-19 15:32:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-03

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及人工智能与智慧教育的交叉领域,尤其是一种基于BERT神经网络和多任务学习的主观题自动评阅方法,可广泛应用于各个学科的主观题计算机自动阅卷系统中。

背景技术

考试试卷中的试题从答案组成的形式上,被普遍分为客观题与主观题两大类。答案以选项编号表示的单选题、多选题、判断题等试题被称为客观题,而答案采用自然语言表示的简答题、名词解释和论述题等试题被称为主观题。由于单选题、多选题、判断题等客观题目的答案都是以选项编号表示,目前计算机对于此类题型进行自动阅卷时,只需将标准答案的选项编号与学生答案的选项编号进行简单的匹配运算,匹配成功则答案正确,该处理技术已经取得较好的成果。但对于答案采用自然语言表示的主观题自动阅卷技术,如:对简答题、名词解释和论述题等自动评卷,由于其受到自然语言理解、模式识别等理论与技术瓶颈影响,效果不是很理想。

在传统的主观题计算机自动阅卷系统中,普遍采用关键字匹配技术进行主观题自动阅卷,即在答案中标注出若干关键字或关键词,将其与学生答案进行匹配,并根据匹配成功的多少对学生答案进行评卷,由于自然语言的时序性、多样性与随意性,这种方法的评卷准确率非常低。为提高评卷的准确率,出现了一些基于句法分析与语义分析的主观题自动阅卷方法,这类评卷方法虽然可以在评卷过程中融入语义分析,提高了评卷的准确率,但由于句法分析自身的准确率不高,以及语义分析无法处理句子的时序性,这极大地限制了这类系统的应用范围与实用性。

随着人工神经网络技术的不断发展,许多深度学习模型如基于LSTM的模型、基于CNN&LSTM的模型和基于Transformer的模型被应用于主观题评卷。这些深度学习模型利用不同的神经网络从答案文本中自动提取语义特征,从而提供一种无需任何人工特征工程的端到端方法。然而,主观题自动评卷的深度学习方法仍然具有挑战性,主要有两个原因:首先,学生通常使用不同的自由文本来回答同一个问题,学生的答案在句子结构、语言风格和文本长度上可能存在显著差异,并且在答案文本中往往使用了一些代词。因此,有必要利用先进的学习技术在主观题自动评卷任务中结合题干文本,消除答案文本中的代词,从而确保学生答案语义的完整性;其次,主观题自动评卷的深度学习方法是一种全监督机器学习,需要为训练语料中的每个学生答案分配一个标签分数。但是,为自由表达的学生答案人工标注分数是一项费时的工作,因而主观题自动评卷的训练语料库通常很小。因此,如何在小语料库上训练出稳定有效的深度神经网络模型是主观题自动评卷深度学习方法面临的另一大挑战。

发明内容

本发明公开了一种基于BERT神经网络和多任务学习的主观题自动评阅方法,使用经过大规模语料预训练的BERT神经网络进行编码,有效解决主观题自动评阅任务中语料过小的问题,并联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型,以更有效的方法解决主观题自动评阅问题。

为实现上述目的,本发明的技术方案为:

一种基于BERT神经网络和多任务学习的主观题自动评阅方法,其特征在于包括以下步骤:

S1.以题干作为知识源,使用共享的BERT神经网络和多头注意力进行编码,对学生答案的代词进行消代;

S2.将标准答案和消代后的学生答案形成的句对,作为自动评阅学习任务的输入序列,使用共享的BERT神经网络进行编码和分类,得到学生答案的评分等级;

S3.通过联合计算步骤S1和步骤S2的损失函数,联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型;

S4.使用步骤S3训练成型的多任务神经网络模型,对任意的学生答案进行消代与评阅;

所述共享的BERT神经网络是指步骤S1和步骤S2中共享参数的BERT神经网络;

所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。

进一步的,所述步骤S1具体包括:

S1.1以由等待消代的代词p、包含代词的学生答案S={s

SP1={[CLS],s

ST={[CLS],t

其中,[CLS]是BERT分类符的编码,[SEP]是BERT结束符的编码,p∈S是学生答案S中等待消代的代词,n1是题干T的长度,m1是学生答案S的长度;

S1.2将题干序列ST和句对1序列SP1分别送入共享的BERT神经网络进行编码,得到题干语义表示C

其中,BERT(·)表示共享的BERT神经网络,h

S1.3将代词语义向量v

其中,F

S1.4使用题干语义融合表示

首先,计算

其中,

其次,计算代词成分在

其中,函数

最后,按照u

S1.5使用代词成分E替换学生答案S中的代词p,得到消代后的学生答案S

其中,m2为消代后的学生答案S

进一步的,所述步骤S2具体包括:

S2.1以标准答案A={a

其中,n2是标准答案A的长度;

S2.2将句对2序列SP2送入共享的BERT神经网络进行处理,得到句对2语义表示C

其中,

S2.3对句对2语义表示C

其中,z

其中,Max(·)表示求最大值的函数,

S2.4对句对2分类向量Z执行softmax的线性变换,进行评分等级的概率计算,并得出最终的评分等级,计算过程如下:

o=MZ

其中,

更进一步的,所述步骤S3具体包括:

S3.1分别使用交叉熵损失误差计算学生答案代词消代的损失函数和主观题自动评阅的损失函数,计算过程如下:

其中,Ω是学生答案代词消代与主观题自动评阅多任务的训练集,|Ω|表示训练集Ω的大小,

S3.2使用如下的公式(25)计算联合训练学生答案代词消代与主观题自动评阅的联合损失函数

其中,λ和β是两个权重参数;

S3.3联合训练目标是最小化公式(25)计算的联合损失误差。

为消除答案文本中的代词,确保学生答案语义的完整性,本发明提出一种基于BERT神经网络和多任务学习的主观题自动评阅方法,通过消除学生答案中的代词,以更有效的方法解决主观题自动评阅问题。首先,使用所训练的多任务神经网络模型,从题干中提取代词成分来替换学生答案中的代词,确保学生答案语义的完整性。然后,将消代后的学生答案与标准答案形成句子对,送入BERT神经网络进行分类,得到学生答案的评分等级。

本发明具有以下优点:

(1)使用经过大规模语料预训练的BERT神经网络进行编码,有效地解决主观题自动评阅任务中语料过小的问题;

(2)通过从题干中提取代词成分来替换学生答案中的代词,确保了学生答案语义的完整性;

(3)通过与学生答案代词消代的联合训练,可进一步地提高主观题自动评阅的精度。

附图说明

图1是本发明的方法流程示意图。

具体实施方式

以下结合具体实施例对本发明作进一步说明,但本发明的保护范围不限于以下实施例。

设题干T={t

S1.以题干作为知识源,使用共享的BERT神经网络和多头注意力进行编码,对学生答案的代词进行消代;

S2.将标准答案和消代后的学生答案形成的句对,作为自动评阅学习任务的输入序列,使用共享的BERT神经网络进行编码和分类,得到学生答案的评分等级;

S3.通过联合计算步骤S1和步骤S2的损失函数,联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型;

S4.使用步骤S3训练成型的多任务神经网络模型,对任意的学生答案进行消代与评阅;

所述共享的BERT神经网络是指步骤S1和步骤S2中共享参数的BERT神经网络;

所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。

进一步的,所述步骤S1具体包括:

S1.1以由等待消代的代词p、包含代词的学生答案S={s

SP1={[CLS],s

ST={[CLS],t

其中,[CLS]是BERT分类符的编码,[SEP]是BERT结束符的编码,p∈S是学生答案S中等待消代的代词,n1是题干T的长度,m1是学生答案S的长度;

S1.2将题干序列ST和句对1序列SP1分别送入共享的BERT神经网络进行编码,得到题干语义表示C

其中,BERT(·)表示共享的BERT神经网络,h

S1.3将代词语义向量v

其中,F

S1.4使用题干语义融合表示

首先,计算

其中,

其次,计算代词成分在

其中,函数

最后,按照u

S1.5使用代词成分E替换学生答案S中的代词p,得到消代后的学生答案S

其中,m2为消代后的学生答案S

进一步的,所述步骤S2具体包括:

S2.1以标准答案A={a

其中,n2是标准答案A的长度;

S2.2将句对2序列SP2送入共享的BERT神经网络进行处理,得到句对2语义表示C

其中,

S2.3对句对2语义表示C

其中,z

其中,Max(·)表示求最大值的函数,

S2.4对句对2分类向量Z执行softmax的线性变换,进行评分等级的概率计算,并得出最终的评分等级,计算过程如下:

o=MZ

其中,

更进一步的,所述步骤S3具体包括:

S3.1分别使用交叉熵损失误差计算学生答案代词消代的损失函数和主观题自动评阅的损失函数,计算过程如下:

其中,Ω是学生答案代词消代与主观题自动评阅多任务的训练集,|Ω|表示训练集Ω的大小,

S3.2使用如下的公式(25)计算联合训练学生答案代词消代与主观题自动评阅的联合损失函数

其中,λ和β是两个权重参数;

S3.3联合训练目标是最小化公式(25)计算的联合损失误差。

应用实例

1.实例环境

本实例的BERT神经网络使用Google AI Language在文献“Devlin J,Chang MW,Lee K, Toutanova K(2019)BERT:Pre-training of Deep Bidirectional Transformersfor Language Understanding.In:Proceedings of the 2019Conference of NAACL,pp4171–4186”中提出并开发的BERT-BASE版本,该BERT-BASE版本包括12层Transformers,768个隐藏单元,12个多头,以及总参数=110M);本实例采用的多头注意力来源于文献“Vaswani A, Shazeer N,Parmar N,Uszkoreit J,Jones L,Gomez AN,Kaiser L,Polosukhin I(2017) Attention Is All You Need.In:31st Conference on NeuralInformation Processing Systems(NIPS 2017),pp 5998–6008”,设置注意力的头数为8;为了最小化损失值,本实例使用了Adam Optimizer优化器,并将学习率设置为2e-5,batchsize大小设置为16;在训练期间,本实例将epochs设置为5。

2.数据集

文献17.Dzikovska MO,Nielsen RD,Brew C,Leacock C,Giampiccolo D,Bentivogli L,Clark P,Dagan I,Dang HT(2013)SemEval-2013task 7:The JointStudent Response Analysis and 8th Recognizing Textual EntailmentChallenge.In:ACL Second Joint Conference on Lexical and ComputationalSemantics,Vol.2,pp 263–274中提出的 SemEval-2013数据集和文献2.Mohler M,BunescuR,Mihalcea R(2011)Learning to Grade Short Answer Questions Using SemanticSimilarity Measures and Dependency Graph Alignments.In:ACL,pp 752–762中提出的Mohler数据集是在国际上广泛使用的短答案主观题评测基准。本实例从这两个数据集中抽取了3386要包含代词的学生答案和试题作为评测语料,并采用12折交叉验证进行评测。

3.实例对比结果

本实例通过在数据集上报告关于消代的准确度Accuracy(Acc)和关于评卷的Pearson相关系数(Pearson's r)、平均绝对误差(MAE)和均方根误差(RMSE)来评估各种模型。

表1实验结果

表1的实验结果表明,本发明提出的一种基于BERT神经网络和多任务学习的主观题自动评阅方法,在独立评卷和多任务两种情况下性能都显著超过了目前广泛使用的LSTM(Long Short-Term Memory)模型,这充分说明了本发明方法是可行和优秀的。

4.示例

题干:When a seed germinates,why does the root grow first?

标准答案:The root grows first so the root can take up water for theplant.

学生答案:So it can suck up water to grow.

(1)消代标志:When a seed germinates,why does[the root]grow first?

(2)消代结果:it=the root

(3)评卷输入:[CLS]The root grows first so the root can take up waterfor the plant[SEP]So the root can suck up water to grow[SEP]。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号