首页> 中国专利> 基于树型注意力机制的深度知识追踪方法

基于树型注意力机制的深度知识追踪方法

摘要

本发明涉及一种基于树型注意力机制的深度知识追踪方法,该方法从知识概念特征视图,知识概念广度视图,知识概念等级视图三个角度构建树状结构编码张量对题目知识概念树进行编码;然后利用编码器学习题目间关联关系,使用解码器建模学生交互行为,最后将解码器深度特征与学生背景特征拼接后拟合一个线性分类器来预测学生能否正确作答目标题目。相比于基线方法,本发明具有更高的预测准确率。另外,通过分析编码器注意力网络层权重和知识概念树结构可以解释模型预测结果。

著录项

  • 公开/公告号CN114943276A

    专利类型发明专利

  • 公开/公告日2022-08-26

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN202210400590.1

  • 申请日2022-04-16

  • 分类号G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);G06Q50/20(2012.01);

  • 代理机构西安凯多思知识产权代理事务所(普通合伙) 61290;

  • 代理人刘新琼

  • 地址 710072 陕西省西安市友谊西路127号

  • 入库时间 2023-06-19 16:31:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-13

    实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:2022104005901 申请日:20220416

    实质审查的生效

说明书

技术领域

本发明属于计算机技术(智慧教育)领域,具体涉及一种基于树型注意力机制的深度知识追踪方法。

背景技术

现有学生知识追踪研究可分为:概率模型,潜变量学习模型和基于深度学习的模型。

概率模型假设学习过程遵循马尔可夫过程。经典的贝叶斯追踪模型(BKT)用知识状态集合来表示学生的知识水平,用二元值(0,1)表示学生对每个知识点的掌握状况,根据学生以往的答题情况,用隐马尔可夫模型更新隐含变量的概率分布。

潜变量学习模型是以logistic函数为基础的一类模型,首先用学生与题目交互数据来表示学生和知识概念,然后利用logistic函数对学生做题结果(正确/错误)的概率进行建模。

然而,学生的认知过程受到许多因素的影响,用概率模型或潜变量学习模型捕捉这种复杂的认知过程是很困难的。深度学习具有强大特征提取能力且可以拟合任意复杂的函数,使其非常适合建模复杂的学习过程。Piech等人提出深度知识追踪模型(DKT),使用循环神经网络模拟知识追踪中学生知识状态。Jani等人基于记忆增强神经网络提出动态键值记忆网络(DKVMN)。Pandey等人提出基于Transformer架构的SAKT,采用Transformer中编码层捕捉题目与学生交互行为特征之间的依赖关系。Choi等人提出基于Transformer架构的SAINT,由自注意力层对题目序列和交互行为序列分别进行编码和解码。

然而,现有的深度知识追踪模型理想化的地将题目映射到单个粗粒度的知识概念,通常使用人工定义的特征编码题目,无法反映题目之间知识结构的相似性和差异性,忽略了题目之间的内在联系,忽略了题目的知识概念结构,使得知识追踪模型可能会错误地判别学生在细粒度知识概念上的掌握状态,导致目前的知识追踪模型在学习系统上的应用受到限制。此外,基于LSTM,RNN及它们的变体的深度知识追踪模型使用隐向量模拟学生的知识状态,模型缺乏可解释性。

发明内容

要解决的技术问题

学生知识追踪的核心任务是评估学生知识水平。从学生角度来说,学习是一个循序渐进的过程,学生的知识状态随着做题数量的增多动态变化,学生的知识水平影响着其答题表现。从习题角度来说,现实生活中,教师编写练习题通常有一定的教学目的,用于考察和评估学生对某些知识概念的掌握程度。练习题包含多个不同的知识概念,知识概念之间往往彼此关联,学科知识根据包含关系呈现层次树结构或森林结构。习题之间的相似性和差异性反映在知识概念结构上。习题间的关联关系影响着学生答题表现,学生在有相似知识或强关联关系的习题中可能会有相似的答题表现。

因此,本发明针对现有的知识追踪研究缺乏题目知识概念结构建模,忽略了题目之间知识结构的相似性和差异性,模型缺乏可解释性等问题,提出了一种基于树型注意力机制的深度知识追踪方法。本发明从学生对细粒度知识概念掌握程度研究学生知识水平,可以帮助教师客观的评价学生当前的知识水平,学习能力,从而帮助学生选择合适的学习资料,做到最大化每一个个体的学习收益,减少无效教学时间,提升学习效率。

技术方案

一种基于树型注意力机制的深度知识追踪方法,其特征在于步骤如下:

步骤1:构建数学模型

采用

步骤2:定义知识概念树节点集合

层次遍历知识概念树kct

步骤3:知识概念树三视图编码

步骤3-1:知识概念特征视图编码

知识概念特征视图反映了题目包含的多知识概念和概念间结构关系;首先将叶子节点和非叶子节点通过Embedding()函数映射到d维空间,得到

式中,

步骤3-2:知识概念广度视图编码

定义分支嵌入映射函数

式中,

步骤3-3:知识概念等级视图编码

定义层次嵌入映射函数

式中,

步骤3-4:在特征维度连接知识概念树的三视图编码:

步骤4:将知识概念树三视图编码T

步骤4-1:层次平均累积

首先对知识概念树的三视图编码T

式中,

步骤4-2:分支零填充

定义一个零填充函数

步骤4-3:分支注意力计算

考虑到树分支概念之间的关联关系,定义注意力函数

式中,

式中,p为第三步中填充的零向量;

步骤4-4:分支聚合

通过映射函数

综上所述,知识概念树的层次积累过程可以表述为:

步骤5:将知识概念树序列QKC=[qkc

本发明进一步的技术方案:所述的编码器Encoder:

编码器由顺序对齐的N个编码层堆叠组成,单个编码层由一个上三角掩码多头自注意力层、前馈网络、残差连接和层归一化组成,即:

式中,Q

所述的上三角掩码多头注意力网络Multihead

上三角掩码多头注意力网络是将输入序列用不同的投影矩阵投影h次的自注意力网络;对于每个i∈[1,h],查询Q

式中,

多头注意力的输出O

O

式中,

所述的前馈网络FFN

前馈网络在模型中引入非线性变换,考虑了不同潜在维度之间的相互作用;前馈网络定义为:

F=FFN(O

式中,

本发明进一步的技术方案:所述的解码器Decoder:

解码器与编码器相似,由顺序对齐的N个解码层堆叠组成,单个解码层由两个上三角掩码多头自注意力层、前馈网络、残差连接和层归一化组成,即:

式中,Q

本发明进一步的技术方案:所述的全连接网络FCN

解码器的输出和学生特征嵌入SE拼接后传递给全连接网络,最终使用Sigmoid函数计算预测概率,产生最终输出c'=[c'

c'=FCN(SE;O

综上所述,基于树型注意力机制的深度知识追踪方法可以表示为:

通过最小化真实标签c

式中,X是批量数据样本,N是批次的大小。

有益效果

本发明提出的一种基于树型注意力机制的深度知识追踪方法,该方法从知识概念特征视图,知识概念广度视图,知识概念等级视图三个角度构建树状结构编码张量对题目知识概念树进行编码;然后利用编码器学习题目间关联关系,使用解码器建模学生交互行为,最后将解码器深度特征与学生背景特征拼接后拟合一个线性分类器来预测学生能否正确作答目标题目。相比于基线方法,本发明具有更高的预测准确率。另外,通过分析编码器注意力网络层权重和知识概念树结构可以解释模型预测结果。

附图说明

附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。

图1是本发明整体系统流程图。

图2是知识概念树的三视图嵌入示意图。

图3是本发明模型框架图。

图4是本发明与基线方法预测结果对比图。

图5是知识概念树的三视图消融实验结果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出一种基于树型注意力机制的深度知识追踪方法,如图1所示,展示了本发明的整体流程图。首先从知识概念特征视图、知识概念广度视图和知识概念等级视图三个角度编码题目知识概念树,合并三视图编码后进行层次平均累积运算,引入注意力零填充屏蔽网络学习知识概念树分支间关系,进行分支聚合得到知识概念树表示;然后,使用Transformer-编码器整合题目树结构嵌入,题目背景特征嵌入,使用多头注意力网络学习学生答题序列中题目之间的关联关系,使用Transformer-解码器整合学生交互行为特征与编码器隐特征,使用多头注意力网络学习题目和学生答题行为之间的关系;最后,将解码器深度特征与学生背景特征拼接后拟合一个线性分类器来预测学生能否正确作答目标题目。具体包括以下步骤:

步骤1:构建数学模型。

本发明用

步骤2:定义知识概念树节点集合。

层次遍历知识概念树kct

步骤3:知识概念树三视图编码。

步骤3-1:知识概念特征视图编码。

知识概念特征视图反映了题目包含的多知识概念和概念间结构关系。首先将叶子节点和非叶子节点通过Embedding()函数映射到d维空间,得到

式中,

步骤3-2:知识概念广度视图编码。

题目的知识概念广度反映一个题目包含具体知识概念的数量,表现在知识概念树的每个分支稠密结构中,分支稠密差异反映了题目考察侧重点。本发明定义分支嵌入映射函数

式中,

步骤3-3:知识概念等级视图编码。

知识概念的等级表示了一个知识概念的难易程度,即一个概念在知识概念树中距离其根节点的深度。本发明定义层次嵌入映射函数

式中,

步骤3-4:在特征维度连接知识概念树的三视图编码:

步骤4:将知识概念树三视图编码T

步骤4-1:层次平均累积。

首先对知识概念树的三视图编码T

式中,

步骤4-2:分支零填充。

学生答题序列中题目的知识概念树结构不同,导致每棵树的分支表示B

步骤4-3:分支注意力计算。

考虑到树分支概念之间的关联关系,定义注意力函数

式中,

式中,p为第三步中填充的零向量。

步骤4-4:分支聚合。

通过映射函数

综上所述,知识概念树的层次积累过程可以表述为:

步骤5:本发明将知识概念树序列QKC=[qkc

步骤6:编码器(Encoder)。

编码器由顺序对齐的N个编码层堆叠组成。单个编码层由一个上三角掩码多头自注意力层(步骤6-1),前馈网络(步骤6-2),残差连接和层归一化(步骤6-3)组成,即:

式中,Q

步骤6-1:上三角掩码多头注意力网络(Multihead)。

上三角掩码多头注意力网络是将输入序列用不同的投影矩阵投影h次的自注意力网络。对于每个i∈[1,h],查询Q

式中,

多头注意力的输出O

O

式中

步骤6-2:前馈网络(FFN)。

前馈网络在模型中引入非线性变换,考虑了不同潜在维度之间的相互作用。前馈网络定义为:

F=FFN(O

式中,

步骤6-3:残差连接和层归一化(SkipConct&LayerNorm)。

残差连接将较低层的特征传播到较高层。在知识追踪背景下,残差连接可以帮助模型将最近练习的习题嵌入传播到最后一层,使模型更容易利用低层信息。层归一化有助于提高模型的学习能力,并使数据更加标准,加快收敛。

步骤7:解码器(Decoder)。

解码器与编码器相似,由顺序对齐的N个解码层堆叠组成。单个解码层由两个上三角掩码多头自注意力层(步骤6-1),前馈网络(步骤6-2),残差连接和层归一化组成(步骤6-3),即:

式中,Q

步骤8:全连接网络FCN。

解码器的输出和学生特征嵌入SE拼接后传递给全连接网络,最终使用Sigmoid函数计算预测概率,产生最终输出c'=[c'

c'=FCN(SE;O

综上所述,本发明提出的基于树型注意力机制的深度知识追踪方法可以表示为:

本发明通过最小化真实标签c

式中,X是批量数据样本,N是批次的大小。

实施例:

步骤1:本实施实例使用在线学习平台Eedi提供的公开数据集。数据集中的每个问题都由多个知识概念组成,专家根据知识层次关系将这些知识概念组织成树型结构。此外,数据集还包括题目背景信息(例如题目编号,题目难度,题目出现的频率,题目所属知识类等),学生与平台的交互行为信息(例如是否作答正确C,对答案的置信分数等),学生背景信息(例如性别,是否经济困难,做题数量等)。

步骤2:数据预处理。

本实施实例将学生答题序列分割或填充为长度等于40,当序列长度小于40时,在题目知识概念树序列,题目背景特征序列,学生交互行为序列的左侧填充问答对,且记录填充位置以便在后续计算注意力权重以及损失时屏蔽这些填充序列;当序列长度大于40时,将序列划分为长度为40的子序列集,子序列作为本发明的输入。

步骤3:训练集测试集划分。

本实施例以学生为单位按照比例8:2将数据集划分为训练集和测试集。

步骤4:设置超参数,学习目标函数。

如图3所示,展示了本发明的模型框架图。本实施实例设置编码器和解码器堆叠层数N=8、多头注意力head=8,嵌入维度d=256、batch-size=64,迭代次数epochs=200。使用Adam优化器,其中lr=0.001,β

步骤5:模型开始训练,判断当前迭代次数是否小于epochs,若是,随机打乱样本开始当前训练迭代;若否,到步骤14。

步骤6:判断当前训练批次是否小于batches,若是,到步骤7;若否,到步骤5。

步骤7:判断当前训练样本是否小于batchsize,若是,到步骤8;若否,到步骤13。

步骤8:根据公式(2)(3)(4)计算知识概念树三视图编码T

步骤9:根据公式(6)(7)(8)(9)将知识概念树三视图编码进行层次平均累积、分支零填充、分支注意力计算和分支聚合,得到知识概念树的d维表示QKC,如图2所示。

步骤10:根据公式(12)(13)(14)(15)(16)计算编码器输出O

步骤11:根据公式(13)(14)(15)(16)(17)计算解码器输出O

步骤12:根据公式(18)产生最终输出c'=[c'

步骤13:根据公式(20)计算网络损失,并通过反向传播更新网络参数;回到步骤6。

步骤14:模型训练完成,在测试集进行测试,最终得到学生在目标题目上的预测结果。

实施实例结果:

如图4所示,展示了本发明(TSAKT)与基线方法在真实教育数据集上的预测结果,可知本发明在知识追踪任务上取得了比最新的知识追踪模型更高的预测准确率,说明本发明受益于题目的知识概念树结构编码。

如图5所示,展示了知识概念树三视图编码消融实验结果,说明了知识概念树的每一种视图都对本发明的预测效果做出了贡献。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号