公开/公告号CN112256858A
专利类型发明专利
公开/公告日2021-01-22
原文格式PDF
申请/专利权人 华中师范大学;
申请/专利号CN202011071060.4
申请日2020-10-09
分类号G06F16/335(20190101);G06F16/338(20190101);G06K9/62(20060101);G06N3/04(20060101);
代理机构42224 武汉东喻专利代理事务所(普通合伙);
代理人雷霄
地址 430079 湖北省武汉市珞喻路152号
入库时间 2023-06-19 09:38:30
技术领域
本发明属于知识追踪技术领域,更具体地,涉及融合问题模式和答题结果的双卷积知识追踪方法及系统。
背景技术
知识追踪是利用计算机技术对答题者的知识状态进行建模,以便能够跟踪答题者对于知识点的掌握程度,进一步可以预测答题者在下一次答题时的表现。知识追踪能捕捉到答题者当前做题的真实情况,是学习者建模中的核心任务。知识追踪广泛应用在智能教育领域中,例如可以根据知识追踪预测情况自动推荐学习资源等。
知识追踪领域有多个经典的模型,例如深度知识跟踪模型(Deep KnowledgeTracing,DKT)、动态关键值记忆网络知识追踪模型(Dynamic Key-Value MemoryNetworks,DKVMN)、卷积知识追踪模型(Convolutional Knowledge Tracing,CKT)。其中CKT模型考虑了学习速率和先验知识,根据答题者的答题记录首先计算答题者的先验知识,考虑到每个答题者学习某一个知识点的速率是不同的,利用CKT模型相比于DKT、DKVMN等现有的一些模型,预测精确度等性能有所提升。
但是利用CKT模型的知识追踪也存在以下问题:答题者每做一道题目,答题者在知识掌握状态都会发生变化,也就是说,答题者做的题目以及答题者做题的结果,都会影响下一次答题时的表现。而CKT比较粗糙的运用学习速率来表示,而没有充分运用每一道题目的特征,没有考虑答题者在答题过程的知识掌握状态的动态变化,在预测准确性上,CKT的曲线下面积(AUC)值为0.822,预测精确度还存在提升的空间。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了融合问题模式和答题结果的双卷积知识追踪方法及系统,能够有效提升知识追踪的预测精确度。
为实现上述目的,按照本发明的第一方面,提供了一种融合问题模式和答题结果的双卷积知识追踪方法,包括步骤:
获取答题者历史答题数据集,所述历史答题数据集中包括多条答题记录,每条所述答题记录包括一个题目的题目编号信息、该题目包含的技能编号信息以及答题者对该题目的答题结果信息;
从所述历史答题数据集提取每个答题者的题目序列、答题结果序列和技能序列;
将所述题目序列和所述技能序列进行拼接后输入到第一一维卷积神经网络进行特征提取处理,提取问题模式特征数据;
将所述答题结果序列输入到第二一维卷积神经网络进行特征提取处理,提取答题结果特征数据;
将所述问题模式特征数据和所述答题结果特征数据进行拼接后输入到全连接层网络,输出答题者答题行为预测结果数据。
优选的,所述提取每个答题者的题目序列、答题结果序列和技能序列包括步骤:
每个答题者具有唯一的答题者编号,按照所述答题者编号对所述历史答题数据集中的数据进行分组,获取每个答题者答题的题目原始序列Q、所述题目序列对应的答题结果原始序列A以及所述题目序列每个题目包含的技能原始序列S;
对所述题目原始序列Q和所述答题结果原始序列A进行采样,得到题目采样序列Lq和答题结果采样序列La;
分别对所述题目采样序列Lq、所述技能原始序列S、以及所述答题结果采样序列La进行编码,获得每个答题者的题目序列、技能序列和答题结果序列。
优选的,对所述题目采样序列Lq采用嵌入编码,对所述技能原始序列S和所述答题结果采样序列La均采用独热编码。
优选的,所述对所述题目原始序列Q和所述答题结果原始序列A进行采样均采用步长为1、宽度为10的滑动窗口进行滑动采样。
优选的,双卷积知识追踪方法还包括步骤:预先构建答题数据训练集,利用所述答题数据训练集对所述第一一维卷积神经网络、所述第二一维卷积神经网络和所述全连接层网络进行训练。
优选的,所述答题者答题行为预测结果数据根据以下公式得到,
y=w
y为所述答题行为预测结果数据,M为所述问题模式特征数据,T为所述答题结果特征数据,w
按照本发明的第二方面,提供了一种融合问题模式和答题结果的双卷积知识追踪系统,包括步骤:
采集模块,用于获取答题者的历史答题数据集,所述历史答题数据集中包括多条答题记录,每条所述答题记录包括一个题目的题目编号信息、该题目包含的技能编号信息以及答题者对该题目的答题结果信息;
数据预处理模块,用于从所述历史答题数据集提取每个答题者的题目序列、答题结果序列和技能序列;
问题模式特征数据提取模块,用于将所述题目序列和所述技能序列进行拼接后输入到第一一维卷积神经网络,输出问题模式特征数据;
答题结果特征提取模块,用于将所述答题结果序列输入到第二一维卷积神经网络,输出答题结果特征数据;
分类模块,用于将所述问题模式特征数据和所述答题结果特征数据进行拼接后输入到全连接层网络,输出答题者答题行为预测结果数据。
总体而言,本发明与现有技术相比,具有有益效果:考虑了答题者在答题过程中涉及到题目的技能特征以及答题者回答问题的答题结果特征对知识追踪的影响,对这两个特征进行分别单独的建模,设计了基于问题模式和答题经验的双卷积知识追踪方法,能够有效提升知识追踪的预测精确度,具有十分重要的应用价值,例如在实际应用中能够更准确的预测学习者的答题表现和知识状态,为学习者推荐更合适的学习资源。
附图说明
图1是本发明实施例的双卷积知识追踪方法流程示意图;
图2是本发明实施例的双卷积知识追踪系统模型原理示意图;
图3是本发明实施例的双卷积知识追踪系统模的损失变化示意图;
图4是本发明实施例的双卷积知识追踪系统模型的分类能力(AUC)变化示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1为本发明实施例的融合问题模式和答题结果的双卷积知识追踪方法流程示意图,该方法包括步骤:
S1,获取答题者的历史答题数据集,该历史答题数据集中包括多条答题记录,每条答题记录包括一个题目的题目编号信息、该题目包含的技能编号信息以及答题者对该题目的答题结果信息。
将原始数据集中每一个答题者所做的题目编号信息q、题目中所包含的技能s以及答题者在这些题目中的答题结果信息(答对或答错)a取出来,得到历史答题数据集D:
D={(q
其中q
S2,从历史答题数据集提取每个答题者的题目序列、答题结果序列和技能序列;
优选的,步骤S2包括步骤:
S21,获取题目原始序列。每个答题者具有唯一的答题者编号信息,按照答题者编号信息对历史答题数据集中的数据进行分组,获取每个答题者答题的题目原始序列Q:
其中
S22,获取答题结果原始序列。在S21的基础上,获取答题者答题原始序列所对应的结果原始序列A:
其中
S23,获取题目中的技能。在S21的基础上,将每个题目q中所包含的知识点(技能)s抽取出来得到技能原始序列S:
其中
S24,对每一个答题者所做的题目原始序列Q和题目所对应的答题结果原始序列A进行采样,得到题目采样序列Lq和答题结果采样序列La。优选的,将答题者的题目序列按照步长为1,宽度为10的滑动窗口进行滑动采样,得到的序列为Lq;同样的,将答题结果序列按照步长为1,宽度为10的滑动窗口进行滑动采样,得到序列La:
其中,
S25,分别对题目采样序列Lq、技能原始序列S、以及答题结果采样序列La进行编码,获得每个答题者的题目序列、技能序列和答题结果序列。优选的,其中Lq使用嵌入编码(Embedding),得到Qe,其中W为变换矩阵,W是预先训练获得;S使用独热编码(one-hot),得到Sh;La使用独热编码(one-hot),得到Ah,其中f为one-hot编码规则。
Qe=W·Lq
Sh=f(S)
Ah=f(La)
S3,在S2的基础上,将经过编码的题目序列Qe,技能序列Sh进行拼接,得到QS,
S4,将QS输入到一维卷积神经网络cnn1中,cnn1为经典的一维卷积神经网络,所提取的特征称作问题模式特征数据M:
M=cnn1(QS)
在这一层中,输入数据为经过编码和拼接的题目特征和技能特征,它们按照答题者做题的时间顺序组成一个序列,模型的输出为与输入序列对应的一维向量,序列长度与输入长度相同。经过卷积操作,提取得到的题目中关键特征,称作问题模式特征数据。
S5,在S2的基础上,将经过编码的答题者的答题结果序列Ah输入到一维卷积神经网络cnn2中,cnn2也为经典的一维卷积神经网络,所提取的特征,称作答题者的答题结果特征数据T:
T=cnn2(Ah)
这一层中,输入数据为一个与答题者所回答的问题相对应的答题结果序列,这个序列在输入之前经过了一次独热编码。输出为一个序列,长度与输入序列长度相同。由于序列是由答题者的历史记录所组成,因此称为答题结果特征,这个经验特征将成为后续预测答题者答题表现的重要依据。
S6.将问题模式特征数据M与答题者的答题结果特征数据T进行拼接,得到F,将F输入到一个全连接层中得到答题者答题行为预测结果数据。
优选的,双卷积知识追踪方法还包括训练步骤。预先构建答题数据训练集,利用答题数据训练集对第一一维卷积神经网络、第二一维卷积神经网络和全连接层网络进行训练。
优选的,答题者答题行为预测结果数据y通过以下公式计算得到:
y=w
其中,w
本发明实施例的一种融合问题模式和答题结果的双卷积知识追踪系统,原理如图2所示,包括:
采集模块,用于获取答题者的历史答题数据集,历史答题数据集中包括多条答题记录,每条答题记录包括一个题目的题目编号信息、该题目包含的技能编号信息以及答题者对该题目的答题结果信息;
数据预处理模块,用于从历史答题数据集提取每个答题者的题目序列、答题结果序列和技能序列;
问题模式特征数据提取模块,用于将题目序列和技能序列进行拼接后输入到第一一维卷积神经网络,输出问题模式特征数据;
答题结果信息特征提取模块,用于将答题结果序列输入到第二一维卷积神经网络,输出答题结果信息特征数据;
分类模块,用于将问题模式特征数据和答题结果特征数据进行拼接后输入到全连接层网络,输出答题者答题行为预测结果数据。
优选的,数据预处理模块包括:
分组模块,用于根据每个答题者唯一的答题者编号对历史答题数据集中的数据进行分组,获取每个答题者答题的题目原始序列Q、题目序列对应的答题结果原始序列A以及题目序列每个题目包含的技能原始序列S;
采样模块,用于对题目原始序列Q和答题结果原始序列A进行采样,得到题目采样序列Lq和答题结果采样序列La;
编码模块,用于分别对题目采样序列Lq、技能原始序列S、以及答题结果采样序列La进行编码,获得每个答题者的题目序列、技能序列和答题结果序列。
优选的,对题目采样序列Lq采用嵌入编码,对技能原始序列S和答题结果采样序列La均采用独热编码。
优选的,对题目原始序列Q和答题结果原始序列A进行采样均采用步长为1、宽度为10的滑动窗口进行滑动采样。
图3为本发明实施例的双卷积知识追踪系统模的损失变化示意图,可以看出随着训练次数的增加,损失函数的值不断减小,在第8次左右的时候逐渐稳定,表明模型已经达到最优。
图4是本发明实施例的双卷积知识追踪系统模型的曲线下面积(AUC)值变化示意图,可以看出随着训练次数的增加,AUC值在逐渐升高,与损失函数的变化趋势大致相似,在第8次的时候逐渐稳定。模型的预测性能与CKT相比,有一定的提升,AUC值为0.834,这表明,本技术方案可以达到预期的效果。
必须说明的是,上述任一实施例中,方法并不必然按照序号顺序依次执行,只要从执行逻辑中不能推定必然按某一顺序执行,则意味着可以以其他任何可能的顺序执行。
本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
机译: 利用多个知识提供者代理的知识提供者系统和知识提供方法,所述多个知识提供者代理通过通信网络链接并使用连续的模式匹配操作执行消息处理
机译: 用于确定知识对象的与业务管理相关的特征向量的测量方法和自动模式识别系统以及用于知识对象的与业务管理相关的自动表征的方法和自动系统
机译: 基于双域深卷积神经网络去除图像中的莫尔模式的装置和方法