首页> 中国专利> 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法

一种基于协同过滤思想的学习者学科总测成绩预测系统及方法

摘要

本发明涉及一种基于协同过滤思想的学习者学科总测成绩预测系统及方法,包括:数据采集标注模块、学习者的量化特征提取模块、基于学习者量化特征的相似度向量提取模块、基于相似度向量的成绩预测模块。本发明可以解决对学习者学业成绩的预测问题,适用于一般在线学习平台和系统,也可以应用于实际教学评估和诊断中,为学习者提供个性化的教学服务,提高学习针对性和学习效率。

著录项

  • 公开/公告号CN107274020A

    专利类型发明专利

  • 公开/公告日2017-10-20

    原文格式PDF

  • 申请/专利权人 北京师范大学;

    申请/专利号CN201710454618.9

  • 发明设计人 余胜泉;卢宇;杨博达;李葆萍;

    申请日2017-06-15

  • 分类号G06Q10/04(20120101);G06Q50/20(20120101);G06F17/30(20060101);

  • 代理机构11251 北京科迪生专利代理有限责任公司;

  • 代理人杨学明;顾炜

  • 地址 100875 北京市海淀区新街口外大街19号

  • 入库时间 2023-06-19 03:33:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-22

    授权

    授权

  • 2017-11-17

    实质审查的生效 IPC(主分类):G06Q10/04 申请日:20170615

    实质审查的生效

  • 2017-10-20

    公开

    公开

说明书

技术领域

本发明涉及一种基于协同过滤思想的学习者学科总测成绩预测系统及方法,属于数据挖掘技术,特别是涉及教育领域的数据挖掘。

背景技术

数据挖据是一种基于大量数据进行信息提取和知识发现的方法,数据挖掘中的一些方法包括聚类、关联规则学习、相关性分析、回归性分析以及分类等已经被广泛应用于互联网、工业制造、交通等各个领域。其中一类基于协同过滤思想的数据挖掘算法可以有效筛选出相似群体,故该算法已经成熟应用于电商推荐系统上来寻找相似兴趣品味的用户并进行推荐。在教育领域,此类算法的应用相对比较新颖,而且在教育技术领域有很大的应用前景。本发明首次提出将该算法用于学习者学科总测学习预测的问题上。做到了提前预测学习者对于未来的知识的学习效果。该方法的实现可以用来支持教育决策、对学习者进行信息和课程内容的推荐、学习者学习过程中的提前预警、学习者专业选择推荐以及制定学习者个性化的学习策略等。

发明内容

本发明要解决的问题是:克服现有技术的不足,将教育学测量手段跟数据挖掘技术相结合,提供一种基于协同过滤思想的学科总测成绩预测系统及方法,对学习者知识点和整体学科的掌握状态进行预测和估计,从而为学习者提供个性化的教学服务,提高学习针对性和学习效率。

本发明解决其问题所采用的方案是:一种基于协同过滤思想的学习者学科总测成绩预测系统,包括数据采集标注模块、学习者的量化特征提取模块、基于学习者量化特征的相似度向量提取模块、基于相似度向量的成绩预测模块,其中:

数据采集标注模块:根据具体学科科目的课程标准,系统对该学科的知识点进行划分,按照时间顺序排列划分后的知识点。学习者在对每个知识点进行学习后,进行该知识点的水平测试。测试将通过线上电子化课堂或者线下课堂或作业的形式进行,从而收集各知识点对应的测试数据和成绩。测试数据中包括题目本身及题目标注所属知识点。每一个知识点都包含至少一道以上的测试题目,每个知识点对应的测试题目数量可以不等。同时,在测试过程中,收集学习者本身的个体基础数据,例如所在地区和学校。

学习者的量化特征提取模块:基于模块一中所收集的数据,可以分别针对每个学习者,计算其在知识点p的得分率vp

vp=p下答对的题目的数量/p下包含的所有题目的数量。

因此,对于完成P个知识点的个体学习者i的成绩测试层面,该学习者对应的基本特征向量Vi={vp|p∈P}。除此之外,根据项目反映理论,该系统还可以通过整合学习者i对于每个知识点答题情况,得到学习者i在每个知识点的能力值因此,对于完成P个知识点的学习者i的成绩测试层面,该学习者对应的特征向量有得分率向量Vi={vp|p∈P}和能力值向量同时,将学习者i的所在的地区、学校等个体特征进行量化,作为补充特征向量Gi,来细化学习者个体区别之间的差异,从而形成多维度特征向量。具体来说,学习者i的多维度特征向量其包括已学习过的知识点的得分率向量Vi,能力值向量以及学习者个体特征向量Gi

基于学习者多维度特征向量的相似度计算模块:基于学习者的量化特征提取模块产生的学习者i的多维度特征Ti,计算Ti与系统中具有相同学习过程的其他学习者的多维度特征Tj的欧式距离。从而得到学习者i与其余学习者之间的欧氏距离向量{Dij|j∈J},其中J为其余学习者的集合。为了进一步得到相似度的数值,需要利用反转函数将学习者i与学习者j之间的欧氏距离Dij转化为相似度Sij。此模块中使用高斯函数作为反转函数,将学习者i与其余学习者j之间的欧氏距离向量{Dij|j∈J},转变为学习者i与其余学习者j之间的相似度向量{Sij|j∈J}。

基于相似度向量的成绩预测模块:给定系统中学习者i的学科总测成绩Yi是待预测的;系统中储存的历史数据包含的其余学习者J的学科总测成绩{Yj|j∈J}是已知。根据得到的学习者i与其余学习者J之间的相似度向量{Sij|j∈J},本模块从J个其余学习者中,筛选出前N个与学习者i相似度最高学习者。此处用JN表示这N个学习者的集合。以学习者i与挑选出的N个学习者的相似度{Sij|j∈JN}作为权重,用N个相似度高的学习者学业成绩{Yj|j∈JN}进行加权平均,最终预测学习者i的总测成绩由于系统预测的准确率随着N的变化而变化,故在进行预测前需要先根据系统预测效果调试N的数值。

系统参数的调试方法:

由于系统预测的准确率随着N的变化而变化,故在基于相似度向量的成绩预测模块中,需要对算法中的参数N进行调试,得到合适的N的数值,最终得到可以最准确预测的系统模型。具体调试参数N的方法如下:

1)给N一个初始值,以一个常数递增,分别计算不同的N下,系统的预测效果。一般情况下随着N的增加,系统的预测误差先减小,后增加。故当随着N的增加,系统的预测误差不再减小时,那么此时的N就被选取为系统中最终的常数N。

2)模型预测的误差大小的评判标准为平均绝对误差(MAE)为:n表示系统对n个学习者做了学业成绩的预测。表示系统预测的学习者i的学业成绩。yi表示学习者i的实际成绩。

3)对于某一给定N值的系统。根据系统中已经储存的学习者,使用K次交叉验证法计算得出的K个平均绝对误差(MAE)的平均值来作为系统的平均绝对误差。通过变化N值,当系统的平均绝对误差不再减小时,那么此时的N就被选取为系统中最终的常数N。

本发明与现有方法相比的有益效果为:

(1)本发明可以解决对学习者科目总测成绩的预测的问题,为学习者提前预警,提高了学习针对性和学习效率。

(2)本发明方法将数据挖掘技术和教育测量手段相结合。针对学习者科目总测成绩的预测问题,提出了利用测试数据结合学习者能力和个人特征数据提取出多维度的特征向量。然后,基于协同过滤思想,建立预测模型,最终给出学习者总测成绩的预测结果。

附图说明

图1为本发明一种基于协同过滤思想的学科总测成绩预测系统的结构图;

图2为本发明的学习者能力特征提取流程;

图3为本发明的中使用的交叉验证流程;

图4为本发明系统中的数据储存结构。

具体实施方式

下面结合附图及具体实施方式详细介绍本发明。

如图1所示,本发明为一种基于协同过滤思想的学习者学科总测成绩预测系统,包括:数据采集标注模块、学习者的量化特征提取模块、基于学习者量化特征的相似度向量提取模块、基于相似度向量的成绩预测模块。

数据采集标注模块具体实现如下:

根据具体学科科目的课程标准,系统对该学科的知识点进行划分,按照时间顺序排列划分后的知识点。例如:数学学科某一年级的知识点划分和知识点的学习时间顺序如下:有理数→一元一次方程→几何体→线段→角→相交线→平行线。学习者在对每个知识点进行学习后,进行该知识点的水平测试。测试将通过线上电子化课堂或者线下课堂或作业的形式进行,从而收集各知识点对应的测试数据和成绩。测试数据中包括题目本身及题目标注所属知识点。每一个知识点都包含至少一道以上的测试题目,每个知识点对应的测试题目数量可以不等。同时,在测试过程中,收集学习者本身的个体基础数据,例如所在地区和学校。学习者应涵盖同一年纪各层次水平的人群。例如,可以是某一地区同一年级所有的在籍学生;对于每个学科,训练数据的规模应保持在一定规模以上。例如3000个学习者对于数学学科14个知识点的独立测试结果。数据将以图4的结构储存:每个知识点对应一张表,表中每一行对应一名学习者在该知识点下各个题目上的测试结果。

基于采集标注的信息进行学习者能力特征提取,具体实现如下:

基于模块一中所收集的数据,可以分别对每个学习者,计算其在知识点p的得分率vp

vp=p下答对的题目的数量/p下包含的所有题目的数量。

例如某学习者在一元一次不等式这个学科答对了5道题,该学科下一共包含了10道题,则学习者在该学科下的得分率v=0.5。对于完成P个知识点的个体学习者i的成绩测试层面,该学习者对应的基本特征向量Vi={vp|p∈P}。除此之外,根据项目反映理论,该系统还可以通过整合所有学习者i对于每个知识点答题情况,得到学习者i在每个知识点的能力值如图2所示,例如某学习者在一元一次不等式这个学科下的十道题目的答题情况如下[1,0,1,1,1,0,0,0,1,0]。向量里1表示回答正确,0表示回答错误。根据学习者的答题情况,寻找到的使目标似然函数最大的能力值,便是该学习者的能力值θ。因此,对于完成P个知识点的学习者i的成绩测试层面,该学习者对应的特征向量有得分率向量Vi={vp|p∈P}和能力值向量同时,将学习者i的所在的地区、学校等个体特征进行量化,作为补充特征向量Gi,来细化学习者个体区别之间的差异,从而形成多维度特征向量。例如某一学习者所在的地区的数学平均分为72,其所在学校的数学平均分为69,那么该学习者补充特征向量G=[72,69]。最后,学习者i的多维度特征向量其包括已学习过的知识点的得分率向量Vi,能力值向量以及学习者个体特征向量Gi

基于学习者多维度特征向量的相似度计算模块,其具体实现如下:

基于学习者的量化特征提取模块产生的学习者i的多维度特征Ti,计算Ti与系统中具有相同学习过程的其他学习者的多维度特征Tj的欧式距离。从而得到学习者i与其余学习者之间的欧氏距离向量{Dij|j∈J},其中J为其余学习者的集合。例如学习者A的多维度向量TA=[a1,a2,…,an]学习者B的多维度向量TB=[b1,b2,…,bn]。这两个学习者之间的距离为了进一步得到相似度的数值,需要利用反转函数将学习者i与学习者j之间的欧氏距离Dij转化为相似度Sij。此模块中使用高斯函数作为反转函数,将学习者i与其余学习者j之间的欧氏距离向量{Dij|j∈J},转变为学习者i与其余学习者j之间的相似度向量{Sij|j∈J}。高斯函数的数学表达如下:

其中的Sij为学习者i与学习者j之间的相似度,Dij为学习者i与学习者j的综合特征向量间的欧氏距离,σ和μ为决定高斯函数形状的常数。通常μ=0;σ=1。

基于相似度向量的成绩预测模块,其具体实现如下:

给定系统中储存的历史数据包含的其余学习者J的学科总测成绩{Yj|j∈J}是已知,则对于待预测学科总测成绩Yi的学习者i,根据得到的学习者i与其余学习者J之间的相似度向量{Sij|j∈J},本模块从J个其余学习者中,筛选出前N个与学习者i相似度最高的学习者。此处用JN表示这N个学习者的集合。以学习者i与筛选出的N个学习者的相似度{Sij|j∈JN}作为权重,用N个其余学习者学业成绩{Yj|j∈JN}进行加权平均,最终预测学习者i的总测成绩加权平均的数学方程如下:

例如对于学习者A,系统根据其他学习者与A的相似度向量寻找到了前5个跟他相似度最高的学生,那些相似度分别是[1,0.99,0.99,0.83,0.82]。这5个学习者的总测成绩分别是[74,89,83,70,78],那么根据加权平均,得到学习者A的成绩

由于不同的N值对系统的预测效果有显著的影响。故需要先调试出合适的N值使系统的预测误差最小。其具体的过程和方法如下:

(1)一般情况下随着N的增加,系统的预测误差先减小,后增加。给N一个初始值,以一个常数递增,分别计算不同的N下系统的预测效果。例如计算N分别取值5,10,15,20,25时系统的预测误差。当随着N的增加,系统的预测误差不再减小时,那么此时的N就被选取为系统中最终的N值。

(2)如图3所示,对某一N值。基于系统中已经储存的学习者数,使用K次交叉验证计算得出的K个平均绝对误差(MAE)的平均值来作为系统的平均绝对误差。其中模型预测的误差大小的评判标准为平均绝对误差(MAE)为:n表示系统对n个学习者做了学业成绩的预测。表示系统预测的学习者i的学业成绩,yi表示学习者i的实际成绩。

(3)当系统的平均绝对误差不再随着N的增加而减小时,此时的数值将作为系统中最终确定的该参数值。

本发明未详细阐述的部分属于本领域公知技术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号