首页> 中国专利> 一种在校学生挂科学分预测方法、系统、装置及存储介质

一种在校学生挂科学分预测方法、系统、装置及存储介质

摘要

本发明涉及一种在校学生挂科学分预测方法、系统、装置及存储介质,所述方法包括以下步骤:获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。本发明提供的在校学生挂科学分预测方法,提高了挂科学分预测的准确度。

著录项

  • 公开/公告号CN112465277A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 武汉朱雀闻天科技有限公司;

    申请/专利号CN202110134526.9

  • 发明设计人 吴品章;孙含元;余锦;胡希;

    申请日2021-02-01

  • 分类号G06Q10/04(20120101);G06Q50/20(20120101);G06N5/00(20060101);G06N20/00(20190101);G06N20/10(20190101);G06N20/20(20190101);

  • 代理机构42231 武汉智嘉联合知识产权代理事务所(普通合伙);

  • 代理人黄君军

  • 地址 430000 湖北省武汉市东湖新技术开发区茅店山西路8号创星汇科技园D-503房

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及校园学习技术领域,尤其涉及一种在校学生挂科学分预测方法、系统、装置及计算机可读存储介质。

背景技术

每年有大量大学生因无法完成学业而被退学,对学生本人和学生家庭都是巨大的打击,对高校则是巨大的资源浪费,如何提前发现学业有困难的学生进行干预,避免悲剧的发生,是一个值得深入研究的课题。现有的方案所用的预测模型通常针对单一数据源,每个数据源不同,模型需要针对数据源进行调整,通用性不强,并且预测准确度不高。

发明内容

有鉴于此,有必要提供一种在校学生挂科学分预测方法、系统、装置及计算机可读存储介质,用以解决挂科学分预测准确度不高的问题。

本发明提供一种在校学生挂科学分预测方法,包括以下步骤:

获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;

将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;

选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;

重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。

进一步地,将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据,具体包括:根据所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据获取原始特征因子,并处理所述原始特征因子中数据异常的特征因子,生成特征因子数据。

进一步地,处理所述原始特征因子中数据异常的特征因子,生成特征因子数据,具体包括:丢弃原始特征因子中数据异常的特征因子,对原始特征因子中的字段取值进行数字化,去掉重复特征因子,对连续的特征因子进行离散化,生成特征因子数据。

进一步地,选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型,具体包括:

获取所述特征因子数据与挂科学分的相关性,根据所述相关性对特征因子数据进行第一次筛选,得到第一次筛选后的特征因子数据;获取第一次筛选后的特征因子数据间的线性相关性,根据所述线性相关性进行第二筛选,得到第二次筛选后的特征因子数据;获取二次筛选后的特征因子数据的重要程度,根据所述重要程度进行第三次筛选,得到第三次筛选后的特征因子数据;选取回归任务模型,利用该回归任务模型和第三次筛选后的特征因子数据,训练得到挂科学分预测模型。

进一步地,获取所述特征因子数据与挂科学分的相关性,具体包括,利用散点图获取所述特征因子数据与挂科学分的相关性;获取第一次筛选后的特征因子数据间的线性相关性,具体包括,利用皮尔森相关系数获取第一次筛选后的特征因子数据间的线性相关性;获取二次筛选后的特征因子数据的重要程度,具体包括,利用随机森林算法获取二次筛选后的特征因子数据的重要程度。

进一步地,选取回归任务模型,具体包括:

利用所述第三次筛选后的特征因子数据及对应的挂科学分数据作为数据集,以该数据集分别对若干不同回归任务模型进行训练,得到对应训练后模型,获取对应训练后的模型的准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,根据所述准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,在若干不同回归任务模型中选取一种模型作为回归任务模型。

进一步地,所述若干不同回归任务模型,具体包括:决策树模型、随机森林模型、AdaBoost模型、支持向量机模型、线性回归训练模型。

本发明还提供了一种在校学生挂科学分预测系统,包括数据获取模块、特征因子生成模块、模型获取模块及挂科学分预测模块;

所述数据获取模块,用于获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;

所述特征因子生成模块,用于将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;

所述模型获取模块,用于选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;

所述挂科学分预测模块,用于重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。

本发明还提供了一种在校学生挂科学分预测装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上述任一技术方案所述的在校学生挂科学分预测方法。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如上述任一技术方案所述的在校学生挂科学分预测方法。

与现有技术相比,本发明的有益效果包括:通过获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分;提高了挂科学分预测的准确度。

附图说明

图1为本发明提供的在校学生挂科学分预测方法的流程示意图;

图2为本发明提供的上学期加权平均分与挂科学分的散点图;

图3为本发明提供的在校学生挂科学分预测系统的结构框图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。

实施例1

本发明实施例提供了一种在校学生挂科学分预测方法,其流程示意图,如图1所示,所述方法包括以下步骤:

S1、获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;

S2、将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;

S3、选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;

S4、重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。

上述技术方案,通过获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分,可以提高挂科学分预测的准确度。

优选的,将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据,具体包括:根据所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据获取原始特征因子,并处理所述原始特征因子中数据异常的特征因子,生成特征因子数据。

一个具体实施例中,学生基本信息数据来源于学生管理系统,学生成绩数据来源于教务管理系统,一卡通数据来源于一卡通系统,图书馆入馆和借书数据来源于图书管理系统,上网数据来源于网络认证计费系统和上网行为审计系统,从过去成绩、当前行为方面选取的学生挂科相关的原始特征因子,原始特征因子,如表1所示。

表1

优选的,处理所述原始特征因子中数据异常的特征因子,生成特征因子数据,具体包括:丢弃原始特征因子中数据异常的特征因子,对原始特征因子中的字段取值进行数字化,去掉重复特征因子,对连续的特征因子进行离散化,生成特征因子数据。

一个具体实施例中,由于数据输入错误、数据处理错误等各种原因,原始数据(原始特征因子)中可能存在异常值,异常值可能会导致不可靠的输出,影响模型建立;异常值的处理方法常用有丢弃含有异常值的记录、视为缺失值进行处理、用平均值来修正和不处理等方式;具体实施时,可丢弃含有异常值的记录,例如丢弃课程成绩大于100或小于0的记录。

将原始数据中的字段取值进行数字化,例如课程成绩“优”、“良”、“中等”、“合格”、“不及格”、“违纪”分别转换为“90”、“85”、“75”、“60”、“55”、“0”。

上网时长数据来源于认证计费表,认证计费表记录了学生登录和退出网络系统的行为记录;认证计费表中可能存在一个账号在同一时刻有线、无线同时在线的可能,这会给时长统计带来极大误差。

在计算上网时长时,需要对认证计费表进行预处理,将有线上网和无线上网重复的时间段进行去重处理。即根据登录时间将数据升序排列,然后对比相邻的时间段,并将有重叠的时间段合并;表2为原始认证计费表数据,表3为去重后的认证计费表数据。

表2

表3

在对数据进行去重时,首先根据每条记录的上线时间对数据进行升序排列。设

具体的去重方法如下:

情况1,当

情况2,当

情况3,当

所以当

情况1,

情况2,

假设当

假设

其中,

情况1,当

情况2,当

情况3,当

所以当

情况1,

情况2,

上学期加权平均分为该学期必修课、院系和专业选修的加权平均分,公式为

上学期成绩趋势为上学期加权平均分与上上学期加权平均分的比值;专业基础课成绩为该学期专业基础课的加权平均分,专业基础课为包含以下关键字的课程:英语、语文、数学、物理、微积分、代数、概率、程序、系统、计算、函数。

月均消费额为该学期多个月份的平均消费金额,公式为

餐均消费额为该学期早中晚三餐总消费金额与总消费次数的比值,早餐时间段为[6:00~10:00),中餐时间段为[10:00~15:00),晚餐时间段为[16:00~22:00),其它时间段不算早中晚餐,公式为

日均早餐次数为该学期内每日早餐次数的和与该学期天数的比值,每日早餐次数使用就餐时间进行加权,公式为

月均借书本数为该学期多个月份的平均图书借阅本数,月均图书馆入馆次数为该学期多个月份的平均图书馆入馆次数,公式与月均消费额相同。

日均上网时长为该学期每日上网时长的和与该学期天数的比值,公式为

其中,

早餐规律性使用标准差公式为

连续的特征因子进行离散化,降低了模型过拟合的风险,使模型更稳定,采用变换函数:y= round(x / s) * s,其中s为离散间隔;

例如,对上学期加权平均分、专业基础课成绩离散化,离散间隔s为2,例如73.25分离散化为72分;

缺失值会造成分析结果的不准确,使用统计学的数据描述方法可以得出每个特征因子数据的缺失率、平均值、众数、中位数;特征因子数据的缺失率,如表4所示。

表4

丢弃缺失率超过30%的特征因子晚餐规律性,剩余的11个特征因子为:上学期加权平均分、上学期成绩趋势、专业基础课成绩、月均消费额、餐均消费额、日均早餐次数、月均借书本数、月均图书馆入馆次数、日均上网时长、早餐规律性、中餐规律性;

优选的,选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型,具体包括:

获取所述特征因子数据与挂科学分的相关性,根据所述相关性对特征因子数据进行第一次筛选,得到第一次筛选后的特征因子数据;获取第一次筛选后的特征因子数据间的线性相关性,根据所述线性相关性进行第二筛选,得到第二次筛选后的特征因子数据;获取二次筛选后的特征因子数据的重要程度,根据所述重要程度进行第三次筛选,得到第三次筛选后的特征因子数据;选取回归任务模型,利用该回归任务模型和第三次筛选后的特征因子数据,训练得到挂科学分预测模型。

优选的,获取所述特征因子数据与挂科学分的相关性,具体包括,利用散点图获取所述特征因子数据与挂科学分的相关性;获取第一次筛选后的特征因子数据间的线性相关性,具体包括,利用皮尔森相关系数获取第一次筛选后的特征因子数据间的线性相关性;获取二次筛选后的特征因子数据的重要程度,具体包括,利用随机森林算法获取二次筛选后的特征因子数据的重要程度。

一个具体实施例中,上学期加权平均分、专业基础课成绩、上学期成绩趋势呈现较明显的反向相关性;上学期加权平均分与挂科学分的散点图,如图2所示,图2横坐标为上学期加权平均分,图2纵坐标为挂科学分;日均早餐次数、月均借书本数和月均图书馆入馆次数虽然大体上呈反向关系,但回归线太平缓,整体上只在较右边的三角形尖部呈现一定的反向关系;月均消费额、餐均消费额与挂科学分没有关联关系。

丢弃与建模目标关联度小的特征因子月均消费额和餐均消费额,剩余的9个特征因子为:上学期加权平均分、上学期成绩趋势、专业基础课成绩、日均早餐次数、月均借书本数、月均图书馆入馆次数、日均上网时长、早餐规律性、中餐规律性。

日均上网时长、早餐规律性、中餐规律性大体上呈正向关系,但回归线太平缓,整体上只在较右边的三角形尖部呈现一定的正向关系。

使用皮尔森相关系数分析特征因子间的线性相关性,得到皮尔森相关系数矩阵,如表5所示;

表5

可知上学期加权平均分和专业基础课成绩强相关,月均早餐次数和早餐规律性强相关,月均借书本数和月均图书馆入馆次数中等程度相关;

中等程度相关以上的两个特征因子,选取其一,剩余的6个特征因子为上学期加权平均分、上学期成绩趋势、日均早餐次数、月均图书馆入馆次数、日均上网时长、中餐规律性;

使用随机森林算法分析特征因子的重要性,上学期加权平均分、日均早餐次数较重要,其它特征因子重要性较低;

表6

最后选取的5个特征因子为上学期加权平均分、日均早餐次数、上学期成绩趋势、月均图书馆入馆次数、日均上网时长;

选取最近一个学期的特征因子和挂科学分数据作为测试数据,前4个学期~前2个学期的特征因子和挂科学分数据作为训练数据;模型评估指标为确定系数R2,R2的计算公式为

其中,

优选的,选取回归任务模型,具体包括:

利用所述第三次筛选后的特征因子数据及对应的挂科学分数据作为数据集,以该数据集分别对若干不同回归任务模型进行训练,得到对应训练后模型,获取对应训练后的模型的准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,根据所述准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,在若干不同回归任务模型中选取一种模型作为回归任务模型。

优选的,所述若干不同回归任务模型,具体包括:决策树模型、随机森林模型、AdaBoost模型、支持向量机模型、线性回归训练模型。

一个具体实施例中,使用回归任务的主流算法模块,包括决策树模型、随机森林模型、AdaBoost模型、支持向量机模型、线性回归训练模型等进行反复训练,从准确率、可解释性、缺失值敏感性、非线性关系处理能力、运行效率等方面对比,选取随机森林算法;利用回归任务的主流算法训练的模型,其性能对比表,如表7所示;

表7

具体实施时,对于不在校的学生,与本学期相关的特征因子数据缺失,不进行预测;对于大一上学期的学生,与上学期相关的特征因子数据缺失,不进行预测;截至本学期结束的累计挂科学分为截至上学期结束的累计挂科学分与预测的本学期挂科学分之和,截至上学期结束的累计挂科学分不包括补卡或重修通过课程的挂科学分和选修课的挂科学分;对于学业预警学生,可以在系统查看历史预警记录、挂科详情记录,查看各学期的加权平均分、各学期的挂科学分等学习趋势分析,查看最近的上网时长、早餐次数、图书馆入馆次数等行为趋势分析,对学生进行处理,录入处理结果。对于不需要预警的学生,可以加入不再预警名单;在学期的开始,可以获取到上学期的挂科学分结果,系统定时任务使用上学期的特征因子和挂科学分数据对模型进行重新训练,提高模型预测的准确率;在学期的中间时间,使用更新后的挂科学分预测模型预测学生本学期的挂科学分。

实施例2

本发明提供了一种在校学生挂科学分预测系统,其结构框图,如图3所示,包括数据获取模块、特征因子生成模块、模型获取模块及挂科学分预测模块;

所述数据获取模块,用于获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;

所述特征因子生成模块,用于将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;

所述模型获取模块,用于选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;

所述挂科学分预测模块,用于重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。

实施例3

本发明实施例提供了一种在校学生挂科学分预测装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如实施例1所述的在校学生挂科学分预测方法。

实施例4

本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如实施例1所述的在校学生挂科学分预测方法。

本发明公开了一种在校学生挂科学分预测方法、系统、装置及计算机可读存储介质,通过获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分;提高了挂科学分预测的准确度。

本发明技术方案选取本学期的挂科学分为建模目标,相比学生是否学业预警的建模目标,对学生学业的量化更精细、区分度更好,可以对学业预警的学生按照预警严重程度从高到低分为红、橙、黄、蓝四个级别;与学校业务更吻合,学校可以很方便地对预测结果进行核对。

对于学业预警学生,可以在系统查看历史预警记录、挂科详情记录,查看各学期的加权平均分、各学期的挂科学分等学习趋势分析,查看最近的上网时长、早餐次数、图书馆入馆次数等行为趋势分析,对学生采取有针对性的措施,减轻管理工作量,提升干预效果。

进行预测的学期结束后,可以获取到实际挂科学分数据,该学期的特征因子数据和挂科学分数据可以作为新的训练数据,自动对模型进行重新训练,提高模型预测的准确率。数据处理时,对认证计费数据进行了去重处理,解决了PC端和移动同时在线时上网时长统计不准确的问题。

数据处理时,对连续的特征因子进行离散化,降低了模型过拟合的风险,使模型更稳定。使用散点图分析特征因子与建模目标间的关联关系,使用皮尔森相关系数分析特征因子间的线性相关性,使用随机森林算法分析特征因子的重要性,特征因子的选择过程解释性好。通过本发明技术方案可以及时地、有效地对挂科学分多的学生进行了预警和干预,以挽救学生学业,降低退学率。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号