首页> 中国专利> 一种基于贪婪选择策略的学生困难程度预测方法

一种基于贪婪选择策略的学生困难程度预测方法

摘要

本发明涉及一种基于贪婪选择策略的学生困难程度预测方法,包括:建立初始学生困难程度预测数据库,分析后形成基于不同指标数据的学生家庭分组标签;通过统计学方法对所述指标数据进行遍历,以得到用于计算困难得分的指标;将所述计算困难得分的指标数据映射到0‑1之间进行度量;通过参数学习算法赋予每个计算困难得分指标相匹配的权重,以形成基于各指标权重的权重参数集合W;对待预测学生家庭困难得分的指标进行权重加和得到困难得分S,并通过所述困难得分S实现对待预测学生的困难程度预测。本方法对于权重利用贪婪选择策略的思想进行优化通过求解局部最优解从而得到全局最优解,实现困难生的精细分类和困难程度预测。

著录项

  • 公开/公告号CN112215385A

    专利类型发明专利

  • 公开/公告日2021-01-12

    原文格式PDF

  • 申请/专利权人 北京桃花岛信息技术有限公司;

    申请/专利号CN202010211555.6

  • 发明设计人 刘文浩;陈岩;

    申请日2020-03-24

  • 分类号G06Q10/04(20120101);G06Q10/06(20120101);G06Q50/20(20120101);G06Q50/26(20120101);G06F17/11(20060101);

  • 代理机构34146 合肥中谷知识产权代理事务所(普通合伙);

  • 代理人洪玲

  • 地址 100089 北京市海淀区玲珑路9号院东区8号楼12层1218

  • 入库时间 2023-06-19 09:30:39

说明书

技术领域

本发明属于数据统计技术领域,具体涉及一种基于贪婪选择策略的学生困难程度预测方法。

背景技术

贫困学生教育资助是当下教育资助的一条手段,贫困学生教育资助已形成较为完备的体系,但是还存在着很多不足,有待进一步创新和完善。对“家庭经济困难”的准确认定有困难。应当采用定性与定量结合的贫困生认定指标体系,建立动态的贫困生档案制度。本方法基于一种贪婪选择策略的思想,对于样本中大量无规则的指标数据使用科学的统计学思想利用卡方检验等统计学方法选择合理的指标,并对指标通过参数优化学习进行赋权,对于权重利用贪婪选择策略的思想进行优化通过求解局部最优解从而得到全局最优解,再对指标加权求和的方法给困难程度打分,实现困难生的精细分类和困难程度预测。

发明内容

本发明的目的就在于为了解决上述问题而提供一种权重利用贪婪选择策略的思想进行优化通过求解局部最优解从而得到全局最优解,再对指标加权求和的方法给困难程度打分,实现困难生的精细分类和困难程度预测的基于贪婪选择策略的学生困难程度预测方法。

本发明通过以下技术方案来实现上述目的:

一种基于贪婪选择策略的学生困难程度预测方法,包括以下步骤:

步骤100、建立初始学生困难程度预测数据库,通过对所述数据库的数据进行分析,形成基于不同指标数据的学生家庭分组标签,其中,所述标签包括困难、一般、非困难、特殊;

步骤200、通过统计学方法对所述指标数据进行遍历,以得到用于计算困难得分的指标;

步骤300、将所述计算困难得分的指标数据映射到0-1之间进行度量;

步骤400、通过参数学习算法赋予每个计算困难得分指标相匹配的权重,以形成基于各指标权重的权重参数集合W,其中,

W=(w

其中w

步骤500、对待预测学生家庭困难得分的指标进行权重加和得到困难得分S,并通过所述困难得分S实现对待预测学生的困难程度预测,其中,

S=W*K

其中K表示待预测学生家庭的困难得分的指标集合,K=(k

作为本发明的进一步优化方案,所述步骤200中统计学方法为卡方检验,卡方检验公式如下:

其中A

作为本发明的进一步优化方案,所述步骤300中困难得分的指标的得分利用双曲正切函数进行映射,公式如下:

作为本发明的进一步优化方案,所述步骤400中的参数学习包括以下步骤:

步骤401,初始化得到初始解x

x

式中s=1,2,…,S,n=1,2,…,N,x

步骤402,依据如下公式生成新的可能解x′

x′

式中m

步骤403,将所述新的可能解x′

步骤404,将所述最优解依据概率选择一个可行解,概率公式为:

其中,F(x

步骤405,对于步骤404中被选择的可能解,根据所述概率公式搜寻新的可能解。

步骤406,使用重合率作为适应度,计算可行解适应度;选取适应度在最高的可行解作为最优权重参数。

作为本发明的进一步优化方案,所述步骤406中的适应度计算方法:首先将困难标签中的低保、低边、支出型学生家庭作为困难生,生成实际困难生名单,并计算困难生的总数量n;然后可行解作为最优权重参数计算学生家庭困难得分,将困难得分的前n名的学生家庭生成预测困难生名单,将实际困难生名单与预测困难生名单进行比对,重合率越大代表模型的预测能力越强。

作为本发明的进一步优化方案,所述步骤500中计算学生家庭困难得分时仅计算困难、一般、非困难标签的学生家庭。

本发明的有益效果在于:

1)本发明选择指标使用了合理的统计学方法,可以有效的取出有用的指标,去掉干扰指标

2)本发明对指标进行映射处理防止单一指标对模型影响太大的问题。

3)本发明针对模型中涉及的一系列权重参数,使用智能优化算法对参数进行迭代学习,可以在较高的计算效率上得到最优参数。

4)本发明在对参数进行优化学习时,对可行解作范围限制,可以防止模型过拟合,能够得到泛化能力更强的权重参数。

附图说明

图1是本发明的流程图

图2是本发明的系统框架图;

图3是本发明的算法框架图;

图4是本发明5次模拟计算的重合率趋势图。

具体实施方式

下面结合附图对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。

实施例一

本发明提供一种基于贪婪选择策略的学生困难程度预测方法,如图1所示,具体包括以下步骤:

步骤100、建立初始学生困难程度预测数据库,通过对所述数据库的数据进行分析,形成基于不同指标数据的学生家庭分组标签,其中,所述标签包括困难、一般、非困难、特殊。

在本发明的实施例中,建立初始学生困难程度预测数据库,其中,数据库中的数据包括:通过学生调查表、民政局、残联、房产局、车管所等数据源获得学生学号、年级、年龄、学校、户籍性质、户籍所在地、现居住地、全年总收入、全年医疗支出、全年教育支出、全年租房支出、全年因灾而造成的财产或其他损失、家庭共同生活成员年龄、家庭共同生活成员与本人关系、家庭共同生活成员工作及就学情况、家庭共同生活成员社保缴纳情况、家庭共同生活成员健康状况、家庭共同生活人口数、老人子女数、家庭宅基地住房个数、家庭宅基地住房类型、家庭宅基地住房面积、家庭商品房个数、家庭商品房面积、家庭非居住类住房个数、家庭非居住内住房类型、家庭非居住类住房面积、家庭小型汽车个数、家庭小型汽车品牌、家庭小型汽车购买时间、家庭小型汽车价格、家庭中型汽车个数、家庭中型汽车品牌、家庭中型汽车购买时间、家庭中型汽车价格、家庭大型汽车个数、家庭大型汽车品牌、家庭大型汽车购买时间、家庭大型汽车价格、家庭人均收入、家庭货币财产储蓄、家庭就职人数占比、家庭个体工商户人数占比、家庭务农人数占比、家庭就学人数占比、家庭患病人数占比。

在本发明的实施例中,通过对所述数据库的数据进行分析,形成基于不同指标数据的学生家庭分组标签具体为,依据国家政策对于贫困家庭的认定方法以及不同地区的经济水平给每个学生家庭建立标签,标签分为四大类,分别是困难,一般,非困难,特殊,根据不同地区的政策和经济情况再细化为各个小类。其中困难、一般、非困难这三类家庭继续计算,特殊家庭单独取出。

在本发明的实施例中对于上述四大类标签的学生家庭说明如下:

(1)特殊家庭:遭受自然灾害、意外事件、重大疾病等突发情况的家庭为特殊家庭,如果符合低收入人群要求给予资助。

(2)困难,一般,非困难:无以上特殊情况的家庭,根据政策规定,将学生分为4类:低保、低边、一般、非困难。其中低保和低边为困难家庭。

低保和低边的划分按照各个地区低保低边政策划分,各项指标满足当地低保要求即为低保,满足低边要求即为低边。

若家庭平均收入高,车辆价格高,住房面积或个数大等条件满足任一项即为非困难家庭;

各指标介于困难与非困难之间的家庭为一般家庭。

步骤200、通过统计学方法对所述指标数据进行遍历,以得到用于计算困难得分的指标。在本发明的实施例中,本步骤的指标选择包括对所述困难标签和非困难标签的学生家庭的各个指标,利用卡方检验的统计学方法确定出计算困难得分的指标;

卡方检验公式如下:

其中A

步骤300、将所述计算困难得分的指标映射到0-1之间进行度量。

在本发明的实施例中,度量的具体过程为:利用双曲正切函数作为基本的映射规则,该公式可以将得分映射到0-1之间,并且对于较大的值进行压缩。公式如下:

步骤400、通过参数学习算法赋予每个计算困难得分指标相匹配的权重,以形成基于各指标权重的权重参数集合W。

在本发明的实施例中,通过参数学习获得困难得分的指标的最优权重参数,对所述困难得分的指标的最优权重参数放入权重参数集合中,权重参数集合用W表示:

W=(w

其中w

参数学习:针对权重参数集合W中的所有参数,假设问题的解空间是S维的,将优化问题的求解过程看成是在维搜索空间中进行搜索。问题有N个可能解(N=S),每个可能解都有对应于相应的解的适应度。初始化时随机产生N个可行解,初始化公式如下:

x

式中s=1,2,…,S,n=1,2,…,N,x

x′

式中m

将新生成的可能解x′

依据概率选择一个可行解,概率公式为:

其中,F(x

使用重合率作为适应度,计算可行解适应度。

本发明的实施例中的参数学习是一个参数优化的过程,给定每个指标一个初始权重并不断迭代学习求出最优权重,参数学习设定了权重的初始值,学习方法以及学习的目标函数(适应度),目标函数越大权重越好。

适应度计算方法:首先将困难标签中的低保、低边、支出型学生家庭作为困难生,生成实际困难生名单,并计算困难生的总数量n;然后可行解作为最优权重参数计算学生家庭困难得分,将困难得分的前n名的学生家庭生成预测困难生名单,将实际困难生名单与预测困难生名单进行比对,计算重合率,重合率越大代表模型的预测能力越强。

迭代终止条件,可以设置最大迭代轮数,根据不同的数据量再增加迭代轮数。迭代结束后使用最优权重计算困难得分,进行困难程度排序。

本发明的实施例中的迭代是所述参数学习的过程,困难得分计算方法在步骤500中进行详述。

使用适应度即重合率作为模型评估的标准,模型评估结果见图3,最高准确率达到95.3%。

步骤500、困难得分公式:对指标进行权重加和,得分越高学生家庭困难程度越高,公式如下:

S=W*K

其中K标识指标集合,K=(k

对于学生标签的建立依据各地政策和不同的经济指标可做出调整;

指标选择中的卡方检验可以用其他统计学方法如皮尔逊相关系数等代替

指标的映射可以使用其他函数如sigmoid函数等进行映射

困难得分计算中的指标可以根据数据情况选择其他指标;

参数优化也可以选择其他智能优化方法进行参数更新。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号