首页> 中国专利> 基于偏序模式的教育信息化课程关联模式发现方法及系统

基于偏序模式的教育信息化课程关联模式发现方法及系统

摘要

一种基于偏序模式的教育信息化课程关联模式发现方法及系统,利用教育信息化数据预处理模块进行预处理,构建课程信息数据库和课程项目库;利用课程候选项集生成及其剪枝模块挖掘完全加权课程候选项集,求出课程候选偏序项集,采用新的剪枝方法剪除无效课程候选偏序项集,得出完全加权课程候选偏序项集;完全加权课程频繁项集生成模块采用新的课程偏序项集支持度计算方法,得出课程频繁偏序项集;利用完全加权课程关联规则模式生成及显示模块挖掘有效的完全加权课程关联规则模式,并输出给用户。本发明能大幅度减少无效课程关联模式出现,候选项集和挖掘时间减少,提高挖掘效率,其课程关联规则模式更接近实际,为教务管理和教学改革提供依据。

著录项

  • 公开/公告号CN104182528A

    专利类型发明专利

  • 公开/公告日2014-12-03

    原文格式PDF

  • 申请/专利权人 广西教育学院;

    申请/专利号CN201410427501.8

  • 发明设计人 黄名选;韦吉锋;

    申请日2014-08-27

  • 分类号G06F17/30;G06Q50/20;

  • 代理机构广西南宁明智专利商标代理有限责任公司;

  • 代理人黎明天

  • 地址 530023 广西壮族自治区南宁市建政路37号

  • 入库时间 2023-12-17 03:04:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-16

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20170707 终止日期:20180827 申请日:20140827

    专利权的终止

  • 2017-07-07

    授权

    授权

  • 2014-12-31

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140827

    实质审查的生效

  • 2014-12-03

    公开

    公开

说明书

技术领域

本发明属于教育数据挖掘领域,具体是一种基于偏序模式的教育信息化课程关联模式发现方法及其挖掘系统,适用于教育数据挖掘中课程关联模式发现,其模式可为教务管理、教育决策和教学改革提供科学的依据,该发明在教育信息化数据分析以及教育模式挖掘有重要的应用价值和广阔的应用前景。

背景技术

教育数据挖掘是数据挖掘一个重要应用研究分支,涉及计算机科学、教育学和统计学等多学科的研究领域,是一种从教育数据中挖掘那些事先未知的和有用的教育模式和教育知识的过程。现有的教育数据关联规则挖掘方法主要集中在教育数据关联模式挖掘方法、教育数据加权关联规则挖掘方法和教育数据完全加权关联规则挖掘方法等3个方面。

教育数据关联规则挖掘方法是传统的关联规则挖掘方法在教育信息化领域的具体应用,属于基于频度挖掘的传统关联规则挖掘方法。该方法的特点是只考虑项目在数据库中出现的频度,各个项目按平等一致的方式处理。当前,教育数据关联规则挖掘对象主要是学校的课程、学生计划、课程成绩等教学环境数据,挖掘其数据间的相关性、依存性和学生行为模式,为教务管理、课程体系设计等提供决策支持。该方法存在的缺陷是:在挖掘时只考虑课程的选修关联,没有考虑课程之间具有不同的重要性,更没有考虑学生选修课程后的教学效果(即课程考试成绩)。典型的教育数据关联规则挖掘算法是Apriori方法(R.Agrawal,T.Imielinski,A.Swami. Mining association rules between sets of items in large database[C].  In  Proceeding  of  1993  ACM  SIGMOD  International Conference on Management of Data, Washington D.C.,1993, (5): 207-216.)及其改进方法,例如,董辉提出基于兴趣度的高职课程关联规则挖掘方法(董辉. 基于兴趣度的高职课程关联规则挖掘[J].吉首大学学报(自然科学版),2012,33(3):41-46.),李忠哗等(李忠哗, 王凤利, 何丕廉.关联规则挖掘在课程相关分析中的应用[J]. 河北农业大学学报,2010,33(3):116-119.)采用一种改进的Apriori 方法挖掘课程关联模式,进行课程相关性分析,Pal(S. Pal.Mining Educational Data to Reduce Dropout Rates of Engineering Students[J]. International Journal of Information Engineering and Electronic Business, 2012(2):1-7. Published Online April 2012 in MECS)和Baradwaj(B. K.Baradwaj , S.Pal .Mining Educational Data to Analyze Students Performance[J] . (IJACSA) International Journal of Advanced Computer Science and Applications, 2011,2(6):63-69.)指出采用传统的关联模式挖掘技术可以对学生期末考试成绩进行分类,对学业成绩很差、很可能导致退学的一类学生给予更多的重视和学习辅导,使学生的辍学率得到控制和减少。

教育数据加权关联规则挖掘方法克服了传统关联规则挖掘的缺陷,不仅考虑课程的选修关联,还给每门课程赋予一定的权值,以体现课程之间具有不同的重要性。典型的教育数据加权关联规则挖掘方法有Cai等( C. H. Cai, A. da, W. C. Fu,et al.  Mining Association Rules with Weighted Items [C]//Proceedings of IEEE International database Engineering and Application Symposiums, 1998: 68-77.)提出的加权关联规则挖掘方法(即MINWAL算法)及其改进方法,例如,刘建炜等(刘建炜,张颖.基于加权关联规则算法的学生成绩数据挖掘研究[J]. 福建教育学院学报,2012(3):123-125.)在学生课程考试成绩数据中挖掘加权关联规则模式,陈世保等(陈世保,徐峰,吴国凤.基于难度系数的加权关联规则在试卷评估中的应用[J]. 井冈山大学学报(自然科学版),2013,34(1):70-74.)提出了基于试题难度系数的加权关联规则挖掘方法。教育数据加权关联规则挖掘方法的缺陷是:在挖掘教育数据关联模式时,没有考虑学生所选修课程的教学效果,即只考虑课程之间的重要性,没有考虑课程考试成绩。

教育数据完全加权关联规则挖掘方法的特点是引入项目权值,考虑了考虑学生所选修课程的教学效果,即考虑课程考试成绩,其典型的完全加权关联规则挖掘方法是谭义红等[16]提出了向量空间模型中完全加权关联规则的挖掘方法(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)以及面向查询扩展的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20(7):1854-1865.)。当前,完全加权关联规则挖掘方法在教育数据分析中的典型应用是余如等(余如, 黄丽霞, 黄名选. 教育信息化中课程考试成绩数据关联模式的发现.计算机与现代化,2014(2):10-14. )提出的课程成绩数据关联模式发现方法,获得了显著的效果。现有的教育数据完全加权关联规则挖掘方法的缺陷是:其所挖掘的关联模式数量仍然很庞大,增加用户选择所需模式的难度,无趣的、虚假的和无效的关联模式还很多,很难将其技术上升到应用层面。针对上述问题,本发明根据教育信息化教务数据的特点,提一种新的基于偏序模式的教育信息化课程关联模式发现方法及系统。该发明采用新的课程项集支持度计算方法和剪枝技术,能够大幅度减少无趣的和无效的课程关联模式出现,其候选项集和挖掘时间明显减少,提高了挖掘效率,其课程关联规则模式更接近实际,可为教育管理、决策和教学改革提供科学的依据,在教育信息化教务数据分析与挖掘领域具有重要的应用价值和广阔的应用前景。

发明内容

本发明所要解决的技术问题在于,针对教育信息化课程关联模式挖掘进行深入探索,提出一种基于偏序模式的教育信息化课程关联模式发现方法及系统,应用于教育数据挖掘领域,为教育信息化课程关联模式挖掘与分析提供新的挖掘方法,通过课程关联规则模式分析发现教育领域潜在的教育、教学规律和教育发展趋势,为教务管理服务。在高校教务管理系统中使用本发明技术,可以扩展该管理系统的功能,使得教务管理系统功能更完善。

本发明解决上述技术问题所采取的技术方案是:一种基于偏序模式的教育信息化课程关联模式发现方法,包括如下步骤:

(1)教育信息化数据预处理:将待处理的教育信息化教务数据进行预处理,即提取学生课程成绩,将课程当作项目,把课程成绩当作项目权值,将课程权值规范化,即如果课程成绩采用百分制,则将课程成绩都除以100,使项目成绩权值在0到1之间,构建课程信息数据库和课程项目库。

(2)挖掘完全加权课程频繁偏序项集,包括以下步骤2.1和步骤2.2:

2.1、挖掘完全加权课程频繁1_项集L1,具体步骤按照2.1.1和 2.1.3进行:

2.1.1、从课程项目库中提取课程候选1_项集C1,将课程信息数据库中所有课程项目成绩权值累加,得到全部课程项目权值总和W,累加C1在课程信息数据库中的权值总和w(C1),计算课程项集C1的支持度(Cource itemsets support, cisup),即cisup(C1)。cisup(C1)的公式如下:

2.1.2、将课程候选1_项集C1中其支持度cisup(C1)≥ms的课程频繁1_项集L1加入到课程频繁项集集合CFIS,ms为最小支持度阈值。

2.1.3、在课程信息数据库中累加课程候选1-项集C1的出现频度n(C1),提取wr(C1),计算C1的课程项集权值期望(Cource Itemset Weight Bound,CIWB ),即CIWB(C1,2)。CIWB (C1,2)的计算公式为:

CIWB(C1,2)=2×W×ms-n(C1)×wr(C1)。

wr(C1)为在不属于C1的课程项目集合中其他项目的权值最大的项目权值。

2.2、挖掘完全加权课程频繁k_项集Lk,所述的k≥2,按照步骤2.2.1~ 2.2.10进行操作:

2.2.1、对于课程候选(k-1)_项集Ck-1,将w(Ck-1)<CIWB(Ck-1, k)的不可能成为课程频繁k_项集的Ck-1剪除,得到新的课程候选项集Ck-1集合。其中,w(Ck-1)为Ck-1在课程信息数据库中的权值累加总和,CIWB(Ck-1, k)为包含完全加权课程候选(k-1)_项集Ck-1的k_项集课程项集权值期望,其计算公式如下:

CIWB(Ck-1,k)=k×W×ms-n(Ck-1)×wr(Ck-1)

其中,n(Ck-1)为课程候选项集Ck-1在课程信息数据库中的出现频度,wr(Ck-1)为在不属于Ck-1项目集合的其他项目中权值最大的项目权值。 

2.2.2、采用Apriori连接方法,将其n(Ck-1)≠0的课程候选(k -1)_项集Ck- 1自身连接后生成课程候选k_项集Ck; 

2.2.3、如果课程候选k_项集Ck为空集,则退出2.2步转入(3)步,否则,转入2.2.4步。

2.2.4、对于课程候选k_项集Ck,如果存在一个其(k-1)_项子集,使得w(k-1)< CIWB(Ck-1,k),则该课程候选项集Ck一定是非频繁的,从Ck集合中删除该项集,得到新的课程候选k_项集Ck集合。

2.2.5、在课程信息数据库中累加课程候选k-项集Ck的出现频度n(Ck)及其各个项目权值w1(Ck),w2(Ck),…,wk(Ck) ,得出Ck的课程候选偏序项集cpoCk,提取wr(Ck),计算Ck的CIWB(Ck,k+1)。CIWB(Ck,k+1)的计算公式为:

CIWB(Ck,k+1) =(k+1)×W×ms-n(Ck)×wr(Ck)

其中,wr(Ck)为在不属于Ck项目集合的其他项目中权值最大的项目权值。

2.2.6、删除其n(Ck)=0的候选k-项集Ck,得到新的Ck集合。

2.2.7、对于课程候选偏序项集cpoC k,若存在其任一高序真子集是非频繁的,或者,若存在其高权项目的项目权值小于1_项集的最小权值阈值minw,则该课程偏序项集一定是非频繁的,从cpoCk中删除该项集,得到新的课程候选偏序项集cpoCk集合。minw的计算公式为:minw=W×ms。

2.2.8、对于课程候选偏序项集cpoCk,若存在其低权项目的项目权值大于或等于minw,则该课程偏序项集一定是频繁的,将该项集加入到课程频繁项集集合CFIS。

2.2.9、对余下的课程候选偏序项集cpoCk,计算其支持度cisup(cpoCk),若cisup(cpoCk)≥ms,则该课程偏序项集是频繁的,加入到课程频繁项集集合CFIS。cisup(cpoCk)的计算公式如下:

其中,w(cpoCk)是课程偏序项集cpoCk在课程信息数据库中的权值累加总和,k为课程偏序项集cpoCk的项目个数。

2.2.10、将k的值加1,循环2.2.1~2.2.10步骤,直到Ck为空,则退出2.2步转入如下(3)步。       

(3)从课程频繁项集集合CFIS中挖掘完全加权课程强关联规则模式,按照步骤3.1~ 3.4进行操作:

3.1、从CFIS取出课程频繁项集Li,生成Li的所有真子集。

3.2、从Li的真子集集合中任意取出两个真子集I1和I2,当I1?I2=?,并且I1èI2=Li,若 k12×w1×mc≤w12×k1,则挖掘出完全加权课程强关联规则I1→I2;若k12×w2×mc≤w12×k2,则挖掘出完全加权课程强关联规则I2→I1。所述的w1、w2和w12分别为I1 、I2和(I1, I2)的项集权值,k1、k2和k12分别为项集I1、I2和(I1, I2)的项目个数,mc为最小置信度阈值。

3.3、继续3.2步骤,当课程频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤3.4;

3.4,继续3.1步骤,当CFIS中每个课程频繁项集Li都被取出一次,而且仅能取出一次,则(3)步运行结束;

至此,完全加权课程关联规则模式挖掘结束。

一种适用于上述基于偏序模式的教育信息化课程关联模式发现方法的挖掘系统,其特征在于,包括以下4个模块:

 教育信息化数据预处理模块:该模块将待处理的教育信息化教务数据进行预处理,即提取学生课程成绩,将课程成绩权值规范化,构建课程信息数据库和课程项目库。

课程候选项集生成及其剪枝模块:该模块从课程信息数据库挖掘完全加权课程候选项集,累加课程候选项集的项目权值,得出课程候选偏序项集,采用新的项集剪枝方法对课程候选偏序项集剪枝,得到最终的课程候选偏序项集。

完全加权课程频繁项集生成模块:该模块主要是对上述模块剪枝后得到的最终课程候选偏序项集进行挖掘,通过本发明的支持度计算方法计算课程候选偏序项集的支持度,与最小支持度阈值比较,得出完全加权课程频繁偏序项集。

完全加权课程关联规则模式生成及显示模块:该模块通过课程项目权重及项集维数的简单计算和比较,从完全加权课程频繁偏序项集中挖掘完全加权课程强关联规则模式,将其模式以用户所需的形式显示给用户。

所述的教育信息化数据预处理模块包括以下2个模块:

课程信息提取模块:该模块负责从教育信息化教务数据中提取学生课程信息数据,将并将课程权值规范化。

课程信息数据库和课程项目库构建模块:该模块主要负责从已经预处理的教务数据中提取课程信息数据构建课程信息数据库,提取课程项目构建课程项目数据库。

所述的课程候选项集生成及其剪枝模块包括以下3个模块:

完全加权课程候选项集生成模块:该模块主要从课程信息数据库中挖掘课程候选项集,具体过程如下:从课程项目库中提取课程候选1-项集,累加课程候选1-项集在课程信息数据库中的权值,通过其支持度的计算,得出完全加权课程频繁1_项集;然后,通过Apriori连接,由完全加权课程频繁(k-1)_项集生成课程候选k_项集;所述的k≥2。

完全加权课程候选偏序项集生成模块:该模块通过累加课程候选k_项集的各个项目在课程信息数据库中的项目权值,得到完全加权课程候选偏序k_项集。

完全加权候选偏序项集剪枝模块:该模块利用本发明的项集剪枝方法对完全加权课程候选k_偏序项集进行剪枝,将不可能频繁的课程候选k_偏序项集删除,得到最终有可能频繁的课程候选k_偏序项集集合。

所述的完全加权课程关联规则模式生成及显示模块包括以下3个模块:

课程频繁偏序项集的子项集生成模块:该模块主要生成课程频繁偏序项集的所有真子集,求出各个真子集的项集权值和维数。

完全加权课程强关联规则生成模块:该模块通过项集以及真子集项集的权值和维数的简单计算和比较,从课程频繁偏序项集中挖掘完全加权课程强关联规则模式。

完全加权课程关联规则模式显示模块:该模块负责将挖掘出来的最终关联规则模式以用户所需的形式显示给用户,供用户选择和需要。

所述的挖掘系统中的最小支持度阈值ms, 最小置信度阈值mc由用户输入。

与现有技术相比,本发明具有以下有益效果:

(1)本发明首先提出教育信息化完全加权课程偏序模式的概念,提出一种新的完全加权课程偏序模式支持度计算方法以及偏序项集剪枝方法,在此基础上提出一种基于偏序模式的教育信息化课程关联模式发现方法及其挖掘系统。该发明采用新的支持度计算方法和剪枝方法,避免很多无效的、虚假的和无趣的课程关联规则出现,课程关联模式挖掘效率得到极大提高,其课程关联模式更加接近实际情况。与现有挖掘方法比较,本发明的课程候选项集数量以及挖掘时间均明显减少,其挖掘性能优于现有完全加权模式挖掘和基于频度的模式挖掘方法的,获得更加实际的完全加权课程关联模式,在教育信息化教育数据分析与挖掘领域有较高的应用价值和广阔的应用前景。在高校教务管理系统中使用本发明技术,可以扩展该管理系统的功能,使得教务管理系统功能更完善,可以挖掘出更接近实际的各种课程关联模式,教师进行模式分析可以提高教学质量,将模式应用于学生,可以提高学生的学习效果。

(2)以高校教务真实的课程考试成绩数据作为本发明实验数据测试集,将本发明与现有的完全加权模式挖掘方法进行实验比较和分析,实验结果表明,无论在支持度阈值或者置信度阈值变化的情况下,本发明的挖掘方法所挖掘的候选项集和挖掘时间都比对比方法的少,挖掘效率得到了极大提高。

附图说明

图1是本发明所述的基于偏序模式的教育信息化课程关联模式发现方法的框图。

图2是本发明所述的基于偏序模式的教育信息化课程关联模式发现方法的整体流程图。

图3是本发明所述的基于偏序模式的教育信息化课程关联模式挖掘系统的结构框图。

图4是本发明所述的教育信息化数据预处理模块的结构框图。

图5是本发明所述的课程候选项集生成及其剪枝模块的结构框图。

图6是是本发明所述的完全加权课程关联规则模式生成及显示模块的结构框图。

具体实施方式

为了更好地说明本发明的技术方案,下面将本发明涉及的教育信息化课程数据模型和相关的概念,以及新的剪枝方法介绍如下:

一、基本概念

定义1 (教育信息化课程数据模型):

教育信息化课程数据模型描述如下:设SCD={ r1,r2,…, rn }是学生课程信息数据库(StudentCourse Database , SCD),ri(1≦i≦n)表示SCD中的第i个学生记录,Cr={i1,i2,…,im}表示所选修的课程 (Course,Cr)项目集合,ij (1≦j≦m)表示第j个课程项目,w[ri][ij](1≦i≦n, 1≦j≦m))表示第i个学生记录ri的第j门课程ij的课程成绩权值,如果课程ij没有成绩,则w[ri][ij]=0。

教育信息化课程数据模型可以用如下表1表示。

表1   学生课程信息数据库(SCD)

定义2(课程项集权值和项目权值):完全加权课程项集I是由不同的课程项目i1,i2,…,ip组成的集合,即I=(i1,i2,…,ip)(1≤p≤m),Ií Cr,I的课程项集权值是指课程项集I全部项目同时出现在同一学生记录时各个学生记录中i1,i2,…,ip的权值累加总和,记为wI,即,或w=w1+w2+…+wp,其中,w1,w2,…,wp是I中各个课程项目i1,i2,…,ip对应的权值,称为课程项集I的项目权值,其值为该项目在学生记录集合SCD中满足课程项集I全部课程项目(i1,i2,…,ip)同时出现条件下各单个课程项目在满足条件的不同学生记录中的权值累加和,即

特别地,将课程项集I的子集在其满足项集中各个课程项目 (i1,i2,…,ip)同时出现的学生记录中累加的权值总和称为子集课程项目权值,记为wsub,而该子集单独作为一个项集时,在学生记录SCD中的课程项集权值记为w(sub),例如,课程项集I子集 (i1,i3) 的子集项目权值wsub(i1,i3)= w1+w2,而该子集单独作为项集时的项集权值为

定义3(完全加权课程偏序项集):对于完全加权课程项集I={i1,i2,…,ip}(1≤p≤m),其课程项目权值为w,w,… ,wp。根据课程项目成绩权值的大小排序,若w1≤w2≤…≤wp,其对应的课程项目排列记为i1i2ip,则将该课程项集{i1,i2,…,ip}称为完全加权课程偏序项集(Course Partial Order Itemset, CPOI),其中i1称为权值最小课程项目,简称低权课程项目,ip称为权值最高课程项目,简称高权课程项目。

定义4 (完全加权课程偏序项集支持度):以课程项目权值看作一种度量点,以学生课程信息数据库SCD中所有权值作为样本点,根据概率论中的几何概型理论,给出一种新的完全加权课程偏序项集I=(i1,i2,…,ip)(1≤p≤m)支持度(Cource itemsets support, cisup)计算公式cisup(I),如式(7)所示。

                                            (7)

其中,为完全加权课程偏序项集I的项集权值,为完全加权学生课程信息数据库SCD中全部课程项目权值总和,称为完全加权课程偏序项集支持度规范化系数。

定义5 (完全加权课程频繁偏序项集):设最小支持度阈值为ms,对于完全加权课程偏序项集I,若cisup(I)≥ms,即wI≥W×p×ms,则称项集I为完全加权课程频繁偏序项集。

特别地,当课程项集I为1_项集时,p=1,可得1_项集的最小权值阈值minw=W×ms,显然,当1_项集的权值不小于minw时,则该1_项集是频繁的。                                 

定义6 (课程项集权值期望):课程项集权值期望(Cource Itemset Weight Bound, CIWB )是指包含完全加权课程(k-1)_项集Ik-1的课程k_项集权值预测临界值,记为CIWB(Ik-1,k)。

设完全加权课程(k-1)_项集Ik-1(k<m)的权值为w(k-1),Ik-1ìCr。在不属于Ik-1课程项目集合的其他课程项目中,记其权值最大的课程项目为i(ir?Cr, ir?Ik-1, 1≤r≤m),该课程项目权值为wr,课程项集Ik-1在学生课程信息数据库SCD中的出现频度是n(k-1),那么包含Ik-1的课程k_项集最大可能的成绩权值是:w(k-1)+n(k-1)×wr ,其中,

     若包含Ik-1的课程k_项集是频繁的,由定义4可知,(w(k-1)+n(k-1)×wr)≥k×W×msT w(k-1)≥k×W×ms-n(k-1)×wr                                                                          (8)

将式(8)右边部分称为包含完全加权课程(k-1)_项集Ik-1的课程k_项集权值期望,记为CIWB(Ik-1,k),即,

CIWB(Ik-1,k)=k×W×ms-n(k-1)×wr                         (9)

定义7 (低序真子集与高序真子集):设完全加权课程偏序项集Z=(X,Y),X和Y是Z的2个子偏序项集,其中X=(i1,i2,…,ir)(1≤r<m),Y=(ir+1,ir+2,…,ir+q)(1≤q<m,2≤(r+q)≤m),其对应的项目权值为w1,w2,… ,wr(其中w1≤w2≤…≤wr)和wr+1,wr+2,…,wr+q(其中, wr+1≤wr+2≤…≤wr+q),若X的高权项目权值不大于Y的低权项目权值,即wr≤wr+1,则称子项集X是偏序项集Z的低序真子集,子项集Y是Z的高序真子集。

定义8 (完全加权课程关联规则置信度:all-weighted Association Rule confidence, awconf):对于完全加权项集(I1, I2)((I1, I2)íCr,I1? I2=?),其完全加权关联规则(I1→I2)置信度的计算如式(10)所示。

                                (10)

其中,k1、k12分别为项集I1和(I1, I2)的项目个数,w1、w12分别为I1 、(I1, I2)的项集权值。设最小置信度阈值为mc,若项集(I1, I2)是频繁的,且awconf(I1→I2)≥mc,即:W×k12×ms≤w12,并且k12×w1×mc≤w12×k1,则称关联规则(I1→I2)为完全加权强课程关联规则。

所述的本发明的完全加权课程项集的剪枝方法是:

①在课程候选(i-1)_项集Ci-1产生课程候选i-项集Ci (i≥2)前,计算Ci-1的课程项集权值期望CIWB(Ci-1,i),若完全加权课程候选(i-1)_项集Ci-1的项集权值w(i-1) <CIWB(Ci-1,i),那么其课程(i-1)_项集Ci-1后续的课程i_项集Ci一定是非频繁项集,应该从Ci-1集合中剪除该课程(i-1)_项集。

②生成课程候选项集Ci后,对于候选项集Ci的任何(i-1)_项集子集,计算每个候选项集子集的课程项集权值期望,若存在一个其(i-1)_项子集的项集权值小于其对应的课程项集权值期望(即w(i-1)<CIWB(Ci-1,i)),则该课程候选i_项集Ci一定是非频繁项集,应该从Ci集合中剪除该课程候选项集。

③对于课程候选项集Ci的偏序项集的高序真子集,若存在其高序真子集为非频繁项集的,那么该课程候选项集Ci是非频繁偏序项集,应该从Ci集合中剪除该课程候选项集。(剪枝③)

④对于课程候选项集Ci的偏序项集的高权项目,若存在其高权项目的项目权值小于1_项集的最小权值阈值minw,则该课程候选项集一定是非频繁项集,应该从Ci集合中剪除该课程候选项集。

⑤若课程(i-1)_项集Ci-1的课程项集频度为0,即n(i-1)=0,则该课程(i-1)_项集后续的课程i_项集一定是非频繁项集,应该从Ci-1集合中剪除该课程(i-1)_项集。

⑥对于候选项集Ci的偏序项集的低权项目,若存在其项目权值不小于1_项集的最小权值阈值minw,那么该候选项集Ci是频繁的,将Ci加入到频繁项集集合中。

 

下面通过具体实施例对本发明的技术方案做进一步的说明。

具体实施例中本发明采取的挖掘方法和系统如图1-图6所示。

实例:表2是一个课程项目库实例,表3是学生选修课程的课程信息数据库实例,即有5个课程项目和5个学生记录以及各个课程项目的成绩权值,其中成绩权值已经进行规范化处理,使之在0到1之间,没有选修的课程成绩为0,满分的课程成绩为1。

 

本发明对上述实例挖掘完全加权课程关联规则模式的过程如下(设ms=0.17,mc=0.6):

1.求出数据库中全部课程项目权值总和W=14.17,故minw =W×ms=2.409。

2. 挖掘完全加权课程频繁1_项集L1,如表1所示。

表1:

C1w(C1)cisup(C1)nc1wr(C1)CIWB(C1,2)(i1)2.820.20412×14.17×0.17-4×1=0.818(i2)3.070.22412×14.17×0.17-4×1=0.818(i3)3.410.24412×14.17×0.17-4×1=0.818(i4)2.020.14412×14.17×0.17-4×1=0.818(i5)2.850.20412×14.17×0.17-4×1=0.818

  由表1可知,L1={(i1), (i2), (i3), (i5)},

课程频繁项集集合CFIS={(i1), (i2), (i3), (i5)}。

3.挖掘完全加权课程频繁k_项集Lk,所述的k≥2。

k=2:

(1)(剪枝1)对于课程候选1_项集C1,没有w(C1)<CIWB(C1, 2)的情况,故课程候选项集C1集合不变。

(2) 将其项集频度不为0的课程候选1_项集C1进行Apriori连接,生成课程候选2_项集C2,并计算w1(C2)、w2(C2)、poC2、w(poC2)、nc2、wr(C2)和CIWB(C2,3)如表2所示。

表2:4.652

C2w1(C2)w2(C2)cpoC2w(poC2)nc2wr(C2)CIWB(C2,3)(i1,>2)2.472.22(i2,>1)(2.22,2.47)313×14.17×0.17-3×1=4.227,(i1,>3)2.272.44(i1,>3)(2.27,2.44)313×14.17×0.17-3×1=4.227(i1,>4)1.91.34(i4,>1)(1.34, 1.9)313×14.17×0.17-3×1=4.227(i1,>5)1.822.09(i1,>5)(1.82, 2.09)30.973×14.17×0.17-3×0.97=4.317(i2,i3)2.22.66(i2,>3)(2.2, 2.66)313×14.17×0.17-3×1=4.227(i2,>4)2.41.38(i4,>2)(1.38, 2.4)313×14.17×0.17-3×1=4.227(i2,>5)2.392.62(i2,>5)(2.39,2.62)313×14.17×0.17-3×1=4.227(i3,>4)2.661.77(i4,>3)(1.77,2.66)313×14.17×0.17-3×1=4.227(i3,>5)2.471.99(i5,>3)(1.99, 2.47)313×14.17×0.17-3×1=4.227(i4,>5)1.571.85(i4,>5)(1.57, 1.85)313×14.17×0.17-3×1=4.227

对于表2,进行如下操作:

﹡考察课程偏序项集cpoC2的高序真子集,即(i1),(i2),(i3),(i5),这些真子集都是频繁的,不存非频繁真子集项集,故偏序项集cpoC2集合不变。

﹡考察余下的课程偏序项集cpoC2的高权项目的项目权值,

cpoC2高权项目的项目权值<minw =2.409的是:(i4, i1),(i1, i5), (i4, i2), (i4, i5),它们是非频繁的,从cpoC2集合中删除该项集。

﹡考察余下课程偏序项集cpoC2的低权项目,不存在cpoC2的低权项目的项目权值≥minw的情况,课程频繁项集集合CFIS不变。

﹡对余下的课程偏序项集cpoC2,即(i2, i1) , (i1, i3) ,(i2, i3),(i2, i5),(i4, i3), (i5, i3),计算计算其支持度,即cisup(i2, i1)=( 2.22+2.47)/(14.17×2)=0.165<ms,cisup(i1, i3)=0.166<ms,cisup(i2, i3)= =0.171>ms, cisup(i2, i5)=0.177>ms,cisup(i4, i3)=0.156<ms,cisup(i5, i3)=0.157<ms,故课程项集(i2, i3)和(i2, i5)是频繁偏序项集,加入到课程频繁项集集合CFIS,即,CFIS={(i1), (i2), (i3), (i5) , (i2, i3) , (i2, i5) }。

k=3:

﹡从表2可知,对于课程候选2_项集C2,w(C2)= w1(C2)+ w2(C2),其w(C2)<CIWB(C2, 3)的偏序项集有:(i4, i1), (i1, i5), (i4, i2), (i4, i5),该课程偏序项集不可能成为课程频繁3_项集,应该从C2集合中剪除,得到新的候选项集C2集合,C2={(i1, i2),(i1, i3), (i2,i3), (i2, i5), (i3, i4), (i3, i5)}。

﹡将其项集频度不为0的课程候选2_项集C2进行Apriori连接,生成课程候选3_项集C3,即C3={(i1, i2, i3),(i2, i3, i5),(i3, i4, i5)}。

﹡对于课程候选3_项集C3,考察C3的任何(3-1)_项集子集,即C3的2_项集子集:

对于(i3, i4, i5):存在其子项集(i4, i5),其w(i4, i5)<CIWB((i4, i5), 3),故课程候选3_项集(i3, i4, i5)是非频繁项集,应该从C3删除,新的C3={(i1, i2, i3),(i2, i3, i5) }。

﹡计算w1(C3)、w2(C3)、w3(C3)、cpoC3、w(cpoC3)、nc3、wr(C3)和CIWB(C3,4)如表3所示。

表3:

C3w1(C3)w2(C3)w3(C3)poC3w(poC3)nc3wr(C3)CIWB(C3,4)(i1,>2,>3)1.921.351.69(>2,>3,>1)(1.35,1.69, 1.92)214×14.17×0.17-2×1=7.636(i2,>3,>5)1.521.721.76(i2,>3,>5)(1.52, 1.72, 1.76)214×14.17×0.17-2×1=7.636

对于表3,进行如下操作:

﹡考察课程偏序项集cpoC3的高序真子集,即存在课程偏序项集(i1, i2, i3)的高序真子集(i3, i1)是非频繁的,同理,(i2, i3, i5)的高序真子集(i3, i5)也是非频繁的,故偏序项集(i1, i2, i3)、(i2, i3, i5)是非频繁项集,应该从cpoC3中删除,得到新的课程偏序项集cpoC3={?}。

﹡由于课程偏序项集cpoC3已经是空集,不存在课程频繁3_项集,故不再考察偏序项集poC3的高权项目的项目权值和考察偏序项集poC3的低权项目,直接转入k=4的情况,此时,课程频繁项集集合CFIS不变,即,CFIS={(i1), (i2), (i3), (i5) , (i2, i3) , (i2, i5) }。

k=4:

﹡从表3可知,对于课程候选3_项集C3,w(C3)= w1(C3)+ w2(C3) + w3(C3),其w(C3)<CIWB(C3, 4)的偏序项集有:(i1, i2, i3), (i2, i3, i5),这些课程偏序项集不可能成为课程频繁4_项集,应该从C3集合中剪除,得到新的候选项集C3集合,C3={?}。

l        由于C3={?}是空集,候选4_项集C4也为空集,即C4=?,故3步骤挖掘结束,转入如下4步骤。

﹡ 综上所述,挖掘的课程频繁项集集合CFIS={(i1), (i2), (i3), (i5) , (i2, i3) , (i2, i5) }

4. 从课程频繁项集集合CFIS中挖掘完全加权课程强关联规则模式。

以CFIS中课程频繁项集(i2, i5)为例,给出完全加权课程关联规则模式挖掘过程如下:

课程频繁项集(i2, i5)的真子集集合为{( i2), (i5) }。

对于{( i2), (i5)},即I1=( i2),I2= (i5),{( i2), (i5)}= (I1, I2),故k1=1,k2=1,k12=2,

从表1可知,w1=3.07,w2=2.85,

从表2可知,w12=2.39+2.62=5.01, 

因为k12×w1×mc=2×3.07×0.85=5.219,w12×k1=5.01×1=5.01,所以k12×w1×mc>w12×k1,没有满足k12×w1×mc≤w12×k1,挖掘不出规则I1→I2

因为k12×w2×mc=2×2.85×0.85=4.845,w12×k2=5.01×1=5.01,所以满足k12×w1×mc≤w12×k1,挖掘出完全加权课程关联规则I2→I1,即(i5)→( i2),或者,(数据结构)→(程序设计),表明学好《数据结构》课程,就能学好《程序设计》课程。

 

下面通过实验对本发明的有益效果做进一步说明。

实验数据来自本校教务部分真实的课程考试成绩数据,选择英语教育、应用英语、旅游英语和商务英语等英语专业的历届毕业生在校学习成绩为数据测试集。将每个学生信息作为一个学生记录,将学生选修的课程当作课程项目,课程成绩当作权值,将成绩权值规范化为0到1之间,构建学生信息数据库和课程项目库。实验中,学生信息记录数为415,课程项目数为165。选择现有的完全加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20(7):1854-1865.,实验中将扩展词数量设为0)为对比方法,编写实验源程序,分别从支持度阈值变化和置信度阈值变化两种情况对本发明和对比方法的挖掘性能进行实验对比和分析。实验参数除了ms和mc以外,还有:IN:挖掘的课程项目数量,n:学生信息记录数。实验挖掘到4-项集。

实验1:支持度阈值变化情况下算法挖掘性能比较

支持度阈值变化时本发明和对比方法(MWARM方法)在真实的课程考试成绩数据集中挖掘候选项集(Candidate Itemset, CI)、频繁项集(Frequent Itemset, FI)和关联规则(Association Rule, AR)数量结果如表1至表2所示。

 

实验2:置信度阈值变化时挖掘性能比较

置信度阈值变化时本发明和对比方法在真实的课程考试成绩数据集中挖掘关联规则数量如表3所示。

 

实验3:挖掘时间效率比较

支持度阈值变化时本发明和对比方法挖掘候选项集、频繁项集和关联规则的时间(秒)如表4所示。在置信度阈值变化的情况下2种方法挖掘关联规则的时间(秒)如表5所示。

上述实验结果表明,与实验对比相比较,本发明的挖掘性能具有良好的挖掘性能,具体表现为:无论在支持度阈值或者置信度阈值变化的情况下,本发明所挖掘的候选项集、频繁项集、关联规则数量都比现有无加权和完全加权方法挖掘的少很多,表明了本发明能够避免和减少很多无效的关联模式出现;本发明挖掘时间比对比方法挖掘的少,减幅较大,表明了本发明的挖掘效率得到了极大提高。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号