首页> 中文学位 >基于决策树的教育信息挖掘模型(DT-EIDM)的设计与实现
【6h】

基于决策树的教育信息挖掘模型(DT-EIDM)的设计与实现

代理获取

目录

文摘

英文文摘

论文独创性声明及使用授权声明

第1章概述

第2章基本概念

第3章基于ID3算法的决策树分类挖掘

第4章教育信息挖掘模型(DT-EIDM)的设计

第5章教育信息分类规则的挖掘

第6章挖掘结果的比较与分析

结论与展望

致谢

参考文献

展开▼

摘要

高等学校多年来的教学和管理中积累了大量的数据,目前这些数据还没有得到有效地利用,只是一个待开发的“宝藏”。数据挖掘可以从大量的数据中提取隐藏在数据背后的有价值信息,在越来越多的领域得到应用,取得了较好的效果,为人们作出正确的决策提供了很大的帮助。为了有效利用高校教学管理工作多年来积累的大量数据,本文对数据挖掘中的决策树算法-ID3算法进行了研究,并结合教育管理信息中数据的特点,对ID3算法进行了改进;根据改进算法设计了教育信息挖掘模DT-EIDM。 决策树学习算法在数据挖掘技术中具有很重要的作用,本文首先研究了决策树学习算法中的ID3算法。此算法有以下三方面不足:(1)在决策树的每个节点上只选择单个属性,属性间的相关性强调不够,这一缺点导致决策树中子树的重复和有些属性在同一决策树上被多次选择。(2)在生成决策树过程中,由于递归地划分,一些数据子集可能变得太小,进一步划分它们就失去了统计意义。(3)倾向于有许多值的属性。 本文针对ID3算法的不足,结合教育管理信息中数据的特点对ID3算法进行了改进,设计、实现了EIDT-DM算法,新算法主要做了以下改进:(1)大学四年要进行许多门课程的考试,对课程成绩挖掘结果所做的贡献也是不同的,如果考虑所有课程,挖掘涉及的属性就会很多,时间上就会浪费。本文在EIDT-DM算法中引入相关度概念,先对进行挖掘的非分类属性进行相关性分析,将与分类属性相关度小于事先规定的阈值的属性剔除。这减少了子树的重复,有效的降低了决策树的复杂度,从而使生成的知识更容易理解。(2)在生成决策树过程中,由于反复划分,一些数据子集可能变得太小,使得进一步划分失去了统计意义,为了避免这一问题,算法根据预先设定的分类阈值进行判断,如果给定子集中的样本数少于该阈值,该子集的进一步划分停止。作为替换,创建一个叶节点。在树剪枝时,对作为替换创建的叶节点,找出子集中分类属性具有最大样本数的类别,做为该叶节点的分类属性的值。例如子集中,分类属性=YES的样本个数大于分类属性=NO的样本个数,则该叶节点代表:分类属性=YES。(3)引进了复合度量基准取代信息增益作为决策属性选择的标准。在一定程度上解决了决策树采用信息增益基准所造成的偏向有许多值的属性的缺陷,并可改善决策树结构和分类正确率。 然后,根据改进的EIDT-DM算法,设计了面向教育管理决策的数据挖掘模型:教育信息挖掘模型(DT-EIDM),在挖掘模型DT-EIDM的实现过程中,运用支持多平台的JAVA开发语言,采用Oracle9i数据库创建了教育信息挖掘库,将不同数据源中所需要的挖掘数据进行集成和清理,导入到教育信息挖掘库中。根据教育信息挖掘库中的数据,可以对学生课程成绩信息,学生基本信息,以及包括学生学习成绩和基本信息的综合分类信息进行挖掘。在知识的表达和解释机制方面,使知识的表达不仅限于数字和符号,而且使用更容易理解的表格、图形等,并对获得的模式进行了简单的解释和评估。DT-EIDM挖掘模型以教育系统为背景,操作简单,可扩展性强。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号