首页> 中文学位 >以相关性确定条件属性的概化决策树
【6h】

以相关性确定条件属性的概化决策树

代理获取

目录

文摘

英文文摘

声明及关于学位论文使用权的说明

第一章数据挖掘及其分类算法

第二章决策树分类算法

第三章面向属性归约和相关性分析

第四章算法的改进

第五章实验与分析

第六章论文总结

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

数据挖掘是一种可以从海量数据中智能的和自动的抽取一些有用的、可信的、有效的和可以理解的模式的过程,也被称之为数据库中的知识发现。分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即分类器。该函数或模型能够把数据库中的数据记录映像到给定类别中的某一个。分类方法拥有大量的应用实例,如金融市场走向分析、顾客信用度分析、医疗诊断等。 决策树是数据挖掘中一种应用最为广泛的分类器。其原因如下:1、决策树分类的直观表示方法较容易转化为标准的数据库查询;2、决策树分类归纳的方法行之有效、尤其适合于大型数据集;3、决策树在分类过程中,除了数据集中已包括的信息外,不再需要其他额外的信息;4、决策树分类模型的预测准确度较高。 文章在介绍了一些典型的决策树分类算法的基础上,研究了一种基于相关性分析的决策树分类器。其主要思想是通过属性相关性来压缩训练集的大小并在建立决策树过程中采用此度量值来确定划分条件属性的顺序,通过阈值设定和处理简化了决策树的剪枝和优化过程,提高了处理的效率和规模。文章最后详细描述了算法的执行过程以及正确性证明和时间复杂性分析。 本课题的主要内容分为数据预处理、决策树生成、分析预测三个阶段。在数据预处理阶段,我们使用面向属性归约的方法对训练集进行横向的压缩以降低下一步数据处理时的复杂性;然后在已压缩规模的训练集上,应用相关性分析的方法选择划分的条件属性,并且对与类别属性相关性较弱的属性进行纵向的压缩,更进一步地降低处理的复杂性;最后建立起决策树分类模型后,对测试集进行分类预测,主要是对生成的决策树模型进行准确率方面的评估。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号