首页> 中文学位 >面向离散属性的决策树分类方法研究
【6h】

面向离散属性的决策树分类方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 决策树算法研究现状

1.2.2 属性分裂方法研究现状

1.2.3 分类规则方法研究现状

1.3 研究内容及论文组织结构

第2章 相关理论知识介绍

2.1 数据挖掘理论概述

2.2 决策树理论

2.2.1 基本概念

2.2.2 常见的决策树算法介绍

2.3 离散属性介绍

2.4 属性分裂方法介绍

2.5 分类规则介绍

2.6 本章小结

第3章 简化属性分裂方法

3.1 引言

3.2 约减后的属性判断方法

3.3 矫正函数的引入

3.3.1 矫正函数的选取

3.3.2 矫正函数的证明

3.4 优化后的属性判断方法

3.5 实验与分析

3.6 本章小结

第4章 基于堆的属性计算方法

4.1 引言

4.2 堆的概念

4.2.1 离散属性中堆的定义

4.2.2 离散属性中堆个数的计算

4.3 基于堆的决策树算法

4.4 实验与分析

4.5 本章小结

第5章 基于分类规则的决策树算法

5.1 引言

5.2 分类规则的选取

5.3 实验对比结果

5.4 结论

第6章 总结与展望

6.1 总结

6.2 未来与展望

参考文献

致谢

展开▼

摘要

数据挖掘是指在大量已存在的数据中发现规律的一个过程。近年来,在大量数据中智能提取知识已经引起了业界广泛的关注。数据挖掘领域包括分类、聚类、聚簇、关联分析等各种挖掘方法。决策树算法因它提取知识简单、高效、易于理解等优点,在数据挖掘领域中占有无可替代的地位。在已有的决策树算法中,计算决策树分裂结点的标准大多以香农的信息熵为基础,信息熵需反复地进行对数运算,分类效率不高。又因已有算法在选择候选结点时的随机性,使分类器无法进一步选择判断属性分裂标准相同时的情况,进而降低预测分类的准确率。
  本研究主要内容包括:⑴针对已有决策树算法分类效率不高的问题,为避免复杂的对数运算,提高CPU的利用率,提出了改进的属性判断标准的优化函数。对比实验显示该优化函数能有效提高分类效率和CPU的利用率。⑵针对生成后的决策树分类器精确率低的问题,为避免当两个或更多的属性判断标准的计算值接近某个阈值或相等,随机选择一个结点作为下一个属性分裂的结点,进一步引入了一个基于堆的属性判断方法,以此来提高分类精确率。通过实验验证,该方法可以有效提高某些特定数据集的分类精确率。⑶针对决策树分类精确率不高以及过度拟合的问题,引入了基于分类规则的方法。利用改进的决策树算法N次随机抽样生成N个决策树分类器,再从这些分类器中挑选出最优的分类规则,生成最终的决策树模型。经过实验验证,该算法相比已有算法,在分类效率和分类准确率上都有相应的提高。

著录项

  • 作者

    赵柯;

  • 作者单位

    大连海事大学;

  • 授予单位 大连海事大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 刘智;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    信息检索; 数据挖掘; 决策树分类; 程序语言;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号