首页> 中文学位 >数据挖掘中决策树分类算法研究与应用
【6h】

数据挖掘中决策树分类算法研究与应用

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1本文研究背景

1.2数据挖掘研究现状

1.3决策树算法的应用

1.4本文组织结构

第二章决策树分类算法研究

2.1常见分类算法

2.1.1决策树

2.1.2贝叶斯方法

2.1.3神经网络

2.1.4支持矢量机

2.1.5其它方法

2.2决策树算法

2.3决策树构造与简化

2.4剪枝算法

2.4.1前期剪枝

2.4.2后期剪枝

2.4.3剪枝优化的原则

2.5常见决策树算法

2.5.1 CLS学习算法

2.5.2 ID3算法

2.5.3 C4.5算法

2.5.4其它方法

2.6对几种算法的评价

2.7本章小结

第三章决策树改进研究

3.1裁减属性降维

3.1.1属性重要性排序

3.1.2 RBF神经网络

3.1.3实验验证

3.2连续属性离散化

3.3属性选择标准研究

3.3.1改进的理论基础

3.3.2克服选择属性时的偏向

3.3.3属性选择标准的改进

3.3.4实验验证

3.4本章小结

第四章决策树优化整合

4.1算法改进

4.2应用验证

4.3本章小结

第五章新算法在图像数据挖掘中的设计

5.1设计流程

5.2数据流转

5.3执行界面

5.4开发运行环境

5.5本章小结

第六章总结与展望

6.1全文总结

6.2后续工作和研究前景

参考文献

硕士期间发表论文

致谢

展开▼

摘要

决策树是分类应用中采用最广泛的模型之一。与神经网络和贝叶斯方法相比,决策树无须花费大量的时间和进行上千次的迭代来训练模型,适用于大规模数据集,除了训练数据中的信息外不再需要其他额外信息,表现了很好的分类精确度。其核心问题是测试属性选择的策略,以及对决策树进行剪枝。连续属性离散化和对高维大规模数据降维,也是扩展决策树算法应用范围的关键技术。 本文以决策树为研究对象,主要研究内容有: (1) 引入了一种新的降维方法:先对所有条件属性进行重要性排序,再利用神经网络不需先验知识的“黑箱”分类特点,及其分类效能高的优势,对属性进行裁减,选择出对数据分类最有效的若干基本属性,从而达到降维的效果; (2) 提出了加权二分查找算法进行连续属性离散化,该方法克服了传统二分查找方法单纯划分区域,容易陷入局部最大的缺点,且相对简单,易于实现,效率高; (3) 改进了传统的基于信息熵的属性选择标准,在选择测试属性生成决策树时,克服了ID3和C4.5算法选择测试属性时的偏向问题,计算量小,运行时间短,提高了决策树分类器的分类效率; (4) 基于以上三方面工作,对传统决策树进行优化整合,分析了改进算法的流程,并通过实验数据与C4.5算法进行比较,证明了该算法的优势。 (5) 将上述算法应用于一个图像数据挖掘系统,对从图像中提取的特征数据进行训练,生成决策树后,对新特征数据进行分类,透明度高,可移植性强,效果较好。 本项研究得到了“十一五”国家科技支撑计划重点项目“综合风险防范(IRG)关键技术研究与示范”(2006BAD20802)的支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号