首页> 中文学位 >基于信息增益的量化算法及其在决策树中应用的研究
【6h】

基于信息增益的量化算法及其在决策树中应用的研究

代理获取

目录

摘要

第一章 绪论

1.1 研究的背景及意义

1.2 课题研究现状

1.3 本文研究内容

1.4 本文的组织结构

第二章 相关背景知识

2.1 数据挖掘技术

2.2 分类算法相关知识

2.2.1 分类的基本概念

2.2.2 分类的基本步骤

2.2.3 数据挖掘典型的分类算法

2.3 决策树算法简介

2.3.1 决策树算法概述

2.3.2 决策树的结构

2.3.3 决策树算法的学习过程

2.4 本章小结

第三章 基于信息增益的量化算法实现

3.1 C4.5算法的分析

3.1.1 C4.5算法流程

3.1.2 C4.5算法的评价

3.2 算法的改进

3.2.1 信息增益量化算法的实现过程

3.2.2 信息增益与K-means相结合量化算法

3.3 本章小结

第四章 信息增益量化算法在决策树中的应用

4.1 实验数据

4.2 实验过程

4.3 实验结果

4.4 实验结果分析

4.4.1 改进后量化算法与C4.5算法对比

4.4.2 基于信息增益的二分法、三分法、四分法量化效果对比

4.4.2 信息增益与聚类算法相结合的二聚类、三聚类量化效果对比

4.5 本章小结

总结与展望

参考文献

攻读学位期间发表论文

声明

致谢

展开▼

摘要

数据挖掘广义上指的是从现存的海量数据中通过智能的手段提取出隐藏的、具有价值的模式或者规律、知识等一系列复杂的挖掘过程,在如今这个大数据时代,数据挖掘这一面向应用的技术从产生就在各行业发挥了非常重要的作用,而且拥有着影响企业发展的能力。其中对于数据挖掘而言,分类是其中重要的一项技术。目前,分类已广泛应用于多个领域,如教育、金融、医疗等行业。分类具有决策树、贝叶斯网络、神经网络、遗传算法等方法,在这当中,决策树分类算法因为理论基础简单、容易理解掌握等优点而被广泛研究与应用。
  本文主要是围绕对连续数据的量化算法、量化后对决策树算法分类精确度的影响进行展开研究,其主要研究内容和研究成果如下:
  第一,针对目前国内外对决策树分类算法、聚类算法的研究现状以及比较决策树分类算法、聚类算法的研究现状(详见第一章)。
  第二,分别对决策树分类算法、聚类算法的相关概念进行介绍(详见第二章)。
  第三,提出基于信息增益的量化算法及信息增益与聚类算法相结合的量化算法,统称为基于信息的量化算法(详见第三章)。
  第四,在实验的基础上实现提出的量化算法,并把量化后的数据应用在决策树上,对比经决策树分类后输出的分类精度,并分析这些量化算法各自的优势。首先,使用改进的量化算法对数据集中的连续属性值计算信息增益、离散化处理;其次,再运用决策树算法对其进行分类,记录分类准确度;然后,对比分析决策树的分类准确度,观察改进后分类准确度是否提高,并以分类准确度为衡量标准,选择分类准确度最高对应的量化算法作为该数据集的最佳量化方法(详见第四章)。
  第五,在Eclipse平台上进行实验,使用Java语言实现量化算法,把数据集存入数据库Mysql,数据集来源于UCI数据集,实现数据的量化,得到量化后的数据集,再利用数据挖掘平台Weka的决策树分类算法C4.5源码对量化后的数据进行分类,得到分类后的准确度,比较改进前后的分类准确度(详见第四章)。

著录项

  • 作者

    邓蓓蓓;

  • 作者单位

    广东工业大学;

  • 授予单位 广东工业大学;
  • 学科 控制工程
  • 授予学位 硕士
  • 导师姓名 邢延,郭秋良;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据挖掘; 决策树算法; 量化算法; 信息增益;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号