首页> 中文学位 >决策树算法的研究及在空气质量评估中的应用
【6h】

决策树算法的研究及在空气质量评估中的应用

代理获取

目录

声明

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状及进展

1.3 论文研究内容和组织结构

第2章 决策树算法的研究

2.1 决策树算法原理

2.2 常见决策树算法分析对比

2.3 决策树算法的性能分析

2.4 本章小结

第3章 C4.5决策树算法的改进性研究

3.1 基于准确率的改进算法研究

3.2 基于速度的改进算法研究

3.3 本章小结

第4章 决策树算法在空气质量评估中的应用

4.1 空气质量数据采集及处理

4.2 决策数算法的应用

4.3 本章小结

第5章 总结与展望

5.1 总结

5.2 展望

致谢

参考文献

攻读硕士学位期间发表的学术论文

展开▼

摘要

空气污染对人们的生活和工作都会造成不便,严重时还会威胁到生命财产安全,在民众中引起恐慌。人们在饱受了空气污染所带来的危害后,开始重视改善空气质量的问题。为了能合理有效的对空气质量进行改善,对大量空气质量数据进行研究就变得必不可少,通过数据挖掘可从已有的数据中获得有用信息建立分类预测模型实现空气质量预测。而决策树算法是建立分类预测模型中比较经典也比较常用的算法。 决策树算法由于生成规则相对容易理解以及分类结果较准确等特点使用者众多,然而在实际应用中依然存在着不足。当前在经典算法的基础上进行改进来提升算法的效率,也是算法研究的一个重要方向。本文研究了常用决策树算法ID3、C4.5、CART、NBTree、REPTree的原理并采用多个数据集进行实验对比分析后,选出了整体效果较好的C4.5算法作进一步研究与改进。为此,本文以开源平台Weka作为实验环境,并重点研究了Weka中C4.5算法的源码结构。针对C4.5算法的不足,研究了改进的C4.5_BF算法和C4.5_FS算法,它们分别可以在算法准确率和建模时间两个方面做出改进。 C4.5_BF算法可以通过引入平衡因子来调整属性的信息熵,从而解决C4.5陷入局部优化导致算法准确性有所欠缺的问题。通过对UCI下载的12个数据集进行对比实验,证明了C4.5_BF算法在数据集属性一致时,确实是可以提高算法准确率的,虽然建模时间在1s内,但相比原算法还是有所增加。C4.5_FS算法可以通过有效的公式简化,去掉公式中大量的对数运算,优化算法的时间复杂度,从而减少建模时间,同时将属性选择标准改为信息增益率乘以属性特征数来降低去掉对数运算对准确性的影响。实验结果表明:对于属性都为离散型的数据集,这种方法确实能减少建模时间,并且数据集的数量越大效果越明显;但是对于属性都为连续型的数据集,却无法达到效果;同时分类准确率平均水平有所降低,下降了0.4%。通过对改进算法进行验证可以得出结论:算法的优化是以降低其通用性为代价的,算法最优效果的表现与数据集的特征有关,实际应用中应该根据数据集的特征和所需要的效果来选择合适的算法。 最后将所研究的决策树算法及改进后的算法应用在空气质量评估中,再一次证明了研究时的结论,同时可得到最优空气质量分类预测模型。

著录项

  • 作者

    胡楠;

  • 作者单位

    武汉理工大学;

  • 授予单位 武汉理工大学;
  • 学科 电子科学与技术
  • 授予学位 硕士
  • 导师姓名 李庆;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    决策树算法; 空气; 质量评估;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号