首页> 中文学位 >随机森林及数据可视化在棉蚜等级预测中的应用研究
【6h】

随机森林及数据可视化在棉蚜等级预测中的应用研究

代理获取

目录

声明

1绪论

1.1研究目的与意义

1.2国内外研究现状

1.3研究内容、方法及技术路线

1.4论文结构

1.5本章小结

2相关理论

2.1线性回归

2.2决策树

2.3随机森林

2.4实验结果对比与分析

2.5本章小结

3基于随机森林的棉蚜虫害发生等级预测

3.1实验数据

3.2评价指标

3.3数据预处理

3.4实验结果与分析

3.5本章小结

4数据可视化

4.1数据可视化简介

4.2可视化分析

4.3本章小结

5 总结与展望

5.1总结

5.2展望

参考文献

致谢

攻读硕士学位期间发表论文情况及其他成果

展开▼

摘要

棉蚜的监测预警是对棉蚜提前防治的研究重点,采集棉蚜发生相关的数据进行分析预测,提前对棉蚜进行防治,减少棉蚜给棉花带来的危害,实现棉区的高产和优产。进行数据分析的研究过程从两方面展开:一是利用高性能的机器算法;二是从数据可视化的角度对数据进行展示分析。
  本文首先利用随机森林算法进行了棉蚜的数据分析。随机森林是由多棵决策树构成的集成分类机器学习算法,多用来进行数据的分类预测。决策树和多元线性回归算法也同随机森林一样常用来做数据的预测。但是算法的不同,可能导致在同一数据集上的预测率不一致,所以本文对三种算法在 UCI数据集和粘虫数据集上进行了准确率对比的实验。目前进行棉蚜虫害等级预测多用的线性回归模型,线性回归模型的缺点是采用何种因子进行表达只是一种猜测,以至于影响了因子的多样性和不可测性。随机森林模型的构建不会因为影响因子的表达有所影响,况且随机森林算法不会产生过拟合,处理大样本集时速度快,对于多元共线性不敏感,分类预测的准确率较高。本文的对比实验中表明了随机森林在数据预测中准确率高,后期的实验采用随机森算法在棉蚜等级预测中进行应用。
  棉花是我国重要的经济作物,在农业经济格局中作用巨大。而棉蚜是造成棉花减产和影响优产的主要因素,因此棉蚜的提前防治非常重要。本文在对采集到的数据进行数据的不平衡性处理和影响因子的筛选之后,构建基于气象因子数据和棉蚜天敌数据的随机森林模型,并利用构建好的模型对棉蚜虫害发生的等级进行预测。本实验表明随机森林模型的泛化误差较小,在棉蚜虫害等级预测中的准确率比较高。
  其次利用数据可视化技术进行数据分析。数据可视化技术作为数据分析的重要手段,用于棉蚜数据、气象数据的分析中为棉蚜的防治提供参考。多维数据可视化作为数据可视化的研究重点之一,通过对多维数据进行展示,发现属性之间联系。目前我们采集的数据为多维数据,将采集到的气象数据和棉蚜数据进行可视化展示,发现数据隐藏的规律信息,有助于更好的进行数据分析与决策。本论文中数据的展示与分析使得对棉蚜的大发生时间有了了解,为我们在合适的时间进行防治提供参考,实验中数据的可视化为模型的构建和实验结果的展示与分析起到了重要作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号