首页> 中国专利> 一种基于Stacking集成模型的近地面二氧化氮浓度估算方法

一种基于Stacking集成模型的近地面二氧化氮浓度估算方法

摘要

本发明属于遥感数据应用技术技术领域,涉及一种基于Stacking集成模型的近地面二氧化氮浓度估算方法,包括以下步骤:获取监测站点实际NO2浓度数据、气象监测数据、地理数据和人口数据;获取NO2对流层柱浓度卫星遥感数据并进行验证;数据清理,采用网格化方式对监测站点实际NO2浓度数据和NO2对流层柱浓度卫星遥感数据进行求均并与气象监测数据匹配,构建NO2数据集;基于NO2数据集进行建模,采用GA‑RF、GA‑GBRT和GA‑XGBoost三种模型作为基学习器,岭回归作为元学习器进行融合得到Stacking集成模型;利用Stacking集成模型对近地面NO2浓度进行模拟估算,得到近地面NO2浓度。本发明通过多种机器学习算法的结合,克服单个模型的缺陷,优化线性回归的输入,提升模型整体性能。

著录项

  • 公开/公告号CN112884079A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 河南大学;

    申请/专利号CN202110338272.2

  • 发明设计人 蔡坤;李莘莘;刘扬;夏禹;张旭升;

    申请日2021-03-30

  • 分类号G06K9/62(20060101);G06N3/12(20060101);G06N20/00(20190101);G01N33/00(20060101);

  • 代理机构41111 郑州大通专利商标代理有限公司;

  • 代理人蔡少华

  • 地址 475004 河南省开封市龙亭区金明大道1号

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明属于遥感数据应用技术技术领域,涉及一种基于Stacking集成模型的近地面二氧化氮浓度估算方法。

背景技术

NO

传统观测NO

机器学习模型,如随机森林模型和极限随机树模型,由于具有处理复杂变量的能力,通产更具有较高的预测精度。随着机器学习模型的不断研究与发展,已经有越来越多的研究利用机器学习模型估算近地面NO

集成学习是一种机器学习方法,是将多种算法进行集成,最终通过某种一定的规则组成一个完整算法的过程。集成学习主要由基学习器组成,在数数据集中,通过不同的规则给基学习器进行训练数数据集的分配,让各个基学习器进行算法运算,再根据融合集成规则进行算法融合集成,也就是构成集成模型,来构成强学习器。目前,集成学习算法主要分为两大类型,即基于Boosting结构的集成学习算法和基于Bagging结构的集成学习算法。在Boosting结构中,常见的算法包括Adaboost、XGBoost、GBDT。在Bagging家族中代表的算法为随机森林算法。遗传算法是一种借鉴生物界自然选择和生物体遗传机制的随机搜索算法,进化算法不需要了解问题的全部特征,就可以通过体现进化机制的进化过程完成问题求解。目前,未见有将经遗传算法优化的集成学习模型应用于气体浓度估算中的报道。

发明内容

本发明的目的在于提供一种基于Stacking集成模型的近地面二氧化氮浓度估算方法,通过多种机器学习算法的结合,克服单个模型的缺陷,优化线性回归的输入,提升模型整体性能。

为实现上述目的,本发明采用以下技术方案:

本发明提供一种基于Stacking集成模型的近地面二氧化氮浓度估算方法,包括以下步骤:

S1,获取监测站点实际NO

S2,通过TROPOMI传感器获取NO

S3,对站点实际监测NO

S4,采用网格化方式对监测站点实际NO

S5,基于NO

S6,利用Stacking集成模型对近地面NO

优选地,所述气象监测数据包括以下参数:10米北风速、近地面2m露点温度、近地面2m温度、边界层高度、蒸发量、地面太阳净辐射、地面太阳辐射向下和地面热辐射向下。

优选地,所述地理数据包括经度和纬度。

优选地,所述步骤S3具体包括:对监测站点实际NO

优选地,所述低精度数据包括云辐射率小于0.3、太阳天顶角小于85、地表反射率小于0.3的数据。

优选地,步骤S4中所述NO

相比现有技术,本发明的有益效果在于:

本发明所用的估算模型经过遗传算法优化,将GA-RF、GA-GBRT和GA-XGBoost三种模型融合成Stacking模型,通过多种机器学习算法的结合,克服了单个模型的缺陷,优化线性回归的输入,提升模型整体性能;通过获得的区域尺度近地表NO

附图说明

图1为本发明采用的107个站点分布图。

图2为河南省NO

图3为监测站点NO

图4为本发明Stacking集成模型的构建过程示意图。

图5为河南省前100个测试样本估算结果与真实结果的对比图。

图6为河南省近地面NO

图7为同一地点的实际NO

具体实施方式

以下实施例用于说明本发明,但不用来限定本发明的保护范围。若未特别指明,实施例中所用技术手段为本领域技术人员所熟知的常规手段。下述实施例中的试验方法,如无特别说明,均为常规方法。

实施例一

S1,获取监测站点实际NO

本发明监测站点实际NO

本发明气象检测数据来源于欧洲中期天气预报中心(European Centre forMedium-Range Weather Forecasting,ECMWF)第五代再分析数据(ECMWF Reanalysis v5,ERA5)。ERA5首次利用由10个成员组成,时间分辨率为3h,空间分辨率为62km的集合再分析产品来评估大气的不确定性。这个新功能以ECMWF开发的数据同化集合(EDA)系统为基础,可以解释观测和预报模型中的误差,给用户在分析不同时间、地点的大气参数时带来更多的信心。再次,ERA5将更多的历史观测数据尤其是卫星数据利用到先进的数据同化和模式系统中,用以估计更为准确的大气状况。气象监测数据包括以下参数10米北风速、近地面2m露点温度、近地面2m温度、边界层高度、蒸发量、地面太阳净辐射、地面太阳辐射向下和地面热辐射向下。

S2,通过TROPOMI传感器获取NO

本发明NO

将2019年1~12月监测站点发布的河南省站点NO

图2示出了河南省NO

图3示出了监测站点NO

通过监测站点与TROPOMI传感器的结果对比,得出两者数据相关性很高,可以利用TROPOMI传感器获取NO

S3,对站点实际监测NO

由于气象监测数据是网格化分布的,且分辨率为0.25°×0.25°,而监测站点是散点分布,且每日TROPOMI获取的数据定位是不均匀的,所以匹配经纬度需要匹配同一像元下的国控站点数据与卫星监测数据,通过气象数据像元中心点以±0.125°做网格将包含在内的国控站点数据与卫星监测数据取均值,解决了不同经纬度下单个样本的采样。

获取的气象监测数据和卫星遥感数据以NC格式存储,监测站点实际监测NO

对原始数据中存在异常值或无效值进行剔除,具体为:对监测站点实际NO

S4,采用网格化方式对监测站点实际NO

由于气象监测数据和监测站点实际监测NO

表1本实施例得到的NO

S5,基于NO

本发明中GA-RF模型为基于遗传算法优化的随机森林模型;GA-GBRT模型为基于遗传算法优化的迭代决策树模型;GA-XGBoost模型为基于遗传算法优化的分布式梯度增强树模型。Stacking集成模型的构建过程如图4所示。

S6,利用Stacking集成模型对近地面NO

详细的算法步骤如下:

1)将NO2-Edata训练集按3:1的比率划分为训练集train和测试集test,并对数据进行归一化处理,按照特征标签将训练集和测试集分为train_x、train_y、test_x和test_y。

2)选用GA-RF、GA-GBRT和GA-XGB作为第1层基模型,采用5折交叉验证来训练第1层基模型,对于每个基模型,将训练集train分为5份,对于每一份,用另外4份训练模型,然后根据这份数据的特征预测出这一份的结果train_p1,同时对测试集进行预测得到test_p1。

3)重复此步骤,直到每一份都预测出来,得到5份训练集预测值:train_p1、train_p2、train_p3、train_p4、train_p5和测试集预测值:test_p1、test_p2、test_p3、test_p4和test_p5。将5份训练集预测值结合起来得到完整的训练集预测值train_predict,将5份测试集预测值结合起来得到完整的测试集预测值test_predict。

4)将训练集预测值train_predict和标签值train_y作为训练数据输入到第2层岭回归模型,岭回归学习第一层模型3种算法输出结果与近地面NO2浓度之间的关系,生成回归模型用于后续估算。

5)将测试集预测值test_predict输入到第2层岭回归模型进行预测,得到最终近地面NO2估算结果,并将估算结果与测试集标签test_y进行对比计算其集成模型的估算性能。

图5示出了河南省前100个测试样本估算结果与真实结果的对比图。

根据时间跨度取春季(2019年3月1日)、夏季(2019年6月1日)、秋季(2019年9月1日)、冬季(2019年12月1日)的结果进行分析。为了方便观察结果,使用IDL将模型估算得出的数值数据转换成tif图,然后利用ArgGis作时空分布图,图6示出了河南省近地面NO

在搭建完Stacking集成模型后,使用NO

本发明Stacking集成模型与其他单一模型在NO

表2 Stacking集成模型与其他单一模型在NO

由表2以看出,以上七种模型的验证结果的拟合斜率较为接近,处在0.70-0.80区间内,这表明七种模型的预测结果都存在低值高估和高值低估的现象。值得注意的是,相比于基学习器模型,Stacking模型表现出了更好的预测性能,并且有更高的斜率,说明低值高估和高值低估的现象相对不严重。Stacking模型的平均绝对误差(MAE)和均方根误差(RMSE)分别为4.29μg/m

综上所述,本发明通过获得的区域尺度近地表NO

以上所述之实施例,只是本发明的较佳实施例而已,仅仅用以解释本发明,并非限制本发明实施范围,对于本技术领域的技术人员来说,当然可根据本说明书中所公开的技术内容,通过置换或改变的方式轻易做出其它的实施方式,故凡在本发明的原理上所作的变化和改进等,均应包括于本发明申请专利范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号