首页> 中国专利> 基于极端随机树的FY-3D红外高光谱云检测方法

基于极端随机树的FY-3D红外高光谱云检测方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开一种基于极端随机树的FY‑3D红外高光谱云检测方法，涉及卫星遥感技术领域。本发明使用FY‑3D上搭载的HIRAS和MERSI对地球的连续观测数据，先将两种数据文件进行时间匹配，将两种仪器的像元进行空间匹配，在通过匹配的MERSI像元的云标签确定HIRAS像元的云标签，得到带有云标签的HIRAS数据，构成极端随机树模型的训练数据集，然后使用极端随机树算法训练数据集，并用测试数据集检验模型的性能，最后将训练得到云检测性能较好的极端随机树模型用于YF‑3D的红外高光谱数据的云检测处理。本发明的云检测时间短，成本低，云检测分类的准确率高。

著录项

公开/公告号CN112464920A

专利类型发明专利
公开/公告日2021-03-09

原文格式PDF
申请/专利权人中国人民解放军国防科技大学;
展开▼

申请/专利号CN202110133424.5
发明设计人史华湘;余意;张卫民;罗藤灵;张琪;银福康;马烁;段博恒;
展开▼

申请日2021-02-01
分类号G06K9/00(20060101);G06K9/62(20060101);
代理机构43236 长沙大珂知识产权代理事务所(普通合伙);
代理人伍志祥
地址 410073 湖南省长沙市开福区德雅路109号
入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及卫星遥感技术领域，尤其涉及一种机器学习领域的基于决策树的集成学习方法—极端随机树算法，结合利用FY-3D卫星HIRAS仪器的红外高光谱数据进行HIRAS视场云检测的方法。

背景技术

红外高光谱数据是现代数值天气预报系统重要的观测数据，同化红外高光谱数据近模式系统，能有效地提升预报水平。云中的水滴和冰晶能有效吸收红外辐射，导致卫星的红外探测仪无法检测到云层以下的大气和地表的红外辐射。此外，当前的辐射传输观测算子很难准确地模拟云的辐射效应。因此，云的污染是红外高光谱数据同化的重要问题。当前的解决办法是在红外高光谱数据进入同化系统之前，先剔除被云污染的像元。判断像元视场是否有云的过程，称为云检测。因此，准确快速地对红外高光谱数据进行云检测，是有效应用卫星红外高光谱数据的前提。同样FY-3D的HIRAS数据进入同化系统之前，也需要进行云检测处理。

当前，基于云的物理特征提出的多通道阈值方法，应用于大多数业务卫星红外探测仪上，但是许多云检测带有多个阈值，很难设置合适的阈值；还有一种广泛应用的方法是基于成像仪的云检测方法，虽然该方法显著提升了高光谱红外探测的云检测准确度，但是该方法需要较高的内存成本和计算时间成本。

随着人工智能时代的到来，使用人工智能技术做云检测的算法也随之提出。有人使用卫星云图作为经典图像分类网络的输入，通过对网络微调构建神经网络云检测模型，取得较高精度的云检测结果。但是红外探测仪的有几百个通道，不同通道数据对于不同高度敏感。不知道云出现在哪个高度，如何选择合适的通道云图将是个重要的问题。

因此，如何提供一种精度高且计算成本低的新型云检测方法是本领域技术人员极为关注的技术问题。

发明内容

本发明的目的在于提供了一种基于极端随机树可快速准确地实现FY-3D红外高光谱数据云检测算法。

为了解决上述技术问题，本发明使用中国风云系列极轨卫星FY-3D上搭载的红外高光谱大气探测仪（HIRAS）和中分辨率光谱成像仪（MERSI）对地球的连续观测数据。首先将HIRAS数据文件和MERSI数据文件进行时间匹配，保证两个仪器几乎同时对一个地区进行观测，然后将两种仪器的像元进行空间匹配，找出每个HIRAS像元能覆盖的MERSI像元，在通过匹配的MERSI像元的云标签确定HIRAS像元的云标签，如此可以得到带有云标签的HIRAS数据，构成极端随机树模型的训练数据集。然后使用极端随机树算法训练数据集，让其学习到HIRAS长波通道数据与视场是否有云的非线性映射关系，并用测试数据集检验模型的性能。最后将训练得到云检测性能较好的极端随机树模型用于YF-3D的红外高光谱数据的云检测处理。

本发明提供的一种基于极端随机树的FY-3D红外高光谱云检测方法，包括以下具体步骤：

S1.构建HIRAS与MERSI数据匹配模型

当HIRAS和MERSI的观测时间满足以下公式时，则可认为HIRAS和MERSI仪器同时对相同区域进行了观测，

其中，

遍历每个HIRAS像元，基于球面距离找到该驻留点所覆盖的MERSI像元，当MERSI像元中心经纬度与HIRAS像元中心经纬度满足以下距离公式时，则可认为HIRAS与MERSI数据空间匹配，

其中，

根据每个HIRAS像元匹配到的MERSI像元的云掩码数据，确定每个HIRAS视场的云标签。

S2.生成训练数据集和测试数据集

将上述确定的带有云标签的HIRAS像元样本，根据其海陆位置，分别构建海洋数据集和陆地数据集，然后分别训练海洋云检测模型和陆地云检测模型，进而生成海洋和陆地训练数据集，并将海洋数据集和陆地数据集种的30%作为测试数据集；

S3.训练极端随机树云检测模型

将上述得到的海洋数据集和陆地数据集，采用机器学习分类算法分别训练海洋和陆地云检测模型，并通过使用机器学习算法中的网格搜索方法，选择合适的超参数，得到泛化性能较好的海洋和陆地极端随机树云检测模型；

S4.使用不同天气实例来做云检测测试

1）构造训练海洋和陆地数据集以外的测试数据集，包括不同训练区域和时间的数据，将原始HIRAS和MERSI数据通过步骤S1生成带标签的测试数据集，带入训练好的陆地、海洋云检测模型做分类，计算出有云、晴空类别的准确度、召回率和AUC值，验证模型的性能；

2）选择训练数据集之外的天气实例数据做验证数据集；

3）将预报结果可视化，并与相同时刻的卫星的真彩云图做比较，检验极端随机树云检测模型的预报准确性。

进一步的，所述步骤S1中所述HIRAS与MERSI仪器都在同一个卫星平台，且MERSI仪器的观测范围覆盖了HIRAS仪器的观测范围。

进一步的，所述MERSI探元阵列的扫描范围为±55.1°±1°，所述HIRAS探元阵列的扫描范围为±50.4°。

进一步的，所述步骤S1的（3）中所述HIRAS视场的云标签的确定：当匹配的MERSI像元95%以上都是晴空时，则认为该HIRAS像元为晴空；当匹配的MERSI像元95%以上都是云时，则认为该HIRAS像元为云；当匹配的MERSI像元数量较小或者可能云、可能晴空、未确定的像元比率较大时，将该HIRAS像元的云标签设为未确定，则该未确定的HIRAS像元的云标签需要从样本中剔除。

进一步的，所述步骤S3中所述机器学习分类算法为集成学习中的极端随机数算法，所述极端随机数算法的原理为：采用原始训练集，在选择划分决策树的特征值时，随机选择划分特征值，生成规模较大的决策树。

进一步的，所述步骤S4的1）中所述陆地云检测模型的性能为：在5232个测试样本中预测准确度可达0.98，完全云类别的召回率可达0.98，AUC值可达0.99。所述步骤S4的1）中所述海洋云检测模型的性能为：在3648个测试样本中预测准确度可达0.97，完全云类别的召回率可达0.97，AUC值可达0.98。

进一步的，所述步骤S4的2）中所述验证数据集的生成是经过HIRAS像元的海陆标识划分为海洋样本和陆地样本，并将通道数据处理成海洋和陆地云检测模型输入的形式。

进一步的，所述步骤S4的2）中所述预报结果是通过海洋和陆地云检测模型来预报HIRAS像元的云标签。

本发明取得了以下有益效果：

1、本发明的基于极端随机树的FY-3D红外高光谱云检测方法，提前学习了通道辐射数据与对应云标签之间的映射关系，只需要HIRAS仪器的通道辐射数据，便可快速鉴别出该HIRAS像元视场是否有云。相较于传统的基于成像仪的云检测方法需要两个不同仪器数据的时间空间匹配，本发明的云检测方法所需要时间较短，即本发明的云检测方法时间成本、存储成本更低。

2、本发明的云检测算法通过大量有标签样本的训练，分类精度可以媲美传统的高精度的云检测方法，并在一些复杂情形，例如冰雪覆盖地表、成像仪无法检测的地区，本发明的云检测算法依然可以做出较好的检测，即本发明云检测分类的准确率高。因此，对于FY-3D红外高光谱数据的业务同化应用的云检测预处理，本发明具有较高的实际应用价值。

附图说明

图1是本发明的总流程图；

图2是本发明的基于成像仪的HIRAS云标签生成模块流程图；

图3是本发明的极端随机树云检测模型在台风天气的一种实施例的检测结果；

图4是本发明的一种实施例的mersi L2级云检测产品16：40的观测结果；

图5是本发明一种实施例的极端随机树模型的预报结果。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细地描述。本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本发明使用传统机器学习算法中一种基于决策树的集成学习方法—极端随机树算法，通过大量样本训练，使模型学习风云3D卫星中红外高光谱仪器（HIRAS）的通道辐射数据与视场的云标签（完全有云、晴空、部分有云）之间的映射关系，最后将学习到云检测知识的极端随机树模型实现HIRAS仪器的快速云检测。

如图1所示，该HIRAS仪器的快速云检测的主要实现过程包括以下三个步骤：

a．训练测试数据集的生成

借鉴传统的基于成像仪的云检测方法，使用中分辨率光谱成像仪（MERSI）的云检测段产品，生成HIRAS像元的云标签，该HIRAS像元的云标签生成模块流程如图2所示。因为是两个不同仪器，因此需要将两个仪器进行观测时间匹配、像元空间匹配，然后通过云、晴空像元的比例确定HIRAS像元的云标签。最后通过HIRAS像元的海陆分布，将带有云标签的数据集划分为海洋、陆地两个数据集。

b．极端随机树云检测模型的训练验证

首先将步骤a生成的海陆数据集分别进行预处理，预处理包括剔除辐射值为负的样本、数据集的正规化。然后将数据集划分为训练集、验证集，训练集由于训练极端随机树模型、验证用于检验模型效果。采用网格搜索方法选择合适的极端随机树模型超常数，得到泛化性能最佳的云检测模型。

c．极端随机树云检测模型的应用测试

将训练好的极端随机树云检测模型用于不同地区、不同天气个例情形的云检测应用，与真实云图和传统云检测方法的结果比较，检测模型性能。

如图1和图2所示，本发明提供的一种基于极端随机数算法的FY-3D红外高光谱云检测方法，具体包括以下步骤：

S1.构建HIRAS与MERSI数据匹配模型

虽然HIRAS与MERSI仪器都在同一个卫星平台，但是它们的观测频率不一样，所以首先需要进行观测时间的匹配。另外，由于本发明的MERSI探元阵列的扫描范围设置为±55.1°±1°，HIRAS探元阵列的扫描范围设置为±50.4°，因此MERSI仪器的观测范围覆盖了HIRAS仪器的观测范围。现只需保证观测时间一致，则可以保证两个仪器的观测区域是一致的。

当HIRAS和MERSI的观测时间满足以下公式时，则可认为HIRAS和MERSI仪器同时对相同区域进行了观测。

其中，

遍历每个HIRAS像元，基于球面距离找到该驻留点所覆盖的MERSI像元。当MERSI像元中心经纬度与HIRAS像元中心经纬度满足以下距离公式时，则可认为HIRAS与MERSI数据空间匹配。

其中，

根据每个HIRAS像元匹配到的MERSI像元的云掩码数据，确定每个HIRAS视场的云标签。当匹配的MERSI像元95%以上都是晴空时，则认为该HIRAS像元为晴空（1）；当匹配的MERSI像元95%以上都是云时，则认为该HIRAS像元为云（0）；当匹配的MERSI像元数量较小或者可能云、可能晴空、未确定的像元比率较大时，将该HIRAS像元的云标签设为未确定（-1），则该未确定的HIRAS像元的云标签需要从样本中剔除。

S2.生成训练数据集和测试数据集

由于海洋和陆地地表类型和辐射性质的巨大差异，我们需要分别构建海洋数据集和陆地数据集，然后分别训练海洋云检测模型和陆地云检测模型。由S1生成的带有云标签的HIRAS像元样本，根据其海陆位置，划分为海洋数据集和陆地数据集。为了在训练过程中同时检测模型的性能，本发明将数据集中的30%作为测试数据集。

S3.训练极端随机树云检测模型

通过步骤S1和S2得到的海洋数据集和陆地数据集，本发明采用机器学习分类算法分别训练海洋和陆地云检测模型。本发明采用的机器学习分类算法是集成学习中的极端随机树算法，该极端随机树算法的原理为：首选，选择训练数据集时，极端随机树算法不像随机森林一样，随机选择训练样本，而时采用原始训练集；其次，在选择划分决策树的特征值时，随机选择划分特征值。使用该极端随机树算法训练生成的决策树的规模一般较大，从而使海洋和陆地云检测模型的方差较小，偏差较大，其泛化能力较好。

通过使用机器学习算法中的网格搜索方法（GridSearchCV），选择合适的超参数，得到泛化性能较好的海洋、陆地极端随机树云检测模型。

S4. 使用不同天气实例来做云检测测试

1）构造训练海洋和陆地数据集以外的测试数据集，包括不同训练区域和时间的数据，将原始HIRAS和MERSI数据通过步骤S1生成带标签的测试数据集，带入训练好的陆地、海洋云检测模型做分类，计算出有云、晴空类别的准确度、召回率和AUC值，验证模型的性能。陆地云检测模型在5232个测试样本中预测准确度可达0.98，完全云类别的召回率可达0.98，AUC值可达0.99。海洋云检测模型在3648个测试样本中预测准确度可达0.97，完全云类别的召回率可达0.97，AUC值可达0.98。表现出了较好的性能。

2）选择训练数据集之外的天气实例数据做验证数据集。验证数据集的生成无需经过匹配生成云标签，只需经过HIRAS像元的海陆标识划分为海洋样本和陆地样本，并将通道数据处理成模型输入的形式，通过海洋陆地云检测模型预报HIRAS像元的云标签。

3）将预报结果可视化，并与相同时刻的卫星的真彩云图做比较，检验极端随机树云检测模型的预报准确性。本发明中相同时刻的卫星为葵花8号卫星。

以下结合具体实施例和附图对本发明作进一步详细说明，但不作为对本申请的限定。

具体实施例：

为了更加了解本发明的技术内容，特举2020年第10号台风—“风神”个例的预报结果。该台风在9月3日16时已发展为台风，并有进一步增强的趋势，在9月4号发展为强台风并迅速发展为超强台风。

如图4和图5所示，为2020年第10号台风“海神”个例9月3日16时40分的检验结果。图4表示mersi L2级云检测产品16：40的观测结果，其中0表示确定云，1表示可能云，2表示可能晴空，3表示确定晴空，4表示未确定。图5表示极端随机树模型的预报结果，其输入为16：40 HIRAS的全通道辐射数据，输出为对应hairs像元的云标签。其中a表示确定云，b表示确定晴空。

如图4所示，从MERSI L2级的云检测产品可以看出，该台风已经发展成熟，呈现圆形结构，台风眼区云层密实，台风外围具有丝状云带。结合L2级成品的质量报告，可以认为该产品表征台风的真实情况。

如图5所示，从极端随机树模型的预报结果的对比图，可以看出，极端随机树模型只接受HIRAS的红外高光谱辐射数据，结合前期训练学习到的红外高光谱云检测知识，便可以较准确地预报出此时刻台风区域的有云、晴空状态，并较好地保持了台风眼区的密实圆形结构和外围云带的丝状结构，与真实情形具有较高的一致性。结果表明，本发明的极端随机树模型能较好地对台风天气情形进行云检测。这对于HIRAS红外高光谱数据的资料同化应用，以及台风的数据天气预报具有重要意义。

以本时刻的观测为例，传统的基于成像仪的云检测算法，完成该时刻HIRAS红外高光谱辐射数据的云检测所需要的时间是27.1526s，而极端随机树模型的云检测所需要的时间是0.5472s，后者是前者的49.62倍，并且这只是一个时刻的HIRAS数据云检测，如果对于全球连续的HIRAS观测数据做云检测，本发明的极端随机树云检测模型的计算高效性是非常显著的。

下面定量分析本发明的极端随机树云检测模型的预报性能。如图3所示，对于机器学习分类模型评价，我们首先需要计算分类模型的混淆矩阵。基于混淆矩阵，计算机器学习分类模型的各项评价指标，其中常用的评价指标有准确率（accuracy）、查准率(precision)、查全率(recall)、F1得分(F1)和AUC值(Area Under Curve)，其计算公式如下：

上述公式

本发明根据上述各项评价指标，在5232个测试样本中对本发明的陆地云检测模型进行分类性能统计，在3648个测试样本中对本发明的海洋云检测模型进行分类性能统计，如表1所示。

表1 极端随机树云检测模型的测试性能统计

从表1可以看出，本发明的云检测模型，具有较好的云检测分类性能。陆地云检测模型在5232个测试样本中的分类准确度可达0.98，分类模型的AUC达到0.99，表明陆地模型能准确地分类陆地上HIRAS像元的完全云或者完全晴空视场。海洋云检测模型在3648个测试样本中的分类准确度为0.97，分类模型的AUC可达0.99，表明海洋模型能准确地分类海洋上HIRAS像元的完全云或者完全晴空视场。

综上所述，一方面，本发明的极端随机树云检测算法具有较高的云检测准确度，并在未知样本中表现出良好泛化性能。另一方面，该算法具有非常显著的计算高效性，单个时刻预报速度是传统基于成像仪匹配算法的49.62倍。因此，本发明的极端随机树云检测算法在FY-3D红外高光谱数据的云检测方面具有较高的实用价值。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于极端随机树的FY-3D红外高光谱云检测方法 [P] . 中国专利： CN112464920B . 2021.04.30
2. 基于极端随机树的FY-3D红外高光谱云检测方法 [P] . 中国专利： CN112464920A . 2021-03-09
3. CNN CNN IMAGE ANALYZING METHOD BASED ON RANDOM TREE CNN AND IMAGE ANALYZING METHOD BASED ON FOREST CNN [P] . 韩国专利： KR101942173B1 . 2019-04-11

机译：基于随机树CNN的CNN图像分析方法和基于森林CNN的图像分析方法
4. CNN CNN IMAGE ANALYZING METHOD BASED ON RANDOM TREE CNN AND IMAGE ANALYZING METHOD BASED ON FOREST CNN [P] . 韩国专利： KR20180086021A . 2018-07-30

机译：基于随机树CNN的CNN图像分析方法和基于森林CNN的图像分析方法
5. Random grating based compressive sensing wideband hyperspectral imaging system [P] . IL250342A . 2020-08-31

机译：基于随机光栅的压缩传感宽带高光谱成像系统