首页> 中国专利> 基于线性判别分析的FY-3D红外高光谱云检测方法

基于线性判别分析的FY-3D红外高光谱云检测方法

摘要

本发明公开一种基于线性判别分析的FY‑3D红外高光谱云检测方法,涉及卫星遥感技术领域。本发明利用传统的基于成像仪的云检测方法,将MERSI的云检测段产品与HIRAS像元进行匹配,得到带有云标签的HIRAS数据,构成训练数据集,然后使用线性判别分析算法训练数据集,在训练过程中,采用网格搜索方法选择合适的线性判别分析算法超常数,得到泛化性能最佳的模型参数,最后将训练得到线性判别分析云检测模型用于YF‑3D的红外高光谱数据的云检测处理。本发明的线性判别分析云检测模型能达到0.95的分类准确度,预测速度是传统方法的58倍左右,体现出良好的泛化性能。

著录项

  • 公开/公告号CN112966710A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 中国人民解放军国防科技大学;

    申请/专利号CN202110133532.2

  • 申请日2021-02-01

  • 分类号G06K9/62(20060101);G06N20/00(20190101);G01N21/3504(20140101);G01W1/10(20060101);

  • 代理机构43236 长沙大珂知识产权代理事务所(普通合伙);

  • 代理人伍志祥

  • 地址 410073 湖南省长沙市开福区德雅路109号

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明涉及卫星遥感技术领域,尤其涉及一种机器学习领域的线性判别分析算法,结合利用FY-3D卫星HIRAS仪器的红外高光谱数据进行HIRAS视场云检测的方法。

背景技术

红外高光谱数据是现代数值天气预报系统重要的观测数据。红外高光谱数据的同化,对于有效地提升数值天气预报水平具有重要意义。云中的水滴和冰晶能有效吸收红外辐射,导致卫星的红外探测仪无法探测云层以下的大气和地表红外辐射。此外,当前的辐射传输观测算子很难准确地模拟云的辐射效应。因此,云的污染是红外高光谱数据同化应用的重要问题。当前的主要解决办法是在红外高光谱数据进入同化系统之前,先剔除被云污染的数据。因此,在红外高光谱数据的同化应用中,首先需要判断红外探测仪像元视场是否有云,该过程即被称为云检测。因此,准确快速地对红外高光谱数据进行云检测,是有效应用卫星红外高光谱数据的前提。准确高效的云检测算法对于提升红外高光谱数据的同化水平,具有重要意义。

当前实际业务使用的云检测算法,有多通道阈值法、匹配成像仪方法等。其中,基于云的物理特征提出的多通道阈值方法,以应用于大数业务卫星红外探测仪上,但是许多云检测带有多个阈值,很难设置合适的阈值;另一种基于成像仪匹配的云检测方法,显著提升了高光谱红外探测的云检测准确度,但是该方法具有较高计算时间成本。因此,在实际的红外高光谱数据云检测应用中,急需一种准确度高的快速云检测算法。

随着人工智能时代的到来,使用人工智能技术做云检测的算法应运而生。已有人利用经典图像分类网络(Unet,resnet等)作为基础模型,将卫星云图作为特征输入,通过对分类网络微调,构建云检测分类模型,并取得了较高精度的云检测效果。但是,该方法将高分辨率的云图作为特征输入,同样需要较高的计算成本。另外,典型的图像分类网络较大,不便于加入到数值模式的业务同化系统中去。

因此,寻找一种快速高效的云检测方法是本领域技术人员极为关注的技术问题。

发明内容

本发明的目的在于提供了一种基于线性判别分析的快速准确实现FY-3D红外高光谱数据云检测的算法,该线性判别分析云检测模型能达到0.95的分类准确度,预测速度是传统方法的58倍左右,体现出良好的泛化性能。

为了解决上述技术问题,本发明使用传统机器学习算法中常用的分类算法—线性判别分析算法,通过大量样本训练,使模型学习风云3D卫星红外高光谱大气探测仪器(HIRAS)的通道辐射数据与视场的云标签(完全有云、晴空、部分有云)之间的映射关系,最后将学习到云检测知识的线性判别分析模型用于实现HIRAS仪器的快速云检测。

本发明提供的一种基于线性判别分析的FY-3D红外高光谱云检测方法,包括以下具体步骤:

S1.构建HIRAS与MERSI数据匹配模型

(2)时间匹配:

当HIRAS和MERSI的观测时间满足以下公式时,则可认为HIRAS和MERSI仪器同时对相同区域进行了观测,

|t

其中,t

(2)空间匹配:

匹配算法遍历每个HIRAS像元,基于球面距离找到该HIRAS像元视场所覆盖的MERSI像元,当MERSI像元中心经纬度与HIRAS像元中心经纬度满足以下距离公式时,则可认为HIRAS与MERSI数据空间匹配,以此找到每个HIRAS像元匹配到的MERSI像元,

d<d

其中,d是MERSI像元与HIRAS像元之间的距离,x1是HIRAS像元中心的纬度,x2是MERSI像元中心的纬度,y1是HIRAS像元中心的经度,y2是MERSI中心像元的经度,R是地球半径;d

(3)确定HIRAS像元云标签:

根据每个HIRAS像元匹配到的MERSI像元的云检测数据,确定每个HIRAS视场的云标签;

S2.生成训练数据集和测试数据集

将步骤S1中确定的带有云标签的HIRAS像元样本,根据其海陆位置,分别构建海洋数据集和陆地数据集,然后分别训练海洋云检测模型和陆地云检测模型,进而生成海洋和陆地训练数据集,并将海洋数据集和陆地数据集中的30%作为测试数据集;

S3.训练线性判别分析云检测模型

将上述得到的海洋数据集和陆地数据集,分别训练海洋和陆地云检测模型,采用线性判别分析分类算法构建海洋和陆地云检测模型,并通过使用机器学习算法中的网格搜索方法,选择合适的线性判别分析超参数,得到海洋和陆地线性判别分析云检测模型;

S4.使用不同天气实例来做云检测测试

1)构造训练海洋和陆地数据集以外的测试数据集,包括不同训练区域和时间的数据,即时间和空间的泛化性能测试,将原始HIRAS和MERSI数据通过步骤S1生成带标签的测试数据集,带入训练好的陆地和海洋线性判别分析云检测模型做分类,计算出有云、晴空类别的准确度、查准率、查全率和AUC值,验证模型的性能;

2)选择训练数据集之外的天气实例数据做验证数据集;

3)将预报结果可视化,并与相同时刻的卫星的真彩云图、MERSI云检测产品做比较,检验线性判别分析检测模型的预报准确性。

进一步的,所述步骤S1中所述HIRAS与MERSI仪器都在同一个卫星平台,且MERSI仪器的观测范围完全覆盖了HIRAS仪器的观测范围。

进一步的,所述MERSI探元阵列的扫描范围为±55.1°±1°,所述HIRAS探元阵列的扫描范围为±50.4°。

进一步的,所述步骤S1的(2)中匹配算法的搜索方法为:先找到离HIRAS像元中心最近的MERSI像元,然后基于该MERSI像元上下左右分别搜索32行和32列。

进一步的,所述步骤S1的(3)中所述HIRAS视场的云标签的确定:当匹配的MERSI像元95%以上都是晴空时,则认为该HIRAS像元为晴空;当匹配的MERSI像元95%以上都是云时,则认为该HIRAS像元为云;当匹配的MERSI像元数量较小或者可能云、可能晴空、未确定的像元比率较大时,将该HIRAS像元的云标签设为未确定,则该未确定的HIRAS像元的云标签需要从样本中剔除。

进一步的,所述步骤S3中所述线性判别分析分类算法是将样本数据投影到低维空间,投影后使得样本类内方差最小,类间方差最大,二分类线性判别模型的优化目标是:

上式中,S

进一步的,所述步骤S4的1)中所述陆地线性判别分析云检测模型的性能为:在5756个测试样本中预测准确度可达0.95,完全云类别的召回率可达0.95,AUC值可达0.99。

进一步的,所述步骤S4的1)中所述海洋线性判别分析云检测模型的性能为:在4013个测试样本中预测准确度可达0.96,完全云类别的召回率可达0.96,AUC值可达0.99。

进一步的,所述步骤S4的2)中所述验证数据集的生成是经过HIRAS像元的海陆标识划分为海洋样本和陆地样本,并将通道数据处理成海洋和陆地线性判别分析云检测模型输入的格式。

进一步的,所述步骤S4的2)中所述预报结果是通过海洋和陆地线性判别分析云检测模型来预报HIRAS像元的云标签。

本发明取得了以下有益效果:

1、本发明的线性判别分析算法在训练阶段学习了HIRAS红外高光谱通道辐射数据与对应像元云标签之间的映射关系,算法的输入数据只有HIRAS的红外高光谱数据,便可快速鉴别出该像元视场是否有云,则本发明的云检测时间成本低。而传统的基于成像仪的红外高光谱云检测方法,其输入是两种数据,一种为成像仪云检测数据,一种为红外高光谱数据,虽然匹配精度较高,但其云检测过程比较耗时,计算成本较高。

2、本发明的线性判别分析云检测算法的分类精度可以媲美传统的高精度的云检测方法,并在一些高影响天气(例如台风)的云检测过程中表现较好,即本发明云检测分类的准确率高。因此,对于FY-3D红外高光谱数据的业务同化应用的云检测预处理,本发明线性判别分析算法具有较高的实际应用价值。

附图说明

图1是本发明的总流程图;

图2是本发明的基于成像仪的HIRAS云标签生成模块流程图;

图3是本发明的线性判别分析云检测模型在台风天气的一种实施例的检测结果;

图4(a)是本发明的一种实施例的MERSI L2级云检测产品16:40的观测结果;

图4(b)是本发明一种实施例的线性判别分析模型的预报结果。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细地描述。本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

本发明使用传统机器学习算法中常用的分类算法—线性判别分析算法,通过大量样本训练,使模型学习风云3D卫星红外高光谱大气探测仪器(HIRAS)的通道辐射数据与视场的云标签(完全有云、晴空、部分有云)之间的映射关系,最后将学习到云检测知识的线性判别分析模型用于实现HIRAS仪器的快速云检测。

如图1所示,该HIRAS仪器的快速云检测的主要实现过程包括以下三个步骤:

a.生成训练测试数据集

利用传统的基于成像仪的云检测方法,将中分辨率光谱成像仪(MERSI)的云检测段产品与HIRAS像元进行匹配,生成HIRAS像元的云标签。尽管是同FY-3D卫星平台,但由于它们观测频率、观测驻留时间、观测范围不一样,因此需要将两个仪器依次进行观测时间匹配、像元空间匹配,然后通过云、晴空像元的比例确定HIRAS像元的云标签。最后通过HIRAS像元的海陆分布,将带有云标签的数据集划分为海洋、陆地两个数据集。

b.训练线性判别分析云检测模型,并进行模型性能验证

首先,将步骤a生成的海陆数据集分别进行预处理—包括剔除辐射值为负的样本、输入特征数据的正规化。然后将数据集划分为训练集、验证集。训练集由于训练线性判别分析模型,让其从数据中学习云检测知识,验证集用于检验训练好的模型在未知样本中的泛化性能。在训练过程中,采用网格搜索方法选择合适的线性判别分析算法超常数,得到泛化性能最佳的模型参数。

c.逻辑回归云检测模型的应用测试

将已训练好的线性判别分析云检测模型用于不同地区、不同天气个例情形的云检测应用,其预报结果同真实云图、MERIS L2级云检测产品、传统云检测方法的结果比较,检测模型实际应用的良好性能。

如图1和图2所示,本发明提供的一种基于线性判别分析的FY-3D红外高光谱云检测方法,具体包括以下步骤:

S1.构建HIRAS与MERSI数据匹配模型

虽然HIRAS与MERSI仪器都在同一个卫星平台,但是它们的观测频率、驻留时间不一样,所以首先需要进行观测时间的匹配。另外,本发明由于MERSI探元阵列的扫描范围设置为±55.1°±1°,HIRAS探元阵列的扫描范围设置为±50.4°,因此MERSI仪器的观测范围完全覆盖了HIRAS仪器的观测范围。只要保证观测时间一致,便可以保证两个仪器的观测区域是一致的。

(1)时间匹配:

当HIRAS和MERSI的观测时间满足以下公式时,则可认为HIRAS和MERSI仪器同时对相同区域进行了观测,

|t

其中,t

(2)空间匹配:

匹配算法遍历每个HIRAS像元,基于球面距离找到该HIRAS像元视场所覆盖的MERSI像元。为了提高搜索效率,该匹配算法首先找到离该HIRAS像元中心最近的MERSI像元,然后基于该MERSI像元上下左右搜索,分别搜索32行和列(能充分保证超过HIRAS像元的视场范围).当MERSI像元中心经纬度与HIRAS像元中心经纬度满足以下距离公式时,则可认为HIRAS与MERSI数据空间匹配,以此找到每个HIRAS像元匹配到的MERSI像元,

d<d

其中,d是MERSI像元与HIRAS像元之间的距离,x1是HIRAS像元中心的纬度,x2是MERSI像元中心的纬度,y1是HIRAS像元中心的经度,y2是MERSI中心像元的经度,R是地球半径(6371km);d

(3)确定HIRAS像元云标签:

根据每个HIRAS像元匹配到的MERSI像元的云检测数据,确定每个HIRAS视场的云标签。当匹配的MERSI像元95%以上都是晴空时,则认为该HIRAS像元为晴空(标记为1);当匹配的MERSI像元95%以上都是云,则认为该HIRAS像元为云(标记为0);当匹配的MERSI像元数量较小或者可能云、可能晴空、未确定的像元比率较大时,将该HIRAS像元的云标签设为未确定(-1),该未确定的HIRAS像元的云标签需要从样本中剔除。

S2.生成训练数据集和测试数据集

由于海洋和陆地地表类型和辐射性质的巨大差异,我们需要分别构建海洋数据集和陆地数据集,然后分别训练海洋云检测模型和陆地云检测模型。将步骤S1中确定的带有云标签的HIRAS像元样本,根据其海陆位置,分别构建海洋数据集和陆地数据集。为了在训练过程中同时检测海洋、陆地云检测模型的性能,本发明将海洋数据集和陆地数据集中的30%作为测试数据集。

S3.训练线性判别分析云检测模型

将上述得到的海洋数据集和陆地数据集,分别训练海洋和陆地云检测模型,采用线性判别分析分类算法构建海洋和陆地云检测模型。

该线性判别分析分类算法是将样本数据投影到低维空间,投影后使得样本类内方差最小,类间方差最大,二分类线性判别模型的优化目标是:

上式中,S

通过使用机器学习算法中的网格搜索方法(GridSearchCV),选择合适的线性判别分析超参数,得到泛化性能最好的海洋和陆地线性判别分析云检测模型。

S4.使用不同天气实例来做云检测测试

1)构造训练海洋和陆地数据集以外的测试数据集,包括不同训练区域和时间的数据,即时间和空间的泛化性能测试,将原始HIRAS和MERSI数据通过步骤S1生成带标签的测试数据集,带入训练好的陆地和海洋线性判别分析云检测模型做分类,计算出有云、晴空类别的准确度、查准率、查全率和AUC值,验证模型的性能。陆地云检测模型在5756个测试样本中预测准确度可达0.95,完全云类别的召回率可达0.95,AUC值可达0.99。海洋云检测模型在4013个测试样本中预测准确度可达0.96,完全云类别的召回率可达0.96,模型的AUC值可达0.99。从这些数据可以看出,本发明的陆地和海洋逻辑回归云检测模型表现出了较好的性能。

2)选择训练数据集之外的天气实例数据做验证数据集。验证数据集的生成无需进过匹配生成云标签,只需经过HIRAS像元的海陆标识划分为海洋样本和陆地样本,并将通道数据处理成海洋和陆地线性判别分析云检测模型输入的格式,通过海洋、陆地线性判别分析云检测模型来预报HIRAS像元的云标签。

3)将预报结果可视化,并与相同时刻的葵花8号卫星的真彩云图、MERSI L2级云检测产品做比较,检验线性判别分析检测模型的预报准确性。

以下结合具体实施例和附图对本发明作进一步详细说明,但不作为对本申请的限定。

具体实施例:

为了更加了解本发明的技术内容,特举2020年第10号台风—“风神”个例的预报结果。该台风在9月3日发展为台风,并有进一步增强的趋势,在9月4号发展为强台风并迅速发展为超强台风。

如图4(a)和图4(b)所示,为2020年第10号台风“海神”个例9月3日16时40分(世界时)的检验结果。图4(a)表示MERSI L2级云检测产品16:40的观测结果,其中0表示确定云,1表示可能云,2表示可能晴空,3表示确定晴空,4表示未确定。图4(b)表示线性判别分析模型的预报结果,其输入为16:40HIRAS的全通道辐射数据,输出为对应HIRAS像元的云标签,其中0表示确定云,1表示确定晴空。

如图4(a)所示,从MERSI L2级的云检测产品可以看出,该台风在16时40分呈现圆形结构,台风眼区云层密实,台风外围条状云带还不够明显,表明此时台风正处于发展阶段,台风眼区云墙将增厚,外围云带将逐渐拉长。结合L2级成品的质量报告,可以认为该产品表征台风的真实情况。

如图4(b)所示,从线性判别分析模型的预报结果的对比图,可以看出,线性判别分析模型只接受HIRAS的红外高光谱辐射数据,结合前期训练学习到的红外高光谱云检测知识,便可以较准确地预报出此时刻台风区域的有云、晴空状态,并较好地保持了台风发展阶段的台风云区特征,与真实情形具有较高的一致性。结果表明,本发明的线性判别分析云检测模型能较好地对台风天气情形进行云检测。这对于HIRAS红外高光谱数据的资料同化应用,以及台风的数据天气预报具有重要意义。

以本时刻的观测为例,传统的基于成像仪的云检测算法,完成该时刻HIRAS红外高光谱辐射数据的云检测所需要的时间是27.995627s,而线性判别分析模型的云检测所需要的时间是0.454131s,后者是前者的58.00倍,并且这只是一个时刻的HIRAS数据云检测,如果对于全球连续的HIRAS观测数据做云检测,本发明的云检测模型的计算高效性是非常显著的。

下面定量分析本发明的线性判别分析云检测模型的预报性能。对于机器学习分类模型评价,我们首先需要计算分类模型的混淆矩阵,如图3。然后基于混淆矩阵,计算机器学习分类模型的各项评价指标,其中常用的评价指标有准确率(accuracy)、查准率(precision)、查全率(recall)、F1得分(F1)和AUC值(Area Under Curve),其计算公式如下:

AUC=∫ROC⑤

上述公式①-⑦中,TP代表实际为晴空预测也为晴空的样本数,TN代表实际为云预测也为云的样本数,FP代表实际为云预测为晴空的样本数,FN表示实际为晴空预报为云的样本数,ROC表示模型的ROC曲线,该曲线的纵坐标为TPR,横坐标为FPR。AUC则表示ROC曲线与x轴的面积,该数值越大,表征该分类模型性能越好,最理想的情形是AUC数值等于1,表示该分类模型可以完美检测出正例样本和负例样本。

本发明根据上述各项评价指标,在5756个测试样本中对本发明的陆地云检测模型进行分类性能统计,在4013个测试样本中对本发明的海洋云检测模型进行分类性能统计,如表1所示。

表1线性判别分析云检测模型的测试性能统计

从表1可以看出,本发明的云检测模型,具有较好的云检测分类性能。陆地云检测模型在5756个测试样本中的分类准确度可达0.95,分类模型的AUC达到0.99,表明陆地模型能准确地分类陆地上HIRAS像元的完全云或者完全晴空视场。海洋云检测模型在4013个测试样本中的分类准确度为0.96,分类模型的AUC可达0.99,表明海洋模型能准确地分类海洋上HIRAS像元的完全云或者完全晴空视场。

综上所述,一方面,本发明的逻辑回归云检测算法具有较高的云检测准确度,并在未知样本中表现出良好泛化性能。另一方面,该算法具有非常显著的计算高效性,单个时刻预报速度是传统基于成像仪匹配算法的58.00倍。因此,本发明的逻辑回归云检测算法在FY-3D红外高光谱数据的云检测方面具有较高的实用价值。

以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号