公开/公告号CN113850315A
专利类型发明专利
公开/公告日2021-12-28
原文格式PDF
申请/专利权人 中国人民解放军战略支援部队信息工程大学;
申请/专利号CN202111107476.1
申请日2021-09-22
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构41111 郑州大通专利商标代理有限公司;
代理人石丹丹
地址 450000 河南省郑州市高新区科学大道62号
入库时间 2023-06-19 13:26:15
技术领域
本发明属于高光谱图像分类技术领域,特别涉及一种结合EMP特征和TNT模块的高光谱影像分类方法及装置。
背景技术
高光谱图像分类是高光谱图像处理分析中最重要的环节之一,其准确的分类结果可为后续任务提供有力的数据支持。目前,高光谱图像分类已广泛应用于精细农业、城市规划、资源勘探等多个领域。高光谱图像包含了丰富的光谱信息,每个像素点都具有近似连续的光谱曲线,这为地物的准确分类识别提供了可能。但高光谱图像的高维复杂性、波段间的相关性给分类识别带来影响,为充分利用高光谱图像中的光谱特征进行分类,主成分分析(PCA)、独立成分分析(ICA)和局部线性嵌入(LLE)等光谱特征提取技术得到了广泛应用。同时,受环境、设备等因素的影响,高光谱图像还存在“同物异谱”和“同谱异物”的现象。为进一步提高高光谱图像分类的准确性和鲁棒性,基于扩展形态剖面(EMP)和局部二值模式(LBP)等空间特征提取的高光谱图像分类方法得到广泛关注。同时,光谱和空间特征提取技术常常与支持向量机(SVM)等机器学习分类器结合进行分类,可在一定程度上提高分类精度。然而,传统的特征提取加分类器的模式并不能完全适应高光谱图像的高维、非线性、空间-光谱信息融合等特点。
与传统机器学习方法相比,深度学习方法可以逐层自动学习有利于目标任务的深度抽象特征,这些特征信息量大、鲁棒性强。目前,深度学习模型如堆叠自动编码器(Stacked Auto Encoder,SAE)、循环神经网络(recurrent neural network,RNN)、深度信念网络(Deep belief networks,DBN)和卷积神经网络(convolutional neural networks,CNN)等在高光谱图像分类中得到了广泛的应用,且在足够训练样本下取得了比传统分类方法更好的分类性能。在上述的网络模型中,CNN一直是一个不可或缺的重要模块。
尽管如此,CNN在长距依赖建模和全局上下文信息获取等方面依然存在不足。相比之下,转换器模型将输入图像看作序列斑块,可以更好地利用大范围内的全局上下文信息,目前在图像分割、目标检测等计算机视觉任务中获得了较好结果。另外,转换器模型本身还包含自注意机制,可以更准确地捕获到有利于目标任务的特征和信息,从而获得精度更高、鲁棒性更强的分类结果。
发明内容
针对现有技术中基于卷积神经网络(CNN)的深度学习模型存在不善于远程依赖关系的建模和全局上下文信息的获取等问题,本发明提出一种结合EMP特征和TNT(Transformer-iN-Transformer)模块的高光谱影像分类方法及装置,该方法首先提取高光谱影像的EMP特征,然后将得到的EMP立方体直接输入到构建的基于TNT模块的深度网络模型中进行端到端分类,提高高光谱影像的分类精度。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供了一种结合EMP特征和TNT模块的高光谱影像分类方法,包含以下步骤:
利用扩展形态学剖面提取整个高光谱影像的EMP特征,并将生成的EMP立方体依次划分为若干个斑块;
将每个斑块展开并进行线性变换,得到一个斑块嵌入和若干个像素嵌入;
将斑块嵌入和像素嵌入分别加入到各自对应的位置编码中,将得到的向量一起输入到包含L个TNT模块的深度网络模型中进行分类。
进一步地,提取EMP特征,生成EMP立方体,包括:
利用主成分分析对高光谱影像进行降维处理,并保留前3个主成分;
利用结构元素对3个主成分进行开闭运算,则一个主成分图像产生包括其本身在内的9个EMP特征图,而3个主成分就产生27个EMP特征图;
经EMP特征提取后,W×H×C大小的高光谱影像就转换为W×H×27大小的图像,其中W、H、C分别表示图像的宽、高和波段数;
选择中心像素附近的所有数据生成EMP立方体。
进一步地,选取大小为3、5、7、9的十字形结构元素分别对输入的主成分图像进行4次开闭运算提取不同尺度下的空间特征。
进一步地,EMP特征提取公式如下:
式中,I为输入图像,m为主成分个数,n为开闭运算次数,
进一步地,将EMP立方体划分成n个斑块X=[[X
进一步地,将每个斑块展开并进行线性变换,得到一个斑块嵌入和若干个像素嵌入,包括:
通过展开和线性变换将每个斑块转化为多个(p′,p′)的像素嵌入,那么斑块张量序列表示为:
式中,每个斑块张量
进一步地,所述TNT模块包括外部转换器和内部转换器,所述外部转换器用于处理斑块级特征,所述内部转换器用于处理像素级特征;
对于像素嵌入,内部转换器提取像素级特征的计算公式如下:
式中,索引层l=1,2,…,L,L为总层数,Y
对于斑块层,通过新建斑块嵌入内存来存储斑块级特征序列:
式中,Vec表示扁平化操作,W和b分别为权值和偏置,
外部转换器提取斑块级特征的计算公式如下:
式中,
本发明还提供了一种结合EMP特征和TNT模块的高光谱影像分类装置,包括:
EMP特征提取模块,用于利用扩展形态学剖面提取整个高光谱影像的EMP特征,并将生成的EMP立方体依次划分为若干个斑块;
斑块转换模块,用于将每个斑块展开并进行线性变换,得到一个斑块嵌入和若干个像素嵌入;
TNT深度网络分类模块,用于将斑块嵌入和像素嵌入分别加入到各自对应的位置编码中,将得到的向量一起输入到包含L个TNT模块的深度网络模型中进行分类。
与现有技术相比,本发明具有以下优点:
本发明的结合EMP特征和TNT模块的高光谱影像分类方法,利用扩展形态学剖面(EMP)对高光谱影像进行特征提取,有效地利用了高光谱影像中的空间信息和光谱信息,同时减少高光谱影像的波段数量;TNT模块中的内部转换器和外部转换器能够分别提取高光谱影像的像素级特征和斑块级特征,充分利用了输入EMP立方体数据的全局信息和局部信息,进一步提高了高光谱影像的分类性能。与支持向量机和其它的CNN深度学习模型相比,该方法能够获得更高的分类精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的结合EMP特征和TNT模块的高光谱影像分类方法的工作流程图,其中MLP表示多层感知器;
图2是本发明实施例的EMP立方体生成的工作流程图;
图3是本发明实施例的视觉转换器模型网络结构示意图;
图4是本发明实施例的TNT模块的结构示意图;
图5是本发明实施例的网络深度对分类精度的影响示意图,其中L表示TNT模块的数量;
图6是本发明实施例的不同分类方法在UP数据集上的分类图;
图7是本发明实施例的不同分类方法在IP数据集上的分类图;
图8是本发明实施例的不同分类方法在SA数据集上的分类图;
图9是本发明实施例的不同方法的分类精度曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例的结合EMP特征和TNT模块的高光谱影像分类方法,该方法以高光谱影像作为输入,分类结果作为输出,包含以下步骤:
步骤S1,利用扩展形态学剖面提取整个高光谱影像的EMP特征,并将生成的EMP立方体依次划分为若干个斑块;EMP特征提取可降低高光谱影像的维数,有效利用数据中的空间光谱信息。
步骤S2,将每个斑块展开并进行线性变换,得到一个斑块嵌入和若干个像素嵌入。
步骤S3,将斑块嵌入和像素嵌入分别加入到各自对应的位置编码中,将得到的向量一起输入到包含L个TNT模块的深度网络模型中进行分类。
扩展形态学剖面(EMP)可以同时提取高光谱影像的空间特征和光谱特征,在高光谱影像分类中得到了广泛的应用。如图2所示,提取EMP特征,生成EMP立方体,包括:
步骤S11,利用主成分分析(PCA)对高光谱影像进行降维处理,并保留前3个主成分。
步骤S12,利用结构元素(SE)对3个主成分进行开闭运算,优选的,选取大小为3、5、7、9的十字形结构元素分别对输入的主成分图像进行4次开闭运算以提取不同尺度下的空间特征,则一个主成分图像产生包括其本身在内的9个EMP特征图,而3个主成分就产生27个EMP特征图。
步骤S13,经EMP特征提取后,W×H×C大小的高光谱影像就转换为W×H×27大小的图像,其中W、H、C分别表示图像的宽、高和波段数。
步骤S14,选择中心像素附近的所有数据生成EMP立方体。EMP特征提取公式如下:
式中,I为输入图像,m为主成分个数,n为开闭运算次数,
这里首先简单介绍下视觉转换器,视觉转换器模型的网络结构如图3所示,该模型主要由三部分组成:多头注意机制(MHA)、多层感知器(MLP)和层归一化(LN)。MHA是转换器模型中特征学习的关键部分,在不同的MHA之间引入MLP来实现特征转换和非线性化。LN作为数据归一化层,可以保证模型的训练稳定和快速收敛。此外,还引入了残差连接以充分利用不同层次的抽象特征。自注意机制是MHA的基本单元,自注意力机制的输入嵌入为X∈R
自注意机制的输出为:
从上式可以看出,自注意机制的输出实际上是值向量的加权和,且分配给每个值向量的权值是从查询向量和相应的键向量计算出来的。
M=MHA(X)=Concat(a
类似于CNN中利用不同卷积核提取不同特征的思路,MHA被用来提高转换器模型的表征能力。具体而言,在一个转换器模型中同时生成多个查询矩阵、键矩阵和值矩阵,并计算多个输出向量a;然后,将所有的输出向量串联并进行线性投影,得到最终式(2)的输出向量。在式(2)中,a表示根据式(1)得到的输出向量,W
MLP可以加深网络以提高模型的非线性表征能力。本文中,采用两个全连接层来构造MLP:
MLP(M)=σ(XW
其中,
在MHA和MLP之后引入层归一化LN,可以有效地加快模型的收敛速度,提高训练过程的稳定性。LN作用于每个样本x∈R
式中,μ和δ分别为输入样本的均值和标准差,γ和β为仿射变换参数。
视觉转换器模型可广泛应用于图像分类领域,将输入图像视为一系列图像块,然而忽略了每个斑块的内在结构信息。为了充分利用EMP立方体的全局和局部信息,引入TNT模块作为深度网络模型的核心,这里TNT模块是在上面视觉转换器的基础上做出的改进。对于输入的EMP立方体,首先将其分成n个斑块X=[X
式中,每个斑块张量
具体的,所述TNT模块包括外部转换器和内部转换器,所述外部转换器用于处理斑块级特征,可以充分利用EMP立方体数据的全局信息,所述内部转换器用于处理像素级特征,可以充分利用EMP立方体数据的局部信息,如图4所示。
对于像素嵌入,使用内部转换器来表达像素之间的关系,内部转换器提取像素级特征的计算公式如下:
式中,索引层l=1,2,…,L,L为总层数,Y
对于斑块层,通过新建斑块嵌入内存来存储斑块级特征序列:
式中,Vec表示扁平化操作,W和b分别为权值和偏置,
式中,
本实例中的TNT模块可以同时处理像素级和斑块级数据,这意味着通过堆叠TNT模块构建的深度网络模型可以充分利用EMP立方体中的全局和局部信息,学习到更丰富、更鲁棒的特征,提高高光谱影像的分类精度。
下面利用三个高光谱公开数据集进行分类实验研究。
实验采用三个高光谱影像数据集,计算机硬件环境为Intel Core i7-9750H处理器,16G内存,NVIDIA GeoForce GTX 2070显卡,软件环境为Python3.6、PyTorch和sklearn。
1、实验数据
为了验证所提方法的有效性,采用不同传感器获取、不同空间分辨率和光谱范围的Pavia大学(University of Pavia,UP)、Indian Pines(IP)和Salinas(SA)三组公开高光谱图像数据集进行实验。
UP数据集由ROSIS成像光谱仪获取的意大利帕维亚大学高光谱影像,光谱覆盖范围为430~860nm,影像大小为610×340像素,空间分辨率为1.3m,去除受噪声影响较大的波段后,剩余103个波段用于实验。该数据集共包含柏油路面、草地、砂砾、树木等9种地物类型,训练样本和测试样本信息如表1所示。
表1 UP数据集样本信息
IP数据集由机载可见红外成像光谱仪(AVIRIS)采集的美国印第安纳州西北地区植被高光谱影像,光谱成像范围为400~2500nm,影像大小为145×145像素,空间分辨率约为20m。该数据集中共包含苜蓿、玉米、草地、大豆等16种地物类型,由于苜蓿等7中地物样本数量非常少,实验中只采用免耕玉米等9类样本量大于200的地物,训练样本和测试样本信息如表2所示。
表2 IP数据集样本信息
SA数据集由AVIRIS采集的美国加利福尼亚州的Salinas山谷地区高光谱影像,光谱成像范围为430~860nm,影像大小为512×217像素,空间分辨率约为3.7m,共204个波段。该数据集共包括休耕地、芹菜等16中地物类型,其训练样本和测试样本信息如表3所示。
表3 SA数据集样本信息
2、超参数设置
超参数的选择对深度学习模型的性能影响较大,适当的超参数可以有效的提高分类识别精度。
网络深度直接关系到模型的非线性表示能力。一般来说,网络拥有的层数越多,模型的抽象建模能力越强,可以学到的特征越深、越鲁棒。网络深度对分类准确率的影响如图5所示,从图中可以看出:对IP、SA和UP数据集,模型的分类精度一般随TNT模块数量的增加而先增加后降低,这说明适当的网络结构可以获得最好的分类性能,而过多的网络层可能会导致过拟合,致使分类精度下降。
为了提高模型的特征学习能力,本文在TNT模块中引入了多头注意力机制。从理论上讲,适当增加注意力头数量可以使模型学习到更丰富、更鲁棒的特征,从而获得更好的分类结果。因此,我们分析了注意头数量对分类精度的影响,其结果如表4所示。从表中结果可以看出:总的来说,随着H的增加,模型的分类精度先逐渐增加而后缓慢下降。当H等于6(SA)或8(UP和IP)时,分类精度达到最大值。
表4 UP、SA和IP数据集上注意头数(H)与分类精度的关系
训练过程主要采用大迭代次数和小学习率相结合的方法进行,其相关超参数设置直接采用参考相关文献,如:训练迭代次数设为500,学习率设置为0.00001,批大小设为64。首先将输入的EMP立方体按空间顺序划分为16个小块,每个小块进一步划分为宽度为2的小块,在TNT模块中,Patch嵌入尺寸设置为128,像素嵌入尺寸设为64。
3、分类结果与分析
为了验证所提分类方法的有效性,实验采用RBF-SVM经典机器学习方法、CNN-PPF、CDCNN、RES-3D-CNN、DCCNN、S-CNN+SVM等5种先进的CNN分类模型进行对比分析。采用总体分类精度(OA)、平均精度(AA)和kappa系数为评价指标对不同分类方法进行定量比较和分析。另外,为了减少由于样本选择的随机性造成分类结果波动,所有实验结果均为10次结果的平均值,这进一步增强了实验结果的说服力。UP、IP和SA数据集上不同方法的分类结果如表5-7所示。
表5不同算法在UP数据集的分类结果(%)
表6不同算法在IP数据集的分类结果(%)
表7不同算法在SA数据集的分类结果(%)
从以上表中的统计结果可以得出:
(1)支持向量机的分类精度明显低于其它6种深度学习方法。作为传统的浅层分类器,SVM并不能提取高光谱影像中包含的深度特征,因此不能获得满意的分类结果。相比之下,深度学习模型可以提取信息量更大、鲁棒性更强的深度抽象特征,从而获得更高的分类精度。
(2)通过构建上下文深度网络,CDCNN可以更充分地利用高光谱影像中的空间信息,因此其分类准确率高于以一维卷积为核心的CNN-PPF。Res-3D-CNN利用三维卷积直接提取高光谱影像中的空间-光谱特征,DCCNN利用一维卷积和二维卷积分别提取光谱和空间特征并进行融合,基于度量学习的思想的S-CNN能够提取高判别性的深度特征,三种方法都能有效地利用高光谱影像中的空间谱信息,因此获得了更好的分类性能。
(3)本文方法在UP数据集上的分类结果与DCCNN的分类结果相当,在SA和IP数据集上的分类精度最高,其总体分类精度分别比第二名提高了1.8%和0.88%。
与统计结果相比,分类结果图可以更直观地显示不同方法的分类结果。3组数据集不同分类方法的分类图如图6-8所示。从图中可以看出:SVM法没有利用空间特征信息,因此其分类图中包含大量的噪声;CNN-PPF在像素的邻域内采用投票策略来确定类别,在一定程度上利用了空间信息,从而降低了分类图中的噪声;CDCNN、RES-3D-CNN、DCCNN和SCNN+SVM通过二维或三维卷积来利用高光谱影像中的空间和光谱信息,从而得到更平滑的分类图;与其它方法相比,本文所提方法得分类图的视觉效果最好,最接近地面真实数据,这从视觉角度再次证明了所提方法的有效性。
另外,为了验证样本数量大小对分类性能的影响,我们每类随机选取50,100和150个标记样本作为训练样本进行实验,分析不同方法对训练样本数量的适应性。不同样本数量不同方法分类精度曲线如图9所示。从图中可以看出,随着训练样本数量的增加,所有方法的分类精度都逐渐提高,但本文方法的分类精度最高,这说明本文方法对训练样本数的变化具有最好的适应性。
为了提高高光谱影像的分类精度,本实施例提出的一种结合EMP特征和TNT模块的高光谱影像分类方法,该方法的主要优势在于:一是采用EMP特征提取方法有效地利用了高光谱影像中的空间信息和光谱信息,同时减少高光谱影像的波段数量;二是TNT模块中的内部转换器模型和外部转换器模型能够分别提取高光谱影像的像素级特征和斑块级特征,充分利用了输入EMP立方体数据的全局信息和局部信息,进一步提高了高光谱影像的分类性能。在三个公开高光谱影像数据集上的实验结果表明,该方法的性能优于支持向量机和其它的CNN深度学习模型。
与上述一种结合EMP特征和TNT模块的高光谱影像分类方法相应地,本实施例还提出一种结合EMP特征和TNT模块的高光谱影像分类装置,包括:
EMP特征提取模块,用于利用扩展形态学剖面提取整个高光谱影像的EMP特征,并将生成的EMP立方体依次划分为若干个斑块;
斑块转换模块,用于将每个斑块展开并进行线性变换,得到一个斑块嵌入和若干个像素嵌入;
TNT深度网络分类模块,用于将斑块嵌入和像素嵌入分别加入到各自对应的位置编码中,将得到的向量一起输入到包含L个TNT模块的深度网络模型中进行分类。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
机译: 电子模块与数据载体和微控制器结合在一起,其中数据载体具有特定功能的特征和模块的特征
机译: 基于深度学习的车辆牌照特征和存储介质分类方法和装置
机译: 融合复杂共振频率特征和波形结构特征的雷达目标分类方法和装置