技术领域
本发明涉及高光谱遥感图像处理技术领域,尤其涉及一种基于EECNN(EnhancedRandom Feature Subspace-based Ensemble Convolutional Neural Networks,基于增强随机特征子空间的集成卷积神经网络)算法的多类不平衡高光谱图像分类方法,可应用于多类别不平衡场景下高光谱遥感图像的准确分类。
背景技术
高光谱遥感图像包含了覆盖数百个连续光谱波段的丰富信息,已被广泛应用于土地覆盖制图、军事监测、环境建模和检测以及精准农业等领域。高光谱图像通常包含多个地物覆盖类别,因此如何设计一种监督分类算法,在经过适当的训练后为每个像素准确地分配一个类别标签是高光谱图像研究中最重要的任务之一。现有高光谱图像分类方法大多建立在平衡训练集的基础之上,而高光谱图像往往存在严重的类别不平衡问题,即每种地物类别所包含的样本数目差异巨大,从而导致少数类样本分类精度严重受损,但少数类样本往往也是人们所关心并需要被准确分类识别的,这使得许多现有分类方法失效;此外,高光谱图像的获取和地物类别标注需要花费大量的人力物力资源,因此研究类别不平衡情况下高光谱图像分类方法具有巨大的实际应用价值。
目前,针对高光谱图像分类的多类不平衡问题,通常采用的算法有Cost-sensitive算法、基于核函数(Kernel-based)算法和主动学习(Active learning)算法;然而,在高维度的高光谱图像分类中,这些方法都有着巨大的计算成本,即需要消耗大量计算时间和资源;除此之外,一些研究方法试图通过生成少数类的人工样本来解决类别不平衡问题;比如,随机欠采样(Random undersampling,RUS)、随机过采样(Randomoversampling,ROS)、合成少数过采样技术(Synthetic Minority OversamplingTechnique,SMOTE)和正交补码子空间投影方法(Orthogonal Complement SubspaceProjection,OCSP),但这些方法都有一定局限性,RUS方法会损失有效的样本信息;ROS方法产生的大量重复样本会增加模型过度拟合的风险;SMOTE方法仅通过真实样本的线性组合生成人工样本,因此所生成的新特征是有限的;OCSP方法使用非线性人工样本生成,可以产生更丰富的新特征,但基于梯度约束的算法计算量大且非常耗时。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种基于EECNN算法的多类不平衡高光谱图像分类方法,采用基于增强随机特征子空间的平衡训练集生成算法,使训练集更具多样性且不损失原有样本特征信息,能有效提高多种算法的分类精度;采用集成学习与深度学习相结合的集成CNN模型,不但具有集成学习的良好泛化性能,同时具有深度学习强大的特征提取能力,提高分类精度。
为了达到上述目的,本发明采用以下技术方案予以实现。
(一)基于EECNN算法的多类不平衡高光谱图像分类方法,包括以下步骤:
步骤1,获取待训练高光谱图像和待分类高光谱图像;分别对所述待训练高光谱图像和待分类高光谱图像进行光谱-空间像素块划分,对应得到原始数据集S和待分类样本集;从原始数据集中每类按比例随机抽取像素块形成原始训练集S
其中,待训练高光谱图像包含L种地物类别,其像素数为M
步骤2,将原始训练集S
步骤3,将人工训练集S
步骤4,混合S
其中,1≤n
步骤5,构建集成CNN模型,将每个特征子空间f
进一步地,所述原始数据集S中每类未抽取到的像素块作为测试样本,形成测试集S
进一步地,所述光谱-空间像素块划分具体为:将高光谱图像分割为M
进一步地,所述随机过采样处理具体为:对原始训练集S
进一步地,每个随机特征子空间f
进一步地,所述集成CNN模型包括E个并列设置的CNN和多数投票层,每个CNN为一个子分类器;E个CNN的输出经过多数投票层进行投票选择,输出预测类别。
进一步地,所述对集成CNN模型的每个子分类器分别进行训练,具体为:
首先,设置集成CNN模型训练批次大小和最大训练轮次,初始化模型参数;
然后,将每个特征子空间f
进一步地,所述采用多数投票法获取最终预测类别,具体为:将每个子分类器的预测结果P
(二)基于增强随机特征子空间的平衡训练集生成算法,包括以下步骤:
步骤1,获取待训练高光谱图像,对所述待训练高光谱图像进行光谱-空间像素块划分,得到原始数据集S;从原始数据集中每类按比例随机抽取像素块形成原始训练集S
其中,待训练高光谱图像的像素数为M
步骤2,将原始训练集S
步骤3,将人工训练集S
(三)一种集成CNN分类模型,包括多个并列设置的CNN和多数投票层,每个CNN为一个子分类器;多个CNN的输出经过多数投票层进行投票选择,输出预测类别。
与现有技术相比,本发明的有益效果为:
(1)相比传统ROS、RUS算法产生的平衡训练集,本发明方法采用基于增强随机特征子空间的平衡训练集生成算法,生成的训练集更具多样性且不损失原有样本特征信息,能有效提高多种算法的分类精度。
(2)本发明方法采用基于RFS的随机特征子空间构建算法,在生成的平衡训练集的基础上,通过随机特征选择在样本的波段维构建大量包含光谱-空间信息的随机特征子空间,实现了高光谱图像高维光谱特征的充分融合,且有效克服了高光谱图像分类中存在的高特征-实例比的问题。
(3)本发明采用集成学习与深度学习相结合的集成CNN模型,不但具有集成学习的良好泛化性能,同时具有深度学习强大的特征提取能力;集成CNN模型的各个子分类器CNN工作在不同的随机特征子空间上,通过对每个子分类器的预测结果进行多数投票得到最终分类结果,与现有方法相比分类精度提升明显。
附图说明
下面结合附图和具体实施例对本发明做进一步详细说明。
图1为本发明的一种基于EECNN算法的多类不平衡高光谱图像分类方法方法流程图;
图2为本发明实施例的基于光谱-空间像素块的训练集和测试集构建方法示意图;
图3为本发明实施例的基于随机特征子空间的平衡训练集生成算法示意图;
图4为本发明实施例的基于RFS的集成CNN模型算法流程图;
图5为采用不同方法对IndianPines(印第安纳松树地)高光谱数据集的分类结果,其中,(a)为IndianPines(印第安纳松树地)高光谱数据集的真实地物分布示意图,(b)为传统随机森林(Random forest,RF)算法的分类结果示意图,(c)为传统CNN算法的分类结果示意图;(d)为传统集成CNN(Ensemble CNN,ECNN)算法的分类结果示意图,(e)为采用本发明所提具有增强特征子空间的均衡训练样本集合S
图6为采用不同方法对University of Pavia(帕维亚大学)高光谱数据集的分类结果;其中,(a)为University ofPavia(帕维亚大学)高光谱数据集的真实地物分布示意图,(b)为传统随机森林算法的分类结果示意图,(c)为传统CNN算法的分类结果示意图,(d)为传统集成CNN算法的分类结果示意图,(e)为采用本发明所提具有增强特征子空间的均衡训练样本集合S
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域的技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。
实施例1
参考图1,本发明提供的一种基于EECNN算法的多类不平衡高光谱图像分类方法,包括以下步骤:
步骤1,获取待训练高光谱图像和待分类高光谱图像;分别对所述待训练高光谱图像和待分类高光谱图像进行光谱-空间像素块划分,对应得到原始数据集S和待分类样本集;从原始数据集中每类按比例随机抽取像素块形成原始训练集S
其中,待训练高光谱图像包含L种地物类别,其像素数为M
具体地,参照图2,为本发明的一种基于光谱-空间像素块的训练、测试样本集构建方法示意图;首先,将包含M×M个像素的N波段高光谱图像划分为M×M个大小为m×m×N的像素块作为原始数据集S,即取每个像素点周围m×m-1个相邻像素点作为空间邻域信息以构成光谱-空间像素块;对于图像边缘像素点,在一个或多个方向没有领域像素点,故其缺少的邻域信息用0元素填充,以保证每个像素块大小一致;其次,由于高光谱图像中包含多类别像素点,统计每个类别的像素点个数即每类样本数目,除背景类别外,随机抽取每类样本中a%作为训练样本集S
步骤2,将原始训练集S
具体地,参照图3,基于随机过采样(ROS)的平衡训练集生成方法,统计原始训练集S
步骤3,将人工训练集S
具体地,参照图3,基于随机特征子空间的平衡训练集生成算法,首先,选取ROS所得含大量重复样本的人工训练集S
步骤4,混合S
其中,1≤n
具体地,首先,直接混合人工增强训练集S
对测试样本做上述相同的RFS以使得其特征子空间的波段及其排列顺序与训练样本的f
步骤5,构建集成CNN模型,将每个特征子空间f
具体地,参照图4,基于RFS的集成CNN模型算法流程图;首先设计独立的深层CNN模型作为集成算法的子分类器,每个子分类器的输入为步骤4中所得大小为m×m×n
然后,将每个样本按照对应随机特征子空间输入到集成CNN模型的相应子分类器中进行自动特征提取并得到独立预测结果P
实施例2
参考图3,本发明还提供一种基于增强随机特征子空间的平衡训练集生成算法,包括以下步骤:
步骤1,获取待训练高光谱图像,对所述待训练高光谱图像进行光谱-空间像素块划分,得到原始数据集S;从原始数据集中每类按比例随机抽取像素块形成原始训练集S
其中,待训练高光谱图像的像素数为M
步骤2,将原始训练集S
步骤3,将人工训练集S
实施例3
参考图4,本发明还提供了一种集成CNN分类模型,包括,多个并列设置的CNN和多数投票层,每个CNN为一个子分类器;多个CNN的输出经过多数投票层进行投票选择,输出预测类别。
仿真实验
通过在两种公共高光谱数据集上的实验对本发明方法作进一步验证说明。
(一)实验数据及模型参数设置
1.Indian Pines数据集的实验中,定义原始数据集的不平衡比例(Imbalanceratio,IR)为最大类样本数目与最小类样本数目之比,即IR=N
表1为Indian Pines数据集实验中CNN结构
2.University ofPavia数据集的实验中,其IR=19.83,设置其空间信息大小m=15,集成算法分类器个数为20个,每个随机特征子空间所包含波段数n
表2为University ofPavia数据集实验中CNN结构
(二)实验结果及其分析
在上述实验设置的基础上,对两个高光谱数据集分别使用本发明所提基于EECNN算法的多类不平衡高光谱图像分类方法进行实验验证,并采用传统RF算法、CNN算法、ECNN算法,以及采用本发明所提基于增强随机特征子空间的均衡训练样本进行模型训练的ERFS+RF算法和ERFS+CNN算法作为对比算法,从而更直观地评价本发明所提方法的优越性。采用整体分类精度(Overallaccuracy,OA)、平均分类精度(average accuracy,AA)以及Kappa系数作为分类效果的评价指标,其中,各项指标的取值越高,则分类效果越好;每种分类方法进行十次独立重复实验后取各项指标的均值作为该方法的最终实验结果以保证实验的可靠性。
在Indian Pines数据集的实验中,上述几种分类方法的实验结果如下表3所示;由表3及图5(a)~图5(g)中真实地物分布示意图与6种方法分类结果效果图可知,其中每种颜色代表一种地物类别,共计16种地物类别且各类别样本数目分布严重不平衡;其中M
表3为Indian Pines数据集实验结果
在University of Pavia数据集的实验中,上述几种分类方法的实验结果如下表4所示;由表4及图6(a)~图6(g)中真实地物分布示意图与6种方法分类结果效果图,其中每种颜色代表一种地物类别,共计9种地物类别且各类别样本数目分布不平衡;其中M
表4为University of Pavia数据集实验结果
综上所述,仿真实验验证了本发明的正确性,有效性和可靠性,并相比现有方法的实验效果具有较大的优越性。
虽然,本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
机译: 无线接收机在信号处理领域的同相和正交相位不平衡校正方法,包括根据自适应算法,根据不平衡估计来校正不平衡,以获得校正后的估计。
机译: 基于不平衡进化理论的遗传算法优化装置及其方法
机译: 用于使用机器学习和基于规则的算法基于人类提供的专利权利要求创建专利说明书的系统和方法,从而无需人工干预即可创建专利说明书