首页> 中国专利> 基于梯度提升决策树半监督算法融合的高光谱图像分类

基于梯度提升决策树半监督算法融合的高光谱图像分类

摘要

本发明提出了一种基于梯度提升决策树半监督算法融合的高光谱图像分类方法,用于解决现有基于主动学习与半监督学习相结合的高光谱图像分类中存在的分类精度较低的技术问题,其步骤包括:(1)输入高光谱图像数据;(2)提取样本点特征;(3)训练梯度提升决策树分类器参数;(4)对学习集中样本点分类;(5)评估样本点置信度;(6)通过稀疏表示筛选样本点;(7)更新有标记训练集;(8)输出分类结果。本发明利用分类器预测结果以及稀疏表示对无标记样本点的置信度进行评估,根据无标记样本点置信度的高低,划分为两个集合进行不同的处理,在提高分类精度的同时减轻了人工标记的负担,可用于地质调查、大气污染等领域。

著录项

  • 公开/公告号CN106203523A

    专利类型发明专利

  • 公开/公告日2016-12-07

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN201610561589.1

  • 申请日2016-07-17

  • 分类号G06K9/62(20060101);G06K9/00(20060101);

  • 代理机构61205 陕西电子工业专利中心;

  • 代理人韦全生;王品华

  • 地址 710071 陕西省西安市太白南路2号

  • 入库时间 2023-06-19 01:01:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-01

    授权

    授权

  • 2017-01-04

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20160717

    实质审查的生效

  • 2016-12-07

    公开

    公开

说明书

技术领域

本发明属于图像处理技术领域,涉及一种高光谱图像的分类方法,具体涉及一种基于梯度提升决策树半监督算法融合的高光谱图像分类方法,可用于地质调查、大气污染和军事目标打击等领域。

背景技术

随着光学遥感技术的发展,遥感成像的历程从全色(黑白)图像、彩色摄像、多光谱扫描成像直至如今的高光谱遥感成像和超光谱成像。高光谱遥感技术采用了10-2λ且连续的光谱通道对地物进行持续的遥感成像,获取大量具有完整光谱信息的地物图像数据,实现地物空间信息、辐射信息、光谱信息的同步获取,具有“图谱合一”的特性,为地物识别提供了方便。

常用的高光谱图像数据包括由美国宇航局NASA喷气推进实验室的空载可见光/红外成像光谱仪AVIRIS获得的Indian Pine数据集和Kennedy Space Center(简称KSC)数据集,以及NASA的EO-I HYPERION光谱仪获得的Botswana数据集等。

高光谱图像地物分类问题主要是利用地物的光谱特征来进行分类,通过分析出高光谱图像中各个像素内容的光谱形态,并根据其内容的特征判别其所属类别。传统的高光谱图像分类方法主要有以支持向量机SVM和神经网络为代表的监督分类方法以及以模糊聚类法为代表的无监督分类方法。有监督分类方法需要大量有标记样本来训练得到性能较好的分类器,高光谱遥感图像分类问题的训练数据集是那些遥感图像上已经标记了类标号的样本点,标记样本点的类标号都是人工来完成的。然而,请人类专家对高光谱图像进行人工标记是一项费时费力且代价高昂的工作;对于无监督分类方法,由于缺乏先验知识,仅凭遥感图像地物的光谱特征分布规律将样本划分为若干类别,分类结果只是对不同类别达到了区分,并不能确定类别的属性,无法保证聚类后类别与地物类别之间的正确对应。

在这种情况下,基于半监督学习和主动学习的高光谱图像分类方法引起了国内外学者的广泛关注。半监督学习利用少量有标记数据训练初始分类器,进而用大量无标记数据来进一步改进初始分类器的性能以达到精确学习,一定程度上弥补了监督学习与无监督学习的不足。常用的半监督分类方法包括自训练方法,协同训练、生成概率模型算法、半监督支持向量机SVM,以及基于图的方法。在这些方法中,通过对无标记数据赋予类标,利用得到类标的数据重新训练分类器,得到最终的分类结果。然而,半监督学习的不足之处在于,在样本数目较少,模型训练不充分的情况下,对无标记数据的类标预测往往不准确,将标记错误的样本加入训练集将导致分类器的学习性能下降。主动学习旨在通过一定的查询策略选择对分类模型而言有价值的样本,过滤掉冗余的样本信息,从而根据领域专家的知识和经验,人工地对这些信息量丰富的样本进行标记。主动学习的主要任务在于寻找高效的样本查询策略,使得选择标记的样本质量高且少,既可以保证分类性能,也可以减轻标记样本的工作量。目前主动学习常用的查询策略有:1)基于样本不确定性采样;2)基于查询专家委员会采样,这里利用多个分类器组成一个委员会,采用投票的方式来确定是否选取样本。在主动学习中,通过专家对无标记样本进行标记可以保证标记的准确度,但是人工标记势必是费时耗力的。

主动学习通过咨询人类专家引入人工标记的样本,保证了百分之百的正确率。由于人工标记费时耗力,所以可进行人工标记的样本数目有限。半监督学习依赖分类器对无标记样本进行预测,新增样本数目多却无法保证质量。针对这两种方法的特点,国内外学者考虑将两种方法结合起来,提出了基于主动学习与半监督学习相结合的高光谱图像分类方法,在保证新增有标记样本数目的同时减轻人工标记的负担。例如,Inmaculada D′opido,Jun Li等人在论文“A New Semi-supervised Approach for Hyper-spectral Image Classification With Different Active Learning”(WHISPERS,2012)中,公开了一种半监督主动学习方法用于高光谱图像分类,利用主动学习的查询策略对半监督学习过程中选出的无标记样本进行筛选,选出其中信息量最为丰富的样本。该方法的具体步骤为:在稀疏多项式逻辑回归分类器中,计算有标记样本邻域内无标记样本的最大后验概率;将其中概率较大的赋予类标,加入某一特定集合中;利用主动学习中常用的几种查询策略对该集合中的样本进行挑选,选出对分类器性能提升贡献最大的样本;将选择出的样本加入有标记样本集中,重新训练分类器。这一方法节省了时间和人力,然而由于缺乏人工标记过程仅依赖分类器本身进行类标预测,分类精度有待提高。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷,提出了一种基于梯度提升决策树半监督算法融合的高光谱图像分类方法,利用少量有标记样本点训练梯度提升决策树GBDT分类器,并对无标记样本点进行筛选,选取置信度较高的无标记样本点进行半监督学习,不确定性较大的无标记样本点进行主动学习,在专家与分类器的共同作用下,实现了对高光谱图像的有效分类,用于解决现有基于主动学习与半监督学习相结合的高光谱图像分类方法中存在的分类精度较低的技术问题。

为实现上述目的,本发明采取的技术方案,包括如下步骤:

(1)输入包含C类、N个样本点的高光谱图像,对每个样本点取其邻域窗口,取该窗口内所有样本点每一维特征的最大值作为该中心样本点的空间特征,将样本点的光谱特征与空间特征串联,得到样本点的空谱特征向量;

(2)从输入的高光谱图像中选取有标记训练集、学习集和测试集,实现步骤为:

(2a)从输入的高光谱图像的每类样本点中,随机选取r个样本点,得到有标记训练集其对应的类别标记集为其中,n为有标记训练样本点总个数,且n=C×r,xi为有标记训练集的第i个有标记样本点,li为第i个有标记训练样本点所属的类别标号,li∈{1,2,…,C},R为实数域,D为样本点的特征维数;

(2b)从选取的n个有标记样本点以外的样本点中,随机选取比例为per1的样本点,得到学习集其中,s为学习集样本点的总个数,s=(N-n)×per1,zq为学习集中的第q个样本点;

(2c)利用剩余样本点构成测试集m为测试集样本总个数,m=N-n-s,yj为测试集的第j个测试样本点;

(3)利用有标记训练集中的样本点的特征向量与对应的类标矩阵,对梯度提升决策树GBDT分类器参数进行训练,每两类有标记样本点可训练得到一个二分类器模型,最终,C类有标记样本点可得到C×(C-1)/2个二分类器模型;

(4)将学习集中的样本点输入到得到的多个二分类器模型中,得到该学习集Z中每个样本点的预测类标k;

(5)根据得到的学习集中每个样本点zq的预测类标k,判断每一个二分类器模型中,每个样本点zq被分到第k类时,类标k的取胜次数P是否等于C-1,若是,则将该样本点加入空集Ssemi中,否则,将样本点加入空集Sact中;对学习集Z中的所有样本点逐一进行判断,得到集合和集合其中,zq1为集合Ssemi中的样本点,zq2为集合Sact中的样本点,s'为集合Ssemi中的样本点总个数,s″为集合Sact中的样本点总个数,其中,s′+s″=s;

(6)利用稀疏表示,对得到的集合Ssemi与集合Sact中的样本点进行筛选,实现步骤为:

(6a)利用有标记训练集X中的所有样本点构建字典A=[x1,x2,…,xn],并利用构建的字典A,分别对集合Ssemi中的样本点zq1和集合Sact中的样本点zq2进行稀疏表示:zq1=Aα1,zq2=Aα2,其中,α1和α2是稀疏表示系数向量;

(6b)利用正交匹配追踪算法OMP得到样本点zq1和样本点zq2的稀疏表示系数向量:和其中||·||2为l2范数,度量数据重构误差;||·||1为l1范数,用来保证向量α1和向量α2的稀疏度,λ是重构误差项与稀疏项的平衡因子;

(6c)根据稀疏表示系数向量α1和α2中非零项所对应的有标记样本点的类标,即li∈{1,2,…,C},将集合Ssemi中预测类标k与类标li相同的样本点zq1筛选出来,并将筛选出的所有样本点的类标赋予类标li;同时将集合Sact中预测类标k与类标li不同的样本点zq2筛选出来,并将筛选出的所有样本点交由专家进行人工标注;

(7)将集合Ssemi中赋予类标li的样本点zq1和集合Sact中进行人工标注的样本点zq2,加入到有标记训练集X中,重新训练分类器参数,得到新的分类器模型;

(8)迭代步骤(3)~步骤(7),直到满足设定的迭代次数,利用最终得到的分类器模型,对测试集中的样本点进行分类,得到测试集的分类结果

本发明与现有的技术相比,具有以下优点:

1.本发明由于采用分类器预测结果以及稀疏表示对无标记样本点的置信度进行评估,同时根据无标记样本点置信度的高低,划分为两个集合,并针对这两个集合的特性进行不同的处理,与现有基于主动学习与半监督学习相结合的高光谱图像分类方法相比,有效的提高了图像分类的准确率。

2.本发明由于采用人工标记与分类器预测的无标记样本点更新有标记训练集,同时利用了有标记样本点和无标记样本点训练分类器,有效减少了所需有标记样本点的数目,保证分类正确率的同时,减轻了人工标记的负担。

附图说明

图1是本发明的实现流程框图;

图2是本发明与现有技术在有标记训练样本点数目不同时的分类精度仿真对比图。

具体实施方式

以下结合附图和实施例,对本发明作进一步说明。

参照图1,本发明的具体实施步骤包括:

步骤1,输入高光谱图像数据:

输入一幅高光谱图像,去除背景样本点,剩余样本点共有N个,包含C个类别。

步骤2,样本点空谱特征提取,实现步骤为:

步骤2a,用每一个样本点各个波段的光谱特征值作为该样本点的光谱特征向量,样本点的原始特征维数为d。

步骤2b,对每个样本点取其邻域窗口,窗口大小为c×c,取该窗口内所有样本点每一维特征的最大值作为该中心样本点的空间特征,特征维数为d。

步骤2c,将样本点的光谱特征与空间特征串联,得到其最终的特征向量,特征维数为D,D=2×d。

步骤3,从输入的高光谱图像中选取有标记训练集X、测试集Y以及学习集Z,实现步骤为:

步骤3a,从输入的高光谱图像的每类样本点中,随机选取r个样本点构成有标记训练集其对应的类别标记集为其中,n为有标记训练样本点总个数,且n=C×r,xi为有标记训练集的第i个有标记样本点,li为第i个有标记训练样本点所属的类别标号,li∈{1,2,…,C},R为实数域;

步骤3b,从选取的n个有标记样本点以外的样本点中,随机选取比例为per1的样本点构成学习集其中,s为学习集样本点总个数,且s=(N-n)×per1,zq为学习集中的第q个样本点;

步骤3c,利用剩余样本点构成测试集m为测试集样本总个数,m=N-n-s,yj为测试集的第j个测试样本点;

步骤4,训练梯度提升决策树GBDT分类器参数,并对学习集中的样本点进行类标预测,实现步骤为:

步骤4a,输入有标记训练集中样本点的特征向量与对应的类标矩阵到梯度提升决策树GBDT分类器中,训练分类器参数;

步骤4b,输入学习集中样本点的特征向量到得到的分类器模型中,得到样本点zq对应的类标k;

步骤5,根据学习集中样本点的置信度,将样本点分为两个集合,实现步骤为:

步骤5a,样本zq经过得到的二分类器分类,得到预测结果值score(k)与score(t),其中二分类器是利用第k类有标记样本点及第t类有标记样本点训练得到,k∈{1,2,…,C},t∈{1,2,…,C},k≠t,score(k)与score(t)分别是通过分类器对样本zq的第k类与第t类的预测结果值;

步骤5b,样本zq基于该二分类器得到的类别k的取胜次数P为

P=Σt=1,tkCI(score(k)>score(t))

其中,指示函数

步骤5c,若P=C-1,表示样本zq的真实类标为k的置信度较高;半监督学习的主要目的在于找到容易标记、置信度高的无标记样本点利用分类器模型作出类标预测,加入有标记训练集中,所以将zq放入空集Ssemi中,得到集合zq1为集合Ssemi中的样本点,s'为集合Ssemi中的样本点总个数;

步骤5d,若P≠C-1,表示样本zq的真实类标为k的置信度较低;在主动学习中,将比较难分的、信息量丰富的样本筛选出来进行人工标记,所以将zq放入集合中Sact中,得到集合zq2为集合Sact中的样本点,s″为集合Sact中的样本点总个数;

步骤6,对集合Ssemi和集合Sact中的样本点稀疏表示,实现步骤为:

步骤6a,构建字典A,A=[x1,x2,…,xn],x1,x2,…,xn为有标记训练集中的样本点,n为有标记训练样本点总个数,样本点特征维度为D,则字典的大小为D×n;

步骤6b,对集合Ssemi中的样本点zq1和集合Sact中的样本点zq2分别进行稀疏表示,得到稀疏表示式zq1=Aα1与zq2=Aα2

步骤6c,利用正交匹配追踪算法OMP得到样本点zq1和样本点zq2的稀疏表示系数向量:和其中||·||2为l2范数,度量数据重构误差;||·||1为l1范数,用来保证向量α1和向量α2的稀疏度,λ是重构误差项与稀疏项的平衡因子,按如下步骤实现:

步骤6c1,初始化残差项r(0)=zq,索引集为K维零向量,初始迭代J=1

步骤6c2,找出残差r(J-1)与字典A中的第j列xj内积最大所对应的下标λ,

步骤6c3,更新索引集Λ(J),Λ(J)(J)=λ。根据索引集,从字典A中选出对应的原子列构成集合A(J)=A(:,Λ(J)(1:J));

步骤6c4,利用最小二乘法得到J阶逼近的α(J)=argmin||zq-A(J)α||2

步骤6c5,更新残差r(J)=zq-A(J)α(J),J=J+1;

步骤6c6,重复步骤6c2~步骤6c5,并判断J是否大于K,若是,迭代结束,否则,执行步骤6c2。

zq为集合Ssemi与Sact中的样本点,α为稀疏表示系数向量;

步骤7,根据稀疏表示系数向量α1和α2中非零项位置所对应的有标记样本点的类标li∈{1,2,…,C},对集合Ssemi与集合Sact中的样本点zq1与zq2进行筛选。

步骤7a,当字典A中的第j个字典原子xj与学习集中第q个样本点zq属于同一类时,α对应位置处αji值为1,不同类时为0;若集合Ssemi中样本点zq1的预测类标k与其稀疏系数矩阵α1中非零项位置所对应的有标记样本点的类标li相同,表示该样本点zq1与该有标记样本点属于同一类,则将该样本点zq1的类标赋予为li

步骤7b,若集合Sact中的样本点zq2的预测类标k与其稀疏系数矩阵α2中非零项位置所对应的有标记样本的类标li不同,表示该样本点zq2经过分类器预测的类标与稀疏表示得到的类标不一致,该样本点zq2属于比较难分的样本点,则将其筛选出来,交由专家进行人工标注。

步骤8,将Ssemi集合中赋予类标的样本点zq1和Sact集合中进行人工标注的样本点zq2加入到有标记训练集X中,输入新的有标记训练集中样本点的特征向量与对应的类标矩阵重新训练分类器参数,得到新的分类器模型;

步骤9,输出分类结果

运用梯度提升决策树分类器,第一步输入新的有标记训练集中样本点的特征向量和类别标记集用于训练,第二步输入测试集中测试样本的特征向量,通过梯度提升决策树分类器,得到测试集的类标矩阵其中,l'j表示第j个测试样本所属的类别标号。

步骤10,计算分类精度

经过对比真实的类标矩阵,得到分类精度结果。

以下结合仿真实验,对本发明的技术效果作进一步描述。

1.仿真条件:

仿真实验在CPU为Intel Core(TM)i3-3110M、主频2.40GHz,内存为4G的WINDOWS 7系统上用MATLAB 2014a软件进行。

2.仿真内容及分析:

仿真实验采用美国宇航局NASA喷气推进实验室的空载可见光/红外成像光谱仪AVIRIS于1992年6月在印第安纳西北部获取的Indian Pine图像,图像大小为145×145,共220个波段,去除噪声以及大气和水域吸收的波段还有200个波段,共16类地物信息,由于部分类别的数据个数非常少,在仿真实验中,只考虑表1所示的9类数据,整幅图像被分为9类。

表1Indian Pine图像中的9类数据

类别类别名称个数1Corn-no till14342Corn-min8343Grass/Pasture4974Grass/Trees7475Hay-windrowed4896Soybeans-no till9687Soybeans-min24688Soybean-clean6149Woods1294

使用本发明与现有技术对高光谱图像Indian Pine进行分类,对比的现有技术为论文“A New Semi-supervised Approach for Hyper-spectral Image Classification With Different Active Learning”(WHISPERS,2012)中提出的半监督主动学习方法。本发明利用梯度提升决策树GBDT作为分类器,基于主动学习与半监督学习相结合的高光谱图像分类方法缩写为SSAc+GBDT。

本发明中GBDT分类器的决策树个数设置为100,下采样比例设置为50%;窗口大小c×c设置为15×15,学习集的选取比例per1设置为30%。

从表1所示9类数据中每类选取固定数目样本点作为有标记训练集,选取一定比例样本点作为学习集,剩余样本点作为测试集,学习集与测试集中样本点均为无标记样本点,用本发明与现有技术对9类数据进行10次分类实验,取分类结果的平均值,作为最终分类正确率,如图2所示,是两种方法在每类有标记训练样本点个数r分别为5、10、15时的分类精度仿真对比图,横坐标表示每类有标记训练样本点的个数,纵坐标表示分类精度。从图2可以看出当每类选的有标记样本点个数不同时,本发明分类精度明显高于现有技术。

综上,本发明在基于梯度提升决策树的基础上结合半监督算法融合对高光谱图像进行分类,充分利用无标记样本点的结构信息,能够减少计算量,并得到较高的分类精度,与现有的方法相比具有一定的优势。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号