法律状态公告日
法律状态信息
法律状态
2018-07-17
授权
授权
2016-02-24
实质审查的生效 IPC(主分类):G06K9/62 申请日:20151022
实质审查的生效
2016-01-27
公开
公开
技术领域
本发明涉及高光谱遥感技术领域,尤其涉及一种结合混合象元分 解与主动学习的半监督分类方法。
背景技术
由于高光谱遥感数据具有成百上千的光谱波段,使其对监督分 类中训练样本的需求大幅增加,而获取足够的训练样本往往需要较 多的时间和精力,尤其是对于完全未知的研究区,地面调查需要消 耗大量的人力物力。所以,如何能够在仅有少量标记样本的情况下, 通过利用一定标记样本来挖掘未标记样本的潜在标记,并将其加入 到分类器中来辅助分类,从而改善分类器性能,成为了高光谱数据 分类的重要问题之一。
高光谱半监督分类方法就是在这一背景下提出的。半监督分类 方法同时利用少量的已知类别样本和对未标记样本标记类别,综合 对整个数据进行分类,对高光谱遥感数据的小样本分类具有重要意 义。其中,主动学习是半监督分类的一种常用学习方法,其基本思 想为:允许学习算法在大量未标记样本中通过询问机制来选取信息 量最丰富的样本,通过人机交互进行类别标注,以此来实现用最少 的标记样本获得最高分类精度的目的。与被动学习模式相比,主动 学习策略可以有效的降低样本复杂度,提高运算效率。
现有的高光谱半监督分类方法对训练样本的需求不断增多,然 而获取训练样本是较为困难的,导致现有的分类方法只能通过较少 的训练样本进行分类,在这种情况下分类的精度往往达不到理想的 效果。
发明内容
本发明要解决的技术问题是:解决现有的高光谱半监督分类方法 在训练样本较少的情况下精度不够问题。
为实现上述的发明目的,本发明提供了一种结合混合象元分解与 主动学习的半监督分类方法,包括:
在待分类的影像样本中,选取已知类别样本为已标记样本,并形 成已标记样本集;其余的样本为未标记样本;
根据所述已标记样本以及未标记样本,构建主动学习样本集;
将所述主动学习样本集的样本合并到所述已标记样本集中,利用 合并后的已标记样本集对所述影像进行分类,得到分类结果;
其中,
所述未标记样本为所述影像样本中未知类别样本;
所述构建主动学习样本集,是通过混合象元分解以及主动学习结 合的方法实现的。
优选地,所述混合象元分解以及主动学习结合的方法,包括:
根据所述已标记样本对所述影像样本进行全约束最小二乘混合 像元分解,得到各个影像样本的丰度信息;
根据所述混合像元分解的结果以及预设的主动学习参数,在所述 未标记样本集中,选择丰度最均匀样本以及最易误分样本,并移动到 所述主动学习样本集中,同时更新所述未标记样本集。
优选地,所述丰度信息为每个影像样本的若干个丰度值,每个丰 度值代表一个类别。
优选地,所述根据所述已标记样本对所述影像样本进行全约束最 小二乘混合像元分解,包括:
获取所述各个已标记样本的类别的平均光谱曲线;
以所述平均光谱曲线作为端元,进行所述影像样本的全约束最小 二乘混合像元分解,得到各个影像样本的丰度信息。
优选地,所述预设的主动学习参数包括:主动学习添加的样本数 量M、主动学习迭代次数t以及权重参数w。
优选地,所述选择丰度最均匀样本,包括:
在所述未标记样本集中,获取每个所述未标记样本的丰度差,按 照所述丰度差由小到大的顺序对所述未标记样本进行排序,并选择若 干个排序靠前的样本;
其中,选择的个数为M×(1-w)/t;
所述丰度差为所述未标记样本的最大丰度值与最小丰度值之差。
优选地,所述选择最易误分样本,包括:
在所述未标记样本集中,查看各个所述未标记样本的丰度信息 中,丰度值最高的两个类别,即为主要类别;将所述主要类别相同的 所述未标记样本分为一组;
在每个分组中,获取所述主要类别中两个类别的丰度值之差,并 按所述丰度值之差从小到大的顺序,对所述未标记样本进行排序;保 留各个分组中若干个排序靠前的样本,其中保留的个数为M× (1-w)/t;
对保留的样本进行分类并筛选,根据需要同时考虑筛选后每组当 前的样本数量比例,选择每组中若干个排序靠前的样本;
其中,从所有分组中选择样本的总个数为M×(1-w)/t。
优选地,其特征在于,所述对所述保留的未标记样本进行分类是, 对所述保留的未标记样本进行支持向量机分类。
优选地,所述利用合并后的已标记样本集对所述影像进行分类 为,利用所述合并后的已标记样本集对所述影像进行支持向量机分 类。
优选地,还包括:对合并后的所述已标记样本集进行分类之后, 重复如下步骤:
根据所述已标记样本以及未标记样本,构建主动学习样本集;
将所述主动学习样本集的样本合并到所述已标记样本集中,对合 并后的所述已标记样本集进行分类;
直至重复次数达到预设的迭代次数,或分类精度达到预设的精度 要求,得到最终的分类结果。
本发明提供了一种结合混合象元分解与主动学习的半监督分类 方法。通过结合混合象元分解得到的样本丰度信息以及主动学习的方 式对影像进行的分类,可以在样本较少的情况下提高分类的精度,有 效减轻样本标记的工作量,减少分类器训练所需时间。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处 对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施 方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用 相同的参考符号表示相同的部件。在附图中:
图1是本发明第一实施例提供的结合混合象元分解与主动学习的 半监督分类方法流程图;
图2是本发明第二实施例提供的待分类的高光谱数据图;
图3是本发明第二实施例提供的高光谱数据图分类结果示意图;
图4是本发明第二实施例提供的实际分类结果示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明提供了一种结合混合象元分解与主动学习的 半监督分类方法,该方法具体包括:在待分类的影像样本中,选取已 知类别样本为已标记样本,形成已标记样本集;根据已标记样本以及 未标记样本,构建主动学习样本集;将主动学习样本集的样本合并到 已标记样本集中,利用合并后的已标记样本集进行分类,得到分类结 果。下面对本发明提供的结合混合象元分解与主动学习的半监督分类 方法展开详细的说明。
实施例一
如图1所示,本实施例提供了一种结合混合像元分解与主动学 习的半监督分类方法,具体步骤说明如下:
S11、构建已标记样本集、未标记样本集,设置主动学习参数。 S11步骤中的子步骤具体说明如下:
S111、构建已标记样本集、未标记样本集。
待分类影像的影像样本可分为已标记样本以及未标记样本。其 中,每一个影像样本都对应一个像元,已标记样本代表已被标记类别 的像元,未标记的样本代表未被标记类别的像元。
从待分类的影像中,选取已知类别样本为已标记样本,构成已标 记样本集ST。已标记样本如式(1)表示:
(x1,y1),(x2,y2)…,(xN,yN)(1)
其中,xi∈Rm,yi∈{c1,c2,…ci…cn},ci表示类别;N为标记样本数, n为类别数。
除去已标记样本,影像中其余的样本均为未标记样本,构成未标 记样本集SQ。未标记样本具体表示如式(2):
其中xi∈Rm。
S112、设置主动学习参数。
设置主动学习样本数量,即主动学习添加的样本数量M。
设置主动学习迭代次数t;
设置权重参数w。
S12、利用已标记样本对影像进行全约束最小二乘混合像元分 解。S12步骤中的子步骤具体说明如下:
S121、计算已标记样本集ST中各类别的平均光谱曲线,具体表 示如式(3),
S122、利用S121得到的平均光谱曲线作为端元光谱,对影像上 所有像元进行全约束最小二乘线性解混,得到各个影像样本的丰度 信息。其中丰度信息即为每个影像样本的若干个丰度值,每个丰度 值代表一个类别。每个样本的丰度信息具体表示如式(4):
其中,yi∈{c1,c2,…,cN}。
S13、利用混合像元分解获得的像元丰度值构建主动学习样本 集。S13步骤中的子步骤具体说明如下:
S131、选择丰度最均匀样本,添加到主动学习集SA中。
在未标记样本集中,计算每个未标记样本的丰度差,即最大最 小丰度值之差,具体表示如式(5):
其中,
按照丰度差由小到大的顺序,将各个未标记样本排序,取前M ×(1-w)/t个样本,即为丰度最平均样本;将丰度最均匀样本移动到 主动学习样本集SA中,并同时更新未标记样本集。
S132、选择最易误分样本,添加到主动学习集SA中。
根据S12得到的丰度结果,查看各个所述未标记样本的丰度信 息中,丰度值最高的两个类别,即为主要类别;将所述主要类别相 同的所述未标记样本分为一组。例如当类别数为n时,可分为 CP=[n×(n-1)]/2组,计算每组丰度最高的两个类别的丰度值之差, 并按所述丰度值之差从小到大的顺序,对未标记样本进行排序。保 留各组前M×(1-w)/t个样本,保留的样本即为最易误分样本;
利用当前已标记样本(x1,y1),…,(xN,yN),针对保留的样本进行分 类,优选地进行1-V-1支撑向量机SVM(SupportVectorMachine) 分类;然后对样本进行筛选,保留各组在SVM最优分划边界区域内 的样本,舍弃其他样本;
依据需要添加的主动学习样本数,按各组保留下来的样本数量 比例,选择每组丰度差排序靠前的样本移动到主动学习样本集SA中, 并同时更新未标记样本集。在所有分组中,总共移动M×(1-w)/t个 样本到主动学习样本集SA。
S14、合并主动学习样本集和已标记样本集,利用合并后的已标 记样本集进行分类。S14步骤中的子步骤具体说明如下:
S141、将主动学习样本集的样本合并到所述已标记样本集中,即 如式(6)表示:
ST=ST∪SA(6)
其中,ST为已标记样本集,SA为主动学习样本集。
利用合并后的已标记样本集ST进行分类,优选地进行1-V-1支撑 向量机SVM(SupportVectorMachine)分类,得到分类结果;
S142:返回S12步骤,并重复S13以及S14步骤,直到分类精 度满足需求,或迭代次数达到设置的主动学习迭代次数t。
实施例二
本实施例利用实施例一提供的方法对航空高光谱影像进行分 类,具体说明如下。
由扫描型成像光谱仪PHI(PushbroomHyperspectralImager)获 取的航空高光谱数据影像如图2所示,其波段数为80,空间分辨率 为1.7m。
首先,从图2所示的影像中选取已知类别样本为已标记样本。 其中,样本个数N=5,类别数n=8。
其次,设置主动学习参数。其中,主动学习添加的样本数量 M=160;主动学习迭代次数t=4;权重参数w=0.5。
根据实施例一中S2步骤至S3步骤,构建主动学习样本集;
根据实施例一中S4步骤,将主动学习样本集SA的样本合并到已 标记样本集中,利用合并后的已标记样本集进行分类;分类之后重复 实施例一的S2步骤至S4步骤,直至分类精度满足需求,或迭代次数 达到t。
最终得到的分类结果如图3所示,而图4为实际分类结果示意 图。通过图3与图4的对比,不难看出利用本发明提供的方法分类 的结果基本上与实际结果相同。
利用本发明提供的方法分类的结果精度表1所示。
表1分类结果精度表
其中:C1至C8为图3、图4中的分类标记;
PA(Produceraccuracy)代表生产者精度,也称制图精度,是指 假定地表真实为A类,分类器能将一幅图像的像元归为A的概率;
UA(Useraccuracy)代表用户精度,是指假定分类器将像元归 到A类时,相应的地表真实类别是A的概率;
OAA(Object-OrientedAnalysis)为总体分类精度,等于被正确分 类的像元总和除以总像元数,地表真实图像或地表真实感兴趣区限 定了像元的真实分类。被正确分类的像元沿着混淆矩阵的对角线分 布,它显示出被分类到正确地表真实分类中的像元数。像元总数等 于所有地表真实分类中的像元总和;
KC代表Kappa系数,是另外一种计算分类精度的方法。它是通 过把所有地表真实分类中的像元总数乘以混淆矩阵对角线的和,再 减去某一类中地表真实像元总数与该类中被分类像元总数之积对所 有类别求和的结果,再除以总像元数的平方差减去某一类中地表真 实像元总数与该类中被分类像元总数之积对所有类别求和的结果所 得到的。
本实施例在样本数为5个的情况下,利用实施例一提供的方法 对图2所示的影像进行分类,得到分类结果的总体分类精度为 93.27%。而利用现有的分类方法利用同样的样本数得到的分类精度 为87.2%。因此可以证明本发明提供的方法可以在样本较少的情况 下有效地提高分类的精度。
综上所述,本发明提供了一种结合混合象元分解与主动学习的半 监督分类方法。通过结合混合象元分解得到的样本丰度信息以及主动 学习的方式对影像进行的分类,可以在样本较少的情况下提高分类的 精度,有效减轻样本标记的工作量,减少分类器训练所需时间。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关 技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下, 还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明 的范畴,本发明的专利保护范围应由权利要求限定。
机译: 结合主动学习和半监督学习,以了解口语
机译: 结合主动学习和半监督学习,以理解口语
机译: 结合主动学习和半监督学习以了解口语