首页> 中国专利> 一种结合混合象元分解与主动学习的半监督分类方法

一种结合混合象元分解与主动学习的半监督分类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及高光谱遥感技术领域，公开了一种结合混合象元分解与主动学习的半监督分类方法。该方法包括：在待分类的影像样本中，选取已知类别样本为已标记样本，形成已标记样本集；对影像中未标记样本进行混合像元分解得到样本丰度信息；根据已标记样本以及未标记样本的丰度信息，构建主动学习样本集；将主动学习样本集的样本合并到已标记样本集中，利用合并后的已标记样本集对影像进行分类，得到分类结果。通过结合混合象元分解以及主动学习的方式对影像进行的分类，可以在样本较少的情况下提高分类的精度，有效减轻样本标记的工作量，减少分类器训练所需时间。

著录项

公开/公告号CN105279523A

专利类型发明专利
公开/公告日2016-01-27

原文格式PDF
申请/专利权人中国科学院遥感与数字地球研究所;
展开▼

申请/专利号CN201510690946.X
发明设计人张霞;张立福;刘佳;王树东;孙艳丽;
展开▼

申请日2015-10-22
分类号G06K9/62;
代理机构北京路浩知识产权代理有限公司;
代理人李相雨
地址 100101 北京市朝阳区大屯路甲20号北北京9718信箱
入库时间 2023-12-18 13:57:21

法律信息

法律状态公告日

法律状态信息

法律状态
2018-07-17

授权

授权
2016-02-24

实质审查的生效 IPC(主分类):G06K9/62 申请日:20151022

实质审查的生效
2016-01-27

公开

公开

说明书

技术领域

本发明涉及高光谱遥感技术领域，尤其涉及一种结合混合象元分解与主动学习的半监督分类方法。

背景技术

由于高光谱遥感数据具有成百上千的光谱波段，使其对监督分类中训练样本的需求大幅增加，而获取足够的训练样本往往需要较多的时间和精力，尤其是对于完全未知的研究区，地面调查需要消耗大量的人力物力。所以，如何能够在仅有少量标记样本的情况下，通过利用一定标记样本来挖掘未标记样本的潜在标记，并将其加入到分类器中来辅助分类，从而改善分类器性能，成为了高光谱数据分类的重要问题之一。

高光谱半监督分类方法就是在这一背景下提出的。半监督分类方法同时利用少量的已知类别样本和对未标记样本标记类别，综合对整个数据进行分类，对高光谱遥感数据的小样本分类具有重要意义。其中，主动学习是半监督分类的一种常用学习方法，其基本思想为：允许学习算法在大量未标记样本中通过询问机制来选取信息量最丰富的样本，通过人机交互进行类别标注，以此来实现用最少的标记样本获得最高分类精度的目的。与被动学习模式相比，主动学习策略可以有效的降低样本复杂度，提高运算效率。

现有的高光谱半监督分类方法对训练样本的需求不断增多，然而获取训练样本是较为困难的，导致现有的分类方法只能通过较少的训练样本进行分类，在这种情况下分类的精度往往达不到理想的效果。

发明内容

本发明要解决的技术问题是：解决现有的高光谱半监督分类方法在训练样本较少的情况下精度不够问题。

为实现上述的发明目的，本发明提供了一种结合混合象元分解与主动学习的半监督分类方法，包括：

在待分类的影像样本中，选取已知类别样本为已标记样本，并形成已标记样本集；其余的样本为未标记样本；

根据所述已标记样本以及未标记样本，构建主动学习样本集；

将所述主动学习样本集的样本合并到所述已标记样本集中，利用合并后的已标记样本集对所述影像进行分类，得到分类结果；

其中，

所述未标记样本为所述影像样本中未知类别样本；

所述构建主动学习样本集，是通过混合象元分解以及主动学习结合的方法实现的。

优选地，所述混合象元分解以及主动学习结合的方法，包括：

根据所述已标记样本对所述影像样本进行全约束最小二乘混合像元分解，得到各个影像样本的丰度信息；

根据所述混合像元分解的结果以及预设的主动学习参数，在所述未标记样本集中，选择丰度最均匀样本以及最易误分样本，并移动到所述主动学习样本集中，同时更新所述未标记样本集。

优选地，所述丰度信息为每个影像样本的若干个丰度值，每个丰度值代表一个类别。

优选地，所述根据所述已标记样本对所述影像样本进行全约束最小二乘混合像元分解，包括：

获取所述各个已标记样本的类别的平均光谱曲线；

以所述平均光谱曲线作为端元，进行所述影像样本的全约束最小二乘混合像元分解，得到各个影像样本的丰度信息。

优选地，所述预设的主动学习参数包括：主动学习添加的样本数量M、主动学习迭代次数t以及权重参数w。

优选地，所述选择丰度最均匀样本，包括：

在所述未标记样本集中，获取每个所述未标记样本的丰度差，按照所述丰度差由小到大的顺序对所述未标记样本进行排序，并选择若干个排序靠前的样本；

其中，选择的个数为M×(1-w)/t；

所述丰度差为所述未标记样本的最大丰度值与最小丰度值之差。

优选地，所述选择最易误分样本，包括：

在所述未标记样本集中，查看各个所述未标记样本的丰度信息中，丰度值最高的两个类别，即为主要类别；将所述主要类别相同的所述未标记样本分为一组；

在每个分组中，获取所述主要类别中两个类别的丰度值之差，并按所述丰度值之差从小到大的顺序，对所述未标记样本进行排序；保留各个分组中若干个排序靠前的样本，其中保留的个数为M× (1-w)/t；

对保留的样本进行分类并筛选，根据需要同时考虑筛选后每组当前的样本数量比例，选择每组中若干个排序靠前的样本；

其中，从所有分组中选择样本的总个数为M×(1-w)/t。

优选地，其特征在于，所述对所述保留的未标记样本进行分类是，对所述保留的未标记样本进行支持向量机分类。

优选地，所述利用合并后的已标记样本集对所述影像进行分类为，利用所述合并后的已标记样本集对所述影像进行支持向量机分类。

优选地，还包括：对合并后的所述已标记样本集进行分类之后，重复如下步骤：

根据所述已标记样本以及未标记样本，构建主动学习样本集；

将所述主动学习样本集的样本合并到所述已标记样本集中，对合并后的所述已标记样本集进行分类；

直至重复次数达到预设的迭代次数，或分类精度达到预设的精度要求，得到最终的分类结果。

本发明提供了一种结合混合象元分解与主动学习的半监督分类方法。通过结合混合象元分解得到的样本丰度信息以及主动学习的方式对影像进行的分类，可以在样本较少的情况下提高分类的精度，有效减轻样本标记的工作量，减少分类器训练所需时间。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明第一实施例提供的结合混合象元分解与主动学习的半监督分类方法流程图；

图2是本发明第二实施例提供的待分类的高光谱数据图；

图3是本发明第二实施例提供的高光谱数据图分类结果示意图；

图4是本发明第二实施例提供的实际分类结果示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本发明提供了一种结合混合象元分解与主动学习的半监督分类方法，该方法具体包括：在待分类的影像样本中，选取已知类别样本为已标记样本，形成已标记样本集；根据已标记样本以及未标记样本，构建主动学习样本集；将主动学习样本集的样本合并到已标记样本集中，利用合并后的已标记样本集进行分类，得到分类结果。下面对本发明提供的结合混合象元分解与主动学习的半监督分类方法展开详细的说明。

实施例一

如图1所示，本实施例提供了一种结合混合像元分解与主动学习的半监督分类方法，具体步骤说明如下：

S11、构建已标记样本集、未标记样本集，设置主动学习参数。 S11步骤中的子步骤具体说明如下：

S111、构建已标记样本集、未标记样本集。

待分类影像的影像样本可分为已标记样本以及未标记样本。其中，每一个影像样本都对应一个像元，已标记样本代表已被标记类别的像元，未标记的样本代表未被标记类别的像元。

从待分类的影像中，选取已知类别样本为已标记样本，构成已标记样本集S_T。已标记样本如式(1)表示：

(x₁,y₁),(x₂,y₂)…,(x_N,y_N)(1)

其中，x_i∈R^m,y_i∈{c₁,c₂,…c_i…c_n}，c_i表示类别；N为标记样本数， n为类别数。

除去已标记样本，影像中其余的样本均为未标记样本，构成未标记样本集S_Q。未标记样本具体表示如式(2)：

$x_{1}^{*}, x_{2}^{*}, x_{3}^{*}, ..., x_{i}^{*} - - - (2)$

其中x_i∈R^m。

S112、设置主动学习参数。

设置主动学习样本数量，即主动学习添加的样本数量M。

设置主动学习迭代次数t；

设置权重参数w。

S12、利用已标记样本对影像进行全约束最小二乘混合像元分解。S12步骤中的子步骤具体说明如下：

S121、计算已标记样本集S_T中各类别的平均光谱曲线，具体表示如式(3)，

${\overline{x}}_{c 1}, {\overline{x}}_{c 2}, ..., {\overline{x}}_{c N} - - - (3)$

S122、利用S121得到的平均光谱曲线作为端元光谱，对影像上所有像元进行全约束最小二乘线性解混，得到各个影像样本的丰度信息。其中丰度信息即为每个影像样本的若干个丰度值，每个丰度值代表一个类别。每个样本的丰度信息具体表示如式(4)：

$x_{i . y_{i}}^{*} = a b u n d a n c e (x_{i}^{*}, y_{i}) - - - (4)$

其中，y_i∈{c1,c2,…,cN}。

S13、利用混合像元分解获得的像元丰度值构建主动学习样本集。S13步骤中的子步骤具体说明如下：

S131、选择丰度最均匀样本，添加到主动学习集S_A中。

在未标记样本集中，计算每个未标记样本的丰度差，即最大最小丰度值之差，具体表示如式(5)：

$m a x (a b u n d a n c e (x_{i}^{*})) - m i n (a b u n d a n c e (x_{i}^{*})) - - - (5)$

其中， $x_{i}^{*} \in R^{m} .$

按照丰度差由小到大的顺序，将各个未标记样本排序，取前M ×(1-w)/t个样本，即为丰度最平均样本；将丰度最均匀样本移动到主动学习样本集S_A中，并同时更新未标记样本集。

S132、选择最易误分样本，添加到主动学习集S_A中。

根据S12得到的丰度结果，查看各个所述未标记样本的丰度信息中，丰度值最高的两个类别，即为主要类别；将所述主要类别相同的所述未标记样本分为一组。例如当类别数为n时，可分为 CP＝[n×(n-1)]/2组，计算每组丰度最高的两个类别的丰度值之差，并按所述丰度值之差从小到大的顺序，对未标记样本进行排序。保留各组前M×(1-w)/t个样本，保留的样本即为最易误分样本；

利用当前已标记样本(x₁,y₁),…,(x_N,y_N),针对保留的样本进行分类，优选地进行1-V-1支撑向量机SVM(SupportVectorMachine) 分类；然后对样本进行筛选，保留各组在SVM最优分划边界区域内的样本，舍弃其他样本；

依据需要添加的主动学习样本数，按各组保留下来的样本数量比例，选择每组丰度差排序靠前的样本移动到主动学习样本集S_A中，并同时更新未标记样本集。在所有分组中，总共移动M×(1-w)/t个样本到主动学习样本集S_A。

S14、合并主动学习样本集和已标记样本集，利用合并后的已标记样本集进行分类。S14步骤中的子步骤具体说明如下：

S141、将主动学习样本集的样本合并到所述已标记样本集中，即如式(6)表示：

S_T＝S_T∪S_A(6)

其中，S_T为已标记样本集_，S_A为主动学习样本集。

利用合并后的已标记样本集S_T进行分类，优选地进行1-V-1支撑向量机SVM(SupportVectorMachine)分类，得到分类结果；

S142：返回S12步骤，并重复S13以及S14步骤，直到分类精度满足需求，或迭代次数达到设置的主动学习迭代次数t。

实施例二

本实施例利用实施例一提供的方法对航空高光谱影像进行分类，具体说明如下。

由扫描型成像光谱仪PHI(PushbroomHyperspectralImager)获取的航空高光谱数据影像如图2所示，其波段数为80，空间分辨率为1.7m。

首先，从图2所示的影像中选取已知类别样本为已标记样本。其中，样本个数N＝5，类别数n＝8。

其次，设置主动学习参数。其中，主动学习添加的样本数量 M＝160；主动学习迭代次数t＝4；权重参数w＝0.5。

根据实施例一中S2步骤至S3步骤，构建主动学习样本集；

根据实施例一中S4步骤，将主动学习样本集S_A的样本合并到已标记样本集中，利用合并后的已标记样本集进行分类；分类之后重复实施例一的S2步骤至S4步骤，直至分类精度满足需求，或迭代次数达到t。

最终得到的分类结果如图3所示，而图4为实际分类结果示意图。通过图3与图4的对比，不难看出利用本发明提供的方法分类的结果基本上与实际结果相同。

利用本发明提供的方法分类的结果精度表1所示。

表1分类结果精度表

其中：C1至C8为图3、图4中的分类标记；

PA(Produceraccuracy)代表生产者精度，也称制图精度，是指假定地表真实为A类，分类器能将一幅图像的像元归为A的概率；

UA(Useraccuracy)代表用户精度，是指假定分类器将像元归到A类时，相应的地表真实类别是A的概率；

OAA(Object-OrientedAnalysis)为总体分类精度，等于被正确分类的像元总和除以总像元数，地表真实图像或地表真实感兴趣区限定了像元的真实分类。被正确分类的像元沿着混淆矩阵的对角线分布，它显示出被分类到正确地表真实分类中的像元数。像元总数等于所有地表真实分类中的像元总和；

KC代表Kappa系数，是另外一种计算分类精度的方法。它是通过把所有地表真实分类中的像元总数乘以混淆矩阵对角线的和，再减去某一类中地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果，再除以总像元数的平方差减去某一类中地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果所得到的。

本实施例在样本数为5个的情况下，利用实施例一提供的方法对图2所示的影像进行分类，得到分类结果的总体分类精度为 93.27％。而利用现有的分类方法利用同样的样本数得到的分类精度为87.2％。因此可以证明本发明提供的方法可以在样本较少的情况下有效地提高分类的精度。

综上所述，本发明提供了一种结合混合象元分解与主动学习的半监督分类方法。通过结合混合象元分解得到的样本丰度信息以及主动学习的方式对影像进行的分类，可以在样本较少的情况下提高分类的精度，有效减轻样本标记的工作量，减少分类器训练所需时间。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种结合混合象元分解与主动学习的半监督分类方法 [P] . 中国专利： CN105279523A . 2016-01-27
2. 一种结合混合像元分解与主动学习的半监督分类方法 [P] . 中国专利： CN105279523B . 2018.07.17
3. COMBINING ACTIVE AND SEMI-SUPERVISED LEARNING FOR SPOKEN LANGUAGE UNDERSTANDING [P] . CA2498015C . 2012-11-27

机译：结合主动学习和半监督学习，以了解口语
4. Combining active and semi-supervised learning for spoken language understanding [P] . 美国专利： US8010357B2 . 2011-08-30

机译：结合主动学习和半监督学习，以理解口语
5. Combining active and semi-supervised learning for spoken language understanding [P] . 美国专利： US2009063145A1 . 2009-03-05

机译：结合主动学习和半监督学习以了解口语