首页> 中国专利> 一种遥感影像信息提取与解译方法及其模块

一种遥感影像信息提取与解译方法及其模块

摘要

本发明公开了一种遥感影像信息提取与解译方法及其模块,提出了一种基于SRMMHR和随机森林的地理要素面向对象自动解译方法,该模块采用这种方法进行遥感影像的信息提取与解译。本发明能够实现遥感影像的有效分割、特征的自动优选、分类规则集的自动构建,为遥感影像信息提取与解译提供了一种人工干预少、自动化程度高、解译精度高的手段。

著录项

  • 公开/公告号CN103500344A

    专利类型发明专利

  • 公开/公告日2014-01-08

    原文格式PDF

  • 申请/专利权人 中国测绘科学研究院;

    申请/专利号CN201310392133.3

  • 申请日2013-09-02

  • 分类号G06K9/66(20060101);G06K9/46(20060101);G06K9/00(20060101);

  • 代理机构11403 北京风雅颂专利代理有限公司;

  • 代理人李弘;杨红梅

  • 地址 100830 北京海淀区莲花池西路28号

  • 入库时间 2024-02-19 21:14:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-17

    未缴年费专利权终止 IPC(主分类):G06K9/66 授权公告日:20170208 终止日期:20170902 申请日:20130902

    专利权的终止

  • 2017-02-08

    授权

    授权

  • 2014-02-12

    实质审查的生效 IPC(主分类):G06K9/66 申请日:20130902

    实质审查的生效

  • 2014-01-08

    公开

    公开

说明书

技术领域

本发明涉及遥感影像信息提取与解译,特别是指一种面向对象分类方 法。

背景技术

遥感影像信息提取与解译是对遥感影像上的各种特征进行综合分析、比 较、推理和判断,最后提取出各种地物目标信息的过程,依据解译方法分为 目视解译、人机交互解译、基于知识的遥感影像解译、影像智能解译(即自动 解译)等。遥感解译经历了从人工解译到半自动解译,正在向自动化、智能化 方向发展。

随着遥感影像空间分辨率的提高,面向对象分析技术(geographic  object based image analysis,GEOBIA)成为遥感影像解译的主流方向,其 最突出的特点是处理的最小单元不再是单个像素,而是由影像分割得到的同 质影像对象。该技术充分利用了遥感影像的光谱、几何、纹理、拓扑、语义 等特征,克服了传统的基于像元影像分析(pixel based image analysis, PBIA)技术的种种缺陷,促成了遥感与地理信息科学的集成及多源信息的融 合,在全球气候监测、农业发展、自然资源管理、国防安全等领域得到了广 泛应用。

面向对象分析技术与传统的基于像元处理方法不同,首先,通过一定的 分割方法对遥感影像进行分割,在提取分割单元(图像分割后所得到的内部属 性相对一致或均质程度较高的图像区域,在土地利用应用领域这种分割单元 类似于土地利用斑块)的各种特征后,在特征空间中利用模式识别方法对分割 单元进行识别和标识,从而最终完成信息的分类与提取。面向对象分析技术 体现出信息利用程度高、抗干扰性强、数据集成度高、分类精度高、后处理 人工编辑量少等优势,其核心是影像分割及面向对象分类模型的构建。

目前,影像分割有上千种分割方法,主要分为:阈值分割法、边缘检测 分割法、区域特征分割法、特征空间聚类分割法、统计模式识别方法、基于 小波分析的方法等。但这些方法并不都适合于高分辨率影像,其中分水岭、 均值漂移、分形网络演化算法在遥感影像分割中应用较多,鉴于高分辨率影 像具有空间分辨率高、单景数据量大、几何特征显著、纹理信息明显等特 点,统计区域增长算法(statistical region merging,SRM)能够有效保持影 像的边界信息,克服分割影像的细碎现象,保证分割影像的整体一致性,可 以直接应用于噪声严重的影像。异质性最小规则(minimum heterogeneity  rule,MHR)不仅考虑了光谱异质性,而且考虑了形状异质性,能够减少噪 声,得到规则对象。本发明综合统计区域增长及分形网络演化方法的优势, 提出基于统计区域增长与异质性最小规则相结合(Statistical Region  Merging and Minimum Heterogeneity Rule:SRMMHR)的影像分割方法,实 现遥感影像的有效分割。

规则集是面向对象分类模型的一种透明专家知识解决方案,具有结构清 晰、易于理解、能够有效组织和推理、先验性、可复用等优势,商用的面向 对象分析软件如eCognition提供了定制规则集的功能,提供了上百种对象特 征,但重要特征的选择仍然是具有挑战和费时的工作。目前,面向对象分类 规则集主要存在两大缺陷,一是很难确定哪些特征是非常重要的;二是不同 的数据类型及不同的场景条件限制了分类规则集的应用。

模式识别方法,如决策树、随机森林等具有自动进行特征优选、自动构 建模型的优势。随机森林(random forest,RF)是一种集成机器学习方法, 它利用随机重采样技术bootstrap和节点随机分裂技术构建多棵决策树,通 过投票得到最终分类结果。RF是由数据驱动的非参数分类方法,只需通过对 给定样本进行学习训练形成分类规则,无需分类的先验知识,具有分析复杂 相互作用分类特征的能力,对于噪声数据和存在缺失值的数据具有很好的鲁 棒性,可以估计特征的重要性,具有较快的学习速度。

近年来RF已经应用到遥感影像分类中,如,V.F.Rodriguez-Galiano 和B.Ghimire等2012年通过地表覆盖分类实验验证了随机森林算法的优势, Guo Li和Chehata Nesrine等2011年将随机森林用于多源数据城市分类 中,验证了随机森林方法以及多源数据用于分类的优势,André Stumpf和 Norman Kerle于2011年将随机森林用于面向对象的滑坡制图中,提出了监 督学习的制图流程,提高了滑坡提取的自动化程度与精度,减少了人工干 预,刘毅、杜培军等将随机森林用于国产小卫星遥感影像分类中,证明比最 大似然、支持向量机等具有更好的稳定性、更高的分类精度和更快的运算速 度。以上研究主要局限于中低分辨率遥感影像像素级分类,关于面向对象的 随机森林分类研究甚少,缺少对随机森林中特征优选策略的深入剖析,更缺 少面向对象的随机森林分类方法及模块。

因此,本发明提出基于统计区域增长与异质性最小规则相结合 (SRMMHR)的影像分割方法,充分利用面向对象分析及随机森林机器学习的 优势,实现基于SRMMHR与随机森林的地理要素面向对象自动解译方法,研制 相应的模块,通过特征自动优选及规则集自动构建策略实现地理要素的自动 解译,是当前遥感影像信息提取与解译发展的重要趋势。

发明内容

有鉴于此,本发明的目的在于提出一种基于SRMMHR和随机森林的地理要 素面向对象自动解译方法以及相应的模块。通过本发明所提供的方法,能够 实现遥感影像的有效分割、特征的自动优选、分类规则集的自动构建,减少 人工干预,提高信息提取与解译精度。

基于上述目的本发明提供的遥感影像信息提取与解译方法,其特征在 于,至少包括以下步骤,利用统计区域增长和异质性最小原则相结合分割方 法进行影像分割;利用分形指数评价分割质量,直到得到质量较好的同质性 多边形对象;统计多边形对象的特征,形成特征库;所述特征包括光谱特 征、形状特征、和纹理特征;选择地理要素的典型样本,形成样本集;利用 随机森林方法,根据训练样本集及相应特征,自动进行特征优选及构建分类 模型,根据分类模型对多边形对象进行分类,得到解译结果;利用袋外数据 误差和混淆矩阵对解译结果进行精度评价。

可选的,所述利用统计区域增长和异质性最小原则相结合分割方法进行 影像分割包括基于SRM的初始分割过程和基于MHR的合并过程。

可选的,基于SRM的初始分割过程包括如下步骤,初始化像素对;确定 排序函数,将像素对按照函数大小由小到大排序;确定每个象素对的合并准 则以及各个象素的父结点所在位置;依次判断各象素所在种子点的位置是否 不一致,以及是否满足合并准则,如果位置不一致以及满足合并条件,则进 入下一步骤;否则,不进像素对行合并,并将合并后的各像素对生成初始分 割影像;按照合并准则将像素对进行合并,得到合并后的面积以及面积加权 像素值。

可选的,所述排序函数公式为:其中,p′a、pa表示波段a中相邻象素对象素值,B1,B2……Bk表示k个波段。

可选的,所述合并准则为: 其中 S表示分割尺度;表示区域R中通道a的均值; R|R|表示有R个象素的数据集,g表示灰度阶数,δ表示与影像大小(m×n) 相关的线性函数。

可选的,基于异质性最小原则的合并过程包括如下步骤,设置异质性最 小原则的参数:设置光谱异质性权重wcolor、形状异质性权重wshape、紧凑度指 数权重wcompt、光滑度指数权重wsmooth,尺度参数Th2;其中wcolor∈[0,1], wshape∈[0,1],wcompt∈[0,1],wsmooth∈[0,1],wcolor+wshape=1,wcompt+wsmooth=1;利用公 式:h=wcolorhcolor+wshapehshape,计算一个待合并对象的异质性因子;其中,h 为异质性因子;光谱异质性因子为, hcolor=Σcwc(nmerge·σc,merge-(nobj_1·σc,obj_1+nobj_2·σc,obj_2));形状异质性因子为, hshape=wcompthcompt+wsmoothhsmooth;紧凑度指数异质性因子为 hcompt=nmerge·lmergenmerge-(nobj_1·lobj_1nobj_1+nobj_2·lobj_2nobj_2);光滑度指数因子为 hsmooth=nmerge·lmergebmerge-(nobj_1·lobj_1bobj_1+nobj_2·lobj_2bobj_2);nmerge表示合并后的对象的象素数,nobj_1表合并前对象1的象素数,nobj_2表合并前对象2的象素数,lobj_1表对象1的 周长,lobj_2表对象2的周长,bobj_1表对象1的外接多边形周长,bobj_2表对象2 的外接多边形周长,bmerge表合并后对象的外接多边形周长,lmerge表示合并后 对象的周长,c表示波段,wc表示波段权重,σc,merge表示波段c中合并对象的 方差,σc,obj_1表示波段c中对象1的方差,σc,obj_2表示波段c中对象2的方 差;查找局部最优合并对象:针对初始分割中的对象A,采用局部最优查找 策略查找局部最优合并对象,根据异质性因子最小原则找到局部最优邻域对 象B,判断B的最优合并对象C,若C等于A,说明C是最优合并对象,否 则,将B置为A,C置为B,继续最优查找,得到局部最优合并对象及对应的 最小异质性因子hmin;异质性因子阈值判断:如果最小异质性因子hmin小于尺 度参数Th2,则进入下一步骤;若否,则从下一步骤以后的步骤开始执行; 将当前对象与最优邻域对象进行合并,同时去除最优邻域对象,并计算新对 象的相关统计特征;将当前对象与所述局部最优领域对象合并后的对象生成 最终分割影像;对所述最终分割影像进行矢量化,得到同质性的多边形对 象,作为面向对象分类的处理单元。

可选的,矢量文件以shapefile格式存储,属性文件后缀为dbf,其中 存放了每个多边形对象的均值、标准差和边界长度等信息。

可选的,利用随机森林进行分类的步骤进一步包括如下过程,采用 bootstrap自助抽样技术有放回地随机抽取训练样本,形成各个决策树的样 本子集,未被选中的为袋外数据;采用CART二元划分策略构建与样本子集对 应的决策树,每个决策树的每个节点随机抽取m个特征,通过计算每个特征 蕴含的信息量进行分裂生长,最后众多决策树构成一个随机森林;其中,m 小于总特征数量n;将生成的随机森林作为预测模型来预测待分类对象的类 别;采用投票的方式,每棵决策树的预测结果算作一票,将得票最多的类别 作为待分类对象。

优选地,所述随机森林通过构造不同的训练子集增加分类模型间的差 异,从而提高组合分类模型的外推预测能力。通过T轮训练,得到一个分类模 型序列{h1(X),h2(X),…,hT(X)},再用它们构成一个多分类模型系统,该系统 的最终分类结果采用简单多数投票法得到,最终的分类决策为: 其中,H(x)表示组合分类模型,hi是单个决策树分类 模型,Y表示输出变量,I(·)为示性函数。

所述随机森林训练包括如下步骤,创建并初始化树集合、参与的样本序 号、每个样本的测试分类等参数;采用bootstrap自助抽样技术随机生成训 练样本子集,利用递归方式训练单棵树;使用未参与当前树构建的样本,测 试当前树的预测准确率;判断准确率是否达到标准或者节点样本数是否过 少,若是,则最终完成单个决策树的生成,将当前树加入到树集合中;若 否,则返回采用bootstrap自助抽样技术随机生成训练样本子集的步骤。

所述训练单棵树的步骤包括如下过程,计算当前节点样本中最大样本数 量的类别,则为该节点的类别;判断样本数量是否过少,或深度是否大于最 大指定深度,或该节点是否只有一种类别,若是,则停止分裂;若否,则进 入下一步;采用最优分裂策略针对某一变量进行左右分裂,最优分裂的依据 是:其中,Nl为左分裂的样本总数,Nr为右分裂的 样本总数,Ci,l为左分裂中类别i的样本个数,Ci,r为右分裂中类别i的样本 个数;若不存在最优分裂或者无法分裂,则释放相关数据后返回;否则,处 理代理分裂、分割左右分裂数据、调用左右后续分裂。

进一步本发明提供一种遥感影像信息提取与解译模块,采用前面所述的 遥感影像信息提取与解译方法进行遥感影像信息提取与解译。

可选的,所述遥感影像信息提取与解译模块,包括如下子模块:输入模 块、影像分割模块、特征提取模块、样本采集模块、影像分类模块、精度评 价模块和输出模块;所述输入模块用于输入遥感影像;所述影像分割模块实 现基于SRMMHR方法的遥感影像的分割,形成同质性多边形对象;特征提取模 块实现对象的光谱、纹理、形状等特征的计算;样本采集模块用于手动采集 地理要素的典型样本,形成样本集;影像分类模块实现基于随机森林的面向 对象分类;精度评价模块用于评价分类质量及效果;输出模块输出分割结 果、分类结果、精度评价结果。

从上面所述可以看出,对比现有面向对象分类方法,本发明提出了一种 基于SRMMHR和随机森林的地理要素面向对象自动解译方法,并研制了相应的 模块。通过本发明所提供的方法,能够实现遥感影像的有效分割、特征的自 动优选、分类规则集的自动构建,减少了人工干预,提高了信息提取与解译 的精度。理论与试验证明,该方法具有更高的精度和实用性,能够为地理要 素自动解译提供自动化的手段。

附图说明

图1为本发明的基于SRMMHR和随机森林的面向对象分类方法流程图;

图2为本发明的统计区域增长与异质性最小规则相结合(SRMMHR)的影 像分割方法流程图;

图3为本发明的随机森林分类流程图;

图4为本发明的生成随机森林的流程图;

图5为本发明实施例的OOB误差随特征个数变化的趋势图;

图6为本发明实施例的OOB误差随决策树个数变化的趋势图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施 例,并参照附图,对本发明进一步详细说明。

本发明提供的遥感影像面向对象信息提取与解译方法,至少包括以下步 骤:

步骤1:基于SRMMHR的影像分割。在本步骤中,利用统计区域增长和异 质性最小原则相结合分割方法(SRMMHR)进行影像分割,将影像分割成同质性 多边形对象;在将影像分割成同质性多边形对象后,可以利用分形指数评价 分割质量,直到得到质量较好的同质性多边形对象。

在一些实施例中,步骤1进一步可以包括基于SRM的初始分割过程和基 于MHR的合并过程,具体步骤如图2所示。

在一些实施例中,基于SRM的初始分割过程可以包括如下步骤:

步骤21:初始化像素对。将多波段影像按照四邻域策略,组合成像素 对,作为一个实施例,对于m×n大小的影像,共构成2mn-m-n个像素对。在 其它实施例中,也可以采用8邻域策略组合像素对。

步骤22:确定排序函数,将象素对按照函数大小由小到大排序。

本实施例中,采用的排序函数公式为:

f(p,p)=maxa{B1,B2,...Bk}|ps-pa|

式中,p′a、pa表示某波段a中相邻象素对象素值,B1,B2……Bk表示k个波 段。

步骤23:确定一对象素对的合并准则以及各个象素的父结点所在位置。

由于进一步严格化合并准则,具体的,本步 骤中依据下式确定每对像素对的合并准则:

式中,b()表示函数,S表示分割尺度;表示区 域R中通道a的均值;R|R|表示有R个象素的数据集,g表示灰度阶数,δ表 示与影像大小(m×n)相关的线性函数。

步骤24:判断各象素对所在种子点的位置是否不一致,以及是否满足合 并准则;如果位置不一致并同时满足合并条件S<Th1,Th1表示设置的阈值参 数,则进入步骤25;如果不满足合并条件S<Th1,则进入步骤26。

步骤25:像素对合并:按照合并准则将每组象素对进行合并,得到合并 后的面积以及面积加权象素值,即种子增长后的区域象素值。各组像素对返 回执行步骤23。

步骤26:将当前所判断的像素对生成初始分割影像。

本发明实施例在基于MHR的合并过程中将初始分割影像中的分割对象逐 一进行合并。在一些实施例中,基于MHR的合并过程可以包括如下步骤:

步骤27:设置MHR的参数。设置光谱异质性权重wcolor、形状异质性权重 wshape、紧凑度指数权重wcompt、光滑度指数权重wsmooth,(其中wcolor∈[0,1], wshape∈[0,1],wcompt∈[0,1],wsmooth∈[0,1],wcolor+wshape=1,wcompt+wsmooth=1),尺度 参数Th2。尺度参数对分割效果影响很大,尺度值越大,对象越大,对象数 越少,选择最优尺度很关键。光谱异质性权重反映了影像对象的光谱一致 性,形状异质性权重反映了影像对象的纹理一致性,从而光谱异质性和形状 异质性分别可以用光滑度权重和紧致度权重来进一步具体表示。

步骤28:计算初始分割对象的异质性因子:

h=wcolorhcolor+wshapehshape,

其中,光谱异质性因子为,

hcolor=Σcwc(nmerge·σc,merge-(nobj_1·σc,obj_1+nobj_2·σc,obj_2))

形状异质性因子为,

hshape=wcompthcompt+wsmoothhsmooth

紧凑度指数因子为,

hcompt=nmerge·lmergenmerge-(nobj_1·lobj_1nobj_1+nobj_2·lobj_2nobj_2),

光滑度指数因子为,

hsmooth=nmerge·lmergebmerge-(nobj_1·lobj_1bobj_1+nobj_2·lobj_2bobj_2),

h表示异质性因子,hcolor表示光谱异质性因子,hcompt表示紧凑度指数因 子,hsmooth表示光滑度指数因子,hshape表示形状异质性因子,nmerge表示合并后 的对象的象素数,nobj_1表合并前对象1的象素数,nobj_2表合并前对象2的象 素数,lobj_1表对象1的周长,lobj_2表对象2的周长,bobj_1表对象1的外接多边 形周长,bobj_2表对象2的外接多边形周长,bmerge表合并后对象的外接多边形 周长,lmerge表示合并后对象的周长,c表示波段,wc表示波段权重,σc,merge表 示波段c中合并对象的方差,σc,obj_1表示波段c中对象1的方差,σc,obj_2表示 波段c中对象2的方差。

步骤29:查找局部最优合并对象。针对上述步骤25中初始分割影像中 的对象A,采用局部最优查找策略查找局部最优合并对象,根据异质性因子 最小原则找到局部最优邻域对象B,判断B的最优合并对象C,若C等于A, 说明C是最优合并对象,否则,将B置为A,C置为B,继续最优查找,一般 按照前述过程重复3-6次即可得到局部最优邻域对象、局部最优合并对象及 对应的最小异质性因子hmin

步骤210:异质性因子阈值判断。如果最小异质性因子hmin小于尺度参数 Th2,则进入步骤211;如果最小异质性因子hmin不小于尺度参数Th2,则进 入步骤212。

步骤211:将初始分割对象中的当前对象与步骤29中所述的局部最优邻 域对象进行合并,同时去除局部最优邻域对象,并计算新对象的相关统计特 征;返回步骤28。所述纹理特征包括光谱、纹理、形状等特征。

步骤212:将所述当前对象与所述局部最优领域对象合并后的对象生成 最终分割影像。

步骤213:矢量化分割影像。对步骤212中所述的最终分割影像进行矢 量化,得到同质性的多边形对象,作为面向对象分类的处理单元。矢量文件 以shapefile格式存储,后缀名为dbf的属性文件中存放了每个多边形对象 的均值、标准差和边界长度等信息。

步骤2:利用分形指数评价分割质量,若按照经评价判定最终分割影像 的分割质量最好,则进入下一步,否则,返回步骤1。作为一个实施例,依 据如下分形指数公式评价分割质量,

SIi=Pi/4Ai,

其中,Ai为对象面积,Pi为对象周长,i代表对象区域,SIi代表形状 指数。

分形指数越小,代表分割质量越好。

步骤3:特征提取:在本实施例中,统计多边形对象的光谱、形状、纹 理等特征,形成特征库;所述特征包括以下内容:

(1)对象的光谱特征。

光谱特征是遥感影像最主要的信息,其他特征可以通过光谱特征计算得 到。常用的光谱特征有:均值、方差、最大值、最小值、饱和度、色调、亮 度值、标准差、自定义特征等,具体定义见表1。

表1光谱特征表达

(2)对象的形状特征

形状特征主要是反映的是形状方面的信息,反映了影像上地物类型的几 何形状,它表示的影像本身形状的特征集合,反映了影像的几何边界。所有 的形状特征都是基于影像矢量化图斑对象边界点的协方差矩阵。即

S=Var(X)Cov(XY)Cov(XY)Var(Y)

其中,X和Y表示的是影像对象的所有像素坐标(x,y)坐标组成的矢量, Cov(XY)是X,Y之间的协方差,设eig1,eig2为该矩阵的两个特征值,其中 eig1>eig2,Var(X),Var(Y)表示的是X、Y之间的方差。

常用的形状特征有:面积、周长、长宽比、宽度、长度、紧致度、形状 指数等,见表2。

表2形状特征表达

(3)对象的纹理特征

纹理特征在遥感影像中占有非常重要的地位,是遥感影像各个像元空间 上分布的表达。描述纹理常用的方法是灰度共生矩阵。常用的纹理特征有: 同质性、对比度、熵、能量、相关性、非相似性等,见表3。

纹理特征P(i,j|d,θ)为距离为d,角度为θ,灰度对i,j,出现频率N为灰度 级;两种方法:基于窗口大小的像素纹理特征取平均、基于对象的灰度低频 率计算特征。

表3纹理特征表达

步骤4:根据地理要素解译标志选择各类要素的典型样本,形成训练样 本集;

步骤5:利用随机森林方法,根据训练样本集及相应特征,自动进行特 征优选及构建规则集,根据规则集对多边形对象进行分类,得到解译结果。

在一些实施例中,步骤5的分类过程可以按照如图3所示的下述步骤执 行:

步骤51:训练过程。

首先采用bootstrap(自助)抽样技术有放回地随机抽取训练样本,形 成各个决策树的训练样本子集,未被选中的为OOB(Out Of Bag,袋外数 据)。作为一个实施例,抽取T次,形成T个训练样本子集。

其次采用CART(Classification and Regression Trees,分类回归 树)的二元划分策略构建与样本子集对应的决策树,在具体实施例中,T个 训练样本子集可构建成T个决策树。每个决策树的每个节点随机抽取m个特 征(m小于总特征数量n),对应地生成m个特征向量,通过计算每个特征蕴 含的信息量进行分裂生长,最后众多决策树合并构成一个随机森林。

所述随机森林的形成,具体可以包括如图4所示步骤,列举如下:

步骤41:创建并初始化树集合、参与的样本序号、每个样本的测试分类 等参数。

步骤42:采用bootstrap自助抽样技术随机生成训练样本子集,利用递 归方式训练单棵树。

步骤43:准确率判断及变量重要性计算。如果以准确率为终止条件或者 计算变量的重要值,则在本步骤中,使用未参与当前树构建的样本,测试当 前树的预测准确率;若判断准确率达到标准或节点样本数少于设定值,则进 入步骤44;若否,返回步骤42。若需计算变量的重要值,对于每一种变量, 对每一个非参与样本替换其该位置的变量值为另一随机样本的该变量值,再 预测当前树的预测准确率,其正确率的统计值与上一步当前树的预测准确率 的差,累计到该变量的重要值中。

步骤44:最终完成单个决策树的生成。

步骤45:将单个决策树加入到树集合中,组成随机森林模型。

所述随机森林在构建单个分类树时使用了两次随机策略,一是随机选取 训练样本集,二是随机选择特征向量,两次随机性保证了构成随机森林的决 策树的多样性,决策树无需剪枝,不会出现过拟合现象。

步骤42中所述的训练单棵树包括如下步骤:

计算当前节点样本中最大样本数量的类别,则为该节点的类别;判断样 本数量是否过少,或深度是否大于最大指定深度,或该节点是否只有一种类 别,若是,则停止分裂;若否,则进入下一步;采用最优分裂策略针对某一 变量进行左右分裂,最优分裂的依据是:;其 中,Nl为左分裂的样本总数,Nr为右分裂的样本总数,Ci,l为左分裂中类别i 的样本个数,Ci,r为右分裂中类别i的样本个数;若不存在最优分裂或者无法 分裂,则释放相关数据后返回;否则,处理代理分裂、分割左右分裂数据、 调用左右后续分裂。

采用bootstrap抽样技术有放回地随机抽取训练样本子集,由于每次都 是随机抽取,每个样本被等概率的抽取,则有的样本可能不止一次的被选 中,而有的样本可能一次也没有被选中(即OOB)。从统计学角度讲,经过反 复的大量实验验证,训练样本子集大约占所有样本集合的2/3,剩余1/3的 样本(OOB)作为单独的测试集。OOB不仅可以用于评价对应决策树的性能,而 且可以实现特征重要性度量及特征选择。采用OOB数据估计组合分类器的泛 化误差时,可以在构建各决策树的同时计算出OOB误差率,相对于交叉验 证,OOB属于算法内部估计,非常高效,有助于理解分类精度。Breiman研究 了装袋分类模型(bagged classifier)的误差估计,利用实际例子证明了使用 OOB估计和使用相同样本容量的测试集的精度一样,因此他认为使用OOB估计 的话,就没有必要再使用测试集。

为了提高预测精度,减小树之间的相关系数,保持强度不变,随机森林 引入随机性,可以随机选择特征向量。相比于其他决策树,构成随机森林的 决策树并非在每个决策节点遍历所有特征,选择最好的特征作为分割节点, 相反,先从所有的特征空间N中随机抽取小于N个特征作为候选分割特征 集,然后从候选分割特征集中选择最好的特征用于分裂,候选分割特征个数 默认经验值为所有特征个数的算数平方根。主要采用随机选择输入变量 (Forest random inputs,Forest-RI)、随机组合输入变量(Forest random  combinations,Forest-RC)两种方法将特征向量合并到树的生长过程中。

RF采用强度与相关度评价RF的性能,强度用于评价森林中分类器总体 分类能力,每棵树的分类强度越大,则RF分类性能越好。相关性用于评价森 林中分类器总体相关度,树之间的相关性越大,则RF分类性能越差,因此, 强度越大相关性越小的RF模型越好。

随机森林的形成过程包括重要性度量,所述随机森林的重要性度量是基 于以下的启发式思维:当一个相关特征(即对预测的准确率可能起重要作用 的特征)加入噪声后,随机森林的预测准确率将显著降低。重要性度量包括 如下步骤:

步骤511:对已生成的随机森林用袋外数据测试其性能,得到一个袋外 准确率;

步骤512:随机改变袋外数据集中的某个特征值(即人为的加入噪声), 再用加入噪声的袋外数据测试随机森林的性能,又得到一个新的袋外数据准 确率。

步骤513:原始的袋外数据的准确率与加入噪声后的袋外准确率之差, 可以作为所选特征的重要性的度量值。该值越大说明所选的特征的重要性越 高。

步骤52:分类过程。

将生成的随机森林作为预测模型来预测待分类对象的类别;采用投票的 方式决定,每棵决策树的预测结果算作一票,将得票最多的类别赋予待分类 对象。T个决策树对应地形成T个分类对象,这T个分类对象合并为最终分 类结果。

步骤6:利用混淆矩阵或OOB误差进行精度评价,评价本方法的解译精 度及效果,可以进一步调整样本集以及随机森林参数,直到得到较好的分类 结果。

本发明实施例基本上包括上述步骤1-步骤6,在其它实施例中,精度评 价之后,还可以判断分类结果是否达到预定标准;若达到预定标准,分类效 果好,则将分类结果作为最终分类结果影像;若分类效果不好,则进一步返 回步骤4反复执行,如图1所示。

随机森林具有两个重要的参数,其一是决策树的棵树K,其二是候选分 割特征个数M,候选分割特征个数默认经验值为所有特征个数的算数平方 根。随着M的减少,相关性和强度将减少,通过增加树的数量K、减少特征 的数量M来减少误差以及树之间的相关性。K越大,分类结果越稳定,大于 100棵树时,误差差别就很小,计算时间增加。

从上面所述可以看出,本实施例通过SRMMHR分割方法对高分辨率遥感影 像进行分割,初始分割阶段由于每个待合并区域采用自适应合并准则,则有 效保持了影像的边界信息,合并阶段由于采用了异质性最小规则,则克服了 分割影像的细碎现象,保证了分割影像的整体一致性,该方法无需对影像进 行滤波预处理,可以直接应用于噪声严重的影像。

通过随机森林方法实现面向对象分类,该方法是由数据驱动的非参数分 类方法,只需通过对给定样本进行学习训练形成分类规则集,无需分类的先 验知识,具有分析复杂相互作用分类特征的能力,对于噪声数据和存在缺失 值的数据具有很好的鲁棒性,可以估计特征的重要性,无需剪枝,具有较快 的学习速度以及较高的解译精度。可见,本发明为遥感影像信息提取与解译 提供了一种人工干预少、自动化程度高、解译精度高的手段。

以WorldView-2号卫星高分辨率遥感影像面向对象分类为实施例,采用 本发明提供的模块进行面向对象分类。WorldView-2影像包括了8个多光谱 波段、1个全色波段,多光谱分辨率为1.8米,全色分辨率为0.46米。本实 施例试验数据为2011年7月份的黑龙江省齐齐哈尔市区的WorldView-2多光 谱影像,参与分类的波段为:蓝、绿、红、近红外。该区域典型地类有:耕 地、林地、草地、房屋建筑区、道路、裸露地表、水体。

本实施例的面向对象分类模块所执行的分类步骤,具体如下:

步骤101:影像分割。

影像分割的原则是影像对象内部异质性尽量的小,保证对象的纯度,不 同类别对象之间的异质性尽量的大,保证对象间的可分性。采用SRMMHR方法 进行分割,通过分割试验,在初始分割的基础上,在进行合并时,分割尺度 为200,光谱因子为0.8,紧致度因子为0.6时,能得到相对较好的分割效 果。

可见,分割尺度对分割效果的影响很大,尺度越大,对象越大,对象数 量越少;分割结果与光谱的相关性较大,光谱因子反映了影像对象的光谱一 致性,紧致度因子反映了影像对象的规整度。

步骤102:特征提取。

计算所有分割对象的光谱、纹理、形状等特征,计算的特征包括均值、 方差、最大值、最小值、亮度、面积、周长、密度、同质性、对比度、熵、 非相似性、相关度共13个特征。可以通过随机森林来计算特征的重要性,依 次作为特征优选的策略。本试验特征重要性排序见表4。

表4特征重要性排序表

步骤103:样本采集。

针对耕地、林地、草地、房屋建筑区、道路、裸露地表、水体7种地物 类型,根据解译标志特征(见表5),选择地物类型的典型样本图片,形成样 本集。

表5解译标志

步骤104:随机森林分类。

采用RF方法进行面向对象分类,影响大的有2个参数:组成森林的决策 树个数、特征个数。如果变量的数量很大,对于所有的变量,森林运行一 次,然后使用最重要的变量再运行一次。

步骤105:对比试验。

采用支持向量机(support vector machine,SVM)进行面向对象分类对 比试验,选择C_SVC方法,核函数为径向基函数,gamma值为0.25,惩罚系 数为100。

步骤106:精度评价。

对两种面向对象的分类结果,利用混淆矩阵进行精度评价,结果如表6 所示。

表6精度评价对比表

可见,随机森林分类总体精度达到84.3%,支持向量机分类总体精度达 到81.01%。从单个类别上看,草地、道路、林地、裸露地表分类精度较高, 水体、房屋建筑区精度较低,耕地分类精度最低。若进一步提高样本采集质 量,可望得到更高的分类精度。

步骤107:结果分析。

步骤1071:分析特征个数M对分类精度的影响。

决策树个数K为100,M个特征用于分裂节点,随着M的变化,OOB误差 如表7所示,相应的折线图如图5所示。

表7OOB误差随特征个数M的变化趋势

可见,当M值为5时,OOB误差最小,为0.138。因为RF算法可以利用 OOB进行内部估计,则没有必要使用测试集,或者使用交叉验证,OOB误差就 反映了分类精度,此时,分类精度达到86.2%。

步骤1072:分析决策树个数K对分类精度的影响。

为了评估决策树个数的理想值,M保持常量为5,随着K的变化,OOB误 差如表8所示,相应的折线图如图6所示。

表8OOB误差决策树个数K的变化趋势

可见,随着K的增加,误差变小,当M为100时,误差达到最小,大于 100时,误差差别很小,趋于稳定,计算时间随着K的增加而增加。当M为 100时,OOB误差为0.138,此时,分类精度达到86.2%。

综上所述,可以通过增加树的个数K、减少特征的个数M,来减少误差及 树之间的相关性。

通过实例证明本发明所提供的遥感影像信息提取与解译方法和模块,能 够实现遥感影像的有效分割、特征的自动优选、分类模型的自动构建,减少 了人工干预,提高了信息提取与解译的精度,能够为地理要素自动解译提供 自动化的手段。

进一步,本发明提出一种遥感影像信息提取与解译模块,包括如下子模 块:

输入模块、影像分割模块、特征提取模块、样本采集模块、影像分类模 块、精度评价模块和输出模块;

所述输入模块用于输入遥感影像;

所述影像分割模块实现基于SRMMHR方法的遥感影像的分割,形成同质性 多边形对象;

特征提取模块实现对象的光谱、纹理、形状等特征的计算;

样本采集模块用于手动采集地理要素的典型样本,形成样本集;

影像分类模块实现基于随机森林的面向对象分类;

精度评价模块用于评价分类质量及效果;

输出模块输出分割结果、分类结果、精度评价结果。

所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例 而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号