法律状态公告日
法律状态信息
法律状态
2016-03-02
授权
授权
2014-07-16
实质审查的生效 IPC(主分类):G01N21/31 申请日:20140224
实质审查的生效
2014-06-18
公开
公开
技术领域
本发明属于高光谱数据处理技术领域,涉及一种对高光谱数据进行信息极 大化最优分类利用的方法,由此可以对不同的物质进行最优分类。
背景技术
高光谱遥感技术(也称作成像光谱技术)是近二十年来发展起来的一种新 兴遥感技术。高光谱遥感是当今遥感技术的前沿,高光谱技术首先应用在地质 矿物的识别中,而后广泛地应用在大气科学、生态、地质、水文和海洋科学中。 高光谱遥感数据相对于传统的多光谱数据拥有更加丰富的光谱信息,其成功应 用表明高光谱遥感较高的应用潜力。我国是少数几个拥有高光谱成像技术的国 家之一,近几年来我国技术学者在矿物识别、植被遥感、赤潮监测、精准农业 等多个方面展开高光谱数据应用研究,均取得了较好的效果。
高光谱遥感之所以受到世界各国遥感科学家的普遍关注,是因为高光谱遥 感具有不同于传统多光谱遥感的新特点,主要表现在:①波段多——可以为每 个像元提供几十、数百甚至上千个波段;②光谱范围窄——波段范围一般小于 10nm;③波段连续——有些传感器可以在350~2500nm的太阳光谱范围内提 供几乎连续的地物光谱;④数据量大——随着波段数的增加,数据量成指数增 加;⑤信息冗余增加——由于相邻波段高度相关,冗余信息也相对增加。因此, 一些针对传统遥感数据的图像处理方法和技术,如特征提取、图像分类等技术 面临挑战。
现有的高光谱数据已经能够通过多种途径快速获取,能够用于物质分类确 定中。常用的高光谱数据分类方法主要是基于以最大似然法、光谱角填图、主 成分分析、小波变换、人工神经网络等为代表的分类方法,在特征提取时没有 考虑到训练数据中的类别信息和高阶统计特征,并非按照分类能力进行特征选 择和降维,一般只能用于进行数量较少种类物质的物质分类。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供了一种分类效率高、 物质识别精度高的基于高光谱数据信息极大化的物质最优分类识别方法。
本发明的技术解决方案是:一种基于高光谱数据信息极大化的物质最优分 类识别方法,步骤如下:
(1)从采集到的n维高光谱数据中选取t个数据组成t×n的训练数据矩阵 X训练,选取不同于X训练的s个数据组成s×n的测试数据矩阵X测试,其中t和s均为 正整数;
(2)将X训练中的每一列进行零均值处理,获得数据矩阵X;然后对斜方差 X*XT做特征值分解,取保V%能量的特征值对应的特征向量作为行向量构成保 能量降维矩阵R,100>V≥95,利用保能量降维矩阵R对数据矩阵X进行降维获 得降维数据矩阵X*;最后对降维数据矩阵X*的每一行进行单元化处理,得到 p×n的数据矩阵p由V唯一确定;
(3)根据步骤(2)的结果构建的行降维维数矩阵M,M中 的第i行第j列的元素M(i,j)=K*i,其中符号表示取不大于b的最大整数,K 为统计步长,取值范围为1、2或者3,L为统计次数,取值范围为10~20;
(4)针对行降维维数矩阵M中的每一个元素M(i,j),分别计算信息极大化 列降维特征矩阵S,具体步骤如下:
(41)取数据矩阵的前M(i,j)行生成数据矩阵D;
(42)初始化分离矩阵Wk为M(i,j)维单位阵,初始化权系数αk=1,初始 化迭代记数值k=0,初始化β=0;
(43)将数据矩阵D进行一次列向量随机重排列,得到数据矩阵
(44)采用如下迭代公式更新Sk、Yk、Wk和ck,其中Yk+1=1/(1+exp(-Sk+1)),Wk+1=Wk+αk*(I+(1-2*Yk+1)*Sk+1T)*Wk,dk+1=Wk+1-Wk, ck+1=||dk+1||,I为单位阵,符号||||表示取模运算;
(45)如果k>2则更新后进入步骤(46),否则直接进 入步骤(46);
(46)如果则更新αk=αk*δ后进入步骤(47),否则直接进入步骤 (47),其中0.5≤δ≤0.9;
(47)如果ck+1>ε则更新αk+1=αk*τ,k=k+1,如果k小于设定的阈值则转 步骤(43),其中0.5≤τ≤0.8,1.0×10-5≥ε≥1.0×10-9;如果ck+1<ε或者k大于设定 的阈值则令Sij=Wk+1*D并输出;
(5)针对每一个M(i,j)对应的信息极大化列降维特征矩阵Sij,分别进行分 类器的训练,具体步骤如下:
(51)初始化分类器集合{E1,...,EG},G为选取的有监督分类方法的个数, 初始化当前列降维维数m=1,初始化当前分类器编号g=1,初始化最佳分类准 确率aopt=0及相应的列降维维数dopt=1、分类器标记emark=1,初始化准确率矩阵 A及相应的列降维维数矩阵DIM、分类器标记矩阵CMark,其中A、DIM和CMark 的行数和列数均与行降维维数矩阵M相同;
(52)取Sij的前m行数据Sm,利用Sm对数据矩阵进行降维得到特征矩 阵
(53)针对当前分类器Eg,对Qm进行有监督分类器训练,得到分类器
(54)将测试数据X测试进行零均值处理获得数据矩阵利用Sm对数据 矩阵进行降维得到特征矩阵
(55)利用分类器对F*进行分类,统计其分类准确率a;
(56)如果aopt<a,则更新aopt=a、dopt=m、emark=g后进入步骤(57), 否则直接进入步骤(57);
(57)如果g<G,则更新g=g+1后转步骤(53),否则进入步骤(58);
(58)如果m<M(i,j),则更新m=m+1后转步骤(52),否则结束并输出 A(i,j)=aopt,DIM(i,j)=dopt和CMark(i,j)=emark,符号(i,j)表示相应矩阵中对应的 第i行第j列的元素;
(6)遍历A中的所有元素A(i,j),找到A(i,j)中最大值对应的行号imax和列 号jmax,由此确定最优列降维维数为DIM(imax,jmax),最优降维特征矩阵Sopt为的前DIM(imax,jmax)行元素,最优分类器ECMark(imax,jmax);
(7)利用最优降维特征矩阵Sopt和最优分类器ECMark(imax,jmax)对待分类的高 光谱数据T进行物质分类识别。
本发明与现有技术相比的优点在于:
(1)本发明方法从高阶统计量角度对光谱数据进行降维处理,得到的特征 具有更强的统计特性,与传统的分类特征相比,在同样规模的数据降维特征维 数下,具有更高的分类效率和识别精度;
(2)本发明方法有效的结合了高阶统计特征和训练数据中的类别信息,形 成了一种能够进行种类更多的物质分类识别的方法;
(3)本发明方法给出了一种最优分类器的选择机制,非常容易扩展添加新 的分类器,便于产生性能更优的分类器;
(4)本发明方法充分考虑了现有高阶统计量优化计算的随机性特点,采用 多次循环择优的方式来选择高阶统计特征,能够有效保证获得的高阶统计特征 的质量,提高物质分类识别的精度。
附图说明
图1为本发明方法的流程图;
图2为本发明方法实例中采集的柳树叶高光谱数据示意图;
图3为本发明方法实例中采集的原始数据示意图;
图4为本发明方法实例中列降维特征矩阵中元素S1,1的四个行向量示意图;
图5为本发明方法实例中不同分类器准确率统计曲线示意图;
图6为本发明方法实例中准确率矩阵A示意图。
具体实施方式
如图1所示,为本发明方法的流程图,主要步骤如下:
(1)从采集到的n维高光谱数据中选取t个数据组成t×n的训练数据矩阵 X训练,选取不同于X训练的s个数据组成s×n的测试数据矩阵X测试,其中t和s均为 正整数。一般情况下,t取总数据量的70%,数据差异较小的情况下,t值可以 取较小的值。如图2所示,实例中采集柳树叶的高光谱数据光谱波段为 350-2500nm,插值后数据维数n=2151。如图3所示,实例中采集66种树种 共3300次高光谱数据采样,图中x轴为样本标号,y轴为光谱波长,z轴为实 际采集的物质的光谱反射率。由此可以得到,t=3300*70%=2310,而s取余下 的990个数据。
(2)将X训练中的每一列进行零均值处理,获得数据矩阵X;然后对斜方差 X*XT做特征值分解,获得按由大到小排序好的特征值数组{γ1,γ2...,γq}和相应的 特征向量{v1,v2...,vq},计算构造p×n维保能量降维矩阵 R={v1;v2;...;vp},100>V≥95,利用保能量降维矩阵R对数据矩阵X进行降维获得 降维数据矩阵X*=R*X;最后对降维数据矩阵X*的每一行进行单元化处理,得 到p×n的数据矩阵p由V唯一确定。若X*第h行向量为Xh*,1≤h≤p,第 h行为则||||为取模运算。实例中计算得到p=54,矩阵X*的 维数为54*2151。一般情况下V取99.9,以保存特征值的大部分的能量特征, 矩阵的维数为54*2151。
(3)根据步骤(2)的结果构建的行降维维数矩阵M,M中 的元素M(i,j)=K*i,其中符号表示取不大于b的最大整数,K为统计步长, 取值范围为1、2或者3,L为统计次数,取值范围为10~20;实际例子中K=1, L=10,p=54,M维数为28*10。
(4)针对行降维维数矩阵M中的每一个元素M(i,j),分别计算信息极大化 列降维特征矩阵S,具体步骤如下:
(41)取数据矩阵的前M(i,j)行生成数据矩阵D;
(42)初始化分离矩阵Wk为M(i,j)维单位阵,初始化权系数αk=1,初始 化迭代记数值k=0,初始化β=0;
(43)将数据矩阵D进行一次列向量随机重排列,得到数据矩阵
(44)采用如下迭代公式更新Sk、Yk、Wk和ck,其中Yk+1=1/(1+exp(-Sk+1)),Wk+1=Wk+αk*(I+(1-2*Yk+1)*Sk+1T)*Wk,dk+1=Wk+1-Wk, ck+1=||dk+1||,I为单位阵,符号||||表示取模运算;
(45)如果k>2则更新后进入步骤(46),否则直接进 入步骤(46);
(46)如果则更新αk=αk*δ后进入步骤(47),否则直接进入步骤 (47),其中0.5≤δ≤0.9;
(47)如果ck+1>ε则更新αk+1=αk*τ,k=k+1,如果k小于设定的阈值则转 步骤(43),其中0.5≤τ≤0.8,1.0×10-5≥ε≥1.0×10-9;如果ck+1<ε或者k大于设定 的阈值则令Sij=Wk+1*D并输出;图4为本实例中列降维特征矩阵S中S1,1四个行 向量示意图,该行向量的维数为2151。
(5)针对每一个M(i,j)对应的信息极大化列降维特征矩阵Sij,分别进行分 类器的训练,具体步骤如下:
(51)初始化分类器集合{E1,...,EG},G为选取的有监督分类方法的个数, 初始化当前列降维维数m=1,初始化当前分类器编号g=1,初始化最佳分类准 确率aopt=0及相应的列降维维数dopt=1、分类器标记emark=1,初始化准确率矩阵 A及相应的列降维维数矩阵DIM、分类器标记矩阵CMark,其中A、DIM和CMark 的行数和列数均与行降维维数矩阵M相同。本实例中选用了G=5种有监督分类 方法,分别为线性判别分析、二次判别分析、对角线性判别分析、对角二次判 别分析和马氏距离判别分析方法,具体分类方法如何应用可参阅相关资料。
(52)取Sij的前m行数据Sm,利用Sm对数据矩阵进行降维得到特征矩 阵实例中Qm的维数为2310*m。
(53)针对当前分类器Eg,对Qm进行有监督分类器训练,得到分类器
(54)将测试数据X测试进行零均值处理获得数据矩阵利用Sm对数 据矩阵进行降维得到特征矩阵实例中矩阵的维数为 990*2151,F*的维数为990*m。
(55)利用分类器对F*进行分类,统计其分类准确率a;
(56)如果aopt<a,则更新aopt=a、dopt=m、emark=g后进入步骤(57), 否则直接进入步骤(57);
(57)如果g<G,则更新g=g+1后转步骤(53),否则进入步骤(58);
(58)如果m<M(i,j),则更新m=m+1后转步骤(52),否则结束并输出 A(i,j)=aopt,DIM(i,j)=dopt和CMark(i,j)=emark,符号(i,j)表示相应矩阵中对应的 第i行第j列的元素。图5是实例中5种不同分类器某次迭代准确率统计曲线示 意图,图中x轴为数据维数m的取值,y轴为分类准确率,从图上可以看出当 m=20时,二次判别分析方法的分类准确率达到最高值92.6036%。
(6)遍历A中的所有元素A(i,j),找到A(i,j)中最大值对应的行号imax和列 号jmax,由此确定最优列降维维数为DIM(imax,jmax),最优降维特征矩阵Sopt为的前DIM(imax,jmax)行元素,最优分类器ECMark(imax,jmax)。图6为本实例中准确率 矩阵A的示意图,横轴为m的取值,纵轴为准确率。从图上可以看出,最大值 对应的行号I=25和列号J=8。最优特征维数为25,最大值为92.6364%,最优 分类器类型为二次判别分析方法分类器,最优降维特征矩阵Sopt的维数为 25*2151。
(7)利用最优降维特征矩阵Sopt和最优分类器ECMark(imax,jmax)对待分类的高 光谱数据T进行物质分类识别。
(71)将待分类物质的高光谱数据T的每一列进行做零均值处理,获得 数据矩阵T*;实例中待分类高光谱数据共有1000条记录,矩阵T的维数为 1000*2151。
(72)利用最优降维特征矩阵Sopt对数据矩阵T*进行降维得到特征矩阵 实例中特征矩阵的维数为1000*27。
(73)根据最优分类器ECMark(imax,jmax)对特征矩阵进行物质分类识别。实 例中最优分类器类型为二次判别分析方法分类器,具体物质分类识别器如何应 用可参阅相关资料。
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。
机译: 基于PSO的无人机定位以最大化传感器网络中无人机数据信息的方法和装置
机译: 一种基于密码子最优性检测生物样品中可转换遗传物质的方法
机译: 基于最大化信贷相似度的最优信贷评级划分方法