首页> 中国专利> 一种基于高光谱数据信息极大化的物质最优分类识别方法

一种基于高光谱数据信息极大化的物质最优分类识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种基于高光谱数据信息极大化的物质最优分类识别方法，步骤为：（1）从采集到的高光谱数据中选取训练数据；（2）对训练数据依次进行零均值化、保能量降维和单元规范化预处理；（3）根据预处理数据，估算行降维维数矩阵；（4）逐行降维维数数组进行信息极大化列降维特征矩阵计算；（5）逐列降维特征矩阵进行分类器训练；（6）根据训练结果，选择最优特征矩阵和最优分类器；（7）根据所得最优特征矩阵和最优分类器对待分类的高光谱数据进行物质分类识别。本发明方法可实现从高阶统计量角度对高光谱数据进行约减，达到更高的分类效率，并且易于扩展添加新的分类器，便于生成性能更优的分类器，从而更好的进行物质分类识别。

著录项

公开/公告号CN103868865A

专利类型发明专利
公开/公告日2014-06-18

原文格式PDF
申请/专利权人北京空间机电研究所;
展开▼

申请/专利号CN201410061232.8
发明设计人文高进;张春晓;林招荣;尚志鸣;王洪民;张倩;
展开▼

申请日2014-02-24
分类号G01N21/31(20060101);G06F19/00(20110101);G06K9/46(20060101);
代理机构11009 中国航天科技专利中心;
代理人陈鹏
地址 100076 北京市丰台区南大红门路1号9201信箱5分箱
入库时间 2024-02-20 00:07:10

法律信息

法律状态公告日

法律状态信息

法律状态
2016-03-02

授权

授权
2014-07-16

实质审查的生效 IPC(主分类):G01N21/31 申请日:20140224

实质审查的生效
2014-06-18

公开

公开

说明书

技术领域

本发明属于高光谱数据处理技术领域，涉及一种对高光谱数据进行信息极大化最优分类利用的方法，由此可以对不同的物质进行最优分类。

背景技术

高光谱遥感技术（也称作成像光谱技术）是近二十年来发展起来的一种新兴遥感技术。高光谱遥感是当今遥感技术的前沿，高光谱技术首先应用在地质矿物的识别中，而后广泛地应用在大气科学、生态、地质、水文和海洋科学中。高光谱遥感数据相对于传统的多光谱数据拥有更加丰富的光谱信息，其成功应用表明高光谱遥感较高的应用潜力。我国是少数几个拥有高光谱成像技术的国家之一，近几年来我国技术学者在矿物识别、植被遥感、赤潮监测、精准农业等多个方面展开高光谱数据应用研究，均取得了较好的效果。

高光谱遥感之所以受到世界各国遥感科学家的普遍关注，是因为高光谱遥感具有不同于传统多光谱遥感的新特点，主要表现在：①波段多——可以为每个像元提供几十、数百甚至上千个波段；②光谱范围窄——波段范围一般小于 10nm；③波段连续——有些传感器可以在350～2500nm的太阳光谱范围内提供几乎连续的地物光谱；④数据量大——随着波段数的增加，数据量成指数增加；⑤信息冗余增加——由于相邻波段高度相关，冗余信息也相对增加。因此，一些针对传统遥感数据的图像处理方法和技术，如特征提取、图像分类等技术面临挑战。

现有的高光谱数据已经能够通过多种途径快速获取，能够用于物质分类确定中。常用的高光谱数据分类方法主要是基于以最大似然法、光谱角填图、主成分分析、小波变换、人工神经网络等为代表的分类方法，在特征提取时没有考虑到训练数据中的类别信息和高阶统计特征，并非按照分类能力进行特征选择和降维，一般只能用于进行数量较少种类物质的物质分类。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供了一种分类效率高、物质识别精度高的基于高光谱数据信息极大化的物质最优分类识别方法。

本发明的技术解决方案是：一种基于高光谱数据信息极大化的物质最优分类识别方法，步骤如下：

（1）从采集到的n维高光谱数据中选取t个数据组成t×n的训练数据矩阵 X_训练，选取不同于X_训练的s个数据组成s×n的测试数据矩阵X_测试，其中t和s均为正整数；

（2）将X_训练中的每一列进行零均值处理，获得数据矩阵X；然后对斜方差 X*X^T做特征值分解，取保V%能量的特征值对应的特征向量作为行向量构成保能量降维矩阵R，100>V≥95，利用保能量降维矩阵R对数据矩阵X进行降维获得降维数据矩阵X^*；最后对降维数据矩阵X*的每一行进行单元化处理，得到 p×n的数据矩阵p由V唯一确定；

（3）根据步骤（2）的结果构建的行降维维数矩阵M，M中的第i行第j列的元素M(i,j)=K*i，其中符号表示取不大于b的最大整数，K 为统计步长，取值范围为1、2或者3，L为统计次数，取值范围为10～20；

（4）针对行降维维数矩阵M中的每一个元素M(i,j)，分别计算信息极大化列降维特征矩阵S，具体步骤如下：

（41）取数据矩阵的前M(i,j)行生成数据矩阵D；

（42）初始化分离矩阵W_k为M(i,j)维单位阵，初始化权系数α_k=1，初始化迭代记数值k=0，初始化β=0；

（43）将数据矩阵D进行一次列向量随机重排列，得到数据矩阵

（44）采用如下迭代公式更新S_k、Y_k、W_k和c_k，其中Y_k+1=1/(1+exp(-S_k+1))，W_k+1=W_k+α_k*(I+(1-2*Y_k+1)*S_k+1^T)*W_k，d_k+1=W_k+1-W_k， c_k+1=||d_k+1||，I为单位阵，符号||||表示取模运算；

（45）如果k>2则更新后进入步骤（46），否则直接进入步骤（46）；

（46）如果则更新α_k=α_k*δ后进入步骤（47），否则直接进入步骤（47），其中0.5≤δ≤0.9；

（47）如果c_k+1>ε则更新α_k+1=α_k*τ，k=k+1，如果k小于设定的阈值则转步骤（43），其中0.5≤τ≤0.8，1.0×10^-5≥ε≥1.0×10^-9；如果c_k+1<ε或者k大于设定的阈值则令S_ij=W_k+1*D并输出；

（5）针对每一个M(i,j)对应的信息极大化列降维特征矩阵S_ij，分别进行分类器的训练，具体步骤如下：

（52）取S_ij的前m行数据S_m，利用S_m对数据矩阵进行降维得到特征矩阵 $Q_{m} = \tilde{X} * {S_{m}}^{T};$

（53）针对当前分类器E_g，对Q_m进行有监督分类器训练，得到分类器

（54）将测试数据X_测试进行零均值处理获得数据矩阵利用S_m对数据矩阵进行降维得到特征矩阵

（55）利用分类器对F^*进行分类，统计其分类准确率a；

（56）如果a_opt<a，则更新a_opt=a、d_opt=m、e_mark=g后进入步骤（57），否则直接进入步骤（57）；

（57）如果g<G，则更新g=g+1后转步骤（53），否则进入步骤（58）；

（58）如果m<M(i,j)，则更新m=m+1后转步骤（52），否则结束并输出 A(i,j)=a_opt，DIM(i,j)=d_opt和CMark(i,j)=e_mark，符号(i,j)表示相应矩阵中对应的第i行第j列的元素；

（6）遍历A中的所有元素A(i,j)，找到A(i,j)中最大值对应的行号i_max和列号j_max，由此确定最优列降维维数为DIM(i_max,j_max)，最优降维特征矩阵S_opt为的前DIM(i_max,j_max)行元素，最优分类器E_CMark(i_max,j_max)；

（7）利用最优降维特征矩阵S_opt和最优分类器E_CMark(i_max,j_max)对待分类的高光谱数据T进行物质分类识别。

本发明与现有技术相比的优点在于：

（1）本发明方法从高阶统计量角度对光谱数据进行降维处理，得到的特征具有更强的统计特性，与传统的分类特征相比，在同样规模的数据降维特征维数下，具有更高的分类效率和识别精度；

（2）本发明方法有效的结合了高阶统计特征和训练数据中的类别信息，形成了一种能够进行种类更多的物质分类识别的方法；

（3）本发明方法给出了一种最优分类器的选择机制，非常容易扩展添加新的分类器，便于产生性能更优的分类器；

（4）本发明方法充分考虑了现有高阶统计量优化计算的随机性特点，采用多次循环择优的方式来选择高阶统计特征，能够有效保证获得的高阶统计特征的质量，提高物质分类识别的精度。

附图说明

图1为本发明方法的流程图；

图2为本发明方法实例中采集的柳树叶高光谱数据示意图；

图3为本发明方法实例中采集的原始数据示意图；

图4为本发明方法实例中列降维特征矩阵中元素S_1,1的四个行向量示意图；

图5为本发明方法实例中不同分类器准确率统计曲线示意图；

图6为本发明方法实例中准确率矩阵A示意图。

具体实施方式

如图1所示，为本发明方法的流程图，主要步骤如下：

（1）从采集到的n维高光谱数据中选取t个数据组成t×n的训练数据矩阵 X_训练，选取不同于X_训练的s个数据组成s×n的测试数据矩阵X_测试，其中t和s均为正整数。一般情况下，t取总数据量的70%，数据差异较小的情况下，t值可以取较小的值。如图2所示，实例中采集柳树叶的高光谱数据光谱波段为 350-2500nm，插值后数据维数n=2151。如图3所示，实例中采集66种树种共3300次高光谱数据采样，图中x轴为样本标号，y轴为光谱波长，z轴为实际采集的物质的光谱反射率。由此可以得到，t=3300*70%=2310，而s取余下的990个数据。

（2）将X_训练中的每一列进行零均值处理，获得数据矩阵X；然后对斜方差 X*X^T做特征值分解，获得按由大到小排序好的特征值数组{γ₁,γ₂...,γ_q}和相应的特征向量{v₁,v₂...,v_q}，计算构造p×n维保能量降维矩阵 R={v₁;v₂;...;v_p}，100>V≥95，利用保能量降维矩阵R对数据矩阵X进行降维获得降维数据矩阵X^*=R*X；最后对降维数据矩阵X^*的每一行进行单元化处理，得到p×n的数据矩阵p由V唯一确定。若X^*第h行向量为X_h^*，1≤h≤p，第 h行为则||||为取模运算。实例中计算得到p=54，矩阵X^*的维数为54*2151。一般情况下V取99.9，以保存特征值的大部分的能量特征，矩阵的维数为54*2151。

（3）根据步骤（2）的结果构建的行降维维数矩阵M，M中的元素M(i,j)=K*i，其中符号表示取不大于b的最大整数，K为统计步长，取值范围为1、2或者3，L为统计次数，取值范围为10～20；实际例子中K=1， L=10，p=54，M维数为28*10。

（4）针对行降维维数矩阵M中的每一个元素M(i,j)，分别计算信息极大化列降维特征矩阵S，具体步骤如下：

（41）取数据矩阵的前M(i,j)行生成数据矩阵D；

（42）初始化分离矩阵W_k为M(i,j)维单位阵，初始化权系数α_k=1，初始化迭代记数值k=0，初始化β=0；

（43）将数据矩阵D进行一次列向量随机重排列，得到数据矩阵

（45）如果k>2则更新后进入步骤（46），否则直接进入步骤（46）；

（46）如果则更新α_k=α_k*δ后进入步骤（47），否则直接进入步骤（47），其中0.5≤δ≤0.9；

（47）如果c_k+1>ε则更新α_k+1=α_k*τ，k=k+1，如果k小于设定的阈值则转步骤（43），其中0.5≤τ≤0.8，1.0×10^-5≥ε≥1.0×10^-9；如果c_k+1<ε或者k大于设定的阈值则令S_ij=W_k+1*D并输出；图4为本实例中列降维特征矩阵S中S_1,1四个行向量示意图，该行向量的维数为2151。

（5）针对每一个M(i,j)对应的信息极大化列降维特征矩阵S_ij，分别进行分类器的训练，具体步骤如下：

（51）初始化分类器集合{E₁,...,E_G}，G为选取的有监督分类方法的个数，初始化当前列降维维数m=1，初始化当前分类器编号g=1，初始化最佳分类准确率a_opt=0及相应的列降维维数d_opt=1、分类器标记e_mark=1，初始化准确率矩阵 A及相应的列降维维数矩阵DIM、分类器标记矩阵CMark，其中A、DIM和CMark 的行数和列数均与行降维维数矩阵M相同。本实例中选用了G=5种有监督分类方法，分别为线性判别分析、二次判别分析、对角线性判别分析、对角二次判别分析和马氏距离判别分析方法，具体分类方法如何应用可参阅相关资料。

（52）取S_ij的前m行数据S_m，利用S_m对数据矩阵进行降维得到特征矩阵实例中Q_m的维数为2310*m。

（53）针对当前分类器E_g，对Q_m进行有监督分类器训练，得到分类器

（54）将测试数据X_测试进行零均值处理获得数据矩阵利用S_m对数据矩阵进行降维得到特征矩阵实例中矩阵的维数为 990*2151，F^*的维数为990*m。

（55）利用分类器对F^*进行分类，统计其分类准确率a；

（56）如果a_opt<a，则更新a_opt=a、d_opt=m、e_mark=g后进入步骤（57），否则直接进入步骤（57）；

（57）如果g<G，则更新g=g+1后转步骤（53），否则进入步骤（58）；

（58）如果m<M(i,j)，则更新m=m+1后转步骤（52），否则结束并输出 A(i,j)=a_opt，DIM(i,j)=d_opt和CMark(i,j)=e_mark，符号(i,j)表示相应矩阵中对应的第i行第j列的元素。图5是实例中5种不同分类器某次迭代准确率统计曲线示意图，图中x轴为数据维数m的取值，y轴为分类准确率，从图上可以看出当 m=20时，二次判别分析方法的分类准确率达到最高值92.6036%。

（6）遍历A中的所有元素A(i,j)，找到A(i,j)中最大值对应的行号i_max和列号j_max，由此确定最优列降维维数为DIM(i_max,j_max)，最优降维特征矩阵S_opt为的前DIM(i_max,j_max)行元素，最优分类器E_CMark(i_max,j_max)。图6为本实例中准确率矩阵A的示意图，横轴为m的取值，纵轴为准确率。从图上可以看出，最大值对应的行号I=25和列号J=8。最优特征维数为25，最大值为92.6364%，最优分类器类型为二次判别分析方法分类器，最优降维特征矩阵S_opt的维数为 25*2151。

（7）利用最优降维特征矩阵S_opt和最优分类器E_CMark(i_max,j_max)对待分类的高光谱数据T进行物质分类识别。

（71）将待分类物质的高光谱数据T的每一列进行做零均值处理，获得数据矩阵T^*；实例中待分类高光谱数据共有1000条记录，矩阵T的维数为 1000*2151。

（72）利用最优降维特征矩阵S_opt对数据矩阵T^*进行降维得到特征矩阵实例中特征矩阵的维数为1000*27。

（73）根据最优分类器E_CMark(i_max,_jmax)对特征矩阵进行物质分类识别。实例中最优分类器类型为二次判别分析方法分类器，具体物质分类识别器如何应用可参阅相关资料。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于高光谱数据信息极大化的物质最优分类识别方法 [P] . 中国专利： CN103868865B . 2016.03.02
2. 一种基于高光谱数据信息极大化的物质最优分类识别方法 [P] . 中国专利： CN103868865A . 2014-06-18
3. METHOD AND APPARATUS FOR SEARCHING FOR LOCATION OF PSO-BASED UAV FOR MAXIMIZING SENSING DATA INFORMATION OF UAV IN SENSOR NETWORKS [P] . 韩国专利： KR102009608B1 . 2019-08-09

机译：基于PSO的无人机定位以最大化传感器网络中无人机数据信息的方法和装置
4. A METHOD FOR DETECTING TRANSPOSABLE GENETIC MATERIAL IN A BIOLOGICAL SAMPLE BASED ON CODON OPTIMALITY [P] . WO2021206192A1 . 2021-10-14

机译：一种基于密码子最优性检测生物样品中可转换遗传物质的方法
5. AN OPTIMAL CREDIT RATING DIVISION METHOD BASED ON MAXIMIZING CREDIT SIMILARITY [P] . 美国专利： US2018308158A1 . 2018-10-25

机译：基于最大化信贷相似度的最优信贷评级划分方法