首页> 中国专利> 一种遥感图像分类模型建立与验证方法、系统及电子设备

一种遥感图像分类模型建立与验证方法、系统及电子设备

摘要

本发明公开了一种遥感图像分类模型建立与验证方法、系统及电子设备。该方法包括:步骤1,获取遥感图像的分类样本数据;步骤2,读取分类样本图像数据的坐标及类别;步骤3,计算每个类别下的任意两个样本图像数据之间的最短距离;步骤4,将计算结果与阈值进行比较,根据比较结果判断样本图像数据是否同一处理;步骤5,当所有样本图像数据完成同一后得到总样本图像数据,按照预设比例将总样本图像数据进行随机分配,得到训练样本集和验证样本集;步骤6,根据训练样本集建立模型,根据验证样本集对模型进行验证。本发明能够去除训练样本和验证样本间的空间自相关性,保证遥感分类结果验证的客观性和准确性,不过高评估遥感分类结果的精度。

著录项

  • 公开/公告号CN112949699A

    专利类型发明专利

  • 公开/公告日2021-06-11

    原文格式PDF

  • 申请/专利号CN202110180733.8

  • 发明设计人 范锦龙;

    申请日2021-02-09

  • 分类号G06K9/62(20060101);

  • 代理机构11212 北京轻创知识产权代理有限公司;

  • 代理人陈熙

  • 地址 100081 北京市海淀区中关村南大街46号

  • 入库时间 2023-06-19 11:22:42

说明书

技术领域

本发明涉及遥感图像领域,尤其涉及一种遥感图像分类模型建立与验证方法、系统及电子设备。

背景技术

监督分类是遥感分类的主要方法之一,开展监督分类的一个必要条件是准备遥感样本数据,而且遥感样本数据的质量是实现高精度遥感分类的关键。通常,一套遥感样本数据准备好以后,采用随机分配的办法,将全体样本按一定比例,如70%/30%,分成训练样本和验证样本,然后采用适当的分类算法,训练样本用于构建分类模型,进而对整个遥感图像进行分类,最后利用验证样本对分类结果进行检验和评价。分类结果的精度完全是由验证样本决定的,如果忽略训练样本和验证样本之间的空间自相关性,分类结果的评价精度可以达到与所建立模型相当的精度,容易使人认为分类取得了很好的结果。因此,训练样本和验证样本的随机分离方法非常关键,特别是验证样本与训练样本无空间自相关,这样才能对遥感分类结果客观检验和评价,为进一步提高分类精度指明方向。遥感样本数据以像元为单位,但是制作样本数据时,通常不是选择单个像元,往往是在遥感影像上选择一个多边形区域内的像元作为同一类型的样本,这些像元样本间具有极高的空间自相关性。采用简单的随机分离方法,相临近像元经常会分别分配到训练样本和验证样本中,利用这样的验证样本得出的验证结果往往是虚高,无法给出准确客观的结果。

发明内容

本发明所要解决的技术问题是针对现有技术的不足,提供遥感图像分类模型建立方法、系统、电子设备及存储介质。

本发明解决上述技术问题的技术方案如下:一种遥感图像分类模型建立与验证方法,包括:

步骤1,获取遥感图像的分类样本数据,其中,所述分类样本数据为像元数据;

步骤2,读取所述分类样本图像数据的坐标及类别;

步骤3,根据所述分类样本图像数据的坐标计算每个类别下的任意两个样本图像数据之间的最短距离;

步骤4,将计算结果与阈值进行比较,根据比较结果判断样本图像数据是否同一处理,将判断结果为是的样本图像数据做同一处理;

步骤5,当所有样本图像数据完成同一处理后得到总样本图像数据,按照预设比例将所述总样本图像数据进行随机分配,得到训练样本集和验证样本集;

步骤6,根据所述训练样本集建立模型,根据所述验证样本集对模型进行验证。

本发明的有益效果是:通过对样本图像数据之间的空间距离的计算以及比较控制等手段可以有效避免因忽略训练样本和验证样本之间的空间自相关而导致的最终分析结果并不客观且精度虚高,保证训练样本和验证样本之间的空间自相关性不存在或极低,从而可以给出客观的遥感分类结果精度评价。

进一步,步骤1具体为:

通过遥感图像处理软件获取不同类别的图像样本,通过矩形或多边形在所述图像上选取预设大小的区域作为分类样本图像数据。

采用上述进一步方案的有益效果是,通过矩形或多边形方法进行选取可以尽可能的保证各类别的单个样本的大小是一致的,从而实现在整个研究空间上是均匀分布的,且样本的数据量也最为合理。

进一步,步骤2具体为:

判断所述样本图像数据是否均为矢量数据,若不是,将所述样本图像数据中栅格数据通过栅格转矢量的方法转换为第一多边形矢量数据,并将所述第一多边形矢量数据与所述样本图像数据中的多边形矢量数据合并形成第二多边形矢量数据,读取所述第二多边形矢量数据的类型以及节点坐标。

采用上述进一步方案的有益效果是,实现了数据统一化,而且相临的像元级样本数据将合并为一个矢量数据,降低数据量,在同一处理时,再次减少样本数据的循环迭代次数,可以大幅提高工作效率。

进一步,步骤3具体为:

所述第二多边形矢量数据中每个类型下的多边形矢量按顺序进行唯一数字标记,分别计算每两个多边形矢量数据节点坐标间的距离,将两个多边形矢量数据中节点坐标间的最短距离设置为该两个多边形矢量数据之间的空间距离。

采用上述进一步方案的有益效果是,通过唯一数字标记可以有效的对第二多边形矢量数据进行计数,同时也提高了追溯的可能,保证了计算过程中的准确性,不会出现因计算量大而导致的混乱,提高了可靠性。

进一步,步骤4具体为:

将所述空间距离与所述阈值进行比较,若所述空间距离小于所述阈值则,将顺序在后的多边形矢量数据的唯一数字标记同一成顺序在前的多边形矢量数据的唯一数字标记。

采用上述进一步方案的有益效果是,通过同一第二多边形矢量数据可以使得相近的多边形矢量数据在后续处理中均按照同一个多边形矢量处理,提高了效率和准确性。

进一步,步骤5具体为:

当所有第二多边形矢量数据完成同一处理后得到各个类别的总样本图像数据,按照预设比例将所述每一类别的总样本图像数据进行随机分配,得到训练样本集和验证样本集。

本发明解决上述技术问题的另一种技术方案如下:一种遥感图像分类模型建立与验证系统,包括:

获取模块,用于获取遥感图像的分类样本数据,其中,所述分类样本数据为像元数据;

读取模块,用于读取所述分类样本图像数据的坐标及类别;

计算模块,用于根据所述分类样本图像数据的坐标计算每个类别下的任意两个样本图像数据之间的最短距离;

同一模块,用于将计算结果与阈值进行比较,根据比较结果判断样本图像数据是否同一处理,将判断结果为是的样本图像数据做同一处理;

分离模块,用于当所有样本图像数据完成同一后得到总样本图像数据,按照预设比例将所述总样本图像数据进行随机分配,得到训练样本集和验证样本集;

生成模块,用于根据所述训练样本集建立模型,根据所述验证样本集对模型进行验证。

本发明的有益效果是:通过对样本图像数据之间的距离的计算以及比较等手段可以有效避免因忽略训练样本和验证样本之间的空间自相关而导致的最终分析结果并不客观且精度虚高,保证训练样本和验证样本之间的空间自相关性不存在或极低,从而可以给出客观的遥感分类结果精度评价。

进一步,获取模块具体用于:

通过遥感图像处理软件获取不同类别的图像样本,通过矩形或多边形在所述图像上选取预设大小的区域作为分类样本图像数据。

采用上述进一步方案的有益效果是,通过矩形或多边形方法进行选取可以尽可能的保证各类别的单个样本的大小是一致的,从而实现在整个研究空间上是均匀分布的,且样本的数据量也最为合理。

进一步,读取模块具体为:

判断所述样本图像数据是否均为矢量数据,若不是,将所述样本图像数据中栅格数据通过栅格转矢量的方法转换为第一多边形矢量数据,并将所述第一多边形矢量数据与所述样本图像数据中的多边形矢量数据合并形成第二多边形矢量数据,读取所述第二多边形矢量数据的类型以及节点坐标。

采用上述进一步方案的有益效果是,将数据统一化不仅便于后续处理同时还可以提高工作效率。

进一步,计算模块具体为:

所述第二多边形矢量数据中每个类型下的多边形矢量按顺序进行唯一数字标记,分别计算每两个多边形矢量数据节点坐标间的距离,将两个多边形矢量数据中节点坐标间的最短距离设置为该两个多边形矢量数据之间的空间距离。

采用上述进一步方案的有益效果是,通过唯一数字标记可以有效的区别出第二多边形矢量数据,同时也提高了追溯的可能,保证了计算过程中的准确性,不会出现因计算量大而导致的混乱,提高了可靠性。

进一步,比较模块具体为:

将所述空间距离与所述阈值进行比较,若所述空间距离小于所述阈值则,将顺序在后的多边形矢量数据的唯一数字标记同一成顺序在前的多边形矢量数据的唯一数字标记。

采用上述进一步方案的有益效果是,通过同一第二多边形矢量数据可以使得相近似的多边形矢量数据在后续处理中均按照一个标准进行处理,提高了效率。

进一步,同一模块具体为:

当所有第二多边形矢量数据完成同一后得到各个类别的总样本图像数据,按照预设比例将所述每一类别的总样本图像数据进行随机分配,得到训练样本集和验证样本集。

本发明解决上述技术问题的另一种技术方案如下:一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的向量,所述处理器执行所述向量时实现上述任一项所述的一种遥感图像分类模型建立与验证方法。

本发明的有益效果是:通过对样本图像数据之间的距离的计算以及比较等手段可以有效避免因忽略训练样本和验证样本之间的空间自相关而导致的最终分析结果并不客观且精确度不高,保证训练样本和验证样本之间的空间自相关性不存在或极低,从而可以给出客观的遥感分类结果精度评价。

本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。

附图说明

图1为本发明一种遥感图像分类模型建立与验证方法的实施例提供的流程示意图;

图2为本发明一种遥感图像分类模型建立与验证系统的实施例提供的结构框架图;

附图中,各标号所代表的部件列表如下:

100、获取模块,200、读取模块,300、计算模块,400、同一模块,500、分离模块,600、生成模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。

如图1所示,一种遥感图像分类模型建立方法,包括:

步骤1,获取遥感图像的分类样本数据,其中,所述分类样本数据为像元数据;

步骤2,读取所述分类样本图像数据的坐标及类别;

步骤3,根据所述分类样本图像数据的坐标计算每个类别下的任意两个样本图像数据之间的最短距离;

步骤4,将计算结果与阈值进行比较,根据比较结果判断样本图像数据是否同一处理,将判断结果为是的样本图像数据做同一处理;

步骤5,当所有样本图像数据完成同一后得到总样本图像数据,按照预设比例将所述总样本图像数据进行随机分配,得到训练样本集和验证样本集;

步骤6,根据所述训练样本集建立模型,根据所述验证样本集对模型进行验证。

在一些可能的实施方式中,通过对样本图像数据之间的空间距离的计算以及比较等手段可以有效避免因忽略训练样本和验证样本之间的空间自相关而导致的最终分析结果并不客观且精度虚高,保证训练样本和验证样本之间的空间自相关性不存在或极低,从而可以给出客观的遥感分类结果精度评价。

需要说明的是,像元数据包括但不仅限于数据的坐标以及类别,还包括单位等基础属性数据,由于样本图像数据可以是ENVI的ROI、EVF数据格式或者是首尾相同的坐标点组成多组文本文件,因此可直接读取坐标等信息,另外在读取坐标时,坐标点的投影要与用于选取样本的影像的投影一致,计算坐标点距离可参考如下公式:

其中,Lon

同一操作,可参考下例:如果r大于等于预设的距离阈值,说明这两个多边形相距较远,如果r小于预设的距离阈值,如900米,说明这两个多边形很靠近,在使用时应按同一多边形对待,可将两个多边形标记为同一数字标记,将后一多边形的数字标记修改为前一个多边形的数字标记,后一多边形的坐标点追加到前一多边形的坐标点后,依此类推,检查完所有的多边形。这一步很关键,所有相近的多边形后面将按同一多边形处理。

对于步骤5,可参考下例:从100个样本中随机选出30个样本,利用计算机的随机函数生成100以内的30个整数,然后判断这30个数字的唯一性,如果有重复且去掉重复的数字后还需要再随机产生10个数,再次利用计算机的随机函数生成100以内的10个数,接着判断这10个数中有无重复,与已有的20个数有无重复,继续这些步骤,直到选出30个唯一的数字。最后,从这100个样本中,取出30个数字的样本即随机生成一组样本,剩下的即为另一组样本。

针对步骤6,可参考下例:针对随机分出的训练样本的多边形和验证样本的多边形,利用工具软件ENVI对遥感影像进行处理,即可得到基于像元的训练样本和验证样本数据,进而可用于遥感分类的模型建立和分类结果的验证。

优选地,在上述任意实施例中,步骤1具体为:

通过遥感图像处理软件获取不同类别的图像样本,通过矩形或多边形在所述图像上选取预设大小的区域作为分类样本图像数据。

在一些可能的实施方式中,通过矩形或多边形方法进行选取可以尽可能的保证各类别的单个样本的大小是一致的,从而实现在整个研究空间上是均匀分布的,且样本的数据量也最为合理。

需要说明的是,基于地面样方数据和专家先验知识,利用遥感图像处理软件ENVI,在遥感影像上确定各个类别的样本,选取样本区域时,可采用矩形或多边形的方法,如3*3个像元,不超过5*5个像元。尽可能保证各类别的样本在整个研究区的空间上是均匀分布的,样本的数据量也要合理。

优选地,在上述任意实施例中,步骤2具体为:

判断所述样本图像数据是否均为矢量数据,若不是,将所述样本图像数据中栅格数据通过栅格转矢量的方法转换为第一多边形矢量数据,并将所述第一多边形矢量数据与所述样本图像数据中的多边形矢量数据合并形成第二多边形矢量数据,读取所述第二多边形矢量数据的类型以及节点坐标。

在一些可能的实施方式中,将数据统一化不仅便于后续处理同时还可以提高工作效率。

需要说明的是,如果样本数据以多边形矢量文件形式存贮,直接执行下一步骤,多边形矢量文件可以是ENVI的ROI、EVF数据格式或者是首尾相同的坐标点组成多组文本文件;如果样本数据以像元为单元计数,采用栅格转矢量的技术,将所有样本像元数据转为多边形矢量数据,空间上紧密相连的样本点将形成一个独立的多边形矢量。

优选地,在上述任意实施例中,步骤3具体为:

所述第二多边形矢量数据中每个类型下的多边形矢量按顺序进行唯一数字标记,分别计算每两个多边形矢量数据节点坐标间的距离,将两个多边形矢量数据中节点坐标间的最短距离设置为该两个多边形矢量数据之间的空间距离。

在一些可能的实施方式中,通过唯一数字标记可以有效的区别出第二多边形矢量数据,同时也提高了追溯的可能,保证了计算过程中的准确性,不会出现因计算量大而导致的混乱,提高了可靠性。

需要说明的是,首先按顺序计数给每个多边形赋一个唯一数字标记,然后按多边形的顺序,计算并记录当前多边形每一个坐标点与下一个多边形每一个坐标点的距离,进一步确定出最小的距离,即代表这两个多边形在空间上的最小距离。

优选地,在上述任意实施例中,步骤4具体为:

将所述空间距离与所述阈值进行比较,若所述空间距离小于所述阈值则,将顺序在后的多边形矢量数据的唯一数字标记同一成顺序在前的多边形矢量数据的唯一数字标记。

在一些可能的实施方式中,通过同一第二多边形矢量数据可以使得相近似的多边形矢量数据在后续处理中均按照一个多边形矢量数据进行处理,提高了效率。

需要说明的是,如果r大于等于预设的距离阈值,说明这两个多边形相距较远,如果r小于预设的距离阈值1,如900米,说明这两个多边形很靠近,在使用时应按同一多边形对待,可将两个多边形标记为同一数字标记,即,将后一多边形的数字标记修改为前一个多边形的数字标记,后一多边形的坐标点追加到前一多边形的坐标点后,依此类推,检查完所有的多边形矢量数据。

优选地,在上述任意实施例中,步骤5具体为:

当所有第二多边形矢量数据完成同一后得到各个类别的总样本图像数据,按照预设比例将所述每一类别的总样本图像数据进行随机分配,得到训练样本集和验证样本集。

需要说明的是,按照处理后的多边形的数字标记的唯一数计数可以得到总样本量为N,按预设的分配比例阈值2,训练样本T%/验证样本V%,采用随机数分配的方法进行选取,分组以后训练样本的多边形数量为N*T%,验证样本的多边形数量为N*V%。优先对样本多边形数量少的这一组进行随机挑选,将所需要的多边形总数约为整数,这一组挑选出来后,剩余的归另外一组。从N个数中随机选数时可采用多次迭代的方法,去除已选出的、重复选出的,直至数量满足要求即停止。如,从100个样本中随机选出30个样本,利用计算机的随机函数生成100以内的30个整数,然后判断这30个数字的唯一性,如果有重复的,去掉重复的数字后还需要再随机产生10个数,再次利用计算机的随机函数生成100以内的10个数,接着判断这10个数中有无重复,与已有的20个数有无重复,继续这些步骤,直到选出30个唯一的数字。最后,从这100个样本中,取出30个数字的样本即随机生成一组样本,剩下的即为另一组样本。

如图2所示,一种遥感图像分类模型建立与验证系统,包括:

获取模块100,用于获取遥感图像的分类样本数据,其中,所述分类样本数据为像元数据;

读取模块200,用于读取所述分类样本图像数据的坐标及类别;

计算模块300,用于根据所述分类样本图像数据的坐标计算每个类别下的任意两个样本图像数据之间的最短距离;

同一模块400,用于将计算结果与阈值进行比较,根据比较结果判断样本图像数据是否同一处理,将判断结果为是的样本图像数据做同一处理;

分离模块500,用于当所有样本图像数据完成同一后得到总样本图像数据,按照预设比例将所述总样本图像数据进行随机分配,得到训练样本集和验证样本集;

生成模块600,用于根据所述训练样本集建立模型,根据所述验证样本集对模型进行验证。

在一些可能的实施方式中,通过对样本图像数据之间的距离的计算以及比较等手段可以有效避免因忽略训练样本和验证样本之间的空间自相关而导致的最终分析结果并不客观且精确度不高,保证训练样本和验证样本之间的空间自相关性不存在或极低,从而可以给出客观的遥感分类结果精度评价。

优选地,在上述任意实施例中,获取模块100具体用于:

通过遥感图像处理软件获取不同类别的图像样本,通过矩形或多边形在所述图像上选取预设大小的区域作为分类样本图像数据。

在一些可能的实施方式中,通过矩形或多边形方法进行选取可以尽可能的保证各类别的样本在整个研究空间上是均匀分布的,且样本的数据量也最为合理。

优选地,在上述任意实施例中,读取模块200具体为:

判断所述样本图像数据是否均为矢量数据,若不是,将所述样本图像数据中栅格数据通过栅格转矢量的方法转换为第一多边形矢量数据,并将所述第一多边形矢量数据与所述样本图像数据中的多边形矢量数据合并形成第二多边形矢量数据,读取所述第二多边形矢量数据的类型以及节点坐标。

在一些可能的实施方式中,将数据统一化不仅便于后续处理同时还可以提高工作效率。

优选地,在上述任意实施例中,计算模块300具体为:

所述第二多边形矢量数据中每个类型下的多边形矢量按顺序进行唯一数字标记,分别计算每两个多边形矢量数据节点坐标间的距离,将两个多边形矢量数据中节点坐标间的最短距离设置为该两个多边形矢量数据之间的空间距离。

在一些可能的实施方式中,通过唯一数字标记可以有效的区别出第二多边形矢量数据,同时也提高了追溯的可能,保证了计算过程中的准确性,不会出现因计算量大而导致的混乱,提高了可靠性。

优选地,在上述任意实施例中,比较模块400具体为:

将所述空间距离与所述阈值进行比较,若所述空间距离小于所述阈值则,将顺序在后的多边形矢量数据的唯一数字标记同一成顺序在前的多边形矢量数据的唯一数字标记。

在一些可能的实施方式中,通过同一第二多边形矢量数据可以使得相近似的多边形矢量数据在后续处理中均按照一个标准进行处理,提高了效率。

优选地,在上述任意实施例中,同一模块500具体为:

当所有第二多边形矢量数据完成同一后得到各个类别的总样本图像数据,按照预设比例将所述每一类别的总样本图像数据进行随机分配,得到训练样本集和验证样本集。

一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的向量,所述处理器执行所述向量时实现上述任一项所述的一种遥感图像分类模型建立与验证方法。

在一些可能的实施方式中,通过对样本图像数据之间的距离的计算以及比较等手段可以有效避免因忽略训练样本和验证样本之间的空间自相关而导致的最终分析结果并不客观且精确度不高,保证训练样本和验证样本之间的空间自相关性不存在或极低,从而可以给出客观的遥感分类结果精度评价。

可以理解,在一些实施例中,可以包含如上述各实施例中的部分或全部可选实施方式。

需要说明的是,上述各实施例是与在先方法实施例对应的产品实施例,对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明,在此不再赘述。

读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号