首页> 中国专利> 一种基于数据挖掘的遥感影像城市扩张监测方法

一种基于数据挖掘的遥感影像城市扩张监测方法

摘要

本申请公开了一种基于数据挖掘的遥感影像城市扩张监测方法。该方法包括:采集卫星遥感影像数据存储在分布式数据库中;通过计算访问接口对所述分布式数据库进行访问,利用决策树算法对所述分布式数据库中原始的影像数据进行分类处理,并利用OpenCV的膨胀腐蚀算法对所述原始的影像数据进行降噪处理,获得处理后的影像数据;通过定义的城镇成排区域提取算法对所述处理后的影像数据中的城镇区域进行提取;采用实时任务与定时任务相结合的方式,对得到的所述城镇区域进行比对分析,及时了解城镇扩张的情况。

著录项

  • 公开/公告号CN112560990A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利号CN202011565880.9

  • 发明设计人 戴鸿君;

    申请日2020-12-25

  • 分类号G06K9/62(20060101);G06K9/40(20060101);G06K9/00(20060101);G06F16/51(20190101);

  • 代理机构11716 北京君慧知识产权代理事务所(普通合伙);

  • 代理人董延丽

  • 地址 250100 山东省济南市高新区浪潮路1036号S05楼北六楼

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本申请涉及数据挖掘领域,尤其涉及一种基于数据挖掘的遥感影像城市扩张监测方法。

背景技术

随着我国城市化进程日益加快,城镇用地规模迅速扩张。它不仅占用了大量的土地资源,而且也对城市周边的生态环境产生巨大的影响。

遥感技术因其能提供动态、丰富和廉价的数据源已成为获取土地覆盖信息最为行之有效的手段。基于此,越来越多的卫星遥感影像用于城市扩张监测的分析上,传统的遥感影像分类技术已比较成熟,应用广泛。

但由于不同的分类器分类精度不同,在多种因素影响下,分类精度表现出很大的不确定性,数据分析耗时耗力,不能较好的满足对城市扩张的实时准确的监测。

发明内容

本发明提供了一种基于数据挖掘的遥感影像城市扩张监测方法,解决了如下技术问题:传统的遥感影像数据分析耗时耗力,不能较好的满足对城市扩张的实时准确的监测。

为解决上述技术问题,本说明书一个或多个实施例是这样实现的:

本说明书一个或多个实施例提供的一种基于数据挖掘的遥感影像城市扩张监测方法,包括:

采集卫星遥感影像数据存储在分布式数据库中;

通过计算访问接口对所述分布式数据库进行访问,利用决策树算法对所述分布式数据库中原始的影像数据进行分类处理,并利用OpenCV的膨胀腐蚀算法对所述原始的影像数据进行降噪处理,获得处理后的影像数据;

通过定义的城镇成排区域提取算法对所述处理后的影像数据中的城镇区域进行提取;

采用实时任务与定时任务相结合的方式,对得到的所述城镇区域进行比对分析,及时了解城镇扩张的情况。

本发明的方法与传统统计数据分析方法相比更具实时性和可靠性。

在本申请的一种实施例中,采集海量卫星遥感影像数据存储在分布式数据库中,具体包括:

通过卫星地图软件,采集卫星遥感影像数据,对所述卫星遥感影像数据进行加工后形成原始的影像数据存储在分布式数据库中,所述分布式数据库采用Hbase数据库。

在本申请的一种实施例中,在基于高性能并行计算框架Spark的基础上实现对影像数据一系列处理。

在本申请的一种实施例中,利用决策树算法对所述分布式数据库中原始的影像数据进行分类处理,具体包括:

利用C4.5决策树算法对原始的影像数据进行分类处理,所述分类结果为,将影像中的数据分为两类,一种为城镇区,一种为非城镇区,在影像上体现为两种不同的颜色。

在本申请的一种实施例中,对Spark中的master节点进行单点故障排除,保持系统稳定运行;

其余节点除了对数据进行并行计算外,还要保证计算结果的准确性,需要对相同数据两次计算进行结果校验;

所述其余节点包括,slave节点。

在本申请的一种实施例中,通过定义的城镇成排区域提取算法对所述处理后的影像数据中的城镇区域进行提取,具体包括:

将所述处理后的影像数据离散化,对所述离散化后的影像数据中所有的像素点遍历,设置像素点数量阈值,对分类结果中大于或者小于像素点数量阈值的区域的颜色更改成相邻像素点颜色中数量最多的颜色。

在本申请的一种实施例中,通过定义的城镇成排区域提取算法对所述处理后的影像数据中的城镇区域进行提取,具体包括:

重复进行像素点的遍历,直到所有区域的数量均满足所述像素点数量阈值。

在本申请的一种实施例中,通过定义的城镇成排区域提取算法对所述处理后的影像数据中的城镇区域进行提取,具体包括:

获取所述离散化后的影像数据的邻接表,遍历当前区域,获取颜色与该区域的颜色不同的点,记录所述点并使用邻接表存储;

根据所述邻接表中的数据运算得到所有区域的二阶邻接关系。

在本申请的一种实施例中,通过定义的城镇成排区域提取算法对所述处理后的影像数据中的城镇区域进行提取,具体包括:

计算两个不同区域之间的邻接强度,若两个不同区域之间的邻接强度同时大于或等于预先设定的邻接强度阈值,则认为两个不同区域是成排出现的。

在本申请的一种实施例中,采用实时任务与定时任务相结合的方式,对得到的处理后的遥感影像数据进行比对分析,具体包括:

实时采集所述遥感影像数据保存到所述分布式数据库中,每间隔一段时间便对所述分布式数据库中采集到的所述影像数据进行数据的挖掘与分析,提取城镇区域数据,与之前分析的数据进行比对,了解城镇扩张的情况。

本发明提供了一种基于数据挖掘的遥感影像城市扩张监测方法,与传统遥感影像数据分析方法相比,本发明对遥感影像数据挖掘分析的方法更具实时性和可靠性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的一种基于数据挖掘的遥感影像城市扩张监测方法步骤流程示意图。

图2为本申请实施例提供的利用各种算法工具对遥感影像数据处理流程示意图。

图3为本申请实施例提供的邻接关系结构举例示意图。

图4为本申请实施例提供的处理后的影像数据中城镇区域与非城镇区域颜色划分示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例对本申请进行清楚、完整的描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

遥感技术因其能提供动态、丰富和廉价的数据源已成为获取土地覆盖信息最为行之有效的手段。基于此,越来越多的卫星遥感影像用于城市扩张监测的分析上,传统的遥感影像分类技术已比较成熟,应用广泛。

但由于不同的分类器分类精度不同,在多种因素影响下,分类精度表现出很大的不确定性,数据分析耗时耗力,不能较好的满足对城市扩张的实时准确的监测。

本申请的方案可以解决上述问题,下面进行具体说明。

图1为本申请实施例提供的一种基于数据挖掘的遥感影像城市扩张监测方法步骤流程示意图,可以包括以下步骤:

采集卫星遥感影像数据存储在分布式数据库中;

通过计算访问接口对分布式数据库进行访问,利用决策树算法对分布式数据库中原始的影像数据进行分类处理,并利用OpenCV的膨胀腐蚀算法对原始的影像数据进行降噪处理,获得处理后的影像数据;

通过定义的城镇成排区域提取算法对处理后的影像数据中的城镇区域进行提取;

采用实时任务与定时任务相结合的方式,对得到的城镇区域进行比对分析,及时了解城镇扩张的情况。

分布式计算将计算分解成许多小部分,分配给多台计算机进行处理,节约整体计算时间,提高计算的效率。分布式计算可以共享稀有资源,可以平衡多台计算机的运行负载,可以选择最适宜的主机进行计算。本发明的方法与传统统计数据分析方法相比更具实时性和可靠性。

在图2中,首先搭建分布式数据库HBase集群,提供一个高可用的分布式数据库环境,将海量的遥感影像数据保存到HBase。搭建Spark计算集群,为了保证对遥感影像数据分析的准确性,需要对传统的Spark模式进行修改:对master节点进行单点故障排除,master节点不参与对数据的计算,只负责管理与决策。在分布式数据库Hbase与Spark并行计算集群之间建立计算访问接口,用于数据的传输。使用C4.5决策树算法对原始的图像数据进行分类处理,然后利用OpenCV的膨胀腐蚀算法进行降噪处理,最后使用城镇成排区域提取算法进行城镇区域提取。采用实时任务与定时任务相结合的方式,对得到的处理后的遥感影像数据进行比对分析,及时了解城镇扩张的情况。以上对影像数据的处理步骤都基于Spark框架进行。

在本申请的一种实施例中,采集海量卫星遥感影像存储在分布式数据库中,具体包括:

通过卫星地图软件或其他采集遥感影像的设备,采集卫星遥感影像,对卫星遥感影像进行加工后形成原始的影像数据存储在分布式数据库中,分布式数据库采用Hbase数据库。搭建分布式数据库HBase集群,提供一个高可用的分布式数据库环境,并且要对影像进行预处理,如校正、增强、滤波等,以突出目标物特征或消除同一类型目标的不同部位因照射条件不同、地形变化、扫描观测角的不同而造成的亮度差异等,预处理之后形成海量的原始的遥感影像数据,并将其保存到Hbase数据库中。

在本申请的一种实施例中,在基于高性能并行计算框架Spark的基础上实现对影像数据一系列处理。Spark是专为大规模数据处理而设计的快速通用的计算引擎,是一种基于内存的快速、可扩展的大数据并行计算框架。Spark主要有三个特点。首先,高级API剥离了对集群本身的关注,Spark应用开发者可以专注于应用所要做的计算本身;其次,Spark很快,支持交互式计算和复杂算法;最后,Spark是一个通用引擎,可用它来完成各种各样的运算,包括SQL查询、文本处理、机器学习等,而在Spark出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。它集批处理、实时流处理、交互式查询、图计算与机器学习于一体。利用Spark框架可以更高效地对遥感影像数据进行数据挖掘。

在本申请的一种实施例中,利用决策树算法对分布式数据库中原始的影像数据进行分类处理,具体包括:

利用C4.5决策树算法对原始的影像数据进行分类处理,然后利用OpenCV的膨胀腐蚀算法进行降噪处理,最后使用城镇成排区域提取算法进行城镇区域提取,分类结果为,将影像中的数据分为两类,一种为城镇区,一种为非城镇区,在影像上体现为两种不同的颜色。如图4所示,深颜色的表示城镇区,浅色的表示非城镇区。C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。C4.5是Ross Quinlan在1993年在ID3的基础上改进而提出的。C4.5决策树的提出完全是为了解决ID3决策树的一个缺点,当一个属性的可取值数目较多时,那么可能在这个属性对应的可取值下的样本只有一个或者是很少个,那么这个时候它的信息增益是非常高的,这个时候纯度很高,ID3决策树会认为这个属性很适合划分,但是较多取值的属性来进行划分带来的问题是它的泛化能力比较弱,不能够对新样本进行有效的预测,C4.5还弥补了ID3中不能处理特征属性值连续的问题。

在本申请的一种实施例中,对Spark中的master节点进行单点故障排除,保持系统稳定运行;

其余节点除了对数据进行并行计算外,还要保证计算结果的准确性,需要对相同数据两次计算进行结果校验;

其余节点包括,slave节点。

搭建Spark计算集群,为了保证对遥感影像数据分析的准确性,需要对传统的Spark模式进行修改:master节点即主节点,slave节点即子节点或从节点,对master节点,进行单点故障排除,master节点不参与对数据的计算,只负责管理与决策。其余节点除了对数据进行并行计算外,还需要对相同数据进行两次计算,对计算结果校验以保证计算结果的准确性。通常分布式系统采用主从模式,一个主机连接多个处理节点,主节点负责分发任务,而子节点负责处理业务,当主节点发生故障时,会导致整个系统发故障,我们把这种故障叫做单点故障。如图2中所示,传统解决单点故障问题是,一般会多加一个备用主节点,备用主节点会发送一个ping包给主节点,主节点收到这个ping包后会给备用主节点相应一个ack字节包作为回应,备用主节点通过是否收到ack字节包来判断主节点是否正常运行,没有收到则认为主节点已经故障并顶替主节点的位置。

在本申请的一种实施例中,通过定义的城镇成排区域提取算法对处理后的影像数据中的城镇区域进行提取,具体包括:

将处理后的影像数据离散化,对离散化后的影像数据中所有的像素点遍历,设置像素点数量阈值,对分类结果中大于或者小于像素点数量阈值的区域的颜色更改成相邻像素点颜色中数量最多的颜色。重复进行像素点的遍历,直到所有区域的数量均满足像素点数量阈值。

用计算机处理的遥感影像必须是数字图像,首先对加工过后的遥感影像离散化,对图像的每个像素点遍历,若当前有一像素点c没有被遍历过,则将当前像素点c作为入口点开始进行回溯,若当前像素点c相邻的八个相邻像素点中存在某个像素点n的颜色与当前像素点c的颜色相同且像素点n未被遍历过,则将像素点n入栈,对像素点n重复上述过程,直到当前区域的最后一个像素点L即L的八个相邻像素点中没有与L颜色相同的地物或者没有未被遍历过的相同颜色的像素点,则此次回溯结束。将图像矩阵中的所有的在此次回溯中入栈的像素点的id设置为i(i是当前第i次回溯),记录当前回溯的入口点坐标,当前区域的id,当前区域的像素点数量,以及当前区域的颜色,继续对图像遍历,重复执行上述过程,直至所有的像素点被遍历。

设置像素点数量阈值,对分类结果中大于或者小于像素点数量阈值的区域的颜色更改成相邻像素点颜色中数量最多的颜色。利用1中的回溯点的入口坐标获取此区域的所有像素点,对此区域的像素点遍历,若当前像素点是该区域的边界点,则获取其周围的非相同区域的颜色,对该颜色计数。重复此过程直至该区域所有边界点遍历一次,求出与此区域相邻最多的颜色。将此区域的颜色更改成此颜色。重复执行上述像素点的遍历及颜色更改,直至所有区域的数量均满足设置的像素点数量阈值。

在本申请的一种实施例中,通过定义的城镇成排区域提取算法对处理后的影像数据中的城镇区域进行提取,具体包括:

获取离散化后的影像数据的邻接表,遍历当前区域,获取颜色与该区域的颜色不同的点,记录点并使用邻接表存储;

根据邻接表中的数据运算得到所有区域的二阶邻接关系。计算两个不同区域之间的邻接强度,若两个不同区域之间的邻接强度同时大于或等于预先设定的邻接强度阈值,则认为两个不同区域是成排出现的。

成排区域提取算法描述如下:

定义:邻接关系、二邻接关系:

如图3所示:A与B是邻接关系,B是A的右邻接,A与D是邻接关系,D是A的下邻接,B与C是邻接关系,C是B的右邻接,则A与C是二阶邻接关系。

定义:邻接强度:

假设区域A与区域C邻接,区域A边上的一点到区域B边上的一点的距离小于或等于设定的距离阈值,则此点为有效邻接强度计算点。找出A上所有有效邻接强度计算点的数量。然后利用公式:

A对B的邻接强度=A中A到B有效邻接强度计算点的数量/A的周长

则计算出了A对B的邻接强度。

利用遍历图像数据记录的像素点的id,遍历当前区域,若该区域中的第i个点下右两个方向上至少有一个点P的颜色与该区域的颜色不同,则该点是下边界点或右边界点,P是下邻接区域或者右邻接区域的点,记录点P的id并使用邻接表存储。

利用上述邻接表中数据求出邻接信息,并进行关系的复合运算R°R可得到所有区域的二阶邻接关系,例如:

R={<1,1>,<2,1>,<3,2>,<4,3>}

R°R={<1,1>,<2,1>,<3,1>,<4,2>}

将得到的二邻接关系存储。

求出每个区域的周长,遍历当前区域,若该区域中的第i个点上下左右四个方向上至少有一个点的颜色与该区域的颜色不同,则该点是边界区点,若是边界点则周长加一。当该区域中的所有点都遍历完时则周长计算完成。

对每个二邻接关系,A二邻接B,求A对B的邻接强度,以及B对A的邻接强度,若A对B的邻接强度与B对A的邻接强度同时大于或等于预先设定的邻接强度阈值,则认为A与B是成排出现的。

利用此算法提取后,得到的结果如图4所示:深色区域即为成排出现的城镇区域。利用此算法可以成功去除一些决策树算法中误分的区域,或者不是成排出现的非城镇区域。

在本申请的一种实施例中,采用实时任务与定时任务相结合的方式,对得到的处理后的遥感影像数据进行比对分析,具体包括:

实时采集遥感影像数据保存到分布式数据库中,每间隔一段时间便对分布式数据库中采集到的影像数据进行数据的挖掘与分析,提取城镇区域数据,与之前分析的数据进行比对,了解城镇扩张的情况。

不断地利用卫星遥感影响技术采集城镇的影像数据存储在数据库中,根据实际需要,可以间隔一年、两年、3个月或8个月定时对数据库中的影像数据进行分析,将分析出的数据与之前分析出的数据进行比对,及时了解城镇扩张的情况。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号