公开/公告号CN113191553A
专利类型发明专利
公开/公告日2021-07-30
原文格式PDF
申请/专利权人 深圳市数字城市工程研究中心;北京大学;
申请/专利号CN202110491470.2
申请日2021-05-06
分类号G06Q10/04(20120101);G06Q10/06(20120101);G06Q50/08(20120101);G06K9/62(20060101);
代理机构11002 北京路浩知识产权代理有限公司;
代理人谭云
地址 518000 广东省深圳市福田区香蜜湖街道红荔西路8007号土地房产交易大厦1129室
入库时间 2023-06-19 12:02:28
技术领域
本发明涉及人口空间分布技术领域,尤其涉及一种基于建筑物尺度的人口空间分布估算方法及系统。
背景技术
人口分布数据可以反映一个地区的自然条件和经济发展水平,精细尺度的人口空间分布数据可以应用到许多领域,比如灾害管理、资源分配和智慧城市建设等。传统的人口分布数据往往是通过人口普查得到的,这种方法虽然十分准确,但是也有一些明显的缺点:第一,成本高,花费的时间很长;第二,人口普查往往是在行政区单元尺度上进行的,其空间分辨率较低,因此不能完整的表现行政区内部的人口分布差异。
为了能够更好的与其他空间数据进行交互,真实的反映人口在空间上的分布特征,有必要使用自动化程度较高的方法对精细尺度上的人口分布进行估算。
发明内容
本发明提供一种基于建筑物尺度的人口空间分布估算方法及系统,用以解决现有技术中人口估算存在成本高、花费时间长以及不能完成标准行政区内部人口分布差异的问题,实现精细的人口空间分布估算。
本发明提供一种基于建筑物尺度的人口空间分布估算方法及系统,包括:
获取建筑物的分类数据,所述分类数据用于描述建筑物的类别;
根据所述分类数据,计算所述建筑物的总面积;
构建随机森林算法模型,根据所述建筑物的总面积估算所述建筑物尺度上的人口数量。
根据本发明所述的基于建筑物尺度的人口空间分布估算方法,所述获取建筑物的分类数据包括:
将获取的城市规划数据和建筑物矢量数据进行叠加,得到建筑物数据,所述建筑物数据包括城市功能区数据;
对所述建筑物数据进行分类,得到城市住宅数据和农村住宅数据;
基于所述城市功能区数据,将所述城市住宅数据进行分类,得到独栋住宅建筑数据、普通住宅建筑数据以及密集住宅建筑数据。
根据本发明所述的基于建筑物尺度的人口空间分布估算方法,所述城市功能区数据包括城市规划数据、建筑物矢量数据、大学校园区数据以及城市功能区产品数据的一种或多种组合。
根据本发明所述的基于建筑物尺度的人口空间分布估算方法,所述获取建筑物的分类数据,包括:
通过卫星获取建筑物对应的遥感数据;
基于所述遥感数据,并根据建筑物分类特征,得到所述建筑的分类数据。
根据本发明所述的基于建筑物尺度的人口空间分布估算方法,所述根据所述分类数据,计算所述建筑物的总面积,包括:
在所述分类数据的格网上计算兴趣点POI密度,其计算公式为:
其中,n是与第i个单元相交的格网数量,p
基于所述兴趣点POI密度,计算植被覆盖面积比,其计算公式为:
其中,G
根据植被覆盖面积比,计算建筑物的总面积,其计算公式为:
A
其中,A
根据本发明所述的基于建筑物尺度的人口空间分布估算方法,在所述分类数据的格网上计算兴趣点POI密度,包括:
使用核密度分析在分辨率为30m的格网上计算各个兴趣点POI密度,每个兴趣点POI密度是其所相交格网的平均兴趣点POI密度。
根据本发明所述的基于建筑物尺度的人口空间分布估算方法,所述根据所述分类数据,计算所述建筑物的总面积,还包括:
根据所述兴趣点POI密度,计算兴趣点POI密度与人口密度之间的皮尔逊相关系数,其计算公式为:
其中,X
基于所述皮尔逊相关系数,计算植被覆盖面积比;
其中,所述皮尔逊相关系数表示兴趣点POI密度与人口密度的相关性程度。
本发明还提供了一种基于建筑物尺度的人口空间分布估算系统,包括:
分类模块,用于获取建筑物的分类数据,所述分类数据用于描述建筑物的类别;
计算模块,用于根据所述分类数据,计算所述建筑物的总面积;
估算模块,用于构建随机森林算法模型,根据所述建筑物的总面积估算所述建筑物尺度上的人口数量。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于建筑物尺度的人口空间分布估算方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于建筑物尺度的人口空间分布估算方法的步骤。
本发明提供的一种基于建筑物尺度的人口空间分布估算方法及系统,基于建筑物的分类数据,通过构建随机森林算法模型实现对建筑物尺度上的人口数量进行估算,可应用于社会资源分析、紧急疏散、商业决策和城市规划等领域,具有较高的社会价值。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于建筑物尺度的人口空间分布估算方法的流程示意图;
图2是本发明提供的获取分类数据的流程示意图;
图3是本发明提供的计算建筑物总面积的流程示意图;
图4是本发明一实施例提供的建筑物的分类数据的示意图;
图5是本发明一实施例提供的人口数量提取结果的示意图;
图6是本发明提供的基于建筑物尺度的人口空间分布估算系统的结构示意图;
图7是本发明提供的电子设备的结构示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
中国的城市化发展迅速,导致资源和要素带入城市。城市化和人类社会经济活动影响并改变了城市的地理景观,形成了不同类型的城市景观功能区(例如商业,住宅,工业,绿色和水域)。城市景观功能区数据对于分析城市空间格局,揭示城市化进程,评估城市生态环境以及促进城市土地规划和可持续发展至关重要。
现有的城市土地覆盖/利用数据不能完全反映城市景观功能,空间分辨率低,无法提供当地的详细信息,这限制了细粒度城市研究的发展。为了能够更好的与其他空间数据进行交互,真实的反映人口在空间上的分布特征,有必要使用自动化程度较高的方法对精细尺度上的人口分布进行估算。
下面结合图1-图7描述本发明的基于建筑物尺度的人口空间分布估算方法及系统。
图1是本发明提供的基于建筑物尺度的人口空间分布估算方法的流程示意图,如图1所示。一种基于建筑物尺度的人口空间分布估算方法,包括:
步骤101,获取建筑物的分类数据,所述分类数据用于描述建筑物的类别。
目前关于人口估算研究,通常使用的方法包括对称映射,多元回归和多因素融合(Batista,Gallego和Lavalle,2013;Steven等,2015;Zeng等,2011)。这些研究通常考虑了自然环境因素和社会经济因素的影响(Yang等,2019),在格网尺度(Balakrishnan,2019)或者建筑物尺度(Han等,2019)上对人口进行估计。
在格网尺度上对人口分布进行估计往往需要考虑尺度效应所带来的影响,不同的研究目标和区域需要的格网尺度不同,并且格网本身会破坏实际的地理边界。解决这个问题的方法是在建筑物尺度上对人口数量进行估算,但是目前大多数估计方法都没有考虑到建筑物类别不同所带来的空间异质性。
由于建筑物类别带来的空间差异性,不同类型的建筑物具有不同的人口密度,比如农村居民建筑的人口密度一般比大多数城市居民建筑的人口密度低。因此,本发明是在建筑物尺度上对人口数量进行估算,并且考虑了建筑物类别带来的空间异质性,从而实现本发明在建筑物尺度上对人口数量进行估算。
步骤102,根据所述分类数据,计算所述建筑物的总面积。
此外,还要考虑自然环境因素和社会经济因素对人口空间分布的影响,自然环境因素主要是地形地貌和植被等因素,可通过地形地貌和植被等因素计算建筑物的总面积。社会经济因素主要是交通、基础设施和服务业等因素。
优选的,本发明可使用兴趣点(Point of Interest,简称POI)数据和植被覆盖矢量数据对居民住宅的社会地理环境进行描述,所提取的社会地理环境特征人口密度与不同类别POI之间的相关系数(比如皮尔逊相关系数)和植被覆盖面积比。
优选的,POI是具有地理标识的空间特征物,包含名称、类别、经纬度等信息,可以直观有效地反映城市要素间的空间分布状况,POI与人类活动密切相关,因而与人口分布紧密联系。
步骤103,构建随机森林算法模型,根据所述建筑物的总面积估算所述建筑物尺度上的人口数量。
随机森林算法模型,是一种机器学习模型,比如神经网络。随机森林算法模型是通过随机的方式建立一个森林,森林里面由很多的决策树(决策树是一个树结构,可以是二叉树或非二叉树)组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入时,森林中的每一棵决策树分别进行判断,判断新的输入样本属于哪一类,然后判断哪一类被选择得多,就预测该样本为哪一类。
本发明是通过构建的随机森林模型在预设区域(比如街道)的尺度上进行训练,对建筑物尺度上的人口数量进行估计。
以下对上述所述步骤101~103进行描述。
图2是本发明提供的获取分类数据的流程示意图,如图所示。上述所述步骤101中,所述获取建筑物的分类数据包括:
步骤201,将获取的城市规划数据和建筑物矢量数据进行叠加,得到建筑物数据,所述建筑物数据包括城市功能区数据。
其中,所述城市规划数据是以行政区域划分的,比如按照省、市、区、街道等划分。
建筑物是城市区域的重要特征,由于高分辨率卫星影像包含着地表目标丰富的形状结构和纹理信息,使其成为城市研究的重要数据来源。所述建筑物矢量数据可通过现有技术获取到。
优选的,可通过卫星获取建筑物对应的遥感数据,所述遥感数据包括城市规划数据和建筑物矢量数据。
步骤202,对所述建筑物数据进行分类,得到城市住宅数据和农村住宅数据。
步骤203,基于所述城市功能区数据,将所述城市住宅数据进行分类,得到独栋住宅建筑数据、普通住宅建筑数据以及密集住宅建筑数据。
其中,所述城市功能区数据包括城市规划数据、建筑物矢量数据、大学校园区数据以及城市功能区产品数据的一种或多种组合。
因此,将建筑物数据分类为独栋住宅建筑数据、普通住宅建筑数据、密集住宅建筑数据以及农村住宅建筑数据,有利于基于不同类型的居民建筑物估算不同的人口密度。
图3是本发明提供的计算建筑物总面积的流程示意图,如图所示。上述所述步骤102中,根据所述分类数据,计算所述建筑物的总面积,包括:
步骤301,在所述分类数据的格网上计算POI密度,其计算公式为:
其中,n是与第i个单元相交的格网数量,p
优选的,可使用核密度分析在分辨率为30m的格网上计算各个POI密度,每个单元的POI密度是其所相交格网的平均POI密度,每个单元可以是某个建筑物或某个街道。
步骤302,根据所述POI密度,计算POI密度与人口密度之间的皮尔逊相关系数,其计算公式为:
其中,X
皮尔逊相关系数(Pearson correlation coefficient),用于反映两个随机变量之间的线性相关程度。ρ
通过上述皮尔逊相关系数的计算公式,可计算出每个单元的POI密度与人口密度之间的相关性,可选取皮尔逊相关系数的相关性最高的POI密度计算植被覆盖面积比。
步骤303,基于所述皮尔逊相关系数,计算植被覆盖面积比,其计算公式为:
其中,G
所述植被覆盖面积比通常是指森林面积占土地总面积之比,一般用百分数表示。本发明使用POI密度数据和植被覆盖矢量数据对居民住宅的社会地理环境进行描述,所提取的社会地理环境特征人口密度与不同类别POI密度之间的相关系数和植被覆盖面积比。
步骤304,根据植被覆盖面积比,计算建筑物的总面积,其计算公式为:
A
其中,A
根据上述计算,每个单元拥有(1)公园密度;(2)研究机构密度;(3)餐饮密度;(4)旅游景点密度;(5)休闲娱乐场所密度;(6)地标密度;(7)商场密度;(8)交通服务质量;(9)公共服务质量;(10)植被覆盖比;(11)独栋住宅建筑面积;(12)普通住宅建筑面积;(13)密集住宅建筑面积和农村住宅建筑面积,共13个特征。
具体的,将上述计算得到的13个街道尺度特征作为随机森林模型的自变量,该街道上人口数量作为其因变量,进行训练和测试。随机森林算法是一种典型的集成学习方法,其通过将多个决策树集成来提高模型的拟合能力。
决策树是一种机器学习分类回归方法,其通过训练数据,在每个节点选出能够使当前增益最大的特征对样本进行划分。常用的信息增益计算方法为信息熵,其计算公式如下:
其中pi表示某一类别出现的概率。假如输入当前节点的样本有特征[f_1,f_2,...,f_(n-1),f_n],对每个特征分别计算其信息增益,选择能够使当前节点信息增益最大的特征作为划分特征对样本进行分类,直到达到算法设定的阈值条件。
随机森林算法是对决策树算法的集成,常用的集成方法有Bagging(Bootstrapaggregating,引导聚集算法)和Boosting(提升方法)。本发明使用Bagging方法,即在m个样本的数据集中先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过m轮随机采样,得到m个样本的采样集,使用这m个样本集计算得到m棵决策树,将这m棵决策树的分类结果求平均,作为最终随机森林的预测结果。
本发明中,分别计算街道和建筑物两个尺度单元的特征,由于单个建筑物尺度的人口分布数据不易获得,而街道尺度的人口分布数据获取相对容易,因此使用街道尺度的单元特征进行随机森林模型的训练和测试,对建筑物尺度的单元特征进行预测。
在训练阶段,将街道尺度下各个街道的13个特征作为自变量输入随机森林模型,各个街道的人口数量作为随机森林需要预测输出的值,对模型进行训练。在预测阶段,将建筑物尺度下各个建筑物的13个特征作为训练好的随机森林模型的输入,预测各个建筑物的人口数量。
以下通过一实施例对本发明所述基于建筑物尺度的人口空间分布估算方法及系统进行描述。
以某市人口分布估算为例,通过使用某市建筑物矢量数据、功能区划分数据、大学校园边界数据、POI数据、某市人口分布数据等多源空间数据,对某市居民建筑物进行了人口数量估算。
比如,某市的功能区划分数据可根据实际需求划分为12类,如下表所示:
步骤一,获取某市的建筑物数据,比如某市的城市功能区数据、建筑物矢量数据、大学校园数据和城市规划数据。
步骤二,根据获取某市的建筑物数据对某市的居民建筑物进行分类,得到独栋住宅建筑、普通住宅建筑、密集住宅建筑和农村住宅建筑四个类别的数据(如图4所示),图4从a~d依次为这四种住宅区的遥感影像。从图4中,可以观察出不同的居民建筑物有很大的差别,其人口分布也具有很强的空间异质性,这说明对居民建筑物的分类是有必要的。
步骤三,使用某市的POI密度数据和植被覆盖数据计算其各项居住指标,包括计算出建筑物的总面积。
使用核密度分析在分辨率为30m的格网上计算各种POI的分布密度,每个单元(街道或者建筑物)的POI密度是其所相交格网的平均POI密度,计算如下:
其中,n是与第i个单元相交的格网数量,p
计算各类POI与人口密度之间的皮尔逊相关系数,如下:
其中,X
计算每个单元植被覆盖面积比,如下:
其中,G
计算建筑物的属性,主要是根据建筑物矢量数据计算建筑物总面积,如下:
A
其中,A
由于构建的随机森林算法模型训练使用的是街道尺度的数据,回归估算的是使用建筑物尺度的人口分布数据,因此在计算时需要分别在两个单元尺度下计算其各项指标,即通过上述计算公式最终计算出每个单元包含13项衡量居住环境的指标,如下:
利用POI数据计算得到:(1)公园密度;(2)研究机构密度;(3)餐饮密度;(4)旅游景点密度;(5)休闲娱乐场所密度;(6)地标密度;(7)商场密度;(8)交通服务质量;(9)公共服务质量;
利用植被覆盖数据计算得到:(10)植被覆盖比;
利用城市功能区等数据计算得到:(11)独栋住宅建筑面积;(12)普通住宅建筑面积;(13)密集住宅建筑面积和农村住宅建筑面积。
步骤四,建立随机森林算法模型,使用街道尺度的数据进行训练和测试,预测估算建筑物尺度上的人口分布密度。
具体的,使用Python或者R语言(The R Programming Language)编写随机森林算法模型,使用街道尺度下该市每个街道的13个特征和人口分布分别作为模型的自变量和因变量,调节模型参数并进行训练,对最终训练好的模型保存模型参数。
在预测阶段,使用训练好的模型,将单个建筑物尺度下该市每个建筑物的13个特征作为模型的自变量输入,预测各个建筑物的人口数量。
通过上述步骤计算,最终得到平均绝对百分比误差为19%,效果较好。计算结果如图5所示a-d分别为栋住宅建筑、普通住宅建筑、密集住宅建筑和农村住宅建筑的人口密度估算结果。
下面对本发明提供的基于建筑物尺度的人口空间分布估算系统进行描述,下文描述的基于建筑物尺度的人口空间分布估算系统与上文描述的基于建筑物尺度的人口空间分布估算方法可相互对应参照。
图6是本发明提供的基于建筑物尺度的人口空间分布估算系统的结构示意图,如图所示。一种基于建筑物尺度的人口空间分布估算系统600,包括分类模块610、计算模块620以及估算模块630。其中,
分类模块610,用于获取建筑物的分类数据,所述分类数据用于描述建筑物的类别。
计算模块620,用于根据所述分类数据,计算所述建筑物的总面积。
估算模块630,用于构建随机森林算法模型,根据所述建筑物的总面积估算所述建筑物尺度上的人口数量。
优选的,所述分类模块610,还用于执行如下步骤:
将获取的城市规划数据和建筑物矢量数据进行叠加,得到建筑物数据,所述建筑物数据包括城市功能区数据;
对所述建筑物数据进行分类,得到城市住宅数据和农村住宅数据;
基于所述城市功能区数据,将所述城市住宅数据进行分类,得到独栋住宅建筑数据、普通住宅建筑数据以及密集住宅建筑数据。
优选的,所述城市功能区数据包括城市规划数据、建筑物矢量数据、大学校园区数据以及城市功能区产品数据的一种或多种组合。
优选的,所述分类模块610,还用于执行如下步骤:
通过卫星获取建筑物对应的遥感数据;
基于所述遥感数据,并根据建筑物分类特征,得到所述建筑的分类数据。
优选的,所述计算模块620,还用于执行如下步骤:
在所述分类数据的格网上计算兴趣点POI密度,其计算公式为:
其中,n是与第i个单元相交的格网数量,p
基于所述兴趣点POI密度,计算植被覆盖面积比,其计算公式为:
其中,G
根据植被覆盖面积比,计算建筑物的总面积,其计算公式为:
A
其中,A
优选的,所述计算模块620是使用核密度分析在分辨率为30m的格网上计算各个兴趣点POI密度,每个兴趣点POI密度是其所相交格网的平均兴趣点POI密度。
优选的,所述计算模块620,还用于执行如下步骤:
根据所述兴趣点POI密度,计算兴趣点POI密度与人口密度之间的皮尔逊相关系数,其计算公式为:
其中,X
基于所述皮尔逊相关系数,计算植被覆盖面积比;
其中,所述皮尔逊相关系数表示兴趣点POI密度与人口密度的相关性程度。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行所述基于建筑物尺度的人口空间分布估算方法,包括:
获取建筑物的分类数据,所述分类数据用于描述建筑物的类别;
根据所述分类数据,计算所述建筑物的总面积;
构建随机森林算法模型,根据所述建筑物的总面积估算所述建筑物尺度上的人口数量。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的所述基于建筑物尺度的人口空间分布估算方法,包括:
获取建筑物的分类数据,所述分类数据用于描述建筑物的类别;
根据所述分类数据,计算所述建筑物的总面积;
构建随机森林算法模型,根据所述建筑物的总面积估算所述建筑物尺度上的人口数量。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的所述基于建筑物尺度的人口空间分布估算方法,包括:
获取建筑物的分类数据,所述分类数据用于描述建筑物的类别;
根据所述分类数据,计算所述建筑物的总面积;
构建随机森林算法模型,根据所述建筑物的总面积估算所述建筑物尺度上的人口数量。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
机译: 人口规模估算方法,人口估算方法,基因表达分析方法,数据分析方法,敏感性测量方法,程序,记录介质和人口规模估算系统
机译: 人口流动性估算系统,人口流动性估算方法和人口流动性估算程序
机译: 人口流动性估算系统,人口流动性估算方法和人口流动性估算程序