首页> 中国专利> 一种基于功能混合度和集成学习的城市功能区识别方法

一种基于功能混合度和集成学习的城市功能区识别方法

摘要

本发明涉及一种基于功能混合度和集成学习的城市功能区识别方法,属于数字信息技术领域。该方法执行如下步骤:1)收集数据以及预处理;2)构建所述城市功能区的识别体系的10个指标特征;3)结构化指标;通过空间统计工具统计各宗地所对应的10个指标特征数据;4)自变量数据集构建;5)响应变量标记;6)根据功能混合度将训练数据集划分为若干子训练集;7)基于Stacking策略的集成学习训练;8)属性表连接完成该宗地的功能区识别。本发明通过对功能混合度进行分级的方式将训练集分开并让预测集数据按照对应功能混合度进行预测,提供了一种较为准确挖掘城市功能区类型和城市特征之间的相关性,实现城市特征映射城市功能区类型识别的方法。

著录项

  • 公开/公告号CN114969007A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN202210621710.0

  • 申请日2022-06-01

  • 分类号G06F16/215(2019.01);G06K9/62(2022.01);G06Q10/06(2012.01);

  • 代理机构南京行高知识产权代理有限公司 32404;

  • 代理人赵洪玉

  • 地址 210023 江苏省南京市栖霞区仙林大道163号

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/215 专利申请号:2022106217100 申请日:20220601

    实质审查的生效

说明书

技术领域

本发明涉及一种基于功能混合度和集成学习的城市功能区识别方法,属于数字信息技术领域。

背景技术

我们可以重新探索城市环境。而规划的前提就是先了解我们现有的城市功能格局,过去的城市功能区识别方法识别效率低,动态程度差,并且城市由“地”与“人”以及“人地关系”组合而成,“人”的作用不可忽视。

近年来,城市功能区布局的合理性受到挑战。

城市功能区一直是城市规划关注的重点,过去有学者通过遥感方法获取土地利用、统计调查等对城市功能进行划分,虽然以遥感为基础的方法能够捕捉城市功能区的物理变化,但它们不能展现与城市功能区有关的社会信息和经济信息;并且这种传统方法数据获取周期长,受主观判断影响也较大。

过往的一些研究中将城市POI数据与其他时空大数据结合,使用聚类分析、人口热度以及密度分析等传统地理分析方法进行功能分区的识别,在阈值的选择上具有主观性,且由于大数据结构复杂,使用传统地理分析方法不能更好的揭示内部规律,处理效率也较低。并且少有研究使用了集成学习方法进行城市功能区识别的研究,城市功能区识别采用的多源数据具有数据间的差异,亟需集成学习方法来揭示复杂的内在机制。

发明内容

本发明要解决的技术问题是:如何更好地挖掘城市功能区类型和城市特征之间的相关性,实现城市特征映射城市功能区类型的方法。

为了解决上述技术问题,本发明提出的技术方案是:一种基于功能混合度和集成学习的城市功能区识别方法,执行如下步骤:

1)收集数据以及预处理;按照所述城市的城市空间分异和社会分异获取相应的源数据;

所述预处理包括城市功能区的划分、脏数据清洗和研究单元划分;

所述脏数据清洗是指从所述源数据剔除存在缺失、错误、重复或格式不统一的数据;

所述城市功能区划分是指将所述城市划分成各个城市功能区的过程;

所述研究单元划分是以所述城市路网数据为基础形成若干小的封闭的宗地的过程;

2)构建所述城市功能区的识别体系的10个指标特征,所述指标特征用于描述所述城市空间分异或所述社会分异;

3)结构化指标;通过空间统计工具统计各宗地所对应的10个指标特征数据;

4)自变量数据集构建;以步骤3)中各宗地所对应的10个指标特征数据建立宗地的属性集合,并保留对应宗地的名称;

5)响应变量标记;选取部分宗地作为训练数据集,并标注对应的功能区编号,其余宗地作为预测集使用;

6)根据功能混合度将训练数据集划分为若干子训练集;将相同或相近的功能混合度的宗地划入同一子训练集,并形成以功能混合度逐级增加或逐级减小的若干子训练集;

7)基于Stacking策略的集成学习训练;采用RF、GBDT、SVM和BPNN四种机器学习算法作为Stacking集成策略模型的第1级,采用XGBoost作为Stacking集成策略模型的第2级;对步骤6)中各子训练集进行单独训练,并对与各子训练集功能混合度所在级别相同的预测集进行预测;

8)属性表连接;通过各宗地的名称将步骤7)的预测结果与对应宗地挂钩,从而完成该宗地的功能区识别。

上述技术方案的改进是:所述数据源包括建筑物数据、生态源地数据、公交站数据、地铁站数据、数字高程数据、网约车需求数据、微博签到数据和手机信令数据;其中建筑物数据、生态源地数据、公交站数据、地铁站数据和数字高程数据用于描述所述城市的城市空间分异;网约车需求数据、微博签到数据和手机信令数据用于描述所述城市的社会分异。

上述技术方案的改进是:所述城市功能区划分参考GBT21010-2017《土地利用现状分类》中地用地分类标准一级类将城市功能区分为居住用地、工业用地、公共服务设施用地、商业服务业设施用地、道路交通用地和其他用地;对其中的二级类中的用地类型有所调整,特殊用地中的宗教丧葬用地、旅游用地以及公共服务设施用地中的绿地与公园被归为其他用地;排除采矿用地、农村道路、管道运输用地、物流与仓储用地、军事设施用地和使领馆用地。

上述技术方案的改进是:所述脏数据清洗是指从所述城市的社会分异获取的源数据中剔除存在缺失、错误、重复或格式不统一的数据。

上述技术方案的改进是:利用OpenStreetMap地图开放平台的道路数据,保留部分等级道路,并修剪未闭合的路段。

上述技术方案的改进是:所述10个指标特征分别为,POI用途类型、坡向、坡度、建筑容积率、生态绿地区域、范围地铁覆盖、范围公交覆盖、至主干道举例、各类人群到达次数和城市活力。

本发明的有益效果是:本发明通过对功能混合度进行分级的方式将训练集分开并让预测数据集按照对应功能混合度进行预测,有效提高了各预测集的精度,提供了一种较为准确,且与城市功能区类型和城市特征之间的相关的城市特征映射城市功能区类型的识别方法。

附图说明

图1是本发明实施例的一种基于功能混合度和集成学习的城市功能区识别方流程图。

图2是本发明实施例的10个指标特征对照关系。

图3是本发明实施例的研究区的宗地划分图示。

图4是本发明实施例对研究区城市功能区识别后的结果。

具体实施方式

实施例

本实施例以南京市中心城区作为研究去,去阐释如图1所示的一种基于功能混合度和集成学习的城市功能区识别方法,执行如下步骤:

1)收集数据以及预处理(由于是数据准备过程因此图中未示出);按照所述城市的城市空间分异和社会分异获取相应的源数据;

采用Openstreetmap地图开放平台所提供的道路数据划分研究,使用建筑物数据、生态源地数据、公交站数据、地铁站数据、数字高程数据等刻画南京市城市空间分异,使用网约车需求数据、微博签到数据和手机信令数据来描绘社会分异现象。各类数据的数据类型、数据大小和数据来源具体见表1。

表1 数据来源

所述预处理包括城市功能区的划分、脏数据清洗和研究单元划分;

所述脏数据清洗是指从所述源数据剔除存在缺失、错误、重复或格式不统一的数据;

脏数据指的是存在缺失、错误、重复或者格式不统一的数据,将脏数据从数据库中剔除的过程被称为数据清洗,数据清洗是数据预处理的重要步骤。借助Python3.7.9的Pandas库进行手机信令数据、微博签到数据、网约车需求数据和城市兴趣点数据的脏数据清洗,清洗标准如表2所示。

表2 手机信令数据清洗标准

所述城市功能区划分是指将所述城市划分成各个城市功能区的过程;

所述城市功能区划分参考GBT21010-2017《土地利用现状分类》中地用地分类标准一级类将城市功能区分为居住用地、工业用地、公共服务设施用地、商业服务业设施用地、道路交通用地和其他用地;对其中的二级类中的用地类型有所调整,特殊用地中的宗教丧葬用地、旅游用地以及公共服务设施用地中的绿地与公园被归为其他用地;排除采矿用地、农村道路、管道运输用地、物流与仓储用地、军事设施用地和使领馆用地。

所述研究单元划分是以所述城市路网数据为基础形成若干小的封闭的宗地的过程;

选取Openstreetmap地图开放平台下载的道路数据“gis_osm_railways_free”以及“gis_osm_roads_free”。利用数据中“fclass”属性选择不同等级道路,保留“primary”(主要道路)、“primary_link”(主要道路-连接)、“secondary”(次要道路)、“secondary_link”(次要道路-连接)、“tertiary”(第三级道路)、“tertiary_link”(第三级道路-支路)、“trunk”(干道)、“trunk_link”、“cycleway”(自行车道)、“motorway”(高速公路)、“motorway_link”(高速公路-连接)属性,并修剪未闭合的路段。对照地理配准后的南京市哨兵2号遥感影像,使用 Arcgis矢量化工具补充南京市中心城区内的在建道路,完善南京市城市道路网。最后利用南京市河网数据结合以上道路网数据,划分出南京市城市宗地结果,所以南京市中心城区的宗地由城市道路和城市内河网围合而成,是单一的封闭地块,划分结果如图3所示。

2)构建所述城市功能区的识别体系的10个指标特征,所述指标特征用于描述所述城市空间分异或所述社会分异;

具体从用途分类、自然条件、政策限制、交通条件、行为活动和城市活力6个层面出发,包含POI用途类型(含等级规模和影响力权重)、坡向、坡度、建筑物容积率、生态绿地区域、地铁覆盖、公交覆盖、至主干道距离、各类人群到达次数、城市活力10个特征指标。可参照图2的对应关系。

3)结构化指标;通过空间统计工具统计各宗地所对应的10个指标特征数据;

31)用途指标,根据《中国现行的业态分类标准》(GB T18106-2010),引入规模权重评价兴趣点的规模和占地面积,规模权重选择面积区间的中位数,例如业态规模标准中的小型超市面积区间为200m

为描述不同兴趣点的影响力,本实施例使用AHP层次分析法,引入影响力权重来区分不同兴趣点的影响力差异,利用Yaahp软件构建具有决策目标、中间层要素和备选方案的AHP 层次分析法结构模型,根据各要素(兴趣点类型)之间的重要性比较,确定和构造判断矩阵,汇总得到不同类型兴趣点的影响力权重。

由于规模权重和影响力权重衡量指标数值差异大,为实现合理的权重调和过程,将规模权重和影响力权重进行归一化处理,并将规模权重归一化结果和影响力权重归一化结果相加得到总权重,公式如下:

其中W

测算出的兴趣点各类权重结果如表3所示。

表3兴趣点权重指标表

统计划定的各宗地的兴趣点权重分数,汇总6类功能区类型在各宗地的占比情况,进行对比后确定地块的功能区类型,统计公式如下:

其中S

F

其中F

在划定宗地矢量文件的属性表内标记第i个宗地的用途分类为F

表4 功能区标记编号表

32)自然条件对于区分农用地、建设用地和未利用地的意义重大,对于建设用地内部的功能区分类也具有辅助作用,例如其他用地中的旅游用地一般位于地表起伏较大的山川湖泊附近.选择坡度和坡向作为自然条件的指标,可以区分出一些特殊的其他用地。利用Arcgis10.3 空间分析工具集的坡度工具和坡向工具分析哨兵2号的DEM数据,得到坡度数据和坡向数据。统计划定的各宗地的坡度和坡向平均值,进行汇总和标记。

33)政策限制,政策引导是优化城市功能区的重要方面,面对城市功能结构中的不合理性,政策的规划导向作用越来越明显,政策通过提升城市功能空间的适宜性来助力城市发展,也通过限制条件来规范城市功能空间的合理性布局。本实施例选择生态重要区域和容积率两个因素来作为政策限制指标。

(1)生态重要区域

在城市的重要生态区域内,建设用地被限制和禁止蔓延,重要生态区域内具有丰富的资源、生态、环境和历史文化价值,是优良的旅游资源,可以区分其他用地以及居住用地、工业用地、商业服务业设施用地、公共服务设施用地和道路交通用地。在重要生态区域内的地块设置严格的识别标签,新建生态限制属性列,除其他用地外,生态重要区域内不标记其他功能区类型数值,范围内宗地赋值为其他用地的标签(表4),生态重要区域外宗地该属性列赋值为0。

(2)容积率限制

另外需要考虑的重要因素的是城市建设的容积率要求,容积率是城市功能区划制度的核心指标,指的是地上建筑物的总面积与地块面积的比值,其中选择3米为单个楼层的高度,则容积率的计算公式如下:

其中Far为某块宗地的容积率数值,S

根据《江苏省城市规划管理技术规定》中的容积率指标标准,以及城市居住区规划设计规范》(GB50180-93)中的居住区用地平衡控制指标标准,可以区分居住用地、公共服务设施用地、商业服务业设施用地和工业用地,新区和旧区范围在城市总体规划中确定,按照容积率要求在属性表内新建容积率属性列,并标记宗地相应的功能区类型数值,如表5所示。

表5 容积率指标表

34)交通条件一定程度上决定了城市内居民和物资的流动,居民的出行半径和物流的运输距离都对城市内部空间结构和空间肌理产生了深远的影响,而城市内部的空间结构和空间肌理也决定了交通条件需求的空间异质性(Liu et al.,2012;Gong et al.,2022)。由于承载功能的差异,不同类型的功能区对于交通条件的需求是不同的,本实施例选择城市主干道、地铁站和公交站点三种交通数据来衡量交通条件空间异质性,至城市主干道的距离、地铁站覆盖率和公交车站覆盖率这三种交通因素也同样驱动了城市形态和城市肌理的演变。

在居住用地、商业服务业设施用地和重要的公共服务设施用地上,地铁站和公交站点的覆盖率较其余类型功能区高,对于居民步行可达的交通需要也较高。地铁站覆盖率的计算,使用Arcgis10.3中的缓冲区分析工具,计算城市内步行500米宗地覆盖的地铁站数量。公交站覆盖率的计算,同样使用Arcgis10.3中的缓冲区分析工具,计算城市内步行350米宗地覆盖的公交站数量。工业用地对于物流需求大,距离城市主干道近,与高速公路相通便利快速,可高效输入生产材料,高效输出生产产品。至城市主干道的距离的计算,使用Arcgis10.3中的距离分析工具,分析宗地至城市主干道欧式距离。

35)行为活动,在本实施例中提供用户脱敏信息属性的手机信令数据、微博签到数据和网约车数据都为大型CSV文件,数据量大,数据构成复杂。用户画像部分基于Python3.7.9环境,调用Pandas、Shapely、Geopandas等软件包进行数据清洗、数据结构化和数据整合,提高处理效率。

主要通过统计三类用户人群在各宗地上出现的次数来测度居民行为活动。首先通过数据属性将数据进行划分,划分出的每类数据代表某一种人群,这些数据均含有位置信息;其次通过Arcgis的空间连接工具统计每类人群出现在某块宗地上的次数;最终得到的宗地空间数据,含有每类人群出现次数的属性表。三类数据具体的人群划分过程如下:

手机信令用户属性主要包括三方面,第一方面是手机信令用户性别,性别包括男性和女性;第二方面是手机信令用户停留时长,由于停留时长可以区别常住人口还是短期流动人口,所以将手机信令用户停留时长分为停留时长小于7天和停留时长大于7天;第三方面是手机信令用户年龄,年龄可以区分人群的社会状态,所以将手机信令用户年龄分为小于25岁、25 岁至60岁和大于60岁,将小于25岁的人群定义为学龄人群,将25岁至60岁的人群定义为工作人群,大于60岁的为退休人群。根据以上手机信令用户属性,交叉组合可以获得12类手机信令用户,其中保留7类手机信令用户,如表6所示,分别是常住工作男性(性别男性、停留时长大于7天、年龄为25岁至60岁)、常住工作女性(性别女性、停留时长大于7天、年龄为25岁至60岁)、非常住工作人群(停留时长小于7天、年龄为25岁至60岁)、常住退休男性(性别男性、停留时长大于7天、年龄为60岁以上)、常住退休女性(性别女性、停留时长大于7天、年龄为60岁以上)、学龄人群(停留时长大于7天、年龄为25岁以下)。

微博用户属性主要包括两个方面,第一方面是微博用户性别,性别包括男性和女性;第二方面是微博用户签到时段,签到时段包括7:00-20:00以及20:00-次日7:00,分别作为日间签到数据和夜间签到数据。根据以上微博用户属性,交叉组合可以获得4类微博用户,如表 6所示,分别是日间签到男性(性别男性、签到时段为7:00-20:00)、日间签到女性(性别男性、签到时段为7:00-20:00)、夜间签到男性(性别男性、签到时段为20:00-次日7:00)、夜间签到女性(性别女性、签到时段为20:00-次日7:00)。

网约车用户属性包括打车时段和日期,其中打车时段被划分为7:00-9:00、9:00-16: 00、16:00-20:00、21:00-24:00以及00:00-24:00,分别代表早高峰、工作时段、晚高峰、夜间和全天;日期按照周末和工作日进行划分。根据以上网约车用户属性,并考虑研究目的,交叉组合可以获得10类手机信令用户,其中保留6类手机信令用户,如表6所示,分别是早高峰打车人群(打车时段为7:00-9:00、日期为工作日)、晚高峰打车人群(打车时段为16:00-20:00、日期为工作日)、工作时段打车人群(打车时段为9:00-16:00、日期为工作日)、夜间打车人群(打车时段为21:00-24:00、日期为工作日)、工作日打车人群(打车时段为00:00-24:00、日期为工作日)、周末打车人群(打车时段为00:00-24:00、日期为周末)。

表6 用户画像表

36)城市活力,考虑城市活力日间和夜间的动态差异,为综合考虑日夜城市活力,本研究选择NPP/VIIRS夜间灯光数据集和WorldPop人口密度数据集进行城市活力的测算,通过空间统计计算各宗地的夜间灯光平均值和人口密度平均值,夜间灯光平均值和人口密度平均值的和作为各宗地的城市活力值。

4)自变量数据集构建;以步骤3)中各宗地所对应的10个指标特征数据建立宗地的属性集合,并保留对应宗地的名称;

根据表3提供的规模权重和影响力权重,赋值于南京市城市兴趣点。根据公式4计算南京市中心城区内各城市功能在每块宗地上的占比情况,根据公式5得到每块宗地上占比最高的功能类型,判别宗地为该功能类型所对应的功能区类型。基于南京市2020年7月的哨兵二号DEM数据,利用坡度分析和坡向分析得到南京市中心城区的坡度和坡向数据;根据政策限制内容得到南京市中心城区内的生态绿地范围以及宗地容积率计算结果;空间分析得到地铁站覆盖率、公交站覆盖率和至城市主干道的距离这三个要素的测度结果;根据用户统计方法,基于单一宗地,对南京市中心城区范围内的手机信令用户、微博签到用户和网约车需求用户的各类人群进行统计;根据3.3.2的内容,统计单一宗地内的夜间灯光数据和人口密度数据的平均值。

5)响应变量标记;选取部分宗地作为训练数据集,并标注对应的功能区编号,其余宗地作为预测集使用;

通过实地调查用地功能、遥感影像目视解译以及街景地图判断的方法,在自变量集的第 25列标记若干个宗地(q块)的功能区类型,功能区类型标注编号见表7功能区标记编号表,最终形成q*25的训练数据集,其余不含第25列功能区类型的宗地(k-q块)作为预测数据集,不进行标记。

表7 功能区标记编号表

6)根据功能混合度将训练数据集划分为若干子训练集;将相同或相近的功能混合度的宗地划入同一子训练集,并形成以功能混合度逐级增加或逐级减小的若干子训练集;

其中功能混合度直接影响到宗地功能的单一程度,如果功能混合度较大,该宗地内部的功能识别机制越复杂。

单一地块内居住用地、公共服务设施用地、商业服务业设施用地、道路交通用地、工业用地和其他用地的混合程度代表了该地块的用地功能混合程度,混合程度越高说明该地块的用地功能越多样,而集成学习训练效果越差。利用城市POI(兴趣点)数据可以计算用地功能混合度,用地功能混合度的计算公式如下:

其中H

表8 兴趣点类别映射表

7)基于Stacking策略的集成学习训练;采用RF、GBDT、SVM和BPNN四种机器学习算法作为Stacking集成策略模型的第1级,采用XGBoost作为Stacking集成策略模型的第2级;对步骤6)中各子训练集进行单独训练,并对与各子训练集功能混合度所在级别相同的预测集进行预测;

利用公式7计算得到南京市中心城区用地功能混合度结果,南京市中心城区宗地用地混合度范围在0~1之间,根据宗地功能混合度的大小将训练数据集均分为12个子训练数据集,同一子训练集内的用地混合度处于同一范围,标记为S

由此可知,城市内发展不均衡,城市内用地混合度差异较大,针对大区域的城市功能区类型识别,需要利用用地混合度进行训练数据集的拆分,基于用地混合度将训练数据集拆分为子训练数据集,每个子训练数据集内的用地混合度相似。每个子训练集进行单独训练,并对与其相同用地混合度的预测集进行预测。

表9 不同用地混合度子训练集集成学习准确度对比表

8)属性表连接;通过各宗地的名称将步骤7)的预测结果与对应宗地挂钩,从而完成该宗地的功能区识别。

南京市中心城区城市功能区识别的可视化结果如图4所示,其中识别居住用地2007块,占比为34.1%;识别工业用地624块,占全部宗地的10.6%;公共服务设施用地被识别出1089 块,占比为18.5%;识别商业服务业设施用地1065块,占比为18.0%;识别道路交通用地124 块、其他用地986块,分别占宗地总数的2.1%和16.7%

上述技术方案的改进是:所述10个指标特征分别为,POI用途类型、坡向、坡度、建筑容积率、生态绿地区域、范围地铁覆盖、范围公交覆盖、至主干道举例、各类人群到达次数和城市活力。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号