首页> 中国专利> 一种基于多源数据驱动的城市人群出行识别方法

一种基于多源数据驱动的城市人群出行识别方法

摘要

本发明公开了一种基于多源数据驱动的城市人群出行识别方法,所述方法如下:S1、爬取城市POI数据并对公交站点POI数据聚类,确定该聚类簇中心点以构建城市Voronoi图;S2、基于步骤S1中的数据对该城市的功能区域进行划分;S3、获取城市人群出行数据并进行聚类,确定该城市人群出行聚类的簇中心点;S4、将城市人群出行聚类的簇中心点展示到城市Voronoi图上,识别出该城市人群出行分布规律。本发明利用城市POI数据划分城市的功能区域,基于该城市的功能区域获取不同时间段的城市人群出行数据从而识别出不同时间段该城市的人群出行分布规律,为智慧城市的建设提供了依据。

著录项

  • 公开/公告号CN112288048A

    专利类型发明专利

  • 公开/公告日2021-01-29

    原文格式PDF

  • 申请/专利权人 湖南师范大学;

    申请/专利号CN202011573263.3

  • 发明设计人 张锦;张建忠;汪飞;郭芊;陈谏滔;

    申请日2020-12-28

  • 分类号G06K9/62(20060101);G06F16/951(20190101);

  • 代理机构43220 长沙市护航专利代理事务所(特殊普通合伙);

  • 代理人谢新苗

  • 地址 410081 湖南省长沙市麓山路36号湖南师范大学

  • 入库时间 2023-06-19 09:44:49

说明书

技术领域

本发明属于交通控制技术领域,具体涉及了一种基于多源数据驱动的城市人群出行识别方法。

背景技术

城市既是历史和文化的产物,也是社会和政治网络,还是经济体,城市的内涵超越了其自身形态,是高度结构化的复杂空间系统。合理的城市功能区规划是城市可持续发展的重要前提,而准确识别城市功能区对城市规划十分重要。好的城市功能区结构可以缓解交通拥堵、提高人们生活幸福度和合理利用资源等。目前,部分城市功能区规划仅根据土地使用类型现状数据和区域人口密度等社会经济统计数据来识别城市区域功能,导致功能区识别不够准确,而且也较少考虑人们社会活动因素与城市功能区间的联系,无法反映人类活动对区域功能动态变化的影响。时空轨迹数据作为城市大数据的重要组成部分,能够反映车辆行驶状况与人们的出行模式。并且利用轨迹数据进行功能区的划分与识别,能够帮助城市管理者更好地分析城市区域的功能性与人们出行的关系。

近年来,也有很多学者对城市功能区识别展开了相关研究,于翔(Yu X.Discovering Zones of Different Function Using Bus Smart Card Data and Poitsof Interest:A Case Study of Beijing.[D].Hangzhou: Zhejiang University,2014)使用公交 IC 卡刷卡数据及 POI 数据构建了城市功能区识别模型。蒋云良(Jiang Y L,Dong M X, Fan J etc. Research on identifying urban regions of differentfunctions based on POI data[J]. Journal of Zhejiang Normal University(Nat.Sci.), 2017,40(4):398-405)等人着眼于“功能区”这一概念,设计了一种基于兴趣点( Point of Interest,POI) 数据识别城市功能区的算法,使用POI数据对城市的各个区域进行了功能识别,并使用手机基站位置信息划分城市基本单元。出租车已成为城市交通系统中的重要组成部分,其运行状态、网络结构和活动空间分布对于揭示城市出行活动规律具有重要意义,其GPS数据被广泛应用于城市计算、城市规划等领域。陈世莉(Chen S L,Tao H Y,Li X L,等.Recognition of urban functional areas based on latentsemantic information—GPS Spatiotemporal Data Mining of Floating Vehicles inGuangzhou[J].Acta Geographica Sinica,2016,71(3) : 471-483)等人结合广州市浮动车辆 GPS 数据提出了一种基于语义信息的城市功能区识别方法,可识别出城市不同类型的功能区,从一个新的视角揭示城市功能区的形成及其机制。付鑫(Fu X,Yang Y,Sun H.Structural complexity and spatial differentiation characteristics of taxitrip trajectory network[J].Journal of Traffic and Transportation Engineering,2017,17(2) : 106-116)等通过对西安市出租车轨迹网络结构复杂性与空间分异特征的研究,揭示了城市居民活动的空间特征、活动规律及其与城市功能空间布局之间的相互影响作用。

对于公共出行数据与城市人群类型识别这两个方面,师富民(Shi F M. Researchon the Construction Method of Public Transport OD Matrix Based on IC CardData[D]. Jilin University, 2004)在其硕士论文中提出了利用IC卡刷卡数据的公交调查方法和数据处理的算法。具体包括通过公交IC卡数据库,判断出该次出行的起讫点,进而得到公交线路OD矩阵,但是该论文未对人群进行分类。牟彤(Mou T. Research onResident Travel Characteristics Analysis and Recommendation Based on MobilePhone Location Data[D]. Southwest Jiaotong University, 2019)对基于手机定位数据GPS对居民出行特征与出行推荐算法进行了研究,首先确定停留点的位置信息,采用了DBSCAN算法对轨迹数据进行挖掘分析,其次设计时空因素的推荐算法,给出不同时段不同居民适宜出行地点的针对性推荐,并结合实际案例,分析算法的可行性,本文也在考虑使用DBSCAN算法对轨迹数据进行挖掘分析,但本文将进一步结合POI进行识别与展示。对于POI数据,房佳萱(Fang J X. Research of Walking Accessibility Based On Poi InNanshan District,ShenZhen [D].Harbin Institute of Technology, 2017)在其硕士论文中基于POI对于深圳市南山区步行可行性评价研究中提出,人群在POI附近600米之内范围步行活动处于舒适和易于到达状态。王定(Wang D, Guo L, Lu Q B. Research onSpace Utilization of Wuhan Rail Transit Station Based on POI Data[C]. ChinaUrban Planning Society、Chongqing Municipal People's Government.Vibrant urbanand rural beautiful habitat——Proceedings of China Urban Planning AnnualConference 2019(05 New Technology Application in Urban Planning). China UrbanPlanning Society、Chongqing Municipal People's Government:China Urban PlanningSociety, 2019:1329-1338)等在基于POI数据的武汉市轨道交通站点空间使用研究中,对武汉市轨道交通站点类型进行识别,并分析不同类型轨道交通站点的形成机制,为轨道交通站点用地功能优化提供科学依据。袁晶(Yuan Jing,Zheng Yu,Xie Xing. Discoveringregions of different functions in a city using human mobility and POIs[C]//KDD 12th Proceedings of 18th ACM SIGKSS International Conference on KnowledgeDiscovery and Data Mining. Beijing: ACM,2012: 186-194)等提出了一个利用出租车GPS 轨迹数据和区域 POI 数据构成的 Discovers Regions of Different Functions框架。POI数据包括的类型全面,涉及各个层面,且抓取十分方便,这也是POI 数据被广泛使用的原因之一。

鉴于此,本发明研究了一种基于多源数据驱动的城市人群出行识别方法,该方法通过获取城市POI数据以对城市功能区进行划分,然后结合城市人群出行数据实现了对城市人群出行的活动情况进行准确分析,为智慧城市的建设提供了依据。

发明内容

为解决上述技术问题,本发明提供一种基于多源数据驱动的城市人群出行识别方法,所述方法包括以下步骤:

S1、爬取城市POI数据并对所爬取的城市POI数据中的公交站点POI数据进行聚类,然后确定公交站点POI数据聚类的簇中心点并根据所确定的公交站点POI数据聚类的簇中心点构建对应的城市Voronoi图;

S2、基于所述步骤S1中城市POI数据、公交站点POI数据聚类的簇中心点和城市Voronoi图对该城市的功能区域进行划分;

S3、获取所述城市不同时间段的人群出行数据并分别进行聚类,同时确定所述城市不同时间段的人群出行聚类的簇中心点;

S4、将步骤S3中确定的城市不同时间段的人群出行聚类的簇中心点分别展示到所述城市Voronoi图上,从而根据该城市的功能区域划分识别出所述城市不同时间段的人群出行分布规律。

优选地,所述城市POI数据按照该城市的功能区域进行分类,其包括餐饮服务、旅游景点、公共服务、公司企业、购物服务、科学,教育和文化服务、商务住宿、生活服务、体育娱乐,以及政府机构和社会团体十类功能性类别。

优选地,每一条所述城市POI数据中均包括经度、纬度、POI名称、地址、省份名称、城市名称、经营区域、big_type、meddle_type、small_type和所属辖区十一个属性。

优选地,所述步骤S1的具体实现方式包括:

S11、利用现有APP软件爬取城市的全部POI数据并对所爬取的全部POI数据进行清洗,然后选取该城市的公交站台POI数据并计算公交站台之间的实际距离,其计算公式表示为:

式(1)中,

S12、设定一个DBSCAN算法的半径参数和邻域密度阈值并进行聚类,然后将DBSCAN算法聚类后的簇的总数作为K-means算法中的K进行聚类,并确定K-means算法中公交站台POI数据聚类的簇中心点;

S13、根据K-means算法中公交站台POI数据聚类的簇中心点和城市POI数据构建对应的城市Voronoi图。

优选地,所述步骤S12中的半径参数为500米,邻域密度阈值为5。

优选地,所述步骤S2的具体实现方式为:首先以公交站台的每个簇中心点为中心并设定一个半径值,然后收集每个簇中心点周围的城市POI数据并构建文档,分析各个簇中心点周围出现的POI数量和种类,最后利用权重概率算法并基于城市Voronoi图确定该城市的功能区域,其中权重概率算法用公式表示为:

式(2)和式(3)中,

优选地,所述步骤S3中的人群出行数据包括出租车数据、公交卡数据和公交车数据中的至少一种。

优选地,所述步骤S3中不同时间段的人群出行数据需要删除重复和异常的数据之后再分别进行聚类。

优选地,所述步骤S3中的不同时间段为每天均等的十二个时间段。

优选地,每一条所述出租车数据和公交车数据的信息包含车辆ID、设备号、方向角、经度、维度和处理时间,每一条公交卡数据的信息包含公交卡编号、刷卡日期和刷卡机ID。

与现有技术相比,本发明首先利用城市POI数据构建城市的Voronoi图以对城市的功能区域进行划分,然后通过获取不同时间段的城市人群出行数据并分别展示到所构建的城市Voronoi图上,从而根据所划分的城市功能区域识别出不同时间段该城市的人群出行分布规律,为智慧城市的建设提供了依据。

附图说明

图1是本发明一种基于多源数据驱动的城市人群出行识别方法的步骤流程图,

图2是本发明中构建城市Voronoi图的方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。

需要说明的是,本实施例中,所述Voronoi图,又叫泰森多边形或Dirichlet图,它是由一组由连接两邻点直线的垂直平分线组成的连续多边形组成。

如图1所示,一种基于多源数据驱动的城市人群出行识别方法,所述方法包括以下步骤:

S1、爬取城市POI数据并对所爬取POI数据中的公交站点POI数据进行聚类,然后确定公交站点POI数据聚类的簇中心点并根据所确定的公交站点POI数据聚类的簇中心点构建对应的城市Voronoi图;

S2、基于所述步骤S1中城市POI数据、公交站点POI数据聚类的簇中心点和城市Voronoi图对该城市的功能区域进行划分;

S3、获取所述城市不同时间段的人群出行数据并分别进行聚类,同时确定所述城市不同时间段的人群出行聚类的簇中心点;

S4、将步骤S3中确定的城市不同时间段的人群出行聚类的簇中心点分别展示到所述城市Voronoi图上,从而根据该城市的功能区域划分识别出所述城市不同时间段的人群出行分布规律。

本实施例中,首先通过现有嵌入的APP软件(APP软件包括电子地图,如高德地图或百度地图)爬取城市的全部POI数据(城市POI数据是指电子地图上的景点、政府机构、公司、商场、饭馆等),然后对所爬取的POI数据进行清洗,再选取清洗后的城市POI数据中公交站台的POI数据并进行聚类,同时确定公交站台聚类的簇中心点,由于公交站点主要分布在城市道路上,并没有直接覆盖城市建筑用地,因此无法使用公交站点的分布表示城市功能区,因此根据公交站台聚类的簇中心点和城市的全部POI数据构建出城市的Voronoi图并基于该城市的Voronoi图对城市的功能区域进行划分;而在一定程度上,人群出行数据能够反映出该城市各个功能区的人群分布状,通过获取不同时间段的城市人群出行数据进行聚类并确定该聚类的簇中心点,将不同时间段的城市人群出行数据及其聚类的簇中心点分别展示到所构建的城市Voronoi图上,进而根据城市Voronoi图上所划分的各个功能区域可识别出不同时间段该城市的人群出行分布规律,从而为智慧城市的建设提供了依据。

其中,所述城市POI数据按照该城市的功能区域进行分类,其包括餐饮服务、旅游景点、公共服务、公司企业、购物服务、科学,教育和文化服务、商务住宿、生活服务、体育娱乐,以及政府机构和社会团体十类功能性类别。

其中,每一条所述城市POI数据中均包括经度、纬度、POI名称、地址、省份名称、城市名称、经营区域、big_type、meddle_type、small_type和所属辖区十一个属性。

本实施例中,为了更准确的划分城市的功能区,所爬取的城市的全部POI数据设定为十类功能性类别,其包括餐饮服务、旅游景点、公共服务、公司企业、购物服务、科学,教育和文化服务、商务住宿、生活服务、体育娱乐,以及政府机构和社会团体,同时根据功能性类别建立“POI类别-功能性”查找表,而每一条POI数据包含十一个属性,分别为经度、纬度、POI名称、地址、省份名称、城市名称、经营区域、big_type、meddle_type、small_type和所属辖区,其中,big_type属性是一些描述性词语,包括餐饮服务、风景名胜、公司企业、休闲娱乐等;meddle_type属性较big_type属性更具体一点,如餐饮服务中包括中餐厅、外国餐厅、咖啡厅、快餐厅等;small_type属性是三者之间最具体的,如快餐厅包括肯德基、麦当劳、必胜客等。

如图2所示,所述步骤S1的具体实现方式包括:

S11、利用现有APP软件爬取城市的全部POI数据并对所爬取的全部POI数据进行清洗,然后选取该城市的公交站台POI数据并计算公交站台之间的实际距离,其计算公式表示为:

式(1)中,

S12、设定一个DBSCAN算法的半径参数和邻域密度阈值并进行聚类,然后将DBSCAN算法聚类后的簇的总数作为K-means算法中的K进行聚类并确定K-means算法中公交站台POI数据聚类的簇中心点;

S13、根据K-means算法中公交站台POI数据聚类的簇中心点和城市POI数据构建对应的城市Voronoi图。

本实施例中,所述DBSCAN算法(Density-Based Spatial Clustering ofApplications with Noise,是一个比较有代表性的基于密度的聚类算法)中的半径参数(即Eps邻域)设为500米,邻域密度阈值(即minPts)设为5。首先利用现有的嵌入式APP软件爬取城市的全部POI数据并进行清洗,然后利用全部POI数据中的公交站台POI数据并通过DBSCAN算法先确定其分类个数,再使用K-means算法(k-means clustering algorithm,k均值聚类算法)确定该聚类的簇中心点,最后基于该聚类的簇中心点构建该城市的Voronoi图,最后结合该聚类的簇中心点、城市POI数据和城市的Voronoi图实现对该城市的功能区域划分。值得一提的是,由于所爬取的POI数据时基于地理位置坐标来表示的,故不能使用计算欧氏距离进行密度的计算,本实施例中采用半正矢函数计算公交站台之间的实际距离。

其中,所述步骤S2的具体实现方式为:首先以公交站台的每个簇中心点为中心并设定一个半径值,然后收集每个簇中心点周围的城市POI数据并构建文档,分析各个簇中心点周围出现的POI数量和种类,最后利用权重概率算法并基于城市Voronoi图确定该城市的功能区域,其中权重概率算法用公式表示为:

式(2)和式(3)中,

本实施例中,以公交站台的每个簇中心点为中心设定其半径值为500米,若500米内没有任何POI数据时,则将范围扩大至1000米,然后收集每个簇中心点周围的城市POI数据并构建文档,分析各个簇中心点周围出现的城市POI数据的数量和种类。在某一些特殊场合中,其对应的所爬取的POI数据的数量可能极少(如景区和小区等),但是其周围有许多其它的POI类别(如餐馆等),由于数量的严重不均衡,依据同种POI数量的多少来确定城市功能区的性质,可能会导致判断出现误差,因此利用权重概率算法可有效提高城市功能区域划分的准确性。在其他实施例中,半径值的扩大范围也可以是其它数值。

其中,所述步骤S3中的人群出行数据包括出租车数据、公交卡数据和公交车数据中的至少一种,并将人群出行数据的不同时间段设为每天均等的十二个时间段,同时所获取的不同时间段的人群出行数据需要删除重复和异常的数据之后再分别进行聚类。

其中,每一条所述出租车数据和公交车数据的信息包含车辆ID、设备号、方向角、GPS响应时间、经度、维度和处理时间,每一条公交卡数据的信息包含公交卡编号、刷卡日期和刷卡机ID。

本实施例中,由于出租车数据、公交卡数据和公交车数据在一定程度上均能反映出该城市各个功能区域的人群出行分布情况,通过对出租车数据、公交卡数据和公交车数据中的至少一种进行获取和分析即可实现对该城市的人群出行分布规律进行识别,进而为智慧城市的建设提供依据。同时在分析过程中,由于工作日和周末以及每一天的不同时间段均存在相应差距,因此,通过获取工作日和周末的不同时间段的人群出行数据进而进行分析,极大程度上保证了最终识别出来的城市人群出行分布规律的准确性。在其他实施例中,所述出租车数据、公交车数据和公交卡数据的信息并不局限于上述所述的信息,还可以包括其它相关的信息,如GPS响应时间、速度和状态等。

以上对本发明所提供的一种基于多源数据驱动的城市人群出行识别方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号