首页> 中国专利> 基于K-means的地铁通勤客流时空数据分析方法

基于K-means的地铁通勤客流时空数据分析方法

摘要

本发明提供一种基于K‑means的地铁通勤客流时空数据分析方法,属于时空数据聚类技术领域。在地铁通勤客流的识别方面,以轨道交通IC卡数据为依托,基于刷卡时间记录,构建每张卡的时间特征向量,对时间特征向量采用K‑means聚类算法模型,获取聚类结果,结合出行时间、站点、OD信息等特征,在通勤卡出行样本数据的基础上,集合站点相关特征,依次获取各个通勤出行卡的居住站点、工作站点和出行特征信息。综合以上信息,区分每日轨道通勤与非通勤出行OD,分别在总刷卡次数方面和时间特征方面分析客流,区分各簇族属性,从而完成客流识别。本发明实现了基于数据特征的自动化评估和数据刷选,减少了基于人工经验的判断,模型评估结果更加贴合数据本身特征。

著录项

  • 公开/公告号CN114912036A

    专利类型发明专利

  • 公开/公告日2022-08-16

    原文格式PDF

  • 申请/专利权人 长沙理工大学;

    申请/专利号CN202111399422.7

  • 申请日2021-11-24

  • 分类号G06F16/9537(2019.01);G06K9/62(2022.01);

  • 代理机构

  • 代理人

  • 地址 410114 湖南省长沙市天心区万家丽南路二段960号

  • 入库时间 2023-06-19 16:23:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-23

    实质审查的生效 IPC(主分类):G06F16/9537 专利申请号:2021113994227 申请日:20211124

    实质审查的生效

说明书

技术领域

本发明提供一种基于K-means的地铁通勤客流时空数据分析方法,属于时空数据聚类技术领域。

背景技术

机器学习使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率,机器学习相关算法近年来被广泛运用到城市公共交通大数据研究中,曹庭脉等提出了基于K均值聚类算法的地铁站点类型识别(基于地铁数据的广州市职住空间和通勤特征分析[C].2019中国城市规划年会),孙世超等人提出了基于机器学习的公交卡数据中通勤人群辨识方法(基于机器学习的公交卡数据中通勤人群辨识方法[J].交通工程,2017, 01(v.17):60-66)。在地铁通勤出行方面,刘梦吉等对地铁通勤行为和其职住地进行了识别,对其基于规则识别的通勤出行者,对其各项通勤特性作为聚类变量,研究通勤出行特征(基于刷卡数据的南京地铁通勤人群分类与时空行为研究[C].2019年中国城市交通规划年会),其研究中使用地铁通勤三次及三次以上的用户定义为高频地铁通勤用户,选取通勤总天数不小于12天的持卡用户并研究分析这些用户的通勤特性,并没有通过机器学习算法对通勤出行用户进行识别。

地铁通勤客流的识别一直是地铁客流研究的难点与痛点,目前研究基本是基于规则的模式进行判断,由于研究者个人认知与经验存在偏差,容易造成通勤识别结果差距较大,同时″一刀切″式的规则判断方法,也容易造成样本的误判,识别误差也难以估计。另外一方面,机器学习算法也在地铁通勤出行中得到了初步的运用,但鲜有研究用于通勤客流识别,本文将利用地铁刷卡数据,构建基于机器学习聚类算法的通勤出行识别方法,获取通勤出行用户、用户居住和工作站点和出行特征信息。从而,本发明实现了基于数据特征的自动化评估和数据刷选,减少了基于人工经验的判断,模型评估结果更加贴合数据本身特征。

发明内容

(一)所要解决的技术问题

本发明提供一种基于K-means的地铁通勤客流时空数据分析方法,属于时空数据聚类技术领域。在地铁通勤客流的识别方面,以轨道交通IC卡数据为依托,基于刷卡时间记录,构建每张卡的时间特征向量,对时间特征向量采用K-means聚类算法模型,获取聚类结果,结合出行时间、站点、OD信息等特征,在通勤卡出行样本数据的基础上,集合站点相关特征,依次获取各个通勤出行卡的居住站点、工作站点和出行特征信息。综合以上信息,区分每日轨道通勤与非通勤出行OD,分别在总刷卡次数方面和时间特征方面分析客流,区分各簇族属性,从而完成客流识别。

(二)技术方案

为解决上述技术问题,本发明的方法,包括如下步骤:

步骤11:地铁刷卡机数据采集,然后基于刷卡时间记录,构建每张卡的时间特征向量;

步骤21:假设要把地铁刷卡数据样本集分为k个类别,算法描述如下:

I)适当选择k个类的初始中心,最初一般为随机选取;

II)在每次迭代中,对任意一个样本,分别求其到k个中心的欧式距离,将该样本归到距离最短的中心所在的类;

III)利用均值方法更新该k个类的中心的值;

IV)对于所有的k个聚类中心,重复II、III类的中心值的移动距离满足一定条件时,则迭代结束,完成分类,得到通勤出行卡和非通勤出行卡两类样本;

步骤31:居住站点识别方法

根据卡编号,提取每一个工作日的出行数据,对站点进行评分,获取评分最高的站点:

I)当天多条出行数据(出行次数>=2):对于第一次出行的起点站点和最后一次目的站点,其评分+1;

II)当天只有一条出行数据(出行次数=1):根据时段,若出行时间在14点之前,起点站点评分+1,若出行时间在14点之后,最后一次目的站点评分+1。

最后,汇总出行卡相关各个站点评分,选取评分最高的站点作为居住站点。

步骤32:工作站点识别方法

根据卡编号和居住站点信息,提取卡编号和居住站点相关的工作日出行数据,若居住站点为起始站点,目的站点评分+1,居住站点为目的站点,起始站点评分+1,汇总出行卡各个相关站点评分,选取评分最高的站点作为工作站点。

步骤41:综合以上通勤出行卡及其通勤站点信息,区分每日轨道通勤与非通勤出行OD,并分别在总刷卡次数方面和时间特征方面分析客流,区分各簇族属性,从而完成客流识别。

(三)有益效果

本发明与现有技术相比,具有以下优点:

本发明提供一种基于K-means的地铁通勤客流时空数据分析方法,在地铁通勤客流的识别方面,基于机器学习聚类算法的通勤出行识别方法,实现了基于数据特征的自动化评估和数据刷选,减少了基于人工经验的判断,模型评估结果更加贴合数据本身特征。

附图说明

图1为本发明所提供系统的组成示意图;

图2为本发明所提供方法的步骤流程图;

图3为实施例中时间向量各特征方差分布情况;

图4为实施例中工作日通勤客流比例;

图5为实施例中典型工作日通勤客流比例时刻变化趋势。

具体实施方式

下面结合附图1-2和实施例,对本发明作进一步详细的描述,但本发明的实施方式不限于此。本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

基于K-means的地铁通勤客流时空数据分析方法,所述步骤如下:

步骤11:对于每张地铁卡,根据其进站和出战的刷卡时间记录,构建每张卡的时间特征向量,构建规则如下:将全天划分为24个时段,若出行卡在某一时段内出现刷卡行为(包括进出站),则该时段记录数量增加一次,将17个工作日数据进行综合,最终构成24维度的时间特征向量,时间特征向量示例如下所示:

表1-1时间特征向量样表

基于各张出行卡编号,进行数据统计,剔除总刷卡次数170次以上的样本(工作日均地铁出行次数5次以上的样本),剔除样本比例占比<0.01%。最终形成数据训练样本维度为(3564015,24),样本丰富,将全部用于K-means模型聚类,本文对向量各特征的方差进行统计,结果如图3;

从方差分布情况来看,方差较大的特征主要集中在高峰时段,聚类结果在高峰时段(尤其是早高峰时段)的相关特征应有明显差异。

步骤21:假设要把地铁刷卡数据样本集分为k个类别,算法描述如下:

I)适当选择k个类的初始中心,最初一般为随机选取;

II)在每次迭代中,对任意一个样本,分别求其到k个中心的欧式距离,将该样本归到距离最短的中心所在的类;

III)利用均值方法更新该k个类的中心的值;

IV)对于所有的k个聚类中心,重复II、III类的中心值的移动距离满足一定条件时,则迭代结束,完成分类,得到通勤出行卡和非通勤出行卡两类样本;

步骤31:居住站点识别方法

根据卡编号,提取每一个工作日的出行数据,对站点进行评分,获取评分最高的站点:

I)当天多条出行数据(出行次数>=2):对于第一次出行的起点站点和最后一次目的站点,其评分+1;

II)当天只有一条出行数据(出行次数=1):根据时段,若出行时间在14点之前,起点站点评分+1,若出行时间在14点之后,最后一次目的站点评分+1。

最后,汇总出行卡相关各个站点评分,选取评分最高的站点作为居住站点。

步骤32:工作站点识别方法

根据卡编号和居住站点信息,提取卡编号和居住站点相关的工作日出行数据,若居住站点为起始站点,目的站点评分+1,居住站点为目的站点,起始站点评分+1,汇总出行卡各个相关站点评分,选取评分最高的站点作为工作站点。

步骤41:总刷卡次数方面通过通勤出行比例和通勤方向不均衡系数来进行分析;

I)通勤出行比例

根据获取的通勤出行卡的卡编号、居住站点和工作站点数据,可以从工作日数据中通勤出行数据,样本数据中地铁工作日日均出行量为86.9万人次,通勤客流为17.6万人次,通勤客流占比20.2%;

根据图4,在一周工作日期间,周一至周四,通勤客流比例相对较高,平均值为21.7%,周五通勤客流比例相对较低,平均值为16.9%。长沙市轨道交通典型工作日早晚高峰系数分别为12.0%和11.5%,合计23.5%,周一至周四通勤客流比例与早晚高峰系数比例较为接近。

II)通勤方向不均衡系数

日均通勤客流中,其中离家方向(上班/上学)客流9.95万人次,返家方向客流7.62万人次,通勤方向不均衡系数为0.77,离家方向客流大于返家方向客流。

离家方向客流87.7%的出行集中在早高峰7-9h时间段内,约 80%返家出行在17-20h时间段内。于泳波等的研究中80.2%的离家方向的地铁通勤发生在早高峰时段,其中高峰小时为7:30~8:30,占比46.44%,本次研究中相应高峰小时占比为45.4%,发明结果高度一致。

步骤42:通勤客流时间特性

如图5所示,通勤客流占比呈现明显的早晚高峰特性,早高峰期间,通勤客流占比接近50%,晚高峰期间占比接近30%,通勤客流高峰期间占比均未超过50%.

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号