首页> 中国专利> 一种公共交通乘客出行时空轨迹提取方法

一种公共交通乘客出行时空轨迹提取方法

摘要

本发明公开了一种公共交通乘客出行时空轨迹提取方法,融合全样本乘客乘车记录与车辆运行记录的数据资源,在连续出行链法的基础上,从每一名乘客每天的公交站点轨迹相似性分析入手,提取相似出行日,构建统计样本空间挖掘乘客活动规律,借助贝叶斯估计法,更为合理、准确的提取一票制公交乘客刷卡乘车记录的下车站点,从缺失的信息中还原乘客的出行轨迹。本发明方法可充分利用全样本刷卡数据中的隐含的乘客个体活动规律,合理的推断出每一个乘客的刷卡下车站点,有利于后续公交线网断面流量统计和数据挖掘。

著录项

  • 公开/公告号CN106874432A

    专利类型发明专利

  • 公开/公告日2017-06-20

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201710059434.2

  • 申请日2017-01-24

  • 分类号G06F17/30(20060101);G06Q50/26(20120101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人李斌

  • 地址 510640 广东省广州市天河区五山路381号

  • 入库时间 2023-06-19 02:35:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-20

    授权

    授权

  • 2017-07-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170124

    实质审查的生效

  • 2017-06-20

    公开

    公开

说明书

技术领域

本发明涉及智能化公共交通技术领域,尤其涉及一种公共交通乘客出行时空轨迹提取方法。

背景技术

近年来,公交IC卡得到了广泛应用,提高了持卡乘客的上车效率和支付的便捷性。随着持卡乘客数量的增加,公交IC卡的刷卡记录成为低成本获取客流信息的新途径,受到了国内外公交研究者的高度关注。

当前,针对刷卡记录较为热门的应用有:在指定的一个或多个时间尺度下,针对特定线路,获取每个站点的上车客流量、下车客流量以及站点之间的OD客流量;针对指定的某些线路,获取其各站点之间的换乘客流量;针对特定区域内的所有线路,获取其各站点的上车客流量、下车客流量以及站点之间的OD客流量;针对特定区域内的所有线路,可以按照另行划定的交通小区,获取各小区的上车客流量、下车客流量以及小区之间的OD客流量。由此可见,刷卡记录对数据统计、挖掘和分析有重要作用。

但是,刷卡系统往往将设计重点放在运营清分功能上,而忽视记录刷卡站点,特别是目前使用最为广泛的一票制公交,只能记录乘客的上车时刻与车号、线路号,无上下车站点信息,无法提取乘客的出行轨迹。因此,在上述数据处理过程中,需要先要将刷卡记录结合GPS行车记录系统的报站记录进行时间匹配与时间误差矫正(见发明专利CN105574137A)来推断公交乘客刷卡上车站点,再基于最短距离换乘假设、连续出行链假设推断乘客的下车站点,最后,对于无法找到下车站点的刷卡记录,通过站点吸引权法估计下车站点。该方法存在两个问题:1)对每个乘客,单个出行日的最后一条上车刷卡记录难以判断下车站点。2)站点吸引权法用于提取站点对间宏观的客流态势,无法提取甚至忽略了全样本刷卡数据揭示的乘客个体动态变化的出行特征。3)现有的方法,若乘客出行的上车站点匹配失败则无法利用其它信息提取下车站点。

发明内容

为了克服现有技术存在的缺点与不足,本发明提供一种公共交通乘客出行时空轨迹提取方法,本方法充分利用全样本刷卡数据中的隐含的乘客个体活动规律,合理的推断出每一个乘客的刷卡下车站点,有利于后续公交线网断面流量统计和数据挖掘。

为解决上述技术问题,本发明提供如下技术方案:一种公共交通乘客出行时空轨迹提取方法,包括如下步骤:

S1、获取全样本的乘客乘车记录数据,在全样本的乘客乘车记录数据中提取每一个乘客的乘车记录,并对乘客按照时间先后进行排序;

S2、扫描每个出行日,若在一个出行日内有两次及两次以上乘车记录的乘客,此时,记相邻两次乘车的上车站点分别为Bk与Bk+1,k代表第k次乘车,k+1代表与第k+1次乘车;其中

若Bk与Bk+1均存在,且Bk≠Bk+1,刷卡时刻为tk与tk+1,查询所乘车辆在tk至tk+1时段内车辆运行记录,提取Bk下游站点构成集合为Sk;若:1)Bk+1∈Sk,则认为第k次乘车的下车站点为Bk+1,即第k+1次乘车的上车站点为Bk+1;2)则在Sk中寻找与Bk+1间满足步行换乘条件且距离最短的站点作为第k次出行的下车站点,记为Ak

若Bk存在,而Bk+1缺失,则提取Bk与车辆在tk至tk+1时段内下游站点构成集合Sk,形成待处理乘车记录数据集,留待步骤S6步处理;

若Bk缺失,而Bk+1存在,则提取第k次出行的线路中所有站点形成集合Rk,在Rk中寻找与Bk+1间满足步行换乘条件且距离最短的站点作为第k次出行的下车站点,记为Ak

S3、提取此乘客每天第一次刷卡的上车站点,统计所述提取每个上车站点的概率分布,将概率最高的两个站点定为此乘客的可能居住地;

S4、对该乘客每天的最后一条公交线路含上车站点信息的刷卡记录,在此公交线路下游站点中寻找满足以下条件之一的站点:1)步骤S3中所提取乘客居住地;2)第二天第一次出行的上车站点;3)当天第一次出行的上车站点,

从而构建成下车站点的候选列表;若候选列表元素不唯一,则将该乘车记录加入待处理乘车记录集,留待第S5、S6步处理;

S5、提取此乘客在每个出行日Di的访问站点序列,即Di的轨迹,计算Di与其它出行日的轨迹相似度;将相似度高于ε的出行日定义为轨迹相似出行日;

S6、在待处理乘车记录数据集中,对每一条待处理的乘车记录及其候选下车站点列表,找出其相似出行日中访问的站点,并统计其访问概率,找出包含于候选下车站点集合且访问概率最大的下车站点,作为待处理乘车记录的下车站点;

S7、对每一条匹配出下车站点的乘车记录,通过车辆标识找到对应车辆的运行记录,根据该乘车记录上车站点名称与刷卡时刻,找到运行记录中该车辆车辆进站时刻;

S8、在步骤S7中,通过车辆进站时刻与下车站点,在该车辆的运行记录中,寻找时间上最临近的下车站点的进站时刻,作为本次出行的下车时刻;

S9、重复步骤S2-S8处理下一个乘客的乘车记录,直至处理完所有乘客的乘车记录。

进一步地,所述步骤S1中的全样本的乘客乘车记录数据,包括:乘客标识,乘客标识采用IC卡卡号标识;乘客刷卡上车时刻,所述上车时刻包括日期和时间的时分秒;乘客的上车站点;乘客所乘车辆标识,所述车辆标识包括车牌号;所乘车辆的线路标识;乘客的下车站点;下车时刻,所述下车时刻包括日期和时间的时分秒;乘客所乘公交的各公交站点的地理坐标信息。

进一步地,所述步骤S2中步行换乘条件指两公交车站间距离不超过500m且步行时间不超过15min;所述待处理乘车记录数据集中每个元素包括:未能匹配出下车站点的乘车记录以及该乘车记录的候选下车站点列表。

进一步地,所述步骤S5中以乘客个体每天的公交出行访问站点形成的空间轨迹为比较单元,提取相似度高的出行日轨迹,构建样本集合;所述计算Di与其它出行日的轨迹相似度,采用相似性指标方法计算,所述相似性指标方法包括Jaccard方法;所述ε数值具体为0.7。

进一步地,所述采用相似性指标方法计算时,若两站点Si、Sj空间距离小于一定距离或存在一条公交线路,使Si、Sj成为相邻站点,则认为两站点等价;所述一定距离为300或者500m。

进一步地,所述步骤S6中访问概率最大的下车站点,采用贝叶斯估计法求取。

采用上述技术方案后,本发明至少具有如下有益效果:

1、本发明下车站点推断的概率估计过程基于个体乘客的出行特性构建统计样本空间,避免现有的下车站点吸引权法用宏观统计规律覆盖个体特征的缺陷,充分发挥海量数据的优势,特别适合样本量巨大的场合;

2、本发明相比传统的方法,可以有效应对部分出行记录上车站点缺失带来的干扰;

3、本发明与传统算法相比,进行最后一次出行的下车站点推断时,综合考虑乘客的居住地、当天第一次出行的上车站点与第二天第一出行的上车站点,提高了下车站点匹配的准确度与算法的合理性;

4、与传统算法相比,本发明采用了轨迹相似出行日构建统计样本空间,

可灵活准确的应对个体乘客多种活动规律。

附图说明

图1是本发明一种公共交通乘客出行轨迹提取方法的步骤流程图;

图2是本发明一种公共交通乘客出行轨迹提取方法中上车站点缺少示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。

实施例

一种公共交通乘客出行时空轨迹提取方法,其步骤流程如图1所示,包括以下步骤:

第一步,对全样本的乘客乘车记录数据中每一个乘客,提取其乘车记录,并按照时间先后排序。其中每一条乘客乘车记录数据,包括:乘客标识,乘客标识采用IC卡卡号标识;乘客刷卡上车时刻,所述上车时刻包括日期和时间的时分秒;乘客的上车站点;乘客所乘车辆标识,所述车辆标识包括车牌号;所乘车辆的线路标识;乘客的下车站点;下车时刻,所述下车时刻包括日期和时间的时分秒;乘客所乘公交的各公交站点的地理坐标信息。

第二步,扫描每个出行日,若该出行日有两次以上的乘车记录,此处,记相邻的两次乘车(第k次与第k+1次)记录的上车站点为Bk与Bk+1。在实际公交大数据系统中,存在数据缺失的情况,即,有出行记录但没有上车站点,引起的原因是:1)乘客所乘坐的车辆只有刷卡机,没有报站设备。2)车辆报站数据传输过程中丢失。一个典型的例子如图2所示,图中,最左边起,第一列是乘客IC卡号,第二列为线路号,第三列为车牌号,可以看到,第二行记录,无有效的上车站点。

若Bk与Bk+1均存在,且Bk≠Bk+1,刷卡时刻为tk与tk+1,查询所乘车辆在tk至tk+1时段内车辆运行记录,提取Bk下游站点构成集合为Sk,若:1)Bk+1∈Sk,则可认为第k次乘车的下车站点为Bk+1,即第k+1次乘车的上车站点;2)则在Sk中寻找与Bk+1间满足步行换乘条件且距离最短的站点作为第k次出行的下车站点,记为Ak

若Bk存在,而Bk+1缺失,则提取Bk与车辆在tk至tk+1时段内下游站点构成集合Sk,形成待处理乘车记录数据集,留待第5、6步处理。

若Bk缺失,而Bk+1存在,则提取第k次出行的线路中所有站点形成集合Rk,在Rk中寻找与寻找与Bk+1间满足步行换乘条件且距离最短的站点作为第k次出行的下车站点,记为Ak

第三步,提取该乘客每天第一次刷卡的上车站点,统计每个站点的概率分布,将概率最高的两个站点定为该乘客的可能居住地。

所述相似度指标计算时,若两站点Si、Sj空间距离小于300m或存在一条公交线路,使Si、Sj成为相邻站点,则认为两站点等价。

第四步,对每天的最后一条乘车记录记录,在该公交线路下游站点中寻找满足以下条件之一的站点:1)步骤3中提取的乘客居住地。2)第二天第一次出行的上车站点。3)当天第一次出行的上车地点,构建成下车站点候选列表。若候选列表元素不唯一,则将该乘车记录加入待处理乘车记录集,留待第5、6步处理。

第五步,提取该乘客在每个出行日Di的访问站点序列,即Di的轨迹,利用Jaccard相似性指标计算Di与其它出行日的轨迹相似度。将相似度高于ε(如0.7)的出行日定义为轨迹相似出行日。

所述步行换乘条件指两公交车站间距离不超过500m,步行时间不超过15min。

第六步,对待处理乘车记录集中每一条待处理的乘车记录及其候选下车站点列表,找出其相似出行日(步骤五)中访问的站点,并统计其访问概率,找出包含于候选下车站点集合且访问概率(或条件访问概率)最大的站点,作为待处理乘车记录的下车站点。

第七步,对每一条匹配出下车站点的乘车记录,通过车辆标识找到对应车辆的运行记录,根据该乘车记录上车站点名称与刷卡时刻,找到运行记录中该车辆车辆进站时刻。

第八步,通过车辆进站时刻(步骤七)与下车站点((步骤七)),在该车辆的运行记录中(步骤七),寻找时间上最临近的下车站点的进站时刻,作为本次出行的下车时刻。

第九步,继续处理下一个乘客的乘车记录,直到处理完所有乘客的乘车记录。

本发明方法数据挖掘针对的对象为每一个乘客个体及其在给定时间跨度(大于一个月)内的全部乘车记录(含上车站点信息的刷卡记录)。输出结果为该乘客在给定时间跨度内的时空轨迹。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号