首页> 中国专利> 一种基于极大概率估计的城市公交系统车载报站缺失数据修补方法

一种基于极大概率估计的城市公交系统车载报站缺失数据修补方法

摘要

本发明针对城市公交车载报站系统中存在数据缺失的问题,提供了一种基于极大概率估计的城市公交系统车载报站缺失数据修补方法,包括以下步骤:通过分析缺失数据的特征以及公交乘客的刷卡行为特点并结合历史数据,构造了以行程时间作为后验条件参数集合的极大概率估计模型,借助乘客刷卡数据准确推断了城市公交系统中自动报站设备的缺失数据。本发明所提供的数据修补方法,克服了现有技术中受城市建筑阴影效应影响,公交车载自动报站系统易出现定位失败或通信丢包,导致报站信息不完整严重影响后续数据挖掘效果的缺陷,提高了乘客公交出行轨迹还原的成功率,增加了城市公交客流分布研究的信息有效性。

著录项

  • 公开/公告号CN108230724A

    专利类型发明专利

  • 公开/公告日2018-06-29

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201810094908.1

  • 发明设计人 翁小雄;姚树申;刘永鑫;

    申请日2018-01-31

  • 分类号G08G1/133(20060101);G06N5/04(20060101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人李斌

  • 地址 510640 广东省广州市天河区五山路381号

  • 入库时间 2023-06-19 05:48:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-22

    授权

    授权

  • 2018-07-24

    实质审查的生效 IPC(主分类):G08G1/133 申请日:20180131

    实质审查的生效

  • 2018-06-29

    公开

    公开

说明书

技术领域

本发明涉及智能化公共交通技术领域,涉及一种基于极大概率估计的城市公交系统车载报站缺失数据修补方法。

背景技术

公交客流分布数据,是优化城市公交运营管理的基础,是制约城市公交管理水平的关键,也是城市公交研究者关注的重点。长期以来,管理者一般通过抽样调查方法,获得有限的公交出行数据,费时费力、成本高昂。近年来,随着自动收费系统(Automated FareCollection,AFC)与自动报站系统(Automated Vehicle Locating,AVL)的广泛应用,城市公交系统积累了大量运营管理数据。如何通过数据挖掘技术,从公交系统现有数据中低成本地获取公交客流信息,成为国内外城市公交研究者关注的重点。

在获取公交客流的相关研究中,将乘客乘车刷卡数据转换为乘客在公交系统中的运动轨迹是其中最为关键的环节。然而,现有的公交刷卡系统往往将设计重点放在运营清分功能上,而忽视记录刷卡站点,特别是目前使用最为广泛的一票制公交,只能记录乘客的上车时刻与车号、线路号,无上下车站点信息。因此,在数据处理过程中,往往需要先要将刷卡记录结合GPS行车记录系统的报站记录进行时间匹配来推断公交乘客刷卡上车站点,再基于最短距离换乘假设、连续出行链假设推断乘客的下车站点,最后,对于无法找到下车站点的刷卡记录,通过站点吸引权法估计下车站点。

上述数据处理过程严重依赖车辆报站数据,然而,车载自动报站系统严重依赖GPS模块与2G移动通讯模块获取、上传位置信息,该类设备受城市建筑阴影效应影响严重,易出现定位失败或通信丢包,导致报站信息不完整。通过分析某城市的公交车辆AVL报站数据、班次调度数据以及AFC刷卡数据,发现在统计时间段内全市平均缺失数据占比6.25%,且数据缺失率高的区域位于该城市人口稠密区域。虽然数据缺失率不到10%,但后续的公交乘客上车站点匹配结果表明,缺失数据导致超过25%的刷卡数据无法匹配出上车站点。由此可见,城市公交系统中普遍存在的AVL报站数据缺失情况,已显著影响了乘客出行轨迹还原进程,并严重制约着公交客流挖掘效果。

发明内容

本发明的目的在于针对城市公交自动报站系统中普遍存在的数据丢失情况,提供一种基于极大概率估计的城市公交系统车载报站缺失数据修补方法。该方法通过分析缺失数据的特征以及公交乘客的刷卡行为特点,构造了以行程时间作为后验条件参数集合的极大概率估计模型,准确推断了城市公交系统缺失的车载报站数据,为开展后续的数据挖掘提供必要支撑。

为了达到上述目的,本发明采用以下技术方案:

本发明一种基于极大概率估计的城市公交系统车载报站缺失数据修补方法,包括以下步骤:

S1、按每一次发车,对数据源2“AVL车辆报站数据”进行归类整理,将每一次发车的AVL报站数据根据公交线路站序排列:{S0,S1,S2,…,Si},其中Si对应车辆到达Si站点的AVL信息;

S2、将步骤S1中的某一次发车数据,与数据源1“公交调度数据”对应公交线路的行车站序进行对比;

S21、若站点信息完整,则不存在数据缺失,无需修复;

S22、若站点信息不完整,则说明存在AVL数据缺失的情况,锁定存在数据丢失的站点区间Sl={S0,SL0,SL1,…,SLk,…,S1},并计算出该缺失数据区间的行程时间,记为tTRIP

S3、根据数据源3提供的“乘客AFC刷卡数据”,查询搭乘本次行程公交班车从S0到Si途中的乘客刷卡数据,并利用阈值分割法提取出有乘客刷卡乘车的站点中第1个刷卡事件的刷卡时间戳,其中SLk站第一个上车乘客的刷卡时刻记为

S4,借助历史数据,分别计算从S0出发到SL0,SL1,…,SLk,满足控制条件Θ的行程时间概率分布函数:优选的,Θ=tTRIP∈[tTRIP-0.1×tTRIP,tTRIP+0.1×tTRIP];

S5、将Sl行程中每个站点SLk第1个刷卡事件的刷卡时间戳减去S0的出站时刻,得到每个站点的行程时间,对任一行程时间,代入由S4得到的各站时间分布函数,得到概率值,输出最大值的函数所对应的站点即为时刻车辆到达的车站,数据推断完成。

作为优选的技术方案,所述数据源1“公交调度数据”包括:a)班次编号;b)车牌号;c)线路号;d)发车时刻;e)站序;

所述数据源2“AVL车辆报站数据”包括:a)车牌号;b)线路号;c)车站名;d)进站时刻;e)出站时刻;

所述数据源3“乘客AFC刷卡数据”包括:a)车牌号;b)线路号;c)车站名;d)刷卡时刻;e)乘客标识;f)站点匹配状态。

作为优选的技术方案,步骤S22具体为:

通过对比当前车次的AVL报站数据与完整的公交线路行车站序,锁定存在数据丢失的站点区间,标记缺失的站点编号,假设Sl={S0,SL0,SL1,…,SLk,…,S1},为本次发车过程中车辆连续经过的一段站点区间,其中,S0与S1为数据完整的站点,SL0,SL1,…,SLk为S0与S1之间报站数据缺失的站点。

作为优选的技术方案,步骤S3具体为:

由于乘客刷卡为短间隔连续事件,可设定时间阈值作为分割相邻车站Si,Si+1乘客的参考,即,若相邻刷卡记录间隔时间小于设定时间,则将该相邻刷卡记录视作同一车站的刷卡记录;否则后一条刷卡记录为下一站的第一条刷卡记录。

作为优选的技术方案,步骤S4中,所述历史数据为不少于四周的历史AVL数据。

作为优选的技术方案,步骤S4中,某存在上车乘客的未知站点SLk,第一个刷卡上车的乘客产生的刷卡时间戳为则该班次,公交车在该站的进站时刻可等价为

作为优选的技术方案,步骤S4中,假设服从高斯分布:

则,在Θ确定后,即可查询历史AVL数据中所有从站点S0到站点SLK且满足控制条件Θ的行程,计算模型参数时间的均值μ和标准差σ。

本发明与现有技术相比,具有如下优点和有益效果:

1、本发明通过分析缺失数据的特征以及公交乘客的刷卡行为特点,构造了以行程时间作为后验条件参数集合的极大概率估计模型,充分发挥海量数据的优势,特别适合样本量巨大的场合。

2、本发明采用的方法,构造某一运营车辆一次行程中连续经过的站点集St={S0,SL0,SL1,...,SLK,S1},其中SL0,SL1,...,SLK是数据完整站点S0和S1之间发生数据缺失的站点,可以适用于连续缺失多个站点的修复,修复效率高。

3、相比传统的方法,本发明数据还原准确率高,在连续缺失站点少于等于8个的情况下,能保持85%以上的还原准确率。

附图说明

图1是本实施例公交系统AVL缺失数据修补方法的整体工作流程图。

图2是本实施例不同后验证条件下数据还原成功率。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例

以某城市公交数据为例,提取2017年3月5日的AVL车辆报站数据为基础数据源,扫描AVL报站数据中每辆车的报站数据,以15%的概率随机选择开始站点,并取出之后8个站点的AVL报站数据加入备选测试集,共计取得94750条测试数据。对备选测试集中每一比数据,除第一个与最后一个报站记录(S0、S1)外的所有报站记录进站时刻加入均匀分布的随机干扰(范围:0-120s),得到测试集。测试集中每笔测试数据包含的关键信息字段如表1所示:

表1 测试数据的关键信息字段

因此,缺失数据推断任务为扫描测试集中所有记录,并根据其第一条与最后一条报站记录(S0、S1)及包含扰动的时间戳TL0‘,TL1’,…,TLk‘推断出SL0,SL1,…,SLk

本发明提供一种基于极大概率估计的公交系统AVL缺失数据修补方法,其流程如图1所示,包括以下步骤:

第一步,按每一次发车,提取其AVL数据,并按照时间先后排序。

第二步,对比该线路的行车站序,1)若站点信息完整,则不存在数据缺失,无需修复;2)若站点信息不完整,则说明存在AVL数据缺失的情况,需要进行修复。对需要修复的情况,构造Sl={S0,SL0,SL1,…,SLk,…,S1}为该次行程中连续经过的站点区间,其中,S0与S1为数据完整的站点,SL0,SL1,…,SLk为S0与S1之间缺失报站数据站点。

第三步,根据数据源3提供的“乘客AFC刷卡数据”,查询搭乘本次行程公交班车从S0到Si途中的乘客刷卡数据,并利用阈值分割法提取出有乘客刷卡乘车的站点中第1个刷卡事件的刷卡时间戳,其中SLk站第一个上车乘客的刷卡时刻记为

第四步,借助历史数据,分别计算从S0出发到SL0,SL1,…,SLk,满足控制条件Θ的行程时间概率分布函数:Θ=tTRIP∈[tTRIP-0.1×tTRIP,tTRIP+0.1×tTRIP]为经过试验的优选方案,并可以根据实际情况灵活修改;故Θ可以是其它控制条件。

第五步,将Sl行程中每个站点SLk第1个刷卡事件的刷卡时间戳减去S0的出站时刻,得到每个站点的行程时间,对任一行程时间,代入由S4得到的各站时间分布函数,得到概率值,输出最大值的函数所对应的站点即为时刻车辆到达的车站,数据推断完成。

以不同的控制条件构建的数据修补模型性能对比如图2所示,本发明采用基于行程时间的极大概率估计模型,相对与先验概率模型,以及基于开始时刻等其它概率模型,本发明所提供的优选方案数据修补效果最佳,在连续缺失站点数小于等于8的情况下保持了85%以上的修复准确度。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号