首页> 中国专利> 基于特征站点的公交IC卡数据站点匹配方法

基于特征站点的公交IC卡数据站点匹配方法

摘要

一种基于特征站点的公交IC卡数据站点匹配方法,包括:基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配,包括:确定单车单日班次数步骤;通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数;特征站点选取步骤;包括客流峰值站点及换乘站点,其余站点为非特征站点;客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点;提高单次刷卡线路的公交IC卡数据站点匹配精度,获得更准确的公交站点客流量信息,为基于公交IC卡的数据处理分析提供更高质量的数据,为公交规划者与管理者提供决策依据。

著录项

  • 公开/公告号CN102156732A

    专利类型发明专利

  • 公开/公告日2011-08-17

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN201110089682.4

  • 发明设计人 陈艳艳;陈绍辉;刘帅;

    申请日2011-04-11

  • 分类号G06F17/30(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人楼艮基

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-12-18 03:00:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-06-04

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20121121 终止日期:20130411 申请日:20110411

    专利权的终止

  • 2012-11-21

    授权

    授权

  • 2011-09-28

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110411

    实质审查的生效

  • 2011-08-17

    公开

    公开

说明书

技术领域

本发明涉及一种将公交IC卡交易数据与公交站点的匹配方法,属于公交信息数据处理领域。

背景技术

公交IC卡收费系统为公交出行分析提供了低成本的海量数据,但由于系统设计目的是为方便乘客付费与票款清算,未考虑交通领域的应用,故IC卡数据缺少了一些必要的出行信息,在数据处理分析中,首先需要通过技术手段获取缺失信息,才能开展进一步的数据挖掘工作。

由于单次刷卡的公交IC卡数据中缺少乘客上车站点信息,需要找出乘客刷卡记录与站点的对应关系。目前比较常见的匹配方法是利用聚类方法对乘客刷卡数据进行聚类,以站点间运行时间估计值作为相似性判断阈值,与聚类子集间的时间差值进行对比,将满足条件的聚类子集匹配到对应站点。

事实上,由于公交站点间车辆运行时间的不确定,单纯依靠站点间运行时间估计值作为站点匹配的判断依据是不够准确的,当道路交通条件发生变化情况下,匹配结果误差较大。根据公交客流统计结果可知,在某个固定时段内(如早高峰)公交站点客流量具有较强的规律性,这种规律为通过寻找具有客流特征的站点来辅助站点匹配的新技术提供了可能。

发明内容

本发明目的在于,通过提供一种基于站点客流特征的公交IC卡站点匹配方法,提高单次刷卡线路的公交IC卡数据站点匹配精度,准确反映公交乘客出行时站点客流量信息。为基于公交IC卡的数据处理分析提供高质量的数据,获取更真实的公交IC卡数据挖掘结果,为公交规划者与管理者提供决策依据。

本发明是采用以下技术手段实现的:

一种基于特征站点的公交IC卡数据站点匹配方法,包括:基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配;

所述的基于k-means聚类方法的公交IC卡数据聚类分析,包括如下步骤:

步骤1.1:确定单车单日班次数;

即通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数。

对于单车单日IC卡数据而言,连续两个班次之间有较大的时间间隔,通常在5~10分钟以上(环行线路即一端无重点场站线路除外),故单车前一班次的最末交易时间与后一班次的最初交易时间间隔显著大于同一班次内的相邻交易时间间隔。计算单车单日所有相邻交易记录的交易时间差值,ti代表单车IC卡数据中每条交易记录的交易时间,d(ti,ti+1)代表相邻交易时间间隔,利用曼哈顿距离计算:

d(ti,ti+1)=|ti-ti+1|

以w代表班次数,α为班次间隔判断阈值,根据城市具体交通情况取值,一般高峰可为5分钟,平峰为10分钟。统计单车单日班次数,方法如下:

w=w+1,if d(ti,ti+1)>α

步骤1.2:确定初始聚类个数;

单车班次确认后,对单个班次内的交易记录进行聚类分析。由于在同一站点的交易记录交易时间间隔较小,可通过相邻交易时间间隔判断初始聚类个数。以k代表聚类初始值,β为初始聚类判断阈值,一般大于30秒,则k的统计方法如下:

k=k+1, if d(ti,ti+1)>β

步骤1.3:计算初始聚类子集中心及误差平方和准则函数;

设交易记录数据集为T,mi为聚类中心,即每个类中交易时间的平均值,p是数据集中的点,即交易记录中的交易时间。计算初始聚类中心如下:

mi=1nΣpTi,i=1kp

误差平方和准则函数E计算如下:

E=Σi=1kΣpTi||p-mi||2

步骤1.4:聚类循环计算

增加聚类个数k,并重复步骤1.3,直到准则函数E收敛。

对单个班次而言,不是每个站点都有乘客上车,且线路末端至少有一个站点无人上车,故最终聚类子集个数应小于公交线路单程站点数。为避免聚类子集个数超出正常范围或聚类子集间距过小而偏离实际,以n代表线路单程站点数,定义当d(ki,ki+1)<30s,or k=n-1时,聚类停止。

所述的基于特征站点的站点匹配,包括如下步骤:

步骤2.1:特征站点选取;

本发明所述的特征站点,包括客流峰值站点及换乘站点,其余站点为非特征站点。客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点。

特征站点的选取可根据城市居民出行调查数据或公交运营调查数据中统计得到,或基于公交IC卡数据处理分析,获得站点客流或换乘行为识别等数据,来确认特征站点。

步骤2.3客流峰值站点匹配;

按照班次途径站点先后顺序为站点赋予ID,并确认客流峰值站点的ID。选取交易记录数(客流量)最多的聚类子集,按照时间先后顺序与客流峰值站点ID进行匹配。

步骤2.4:换乘站点匹配

按照班次途径站点先后顺序为站点赋予ID,根据目标线路与其他线路接驳及客流换乘情况选择换乘站点,并确定ID。根据聚类子集时间排序与站点ID排序的对应关系,找到可能与换乘站点匹配的聚类子集。若换乘站点ID为x,则定义可能的聚类子集为kx-1,kx,kx+1

对可能与换乘站点匹配的聚类子集,搜索其中每个IC卡号的全天交易记录,找到由其他线路换乘到目标线路的IC卡号。设乘客在目标线路站点的交易时间为td,前一个交易记录的交易时间为to,若to所属线路与目标线路有换乘站点,则该IC卡号乘客可能为换乘乘客。设变量Transfer为1时表示存在换乘行为,为0时不存在换乘行为,为换乘行为判断阈值,当换乘线路为双次刷卡公交线路或地铁线路时,取值一般小于20分钟,当换乘线路为单次刷卡线路时,取值一般小于1小时。判断是否为换乘行为方法如下:

一旦Transfer=1出现时,则视换乘行为被确定,其他潜在值将不再被计算,将td所在的聚类子集与换乘站点ID匹配。

步骤2.5:非特征站点匹配

以特征站点为基准点,根据相邻站点平均运行时间与聚类子集时间距离的大小关系匹配其余站点。聚类子集时间距离为d(ki,ki+1)=|mi-mi+1|,设Dq-1,q为站点q-1与q的站间距离,为站点间车辆运行平均速度,t为的交通时间段,为站点平均运行时间,则站点间运行时间计算如下:

RT(q-1,q)=Dq-1.qVt

若聚类子集ki与特征站点q-1匹配,则非特征站点匹配方法如下:

d(ki,ki+1)RT(q-1,q),子集k+1与站点q匹配

RT(q-1,q+1)d(ki,ki+1)>RT(q-1,q),子集k+1与站点q+1匹配

RT(q-1,q+2)>d(ki,ki+1)>RT(q-1,q+1),子集k+1与站点q+2匹配

...

将所有聚类子集匹配到站点后,每个子集中的交易记录数代表站点上车客流量,其余未匹配的站点,客流量为0。

本发明与现有技术相比,具有以下明显的优势和有益效果:

本发明基于特征站点的公交IC卡数据站点匹配方法,以计算机技术、数据挖掘技术为支撑,通过选取公交线路特征站点,与聚类后的公交IC卡数据进行匹配,提高单次刷卡线路的公交IC卡数据站点匹配精度,获得更准确的公交站点客流量信息,为基于公交IC卡的数据处理分析提供更高质量的数据,为公交规划者与管理者提供决策依据。

附图说明

图1基于特征站点公交IC卡数据站点匹配流程;

图2换乘行为识别流程;

图3非特征站点匹配流程;

图4特征站点选取结果。

具体实施方式

本发明以北京市公交线路XX路公交IC卡数据为对象进行了试验,对xx路早高峰时段(7:00~9:00)进行站点客流量调查,调查日期为2009年06月15日至2009年06月19日。特征站点ID为03,08,12(见附图4),其中,客流峰值站点为03,08,换乘站点为12,换乘线路为地铁5号线。所有时间计算均以秒为单位,其中,班次间隔判断阈值α=600s,初始聚类判断阈值β=40s,换乘行为判断阈值为

为检验特征站点匹配方法(Character_Match)效果,同时采用运行时间匹配方法(Travel_time_Match)进行对比,即只根据站点间运行时间与聚类子集时间差值进行匹配。设匹配错位站点数为e,站点匹配准确率ε计算为:

ϵ=n-en×100%

站点匹配结果(见表1)显示,特征站点匹配方法平均准确率达85%,明显好于运行时间匹配方法的76%。

表1匹配结果

  内容  准确率  准确率  (特征站点匹配)  (运行时间匹配)  班次1  89%  78%  班次2  85%  74%  班次3  85%  78%  班次4  81%  74%  班次5  85%  78%  平均值  85%  76%

最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号