技术领域
本发明涉及城市交通技术领域,更具体地,涉及一种基于IC卡数据的公交通勤识别方法。
背景技术
随着物联网、移动互联网及云计算等新一代信息技术的迅速发展,大数据现已成为当下的热门话题。城市规划和交通规划领域正从经验驱动规划转变为数据支撑与数据驱动的规划,使用公交IC卡数据能够具体地和有效地评价城市职住关系,有助于交通管理者从城市宏观层面认识城市居民公共交通通勤特征和城市通勤空间结构,了解城市职住空间失配的程度以及影响因素,促进更合理的职住关系提供相应规划依据,从而合理有效的对城市结构进行优化。基于IC卡数据对城市通勤特征进行分析时,首先需要识别通勤OD。
目前基于IC卡刷卡数据的公交通勤识别方法复杂程度较高,在城市公共交通通勤规划中实际应用难度较大,如中国专利公开号:CN111932867A,公开日:2020-11-13,公开了一种基于多源数据的公交IC卡乘客下车站点推导方法,包括步骤:(1)基础数据准备:对原始数据进行预处理,得到有效的公交GPS数据和IC刷卡数据,计算公交到站时间表,统计各站点上车人数;(2)基于通勤出行链推导下车站点:识别通勤出行链,推导通勤人群下车站点,统计各站点下车人数;(3)基于普通出行链推导下车站点:识别普通出行链,根据出行链特征推导下车站点,统计各站点下车人数;(4)基于站点吸引权推导下车站点:定义站点吸引权计算方法,从集计角度计算站点下车概率,从而得到各站点下车人数。
与其他出行模式相比,通勤在空间上和时间上都有更强的规律性,主要具有出行时间固定并且集中和通勤方式选择的长期性等特征,因此可以使用一种简单高效的通勤识别方法对IC卡数据进行通勤识别。
发明内容
本发明为克服上述现有技术的公交通勤识别方法复杂程度较高的问题,提出了一种基于IC卡数据的公交通勤识别方法,该方法计算简单,且能有效的识别出公交通勤数据。
为解决上述技术问题,本发明的技术方案如下:
一种基于IC卡数据的公交通勤识别方法,所述的方法包括步骤如下:
S1:对公交IC卡数据依次进行数据清洗、下车站点匹配,得到具有完整OD信息的数据;
S2:对步骤S1得到的数据中交通出行量的时间分布进行统计,对早晚高峰时间段进行扩展,确定通勤时间范围;
S3:分别对早晚通勤时间段内的数据进行统计筛选,得到具有通勤可能性的通勤者和通勤起讫点;
S4:对早晚通勤时间范围内的可能通勤者进行匹配,确定通勤者和通勤OD。
优选地,步骤S1中,对公交IC卡数据进行数据清洗、站点匹配的具体过程如下:识别下车站点,得到完整OD信息的数据;所述的识别下车站点的方法如下:
如果指定的出行记录与上次出行的线路相同,但方向相反,则该次出行的上车站点将被标识为上一次出行的下车站点;
对于不同的线路,如果上车站点与其上次行程的潜在下车站点之一之间的距离小于阈值,则此次的上车站点将被识别为上次行程的下车站点。
进一步地,如果下车行为与其下一次上车行为之间的时间间隔小于给定阈值,则将其识别为中转行为,并将这两个出行记录合并为一个出行记录。
再进一步地,步骤S2中,确定通勤时间范围的具体过程如下:将一天从0时开始以半小时为单位划分成48个区间,统计每个时间区间的交通出行量,其中换乘数据只考虑起讫点,不考虑中间换乘站点;
根据城市居民公共交通通勤习惯以及区间交通出行量分布选定扩展区间,对早晚高峰出行时间段进行扩展,并统计扩展区间的交通量范围,将扩展后的早晚高峰时段作为通勤时间范围。
再进一步地,步骤S3中,对早晚通勤时间段内的数据进行统计筛选具体过程如下:统计基于相同的ID、出行起点和出行终点的出现频次,作为判定条件,得到早晚通勤时间范围内具有通勤可能性的通勤者和通勤起讫点。
再进一步地,以每周最少三次具有相同的起讫点作为判定条件。
再进一步地,步骤S4中,确定最终通勤者具体过程如下:基于早晚通勤时间范围内可能的通勤者,以如下规则作为判定条件,对早晚通勤时间范围内的可能通勤者进行匹配筛选,删除可能非通勤者,确定通勤者和通勤OD;所述的规则如下:
规则1:某一通勤者只在早通勤时间内或晚通勤时间内出现,判定为可能非通勤者;
规则2:相同的ID在早通勤时间内或晚通勤时间内不小于2次出行,判定为可能非通勤者。
一种基于IC卡数据的公交通勤识别方法的系统,所述的系统包括
数据清洗模块,用于对公交IC卡数据进行数据清洗;
站点匹配模块,用于对清洗后的数据匹配下车站点,输出具有完整OD信息的数据;
统计模块,用于数据中交通出行量的时间分布进行统计,对早晚高峰时间段进行扩展,输出通勤时间范围;
筛选模块,用于对早晚通勤时间段内的数据进行统计筛选,输出具有通勤可能性的通勤者和通勤起讫点;
通勤时间匹配模块,对早晚通勤时间范围内的可能通勤者进行匹配,确定通勤者和通勤OD。
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现所述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现所述的方法的步骤。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供的基于IC卡数据的公交通勤识别方法能够简单高效的识别出公交通勤数据。该方法充分考虑了通勤在空间上和时间上都有较强的规律性,结合通勤出行时间固定并且集中和通勤方式选择的长期性等特点,对采集到的公交IC卡数据进行处理以重构出具有完整OD信息的数据,然后结合有效的筛选和匹配规则,通过通勤筛选和匹配,识别出公交通勤数据。相比于传统的基于识别地的频率采用机器学习确定通勤者的方法,更加简单高效,复杂性更低,实用性更强。
附图说明
图1是实施例1所述的基于IC卡数据的公交通勤识别方法的示意图。
图2是实施例1所述的基于IC卡数据的公交通勤识别方法的具体流程图。
图3是实施例1各区间段内交通生成量。
图4是实施例1分析区域。
图5是实施例1区域内城市居民公共交通居住地分布热力图。
图6是实施例1区域内城市居民公共交通工作地分布热力图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,仅用于示例性说明,不能理解为对本专利的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例使用的数据源为2014年1月6日-12日(包含5个工作日,2个周末)广州市4192 521张公交IC卡数据(包括“羊城通”和“岭南通”)。地铁刷卡数据包括完整的进出站信息,因此已具备完整的出行起讫点记录。一种基于IC卡数据的公交通勤识别方法,如图1、图2所示,所述的方法包括步骤如下:
步骤S1:对公交IC卡数据依次进行数据清洗、下车站点匹配,得到具有完整OD信息的数据;
本实施例采用基于出行链方法推断常规公交下车站点,得到完整OD信息的数据。所述的基于出行链方法推断常规公交下车站点具体如下:
如果指定的出行记录与上次出行的线路相同,但方向相反,则该次出行的上车站点将被标识为上一次出行的下车站点;
对于不同的线路,如果上车站点与其上次行程的潜在下车站点之一之间的距离小于阈值,则此次的上车站点将被识别为上次行程的下车站点。但是,如果下车行为与其下一次上车行为之间的时间间隔小于给定阈值,则将其识别为中转行为,并将这两个出行记录合并为一个出行记录。
在下车站点推断过程中,将多天的刷卡数据记录进行融合以得到每张卡多天的按时间排序的出行刷卡记录,常规公交出行记录经数据清洗与站点匹配后,有65%的刷卡数据成功推断得到下车站点,加上已具备完整起讫点信息的地铁数据,得到公共交通出行活动数据总量为:22 429 915条出行记录,覆盖中心城区2 905个公交/地铁站点(包括2 801个公交站与104个地铁车站)。
步骤S2:对步骤S1得到的数据中交通出行量的时间分布进行统计,对早晚高峰时间段进行扩展,确定通勤时间范围;
将一天从0时开始以半小时为单位划分成48个区间,基于完整OD数据统计每个时间区间的交通出行量,其中换乘数据只考虑起讫点,不考虑中间换乘站点,结果如图3。可以看出相较于周六和周日,周中的早高峰大概在6:00:00-9:00:00,晚高峰大概在17:00:00-19:00:00,为了获得更加完整的通勤者对早晚高峰时间段进行了扩展,将早晚高峰时间分别扩展为6:00:00-10:00:00和16:00:00-00:00:00,对比可以发现早时间范围内交通量由3.15×10
步骤S3:分别对早晚通勤时间段内的数据进行统计筛选,得到具有通勤可能性的通勤者和通勤起讫点;
分别对早晚通勤时间段内的数据进行统计筛选具体过程如下:统计基于相同的ID、出行起点和出行终点的出现频次,以每周最少三次具有相同的起讫点作为判定条件,从而得到早晚通勤时间范围内具有通勤可能性的通勤者和通勤起讫点,本实施例早通勤时间范围内可能通勤者5.11×10
步骤S4:对早晚通勤时间范围内的可能通勤者进行匹配,确定通勤者和通勤OD。
确定最终通勤者具体过程如下:基于早晚通勤时间范围内可能的通勤者,以如下规则作为判定条件,对早晚通勤时间范围内的可能通勤者进行匹配筛选,删除可能非通勤者,确定通勤者和通勤OD;所述的规则如下:
规则1:某一通勤者只在早通勤时间内或晚通勤时间内出现,判定为可能非通勤者;
规则2:相同的ID在早通勤时间内或晚通勤时间内不小于2次出行,判定为可能非通勤者。
删除条件主要有:只在早/晚通勤时间内出行、在早/晚通勤时间内多次往返出行,最终筛选得到279 423个具有明显通勤特点的通勤者。选择合适的城市研究范围,如图4,对通勤者进一步筛选,得到218 520个通勤者,其中包含1 840个起点站点,1 739个终点站点,范围内城市居民公共交通职住地的热力图如图5、图6。
实例表明基于IC卡数据的公交通勤识别方法与已有方法相比,该方法具有更强的灵活性和实用性,充分考虑IC卡数据交通分布和通勤分布特征,减少了通勤筛选过程中出行链构建的繁琐过程,能够快速识别具有通勤特征的通勤者。
综上,本实施例提出一种基于IC数据的公交通勤识别方法。对公交IC卡数据进行数据清洗,基于出行链推断下车站点,完善通勤OD信息;接着基于统计方法确定通勤区间,确保能够基本覆盖所有可能通勤者;接着以最少三次具有相同起讫点作为判定条件,筛选出可能通勤者;最后对早晚通勤者进行匹配,得到最终的通勤者。研究结果可用于探究公共交通通勤特征分析和通勤效率评价,为更好的管理城市公共交通提供辅助决策。
实施例2
基于实施例1所示的基于IC卡数据的公交通勤识别方法,本实施例还提供了一种基于IC卡数据的公交通勤识别的系统,所述的系统包括
数据清洗模块,用于对公交IC卡数据进行数据清洗;
站点匹配模块,用于对清洗后的数据匹配下车站点,输出具有完整OD信息的数据;
统计模块,用于数据中交通出行量的时间分布进行统计,对早晚高峰时间段进行扩展,输出通勤时间范围;
筛选模块,用于对早晚通勤时间段内的数据进行统计筛选,输出具有通勤可能性的通勤者和通勤起讫点;
通勤时间匹配模块,对早晚通勤时间范围内的可能通勤者进行匹配,确定通勤者和通勤OD。
实施例3
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现方法步骤如下:
S1:对公交IC卡数据依次进行数据清洗、下车站点匹配,得到具有完整OD信息的数据;
S2:对步骤S1得到的数据中交通出行量的时间分布进行统计,对早晚高峰时间段进行扩展,确定通勤时间范围;
S3:分别对早晚通勤时间段内的数据进行统计筛选,得到具有通勤可能性的通勤者和通勤起讫点;
S4:对早晚通勤时间范围内的可能通勤者进行匹配,确定通勤者和通勤OD。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现方法步骤如下:
S1:对公交IC卡数据依次进行数据清洗、下车站点匹配,得到具有完整OD信息的数据;
S2:对步骤S1得到的数据中交通出行量的时间分布进行统计,对早晚高峰时间段进行扩展,确定通勤时间范围;
S3:分别对早晚通勤时间段内的数据进行统计筛选,得到具有通勤可能性的通勤者和通勤起讫点;
S4:对早晚通勤时间范围内的可能通勤者进行匹配,确定通勤者和通勤OD。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
机译: 基于驾驶员智能设备位置信息的通勤公交位置确认服务的提供方法
机译: 基于声音数据的交通运输系统识别方法,基于声音数据的交通运输系统识别方法和装置
机译: 记录了一种基于数据库的数据关联方法和一种基于数据库的数据关联系统以及基于数据库的数据关联方法,并且计算机可读记录介质包括计算机可读记录介质。