首页> 中国专利> 基于手机信令的铁路车站客流特征提取方法

基于手机信令的铁路车站客流特征提取方法

摘要

本发明涉及基于手机信令的铁路车站客流特征提取方法,首先根据车站研究范围设定信令采集基站分布,采集研究区域内相关时段旅客的手机信令数据;然后对手机信令数据进行预处理,使之满足客流特征提取要求,包括信令数据简化、信令数据除燥、数据扩样、铁路网络基站数据库构建;最后在识别旅客出行轨迹后,提取相关车站客流特征,包括车站旅客发送量、客流流向及占比、高峰小时客流量及高峰小时系数、车站最高聚集人数。本发明基于手机定位对旅客手机信令数据进行采集,对手机信令数据进行清洗,在识别旅客出行轨迹的基础上,设计车站客流特征提取技术,用于车站铁路客流的提取,从而低成本、快速、广覆盖、多样化获取车站客流特征。

著录项

说明书

技术领域

本发明涉及铁路车站建设运营技术领域,具体涉及基于手机信令的铁路车站客流特征提取方法。

背景技术

铁路车站客流是进行车站合理规划布局、确定设备设施规模及制定运输组织方案的基础数据,通常包括车站旅客发送量、客流流向及占比、高峰小时旅客发送量及高峰小时系数、车站最高聚集人数等指标,目前主要以传统人工调查法和交通设备采集法技术为主。

传统人工调查方法获取数据信息一般采用人工观测计数统计或抽样旅客出行问卷调查;交通设备采集技术一般需要在主要观测点进行施工建设,架设装备设施,如感应线圈、视频检测器等。既有方法耗费成本高、涉及人员多、组织难度大、实施周期长,覆盖率较低,采集能力有限,因此很难大规模应用。在移动通信大数据时代,手机已经成为现代人必备随身工具,目前中国移动、联通、电信三大运营商手机用户总数已达15.9亿户,通过手机终端产生的信令数据和基站位置即可定位使用者的当前位置,还原个体在时间维度、空间纬度上的出行链路信息,这些海量数据为铁路车站客流的提取及分析提供了新的手段支持。相较于传统的交通检测手段,手机信令数据具有覆盖范围广、数据稳定可靠、样本量大、成本低的优势,如何在海量手机信令数据中快速、有效提取车站客流对铁路部门制定科学决策具有重要意义。

因此,有必要根据手机信令数据结构,对手机信令数据进行采集,简化、除燥、扩样及构建基站数据库,在识别旅客出行轨迹的基础上,设计车站旅客发送量、客流流向及占比、高峰小时旅客发送量及高峰小时系数、车站最高聚集人数等车站客流特征提取技术方法。

发明内容

本发明的目的是提供基于手机信令的铁路车站客流特征提取方法,基于手机定位对旅客手机信令数据进行采集,通过数据简化、除燥、扩样、数据库构建等步骤对手机信令数据进行清洗,在识别旅客出行轨迹的基础上,设计车站旅客发送量、客流流向及占比、高峰小时旅客发送量及高峰系数、车站最高聚集人数等客流特征提取技术,用于车站铁路客流的提取,从而低成本、快速、广覆盖、多样化获取车站客流特征。

本发明所采用的技术方案为:

基于手机信令的铁路车站客流特征提取方法,其特征在于:

所述方法包括以下步骤:

步骤一,数据提取:

根据车站研究范围设定信令采集基站分布,采集研究区域内相关时段旅客的手机信令数据;

步骤二,数据清洗:

对手机信令数据进行预处理,使之满足客流特征提取要求,包括信令数据简化、信令数据除燥、数据扩样、铁路网络基站数据库构建;

步骤三,客流特征提取:

在识别旅客出行轨迹后,提取相关车站客流特征,包括车站旅客发送量、客流流向及占比、高峰小时客流量及高峰小时系数、车站最高聚集人数。

步骤一中,根据手机信令数据结构以及车站客流特征提取需要,采集的信令信息的内容包括:

信令采集内容:加密用户识别码、移动设备识别码、信令事件、时间戳、移动业务交换中心编码、位置区编码、基站区编码、蜂窝小区编码、Flag、用户归属地;

信令采集基站:依据项目所在区域确定信令采集基站分布,确定各个车站的信令采集基站,以及通道线路上的信令采集基站;

信令采集频次:从通信系统中实时采集,时间频次为60S;

信令存储:信令文件存储为txt文件。

步骤二中,信令数据简化的过程为:

步骤1,数据填充:在数据文件中添加用户归属地及基站经纬度坐标数据字段,先用空值填充,转步骤2和步骤3,后转步骤4;

步骤2:依据用户识别码确定每一行数据的用户归属地,并填充对应字段数据;

步骤3:将位置区编码、基站区编码、蜂窝小区编码确定信令采集基站的具体位置,填充经纬度字段;

步骤4:初步筛选:删除基站区编码、移动设备识别码、以及移动业务交换中心编码,形成初步数据文件。

步骤二中,信令数据除燥的过程为:

无效数据处理:指不能真实记录通信网络信令时间发生状况的数据,需要识别并删除;无效数据主要包括两类:字段缺失数据,数据中一个或几个字段为空;Flag=001的数据,即没有成功获取用户的 IMEI,无法准确记录用户信息;

重复数据处理:重复数据指各个字段均相同的重复数据,以及一些信令事件在数秒内产生的多条除Timestamp外其他字段均相同的数据,过滤保留其中一条数据;

乒乓数据处理:乒乓数据是由于基站小区的无线信号重叠覆盖和信号强度波动造成的手机在短时间内频繁在附近多个基站间来回切换而产生的数据,需要进行过滤保留其中一条数据;

漂移数据处理:信号漂移现象为GSM系统中手机的通信链路从临近的基站切换至位置较远的基站,该类数据中存在短时间内长距离移动不符合用户实际活动行为,会干扰算法识别,影响研究结果的精度与准确性,需要对其进行过滤。

步骤二中,信令数据扩样的过程为:

营运商市场占有率扩样:根据不同运营商市场占有率扩样得到区域拥有手机的旅客数量,设

采集终端信令抓取率扩样:假设无手机、关机、持有多个手机终端的漏抓部分信令,抓取率为β,则区域旅客总量N

步骤二中,基站数据库构建的过程为:

构建铁路站点基站数据库DB

步骤三中,为提取客流特征数据,定义旅客单次出行数据中第i条手机信令数据为P

步骤三中,旅客出行轨迹识别的过程为:

依据旅客单次出行信令数据,按照进站、出站、换乘站点识别方法以及出行线路匹配方法,提取旅客单次出行轨迹的时空数据,步骤为:

步骤1:进站站点识别与标记

搜索首个P

步骤2:出行线路匹配

步骤3:离站站点识别与标记

设置旅客离站时间阈值T

步骤4:换乘站点与中间站点识别

判断旅客从线路Line到Line′是否需要换乘,若需要,说明站点Station 为旅客出行换乘站点,转步骤5;否则,站点Station为旅客出行中间站,转步骤6;

步骤5:换乘站点标记

令Station

步骤6:中间站点标记

令Station

步骤7:出行路径是否有效

遍历上述手机信令数据,若P

步骤三中,客流特征提取的过程为:

1)车站旅客发送量

一定时期(日、月、年)内实际购票的全部始发旅客,可根据站台候车收集到的信令数据计算得出,车站在t到t+ΔT之间的旅客发送量

2)客流流向及占比

通过手机信令数据中的归属地Qcellcore字段进行筛选统计,车站在时刻t到t+ΔT之间来自地区location的客流可由下式计算得出:

其中:

3)高峰小时客流量及高峰小时系数

令Δt=1hour,则车站高峰小时客流量

4)车站最高聚集人数

铁路车站旅客最高聚集人数是指全年最高月日均同时最大的车站旅客聚集人数,图解法是目前确定车站旅客最高聚集人数较为精确的方法,其原理是通过累计的旅客进站客流量与旅客检票候车客流量差值来确定候车厅的旅客数量[10-15];设

本发明具有以下优点:

本发明利用手机信令数据具有样本量大、空间覆盖范围广、实时动态性强的特点,采集手机定位技术所产生的手机信令数据主要包括移动台识别号(Mobile Station ID,MSID)、时间戳(Timestamp)、位置区编码(LAC)、小区编码(CELLID)、用户归属地(Qcellcore)、事件编号(EVENTID)等信息,利用本方法通过这些数据对旅客出行时空轨迹进行动态追踪,从而为铁路车站客流特征提取提供多维度、多时段的研究数据,与传统方法相比,其成本低廉、操作方便、获取快速,可实施性高,完全可以满足铁路客流特征研究精度要求。

附图说明

图1是铁路车站客流特征提取技术流程图。

图2是旅客出行轨迹识别技术路线图。

图3是西安北站手机信令扩样旅客发送量与实际对比图。

图4是西安北站分时客流量图。

图5是西安北站2019年2月10日实际客车分布对比图。

具体实施方式

下面结合具体实施方式对本发明进行详细的说明。

本发明涉及一种基于手机信令的铁路车站客流特征提取方法主要包括手机信令数据提取、数据清洗、客流特征提取三个步骤,如图 1所示。

数据提取:即根据车站研究范围设定信令采集基站分布,采集研究区域内相关时段旅客的手机信令数据。

数据清洗:即对手机信令数据进行预处理,使之满足客流特征提取要求,主要包括信令数据简化、信令数据除燥、数据扩样、铁路网络基站数据库构建四个步骤。

客流特征提取:在识别旅客出行轨迹后,提取相关车站客流特征,包括车站旅客发送量、客流流向及占比、高峰小时客流量及高峰小时系数、车站最高聚集人数等。

1、数据提取

根据手机信令数据结构以及车站客流特征提取需要,采集的信令信息主要内容如表1所示。

表1手机信令数据采集

采集的手机信令数据是进行客流特征提取的原始基础数据,其中包含的移动设备识别码、时间戳、小区编码、用户归属地等信息通过简化、相关算法提取,即可得到客流特征研究所需的旅客出行流量、流向及时间等信息。

2、信令数据清洗

(1)信令数据简化

数据简化是对采集的手机信令数据文件进行数据填充、初步筛选,具体步骤如下:

步骤1:数据填充。在数据文件中添加用户归属地及基站经纬度坐标数据字段,先用空值填充,转步骤2和步骤3,后转步骤4。

步骤2:依据用户识别码(EMSI)确定每一行数据的用户归属地,并填充对应字段数据。

步骤3:将位置区编码(LAC)、基站区编码(BSCID)、蜂窝小区编码(CELLID)确定信令采集基站的具体位置,填充经纬度字段。

步骤4:初步筛选。删除基站区编码(BSCID)、移动设备识别码 (IMEI)、以及移动业务交换中心编码(MSCID),形成初步数据文件。

(2)信令数据除燥

通信系统产生的手机信令数据存在无效数据、重复数据、乒乓数据、漂移数据等噪声数据,会影响研究结果的精度与准确性,也会增加数据处理工作量与复杂度,因此需要预处理进行除燥。

无效数据处理:是指不能真实记录通信网络信令时间发生状况的数据,需要识别并删除。无效数据主要包括两类:字段缺失数据,数据中一个或几个字段为空;Flag=001的数据,即没有成功获取用户的IMEI,无法准确记录用户信息。

重复数据处理:重复数据指各个字段均相同的重复数据,以及一些信令事件在短时间(数秒)内产生的多条除Timestamp外其他字段均相同的数据,过滤保留其中一条数据。

乒乓数据处理:乒乓数据是由于基站小区的无线信号重叠覆盖和信号强度波动造成的手机在短时间内频繁在附近多个基站间来回切换而产生的数据,需要进行过滤保留其中一条数据。

漂移数据处理:信号漂移现象为GSM系统中手机的通信链路从临近的基站切换至位置较远的基站,该类数据中存在短时间内长距离移动不符合用户实际活动行为,会干扰算法识别,影响研究结果的精度与准确性,需要对其进行过滤。

(3)信令数据扩样

综合考虑营运商市场占有率、采集终端信令抓取率,对信令数据逐层进行扩样。

营运商市场占有率扩样:由于资金限制,手机信令数据通常仅能获得中国移动、中国联通和中国电信三大运营商之一的数据,因此需要根据不同运营商市场占有率扩样得到区域拥有手机的旅客数量,设

采集终端信令抓取率扩样:主要考虑目前手机尚未100%普及,例如部分老人和儿童无手机;部分手机用户可能持有2个以上的手机终端,如双卡双待;信令采集终端可能会漏抓部分信令;部分用户习惯长时间关机。设该区域信令抓取率为β,则区域旅客总量N

综上,一位终端用户代表旅客人数λ=1/(α

(4)基站数据库构建

构建铁路站点基站数据库DB

3、客流特征提取

为提取客流特征数据,定义旅客单次出行数据中第i条手机信令数据为P

TAMP信息;L

(1)旅客出行轨迹识别

旅客出行轨迹识别技术路线如图2所示。依据旅客单次出行信令数据,按照进站、出站、换乘站点识别方法以及出行线路匹配方法,提取旅客单次出行轨迹的时空数据,步骤如下。

步骤1:进站站点识别与标记

搜索首个P

步骤2:出行线路匹配

步骤3:离站站点识别与标记

设置旅客离站时间阈值T

步骤4:换乘站点与中间站点识别

判断旅客从线路Line到Line′是否需要换乘,若需要,说明站点Station 为旅客出行换乘站点,转步骤5;否则,站点Station为旅客出行中间站,转步骤6。

步骤5:换乘站点标记

令Station

步骤6:中间站点标记

令Station

步骤7:出行路径是否有效

遍历上述手机信令数据,若P

通过上述步骤的分析迭代,为进一步提取客流特征提供数据支撑。

(2)客流特征提取

1)车站旅客发送量

一定时期(日、月、年)内实际购票的全部始发旅客,可根据站台候车收集到的信令数据计算得出,车站在t到t+ΔT之间的旅客发送量

2)客流流向及占比

通过手机信令数据中的归属地Qcellcore字段进行筛选统计,车站在时刻t到t+ΔT之间来自地区location的客流可由下式计算得出:

其中:

3)高峰小时客流量及高峰小时系数

令Δt=1hour,则车站高峰小时客流量

4)车站最高聚集人数

铁路车站旅客最高聚集人数是指全年最高月日均同时最大(即瞬时高峰)的车站旅客聚集人数,图解法是目前确定车站旅客最高聚集人数较为精确的方法,其原理是通过累计的旅客进站客流量与旅客检票候车客流量差值来确定候车厅的旅客数量[10-15]。设

第二部分:以西安北站为例验证方法的有效性和可行性。

1、数据提取

本案例信令数据采集运营商为中国联通,采集时间跨度为2019 年2月4日零时至2月10日24时,包含整个春节假期,信令采集基站覆盖范围为西安北站候车厅,采集数据共177466条数据,部分数据及字段如表2所示。

表2手机信令数据示例表

2、信令数据清洗

经过数据简化、除燥等清洗后剩余157461条数据,根据中国联通在各省份的用户占有率及信令抓取率(本次取值85%),对数据进行扩样,各省旅客的扩样代表人数λ如表3所示。

表3各省旅客扩样代表人数表

3、客流特征提取

(1)旅客发送量

通过对结束时间字段提取每日车站旅客信令数据,再对扩样代表人数λ求和,得到2019年2月4日至10日西安北站旅客发送量,手机信令扩样旅客发送量与实际发送量(来自中国铁路西安局集团)对比如图3所示。

信令数据扩样旅客发送量与实际旅客发送量误差在-4.85%至 4.54%之间,说明提取技术有效。同时,西安北站2019年全年实际旅客发送量3860万人,日均旅客发送量105735人,根据扩样数据可计算得出西安北站客流波动系数为1.25。

(2)客流流向及占比

通过对信令归属地Qcellcore字段进行筛选统计,计算得出采集期间西安北站客流主要流向陕西省内部,占比41.4%,对外主要为河南、四川、甘肃、北京等地。手机信令扩样旅客流向占比与实际流向 (来自中国铁路西安局集团)对比如下表所示。

手机信令扩样旅客流向占比与实际流向对比表

(3)车站高峰小时客流量与高峰小时系数

通过手机信令数据,以1h为间隔连续提取西安北站2019年2月4日至10日的客流量,如图4所示。

根据分时客流量分布,西安北站最大高峰小时客流量出现在2019 年2月10日(春节假期最后一天)下午17:00-18:00,这与现状实际客车分布规律基本一致,如图5所示。计算高峰小时客流量

(4)最高聚集人数

西安北站全年最高月日均同时最大(即瞬时高峰)旅客聚集人数出现在2019年2月10日春节假日返程高峰期间,该日开行客车267 对/日(始发212对/日),客车发车最小间隔1min,最大间隔25min,根据车站旅客最高聚集人数定义,取瞬时高峰10min,计算车站现状最高聚集人数

本发明的内容不限于实施例所列举,本领域普通技术人员通过阅读本发明说明书而对本发明技术方案采取的任何等效的变换,均为本发明的权利要求所涵盖。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号