法律状态公告日
法律状态信息
法律状态
2017-11-07
授权
授权
2014-06-11
实质审查的生效 IPC(主分类):G06Q10/04 申请日:20140124
实质审查的生效
2014-05-14
公开
公开
技术领域
本发明涉及交通运输及数据分析领域,尤其是涉及一种枢纽异常客流量产生 因素的识别方法。
背基技术
目前,枢纽客流分析的现状呈现以下几个问题:
1.目前为止,还没有一个完善的枢纽客流数据收集系统,实现对枢纽运营效 率及客流量及客流分布的数据收集。
2.目前为止,由于缺乏枢纽运营效率、客流量及客流分布的历史数据,我国 各大枢纽仍未建立有较为完善的枢纽客流分析方法,分析造成枢纽客流量及客流分 布变异的影响因素,预测枢纽客流到达量及到达分布,为综合交通枢纽的客运调度 提供数据指导及为设计枢纽特殊运营状态应急处理预案提供支持。
3.枢纽客流预测及影响因素分析多凭借主观经验进行人为判定,未能建立信 息化及量化的分析技术。导致我国综合客运枢纽运营效率低下,服务水平低,用户 出行满意度不高。
运用统计学的分析方法进行客流统计及异常客流数据的提取不仅可以为大型 枢纽管理部门提供分析造成客流异常的依据,提前预知异常客流产生的可能性,做 好运预案和应急监控的准备,最大限度的满足旅客出行的需求,提高枢纽的运营效 率和服务水平,实现客运和收益的最大化。
多元线性回归模型,在数理统计中,是描述一个因变量变量受到多个自变量的 影响的方法。以y作为因变量,以x1,x2…xn为n个自变量,则模型可以写成:
其中β0为常数项,βi(i=1,2,...n)是y对x的回归系数,ε为随机误差项。
聚类分析是一组将研究对象分为相对同质的群组的统计分析技术,聚类分析过 程主要包括了数据变换处理、计算聚类统计量、选择聚类方法、根据聚类方法进行 数据分析和预测四个步骤。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种枢纽异常客 流量产生因素的识别方法,提升客流数据收集的可靠性,加强客流数据分析的有效 性,实现客流分析的量化,提升客流预测的准确性。
本发明的目的可以通过以下技术方案来实现:
一种枢纽异常客流量产生因素的识别方法,该方法包括以下步骤:
1)采集历史数据,包括枢纽历史客流数据及相关影响因素信息;
2)根据步骤1)采集的数据构建枢纽客流量估测模型;
3)根据步骤2)的枢纽客流量估测模型提取异常客流量数据;
4)对提取的异常客流量数据进行聚类分析;
5)根据分析结果识别异常客流量产生因素。
所述的步骤1)具体为:
101)设置历史客流量收集颗粒度;
102)采集枢纽历史客流数据,包括枢纽各运输方式的运力、客流量和客流分 布比例;
103)采集相关影响因素信息,所述的相关影响因素信息包括天气数据、温度 数据、枢纽建设数据和交通数据。
所述的步骤2)具体为:采用多元线性回归方法对步骤1)采集的历史数据进 行回归训练,计算回归函数中的回归系数,构建如下回归函数:
其中,y为某种运输方式客流承担比例或客流量,x1,x2...xn为n个自变量,β0为常数项,βi(i=1,2,...n)是y对x的回归系数,ε为随机误差项。
所述的自变量的选取满足F检测95%置信区间的要求。
所述的步骤3)中的提取异常客流量数据具体为:
301)采用步骤2)的枢纽客流量估测模型对历史数据进行重新计算,计算历 史数据的估计值与实际数据的残差和相对误差;
302)设定相对误差控制值,提取相对误差超过相对误差控制值的数据,并将 提取的数据作为异常客流量数据。
所述的步骤4)中,对异常客流数据进行聚类分析时,聚类过程采用明考夫斯 基距离和夹角余弦值作为测量异常客流数据的相似程度,所述的明考夫斯基距离计 算公式为:
式中,diα(q)为异常客流数据i与异常数据聚类组α的明考夫斯基距离,q为自 然数,为控制距离计算程度的指标,p为异常客流数据的相关影响因素数量,Xik为 第i个异常客流数据的第k个相关影响因素的取值,Xαk为第α个异常客流数据聚类 组的第k个相关影响因素的平均值;
所述的夹角余弦值的计算公式为:
式中CoSθiα为第i个异常客流数据和第α个聚类组向量夹角余弦值。
所述的聚类过程具体为:
401)取第i个异常客流数据及其相关影响因素向量;
402)取第α个聚类组及其相关影响因素向量;
403)根据步骤401)和402)计算相应的明考夫斯基距离和夹角余弦值;
404)判断是否满足diα(q)≤α⌒CoSθiα≤β,α、β分别为明考夫斯基距离、夹 角余弦值的临界值,若是,则将该第i个异常客流数据加入第α个聚类组,执行步 骤406),若否,则执行步骤405);
405)判断是否满足α=m,m为当前聚类组数,若是,则将第i个异常客流数 据加入新建聚类组m+1,并执行步骤406),若否,则α=α+1,返回步骤402);
406)判断是否满足i=n,n为异常客流数据总个数,若是,则结束,若否, 则i=i+1,返回步骤401)。
与现有技术相比,本发明通过构建枢纽客流量估测模型,并根据历史数据与预 测数据的比较结果,为交通枢纽的等客运部门提供一种客流数据收集及分析的新型 方法,提升客流数据收集的可靠性,加强客流数据分析的有效性,实现客流分析的 量化,提升客流预测的准确性。
附图说明
图1为本发明的流程示意图;
图2为本发明聚类过程的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,一种枢纽异常客流量产生因素的识别方法,该方法包括以下步骤:
1)采集历史数据,包括枢纽历史客流数据及相关影响因素信息;
2)根据步骤1)采集的数据构建枢纽客流量估测模型;
3)根据步骤2)的枢纽客流量估测模型提取异常客流量数据;
4)对提取的异常客流量数据进行聚类分析;
5)根据分析结果识别异常客流量产生因素。
步骤1):历史数据采集
a.设置历史客流量收集颗粒度
根据实际大型交通枢纽的数据收集手段和枢纽预测精度要求,选取合适的历史 客流量数据颗粒度。数据收集的颗粒度从大到小可为:年,季度,月,周,日,早 晚高峰,小时,30分钟和15分钟。优选天、小时、30分钟及15分钟作为历史客 流量收集的颗粒度。
b.枢纽历史客流数据和可能相关影响因素信息的收集
历史数据的收集主要对时间数据、客流数据、运力数据、天气数据、温度数据、 建设数据、交通数据、其他数据等数据进行收集。具体数据的收集不限于下属数据, 不同枢纽可以根据其实际数据收集技术和数据收集需求,选取其中需要的数据类 型。具体的数据类型和对应的数据收集内容如表1所示。表1所示仅为本发明的部 分优选数据收集内容,并非因此限制本发明的专利范围,凡是利用本发明提出的数 据收集方法,或直接或简介运用在其他相关的技术领域,均同理包括在本发明的专 利保护范围内。
表1
c.数据结构设计。
数据结构设计过程中,取各交通方式的客运量、客运承担比率和运力为连续变 量,天气数据、温度数据、建设数据、交通数据、其他数据取为哑元变量(0,1变 量)。具体的变量格式参见附件表
以天为例具体数据的结构形式可以用如表2所示。
表2
步骤2):构建枢纽客流量估测模型
将枢纽客流数据处理成上述数据格式后,按照OLS作为控制目标采用多元线 性回归方法对历史数据进行回归训练,计算回归函数的相关参数,构建回归函数, 作为估算客流数据的估测模型。
优选回归方程形式如下:
其中y作为因变量为某种交通方式客流承担比例或客流量,以x1,x2….xn为n个 自变量。β0为常数项,βi(i=1,2,...n)是y对x的回归系数,ε为随机误差项。其中 自变量的选取需满足F检测95%置信区间的要求,否则去除该自变量。
在此,以轨道交通客流比例作为因变量为例,采用上述多元线性回归方程进行 历史数据训练,训练结果表3所示。
表3
步骤3):根据枢纽客流量估测模型提取异常客流量数据;
采用根据历史数据训练的回归模型对历史数据进行重新计算,计算历史数据的 估计值和相对误差 对相对误差超过10%的数据进行提取。提取的数据即为异常 数据。以某枢纽2012年6月的历史数据为事例,对应的计算结果如表4所示。
表4
根据计算结果,对相对误差超过10%的数据进行提取,提取结果如表5。
表5
步骤4):异常客流数据分析
对异常客流数据进行聚类分析,聚类过程采用明考夫斯基距离和夹角余弦作为 测量异常客流数据的相似程度。明考夫斯基距离计算公式如下:
夹角余弦值的计算方法如下:
取q为2,明考夫斯基距离、夹角余弦值的临界值α、β分别为α=0.2,β=0.5, 未满足此两项条件则单独作为聚类分组。如图2所示,聚类过程具体为:
401)取第i个异常客流数据及其相关影响因素向量;
402)取第α个聚类组及其相关影响因素向量;
403)根据步骤401)和402)计算相应的明考夫斯基距离和夹角余弦值;
404)判断是否满足diα(q)≤α⌒CoSθiα≤β,若是,则将该第i个异常客流数据加 入第α个聚类组,执行步骤406),若否,则执行步骤405);
405)判断是否满足α=m,m为当前聚类组数,若是,则将第i个异常客流数 据加入新建聚类组m+1,并执行步骤406),若否,则α=α+1,返回步骤402):
406)判断是否满足i=n,n为异常客流数据总个数,若是,则结束,若否, 则i=i+1,返回步骤401)。
取上述3组异常数据计算明考夫斯基距离和夹角余弦值,计算结果可以分成两 组聚类,如表6所示。
表6
步骤5):异常客流数据成因判定及估测模型适用性判定
对各个聚类组的异常数据对应各的影响因素进行统计分析,如果各组中对应某 些向量关系存在率超过80%则认为该影响因素为造成异常客流数据的影响因素之 一。
对上述2组聚类数据进行分析,分析结果显示第1组数据中均出现在节假日, 且节假日均为周末,存在率为100%,故造成异常客流比例的原因可能是假期客流 与周末客流的相互影响所引起的。第2组聚类中由于数据量不足,不对聚类结果进 行分析。
根据上述分析结果所示,当节假日出现在周末时,由于周末及节假日客流的相 互影响,轨道交通所承担的客流比例会下降,在面对这类特殊情况时,需考虑该因 素对实际客流分布的影响。
以上所属仅为本发明的部分优选实施事例,并非因此限制本发明的专利范围, 凡是利用本发明说明书及附图内容所做的等效结构或等效流程变换,或直接或简介 运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
机译: 异常因素识别方法和系统,用于使计算机执行异常因素识别方法的程序以及记录该程序的计算机可读记录介质
机译: 异常因素识别方法和装置,导致计算机执行异常因素识别方法的程序以及记录该程序的计算机可读记录介质
机译: 异常因素识别方法和装置,用于使计算机执行异常因素识别方法的程序以及记录该程序的计算机可读记录介质