公开/公告号CN104485000A
专利类型发明专利
公开/公告日2015-04-01
原文格式PDF
申请/专利权人 浙江银江智慧交通集团有限公司;
申请/专利号CN201410852321.4
申请日2014-12-31
分类号
代理机构杭州之江专利事务所(普通合伙);
代理人张慧英
地址 310030 浙江省杭州市西湖区西湖科技园西园八路2号银江软件园B座6楼
入库时间 2023-12-17 04:31:51
法律状态公告日
法律状态信息
法律状态
2016-09-14
授权
授权
2015-04-29
实质审查的生效 IPC(主分类):G08G1/01 申请日:20141231
实质审查的生效
2015-04-01
公开
公开
技术领域
本发明涉及城市智能交通数据处理技术领域,尤其涉及一种浮动 车数据源有效性分析处理方法。
背景技术
浮动车数据源是城市智能交通信息采集中应用较广的一种交通 数据采集数据源,由于其相对于其他固定检测器数据源更准确有效的 数据检测结果、更大的覆盖范围以及更灵活的部署条件等优势在国内 外得到了广泛应用。通过对浮动车采集数据进行处理分析并得到城市 道路交通状态信息结果是目前智能交通领域的主流研究方向。
但是,浮动车数据源同样也具有一定的固有缺陷。由于浮动车分 散性的固有特点,原始浮动车采集数据一般具有数据噪声高、部分区 域缺失情况严重、稳定性不足等缺点,使得基于这类原始数据处理后 所得浮动车数据存在一定程度的先天不足。因此,采用单一浮动车数 据源的智能交通系统往往具有较大的误差,需要结合其他检测数据源 来对采集数据进行调整改善。这个过程就是多源数据处理技术的一个 重要部分。
目前国内对多源交通数据处理技术,尤其是浮动车数据源采集数 据与其他数据源采集数据的多源数据处理技术的技术研究大多仍然 停留于理论研究阶段,能够应用于实际智能交通系统的工程实践应用 研究较少,而且也没有表现出数据源的有效性程度对交通数据分析处 理的积极影响。实际上,交通数据的有效性是对道路交通指数的计算 有着直接影响的重要因素。正确可靠的交通数据可以得出客观有效的 交通指数结果,而异常的交通数据则会产生部分偏差甚至严重错误的 结果。根据对大量交通数据的分析结果表明,交通数据有效性包含两 个方面:(1)数据数量的完备性;(2)数据质量的可靠性。只有同时满 足这两个方面的要求的交通数据才是有效的数据。现有技术在这方面 存在着明显不足,降低了以浮动车数据源为基础的智能交通系统的交 通信息的准确性和可靠性。因此,设计一种浮动车数据源有效性分析 处理方法是十分必要的。
发明内容
本发明为克服上述的不足之处,目的在于提供一种浮动车数据源 有效性分析处理方法,该方法以单元路段为处理单位,按预设的处理 周期定时进行处理,计算总体数据有效性与分时数据有效性;确定数 据缺失程度,并根据缺失程度进行缺失数据补充处理;计算数据流量 有效性;依次确定每组数据有效性结果,并根据该结果确定数据异常 等级;计算周期数据有效性结果,根据周期数据有效性结果确定周期 数据有效性等级,并根据数据异常等级与周期数据有效性等级选择相 应的处理方式;实现了以较少参数识别浮动车数据源有效性的方法, 运算效率高,可操作性强,保证了多源数据处理的高效性和可靠性。
本发明是通过以下技术方案达到上述目的:一种浮动车数据源有 效性分析处理方法,所述浮动车数据源采集数据至少包含路段平均行 程速度与浮动车流量两个检测参数,所述浮动车流量为一个浮动车采 集周期CFC时间段内经过该单元路段的浮动车数量,包括如下步骤:
(1)预设处理周期CTPI,获取单元路段历史浮动车数据进行统计分 析,计算浮动车数据源的总体数据有效性QT;
(2)将一天的所有时间划分为关注时段与其他时段,根据每组浮动车 数据采集时间所属时段计算浮动车数据源的分时数据有效性QP;
(3)通过计算比较确定处理周期CTPI内浮动车数据源的数据缺失程 度,根据缺失程度进行缺失数据补充处理;
(4)依次计算处理周期CTPI内步骤(3)中的每组非缺失浮动车数据的 数据流量有效性QF;
(5)根据计算结果QT、QP、QF依次计算处理周期CTPI内每组非缺失 浮动车数据的数据有效性VT,根据计算结果VT确定浮动车数据源数 据异常等级;
(6)通过VT与步骤(3)缺失数据处理结果计算本处理周期CTPI内浮 动车数据源的周期数据有效性VTC,根据计算结果VTC确定周期数据有 效性等级。
作为优选,根据步骤(5)的数据异常等级与步骤(6)的周期数据有 效性等级对每组浮动车数据选择多源数据处理方式进行处理。
作为优选,所述步骤(1)总体数据有效性计算公式如下:
NS=αT×(T·hF)
其中,NS为路段一天中在有效时间长度内能够采集的有效交通 数据量,αT为总体有效性系数,T为一天中的有效时间长度,单位为 分钟;hF为浮动车数据源的数据采集频率,CFC为一个浮动车数据采 集周期;QT为总体数据有效性,取值范围为[0,1],计算结果超过1 时取值为1,D为历史统计数据的统计天数,NTi为第i天实际采集 的交通数据量。
作为优选,所述步骤(2)计算分时数据有效性计算公式如下:
NSi=αP×(Ti·hF)
其中,NSi为路段在第i个时段内所能够采集的有效交通数据量, αP为分时段有效性系数,Ti为第i个时段的时间长度,单位为分钟; QPi为第i个时段内的数据有效性,取值范围为[0,1],计算结果超 过1时取值为1;QP为路段分时数据有效性,取值范围为[0,1],k 为关注的时段个数,q0为其他时段的有效性。
作为优选,所述步骤(3)确定数据缺失程度,进行缺失数据补 充处理的步骤包括:
1)计算处理周期时间内的实际浮动车采集数据量NC;
2)比较实际浮动车采集数据量与理想浮动车采集数据量NR的大 小,NR=CTPI·hF;
3)如果有NC≥NR,则不存在数据缺失,不需要进行缺失数据补 充处理,缺失数据补充处理结束;
4)如果有μNR≤NC<NR,则存在轻微数据缺失,使用其他数据 源数据补充缺失时刻的浮动车数据;如果有NC<μNR,则存在严重 数据缺失,将采集周期内浮动车采集数据完全用同时间段内其他数据 源数据替换;其中,μ为缺失系数;
5)将补充处理后的数据的有效性确定为50%,缺失数据补充处 理结束。
作为优选,所述步骤(4)非缺失浮动车数据流量有效性计算公 式如下:
其中,FA为参考浮动车流量,向下取整,CFCD为城区浮动车总 数,CR为城区单元路段总数;QF为路段数据流量有效性,取值范围 为[QF0,1],计算结果超过1时取值为1;QF0为基准浮动车通行数据 有效性;αF为数据流量有效性系数;f为浮动车流量。
作为优选,所述步骤(5)处理周期内非缺失浮动车数据的数据 有效性计算公式如下:
QTP=min(QT,QP)
VT=[αVQF+(1-αV)QTP]×100%
其中,QTP为统计交通数据参考有效性,VT为当前时刻浮动车数 据有效性结果;αV为交通数据的有效系数。
作为优选,所述步骤(5)浮动车数据源数据异常等级划分为三 个等级:正常、轻度异常、重度异常;其中数据有效值大于60%的为 正常等级;数据有效值小于或等于60%且大于20%的为轻度异常;数 据有效值小于或等于20%的为严重异常。
作为优选,所述步骤(6)浮动车周期数据有效性的计算步骤包 括:
1)选择处理周期内除缺失补充数据之外的浮动车数据,计算初 始有效性;计算初始有效性的公式如下:
其中,VT0为周期数据初始有效性;k为处理周期内除缺失补充数 据之外的浮动车数据个数;VTi为第i个浮动车数据的有效性;
2)遍历处理周期内除缺失补充数据之外的浮动车数据,选择满 足数据有效性条件的数据,排除不满足条件的数据;所述的数据有效 性条件为
其中,ξ为修正系数;σ0为数据有效区间;
3)将步骤2)中选择的浮动车数据与缺失补充数据组合,计算周 期有效性;所述计算周期有效性的公式如下:
其中,VTC是周期数据有效性结果;m为数据个数;VTj为第j个 数据的有效性。
作为优选,所述步骤(6)浮动车周期数据根据周期数据有效性 取值结果划分为A、B、C、D四个等级;其中周期数据有效值小于30% 的为A等级;周期数据有效值大于或等于30%且小于60%的为B等级; 周期数据有效值大于或等于60%且小于或等于75%的为C等级;周期 数据有效值大于75%的为D等级。
作为优选,所述的多源数据处理方式包括如下三种方式:
(1)保持不变,即维持浮动车数据源采集数据不作改变;
(2)多源数据融合,即将同时刻浮动车数据源采集数据与其他数据源 采集数据融合处理;
(3)他源数据替换,即将同时刻其他数据源采集数据替换浮动车数据 源采集数据。
作为优选,所述多源数据融合采用均值融合方式进行计算融合。
作为优选,所述多源数据处理方法的选用方案如下表1所示:
表1
本发明的有益效果在于:(1)通过结合浮动车数据源总体、分时 段数据统计特征与实时数据特点,实现了以较少参数识别浮动车数据 源有效性的方法,运算效率高,可操作性强;(2)能够实现更为可靠 的多数据源条件下的交通数据进一步处理应用,又保证了多源数据处 理的高效性与可靠性。
附图说明
图1是本发明方法的流程框图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护 范围并不仅限于此:
实施例:如图1所示,一种浮动车数据源有效性分析处理方法, 该方法以单元路段为处理单位,按预设的处理周期定时进行处理;所 述单元路段为经过路段划分的城市道路交通网络中的一个路段;所述 单元路段中部署有包含浮动车数据源在内的若干个道路交通采集数 据源;所述浮动车数据为经过预处理的浮动车特征数据,每组浮动车 特征数据包含路段平均行程速度与浮动车流量两个参数,浮动车流量 为浮动车采集周期内经过该单元路段的浮动车数量。
本发明以杭州市主城区路网中一个单元路段(天目山路(百家园 路-花坞路))为例,该路段数据处理周期为CTPI=6min,浮动车数据 采集周期为CFC=1min,以07:00~21:00为有效时间段,有效时间长度 T=14×60=840min;以早、晚高峰的时间段(即早高峰为07:00~09:00 两个小时的时段,晚高峰为17:00~19:00两个小时的时段)为关注时 段,关注时段个数k=2。
设定总体有效性系数为αT=0.8,分时有效性系数为αP=0.8, 其他时段有效性q0=1,缺失系数μ=0.3,流量数据有效性系数αF =0.1,基准浮动车通行数据有效性QF0=0.5,修正系数ξ=0.01。 同时,在杭州市主城区路网中根据路段重要程度将单元路段划分为 1/2/3/4四个等级,根据不同的路段等级配置交通数据有效系数αV值 如下表2所示:
表2
步骤1,取该路段连续30天的历史浮动车数据进行统计分析, 计算路段总体数据有效性可得
其中NTi为30天中第i天在07:00~21:00时间段内实际采集的交 通数据数量,由数据库中历史数据统计获得。
步骤2,根据关注时段计算该路段分时有效性。早高峰时段T1= 晚高峰时段T2=120min,有NS1=NS2=0.8×120×1=96,则路段分时 有效性可以计算为
步骤3,在实时计算中,当前需要进行数据处理的6min周期时 间段为08:10~08:16(包含08:10:00,但不包含08:16:00),获取周期 内浮动车数据如下表3所示:
表3
计算当前指数计算周期时间内数据缺失程度,在当前时间段所在 的指数计算周期时间内有4组数据,即NC=4≥0.3×6,当前时间段 内存在少量数据缺失,将缺失时刻的数据用该路段同时刻其他数据源 数据补充,完成补充后周期内实时数据如下表4所示,缺失补充数据 的有效性为50%。
表4
步骤4,缺失数据补充处理完成后依次计算处理周期内浮动车数 据源每组非缺失数据的数据流量有效性。目前杭州市浮动车(一般为 出租车)保有总量为11000辆左右,而纳入智能交通系统的市区路网 路段总数为4000条左右,则参考浮动车流量为
可以计算出第一条非缺失数据的数据流量有效性为
QF=0.5+0.1×log23=0.6585;
以此类推可以依次计算其他非缺失数据的数据流量有效性分别 为0.8,0.6,0.5。
步骤5,通过QT、QP、QF依次计算周期内非缺失数据有效性并 根据计算结果确定浮动车数据源数据异常等级。其中,统计交通数据 参考有效性为
QTP=min(QT,QP)=min(0.73,0.65)=0.65;
所选路段等级为2,有交通数据有效系数αV=0.6,则第一条非缺 失数据的有效性为
VT=[αVQF+(1-αV)QTP]×100%=65.51%;
根据下表5上述有效性结果可以判断该数据异常等级为正常。
表5
同理,可以依次计算其他非缺失数据的有效性分别为74%,62%, 56%,对应的异常等级分别为正常,正常,轻度异常。
步骤6,确定浮动车周期数据有效性,包括以下步骤:
(1)选择表3所示非缺失数据,计算初始周期有效性为
(2)计算数据有效区间为σ0=0.075213,按照的 规则依次判断每个非缺失数据是否满足条件,保留满足该条件的非缺 失数据;
(3)提取步骤(2)中选择浮动车数据与表4种缺失补充数据,如下 表6所示:
表6
计算周期有效性为
根据下表7可以判断周期数据有效性等级为B。
表7
根据步骤(5)的数据异常等级与步骤(6)的周期数据有效性等级 对每组浮动车数据选择多源数据处理方式进行处理。所述多源数据处 理方式主要包括以下三种:
(1)保持不变,即维持浮动车数据源采集数据不作改变;
(2)多源数据融合,即将同时刻浮动车数据源采集数据与其他数 据源采集数据融合处理;
(3)他源数据替换,即将同时刻其他数据源采集数据替换浮动车 数据源采集数据。
根据浮动车数据异常等级与周期数据有效性等级计算结果可以 选择相应的处理方案进行多源数据处理方式,具体如下表8所示:
表8
依次对表3的本处理周期内浮动车数据源非缺失数据进行进一 步处理,其中08:10:00、08:11:01、08:12:03时刻数据异常等级均为正 常,对应的处理方案为“保持不变”,可以不作处理。08:14:01时刻 数据异常等级为轻度异常,周期数据有效性等级为B,对应的处理方 案为“多源数据融合”。本发明实施例选择基本的均值融合方式作为 数据融合方式,获取同时刻其他数据源采集数据,该数据源有速度 =29.70,则采用均值融合方式计算融合后数据为本周期浮动车数据源所有数据处理完毕,本周期数据处理结束, 开始新一周期的多源数据处理。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依 本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附 图所涵盖的精神时,仍应属本发明的保护范围。
机译: 一种用于识别眼睛虹膜的眼睛有效性验证方法,包括通过获取装置发出的光束照亮虹膜区域,并通过分析区域来确定眼睛的有效性,其中光束的光学特性随时间变化
机译: 基于类别的数据分析系统,用于处理存储的数据单元并以示例性的精度计算其与主题领域的相关性,以及一种计算机实现的方法,用于从广泛的数据源中识别执行社交影响者功能的社交实体
机译: 一种用于为大型数据和分析请求的查询处理和分布式磁盘缓存启用分布式缓存数据源的方法和过程