首页> 中国专利> 多源数据融合的移动轨迹生成模型的时空模式挖掘方法

多源数据融合的移动轨迹生成模型的时空模式挖掘方法

摘要

本发明公开了一种多源数据融合的移动轨迹生成模型的时空模式挖掘方法,将多源数据引入到移动轨迹数据挖掘中,构建基于概率图模型的移动轨迹生成模型,同时辅以时空间约束,进行多源数据下城市轨迹数据的时空模式挖掘,人为定义的因子大大减少,泛化性较强。

著录项

  • 公开/公告号CN109165245A

    专利类型发明专利

  • 公开/公告日2019-01-08

    原文格式PDF

  • 申请/专利权人 北京航空航天大学;

    申请/专利号CN201811095472.4

  • 发明设计人 王静远;陈超;吴俊杰;熊璋;

    申请日2018-09-19

  • 分类号

  • 代理机构北京慕达星云知识产权代理事务所(特殊普通合伙);

  • 代理人李冉

  • 地址 100000 北京市海淀区学院路37号

  • 入库时间 2024-02-19 06:47:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-26

    授权

    授权

  • 2019-02-01

    实质审查的生效 IPC(主分类):G06F16/2458 申请日:20180919

    实质审查的生效

  • 2019-01-08

    公开

    公开

说明书

技术领域

本发明涉及数据挖掘和智慧城市技术领域,更具体的说是涉及一种多源数据融合的移动轨迹生成模型的时空模式挖掘方法。

背景技术

移动轨迹模式挖掘是当前数据挖掘和智慧城市交叉领域的研究热点。其利用城市中产生的移动轨迹数据,诸如汽车、人、自行车等来挖掘城市道路或区域存在的与交通相关的模式。其研究内容涉及城市规划、城市功能分区、交通模式研究等。

现有的城市移动轨迹模式挖掘技术的研究对象多为一种轨迹数据,如出租车轨迹数据、手机数据和自行车数据等。此类数据挖掘技术大多未涉及多源数据的融合,其发现的模式也仅能反映单一数据所代表的特点。此外,有些研究虽然利用了多源数据,然而其实质是将数据融合放在了数据处理阶段,利用已有数据首先创造出中间数据,再用传统方法进行挖掘。上述方法的缺点在于,构建模型时,人为定义的因子较多,方法的泛化性不强。

因此,如何提供一种泛化性强的移动轨迹模式挖掘方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此,本发明提供了一种多源数据融合的移动轨迹生成模型的时空模式挖掘方法,将多源数据引入到移动轨迹数据挖掘中,构建基于概率图模型的移动轨迹生成模型,同时辅以时空间约束,进行多源数据下城市轨迹数据的时空模式挖掘,人为定义的因子大大减少,泛化性较强。

为了实现上述目的,本发明采用如下技术方案:

一种多源数据融合的移动轨迹生成模型的时空模式挖掘方法,包括如下步骤:

S1:对时空间单位进行编码,构建时空区域,得到tm={z1,m,…,zn,m,…,zN,m},并从危险品车辆数据与人流量数据中分别提取出危险轨迹rtm和人口权重c;

S2:随机为每个zn,m挑选一个模式r,得到每个模式r对应的时空区域的分布参数Φ;

S3:遍历所有的zn,m,根据吉布斯采样公式为每个zn,m重新分配使P(rn,m=r,zn,m=v)最大的模式r,得到更新的每个模式r对应的时空区域的分布参数Φ;其中,所述吉布斯采用公式为引入时空约束后的吉布斯采样公式;

其中,吉布斯采样公式为

其中,表示估计m中属于模式r的时空区域的数量;表示时空区域v被分配到模式r的次数;ψr1,ψr2表示ψr对应Beta分布的参数;

S4:基于更新后的每个模式r对应的时空区域的分布参数Φ,利用核密度估计算法预测更新ξr

其中,核密度估计算法预测sv属于模式r的概率:

g(sv,su)是su在sv的高斯核密度下的取值,其表达式为:

其中向量v=(iv,jv,hv)与向量u=(iu,ju,hu)分别是sv和su的索引,表示第(i,j,h)个时空区域,参数σ是高斯分布的标准差;

S5:利用如下公式更新ψr,ψr包括ψr1和ψr2,得到更新后的人口分布参数Ψ;

其中,

其中和br分别表示在模式r当前的分布下,各个时空区域的对应的人口权重的加权平均值与标准差;

S6:重复步骤S2~S5,直到吉布斯采样收敛,得到最终的参数Φ和Ψ;

S7:可视化Φ和Ψ,得到模式挖掘的结果。

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种多源数据融合的移动轨迹生成模型的时空模式挖掘方法,融合了多源数据和移动轨迹数据,提出了一个基于概率图模型贝叶斯网络的移动轨迹生成模型,并在其中使用了时空约束。时空模式挖掘的结果中,每个模式都包含其在各源数据上的特点,既可以对其各维进行独立分析,又可将它们融合,进行整体分析。此外,由于采取概率图模型,使得轨迹生成模型所涉及的主观因子大大减少,泛化性较强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的危险模式的示意图;

图2附图为本发明提供的时空约束下轨迹生成模型概率图;

图3附图为本发明提供的危险品车辆与人口分布数据的原始分布图;

图4附图为本发明提供的挖掘出的北京市的危险模式在空间上的分布图;

图5附图为本发明提供的天津市的危险模式在空间上的分布图;

图6附图为本发明提供的北京与天津危险模式数量在时间上的分布图;

图7附图为本发明提供的北京市重要危险模式及其人口密度图;

图8附图为本发明提供的北京市中重要模式因果分析图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合详细说明本发明提供的多源数据融合的移动轨迹生成模型的时空模式挖掘方法。

1、数据要求

由于移动轨迹数据实际为位置数据(经纬度)的时间序列,因此,除了移动轨迹数据外,本发明所涉及的其他数据除了自身特有的属性外,均至少包括位置属性与时间属性,以与移动轨迹数据相对应。

2、技术要点

本发明中的轨迹生成模型是基于概率图模型(贝叶斯网络)的。在模型中,包含可观测变量与隐含变量。模型的目标就是在生成可观测变量的过程中,学习到隐含变量。其中可观测变量从所获得的数据中提取,而隐含变量一般代表需要挖掘出的模式,即模型的学习目标。

为便于介绍,下面以二源数据(危险品车辆移动轨迹数据,区域人流量数据)为例说明本发明的技术要点与方案。该例中,模式挖掘的目的是发现具有相同车流与人流的联合特点的城市时空区域集合,即模式,称这种模式为危险模式。

在介绍轨迹生成模型前,首先列出变量列表。

表1轨迹生成模型变量定义

2.1观测变量获取

通过数据预处理从数据集中提取所有观测变量。

时空区域ST-zones:参见附图1,模型中,我将城市地图分为I×J个城市区域,并且将一天分为H个时间片。定义时空区域ST-zone(Space-Time zone)为某个时间片内的某个区域。如1所示,一个ST-zone实质上对应城市“经度-维度-时间”三维空间上的一个小方块。根据定义,模型中共有V=I×J×H个ST-zone。时间片h内,第i,j个ST-zone表示为sijh,此外为表示方便,也使用sv来表示第v个ST-zone。

人口权重Crowd Weights:使用Crowd Weight作为某天某个ST-zone的人口密度测度。其计算公式如下:

其中,u表示某天某ST-zone内的人口数量,和std(u)表示所有ST-zones人口数量的均值和方差。函数σ(·)表示sigmoid函数,其将c映射在(0,1)范围内。

危险轨迹:一条危险轨迹指一次危险品运输所经过的ST-zone的集合。定义一条轨迹m为tm={z1,m,...,zn,m,...,zN,m},zn,m∈{s1,...,sv}。一条危险轨迹定义为rtm={(z1,m,C1,m),...,(zn,m,cn,m),...,(zN,m,cN,m)},其中cn,m表示时空区域ST-zonezn,m的人口权重crowd>

一次运输可以产生一条轨迹和一条危险轨迹。不同时间的两次运输可能对应同一条轨迹,但是可以对应不同的危险轨迹。例如,一辆车在两日内经过了相同的路线,但是路线上的人口密度在两日内不同,则这两次运输对应相同的轨迹,但是对应不同的危险轨迹。

2.2危险轨迹生成模型

DGeye中的危险轨迹可看作由若干危险模式生成的。下面给出危险模式的定义。

危险模式:危险模式是指危险品运输轨迹频繁经过的一组ST-zones的集合。如图1,其可理解为城市三维空间中时空相邻的小方块的集合。每个危险模式rk属于轨迹m的概率表示为Pr(rk|m),则轨迹m中危险模式的概率分布表示为Pr(k|m)。每个ST-zone>v属于危险模式k的概率表示为Pz(sv|k),则模式k中ST-zone的概率分布表示为Pz(s|k)。对于属于模式k的ST-zone,其crowd>c(c|k)。

对于一个危险轨迹rtm,其生成过程可由如下三个步骤描述。

a)对于一条轨迹m中的N个样本点{z1,m,...,zn,m,...,zN,m},相关车辆首先为每个样本点挑选一个危险模式,总共挑选N个危险模式。这N个危险模式表示为{r1,m,...,rn,m,...,rN,m}。生成危险模式的概率分布符合Pr(k|m)。

b)对于每个rn,m,车辆从该模式在ST-zone上的概率分布Pz(s|rn,m)中生成一个ST-zone,即zn,m=sv

c)对于每个zn,m,从概率分布Pc(c|rn,m)中生成一个crowdWeight,表示为cn,m

这个生成过程可以用如下方式理解。首先,对于一次运输任务,一辆车首先会规划一个大致的路线,例如打算经过哪些城区,这个过程对应上述生成过程的步骤a。之后,在经过每个城区时,具体选择走哪些道路或者哪些小区域,该过程对应步骤b。当车辆经过某个ST-zone时,其威胁到了该ST-zone内人群的安全,产生了危险,该过程可对应步骤c。

使用概率图模型来表示危险轨迹的生成模型,则其概率模型图如图2所示。

图中表示模式k中ST-zone的概率分布参数,θm表示轨迹m中模式的概率分布参数。α、β分别表示θm符合的分布的参数。ψk表示模式k上crowdWeight的分布参数,ξv表示模式k上的地理约束参数,为该约束的超参数。由此,上述生成过程可以抽象如下。1)对于模式k∈[1,K],从参数为β的特定分布中采样得到2)结合生成ξv;3)根据估计出ψk>m;5)从分布θm中采样得到轨迹m中某个轨迹点n对应的模式rn,m=k;6)从中采样生成zn,m;7)从ψk采样生成cn,m。将步骤3~7重复n次,即可生成轨迹m中所有的轨迹点。而模型的优化目标则是寻找到一组上述参数的集合,使得生成的所有zn,m、cn,m最符合数据(即观测变量),同时分布ξv拥有较好的时空间相邻的性质。

其中,各参数以及变量将在下文进行详细解释。

假设概率分布Pr,Pz,Pc对应的分布如下:

Pr(k|m)~Multinomial(θm),

Pc(c|k)~Beta(ψk).

其中其是一个由参数组成的向量,每个参数表示轨迹m中出现对应危险模式的概率。同理表示危险模式k中出现每个ST-zone的概率。为生成危险模式k的Crowd Weight分布时的参数。Multinomial表示多项式分布,Beta表示贝塔分布。

对于不同的危险轨迹,其对应的危险模式分布是不同的。因此引入Dirichlet(狄利克雷)分布来生成参数θm

Pθm|α)~Dirichlet(α)>

α={α1,αk,...αK}是Dirichlet分布的参数。同样的,对于不同的危险模式,其对应的ST-zone分布是不同的。因此,也采用Dirichlet分布来生成参数

β={β1,...βk,βK}同理也为Dirichlet分布的参数。根据公式(2)~(4)定义的分布,对于一条轨迹rtm={(z1,m,c1,m’),...,(zn,m,cn,m),...,(zN,m,cN,m)},其所包含所有观测变量与隐含变量的联合概率分布为:

其中zm和cm分别是由zn,m和cn,m组成的向量。在模型的参数给定时,一个危险轨迹的样本点(zn,m,cn,m)的生成结果为(sv,cv)的似然概率为:

因此所有轨迹中的样本点及其对应的crowd Weights为:

2.3时空约束

直观上,同一危险模式中的ST-zones应该是空间和时间相邻的,如1所示。为了对这种先验知识进行建模,将时空相邻的正则化引入危险轨迹生成模型。

对于每个ST-zone,使用核密度估计算法预测sv属于模式r的概率:

g(sv,su)是su在sv的高斯核密度下的取值,其表达式为:

其中向量v=(iv,jv,hv)与向量u=(iu,ju,hu)分别是sv和su的索引,表示第(i,j,h)个时空区域,参数σ是高斯分布的标准差。根据3σ原则,实际上仅受时空范围在{(iv-3σ,j-3σ,h-3σ),...,(i+3σ,j+3σ,h+3σ)}的ST-zones影响。

均表示sv属于模式k的概率,但是其包含的物理意义不同:是轨迹生成过程中生成的真实概率,而是高斯核密度估计下产生的期望概率。可以看作具有时空先验的的期望值,因此二者的差异不应该太大。

因此,认为是一个包含噪声的的观测值。噪声的观测可由均值为方差为的高斯分布定义:

将时空相邻约束加入到危险轨迹生成模型,可以得到联合概率为:

综上,危险轨迹生成模型的概率图如图2所示。隐含变量θm,Φ,Ψ,Ξ将由吉布斯抽样推断。

2.4吉布斯采样

精确的后验推理在模型中是难以处理的,因此用collapsed Gibbs采样算法进行近似后验推理。该算法易于推导,在速度上占优,并且可以近似全局最优值。

通过对θ和的整体分析,采样算法最终所需要采样的隐含变量是r。Dirichlet分布的超参数α和β在采样前是固定的。连续Beta分布的参数ψ将会在每次Gibbs采样之后更新。由于模型中存在时空相约束,还需要在采样期间估计ξ。

吉布斯采样:给定其他变量后,对r的采样与Topics over Time[4]相似。不同的是轨迹生成模型中还包含了一个时空相邻的约束。本模型的吉布斯采样公式为:

其中,表示估计m中属于模式r的时空区域ST-zone的数量;表示时空区域ST-zonev被分配到模式r的次数;ψr1,ψr2表示ψr对应Beta分布的参数。

ξ的更新:某次采样后,可以估计出从而可以根据公式(8)~(9)来估计

ψ的更新:某次采样后,使用如下公式更新ψr1和ψr2

其中和br分别表示在模式r当前的分布下,各个ST-zone对应的crowd>

下面结合具体实例来进一步说明本发明的技术方案。

实施例涉及北京及天津危险品危险模式的挖掘。

1、数据

北京市危险品车辆的轨迹数据,主要包含是位置(经纬度)与时间信息;北京市人口分布数据,包含时间、位置以及人口数量。数据均为2015年1月1日至2015年2月17日。

2、原始数据分布

图3为危险品车辆与人口分布数据的原始分布,其中,(a)和(b)为北京市的人口和危险品车分布图;(c)和(d)为天津市的人口和危险品车分布图。从图3中可以看出,危险品车与人口分布特点鲜明且差异很大。

3、危险模式挖掘

基于本发明提供的方法,利用危险品车辆轨迹数据与人口分布数据对北京市和天津市的危险模式进行挖掘,结果如下。

图4和图5分别为挖掘出的北京和天津市的危险模式在空间上的分布。图4(a)至(f)是北京8:00至13:00的危险模式地图。图5(a)至(f)是天津8:00至13:00的危险模式地图,其中底图表示天津港口区域,小图表示天津市区。图中每种颜色代表一个模式,不同时间同种颜色的区域表示一个模式在对应时间上的延伸,即每个模式是三维的。

从图中可以看出,北京较大规模的危险模式集中在城市中心区域,而天津较大规模的危险模式则集中在天津港区。这种差异反映出两座城市具有不同的危险品运输需求:北京的危险品需求多为加油站、餐饮燃气等民用燃料为主,运输车辆需要穿行市区,因此,在市中心造成连片的危险模式;而天津的危险品需求主要是天津港的危化品进出口,因此危险模式集中在天津港区。

图6为两座城市的危险模式在时间上的分布。在时间分布上,京津两市的危险模式也极为不同。北京的危险品需求内在驱动力为市民的生活需求,因此,危险模式的时间分布和市民作息高度相关,具有有着很强的节律性;而天津的危险品需求为进出口工业需求,由于港口能够进行三班倒的连续运营,因此天津的危险模式在时间上的分布比较均匀。

以北京为例,基于危险品车辆轨迹将各模式连接起来形成一个网络,采取一定方法在网络上进行因果分析,可以得到不同模式的重要性,以及模式间的因果关系,即哪些模式重要,这些模式导致了哪些其他危险模式的存在。图7和图8是因果分析的结果。图7中,危险模式的地理分布在簋街附近,时间分布在9:00-13:00,其人口概率密度分布在右侧一列显示。该模式是因果分析中北京市重要性最强的模式。人口密度分布图中,横轴表示人口密度,其已经被标准化到(0,1)区间,纵轴表示概率密度。曲线峰值越靠右,则该危险模式对应的人口密度越大。因此簋街属于高危险性危险模式。

图8中总共列出了4个模式,这些因果分析中簋街所引起的重要危险模式,分别在西直门内大街、北五环、东五环和西直门外大街附近。从图中可以看出,这四个危险模式也对应较高的人口分布。由此可见,簋街小吃街由于对危险品的需求,加上该地区人口的高密度分布,引起了其自身的高危险性。同时,其需求的危险品的运输导致了其他四个高危险性危险模式。对于天津,分析结果显示,在海滨高速京门大道以北段(天津爆炸案附近路段)引起了其附近各路段的高危险性,在此暂不列出。

北京市的分析结果已经为北京市委提供决策参考,助其完成对簋街的安全改造。同时天津的模式挖掘结果证实了模型的有效性。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号