首页> 中国专利> 基于运动行为模式的多视角室内行人跟踪方法

基于运动行为模式的多视角室内行人跟踪方法

摘要

本发明公开了一种基于运动行为模式的多视角室内行人跟踪方法,包括利用状态空间模型对目标运动状态进行预测的过程和利用观测模型对预测的运动状态进行观测、获得跟踪结果的过程;预测过程包括:计算t时刻测试视频帧中目标所受的合力;计算t时刻测试视频帧中目标的概率力;根据目标的概率力对下一时刻的目标运动状态进行预测。采用本发明的方法,提高了行人跟踪信息的有效性,提高了行人跟踪的鲁棒性和准确性。

著录项

  • 公开/公告号CN104680559A

    专利类型发明专利

  • 公开/公告日2015-06-03

    原文格式PDF

  • 申请/专利权人 青岛科技大学;

    申请/专利号CN201510124915.8

  • 发明设计人 李辉;刘云;王传旭;崔雪红;

    申请日2015-03-20

  • 分类号G06T7/20(20060101);

  • 代理机构37101 青岛联智专利商标事务所有限公司;

  • 代理人李升娟

  • 地址 266061 山东省青岛市松岭路99号青岛科技大学信息学院

  • 入库时间 2023-12-18 09:13:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-20

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06T 7/246 专利号:ZL2015101249158 变更事项:专利权人 变更前:青岛塔波尔机器人技术股份有限公司 变更后:海尔机器人科技(青岛)有限公司 变更事项:地址 变更前:266111 山东省青岛市高新区汇智桥路127号青岛国家大学科技园C1-301 变更后:266111 山东省青岛市高新区汇智桥路127号青岛国家大学科技园C1-301

    专利权人的姓名或者名称、地址的变更

  • 2019-06-11

    专利权的转移 IPC(主分类):G06T7/246 登记生效日:20190522 变更前: 变更后: 申请日:20150320

    专利申请权、专利权的转移

  • 2017-08-04

    授权

    授权

  • 2015-07-01

    实质审查的生效 IPC(主分类):G06T7/20 申请日:20150320

    实质审查的生效

  • 2015-06-03

    公开

    公开

说明书

技术领域

本发明属于图像处理技术领域,具体地说,是涉及行人跟踪方法,更具体 地说,是涉及基于运动行为模式的多视角室内行人跟踪方法。

背景技术

视觉信息是人体获得外界信息的主要渠道,其中运动信息是其重要组成部 分,大量重要的、有意义的视觉信息包含在运动中。基于运动目标分析在实际 应用中所具有的重要价值,以及在分析基础上所建立的目标分析系统,其性能 的好坏关键取决于对目标运动信息的提取和分析,因此,对于运动目标跟踪技 术的研究具有重要意义。

而目标跟踪是通过分析采集的关于目标运动情况的数据,获得目标的位 置,进而得到目标的运动轨迹,是运动目标分析过程的关键环节,属于计算机 视觉中的低层视觉范畴,是目标行为识别和场景理解的基础。在目标跟踪的大 多数场景中行人是跟踪的主要目标,行人跟踪已成为了智能视频分析领域研究 的热点,在视频监控、智能人机交互、行为分析等领域有着重要的研究意义和 应用价值。

目前,行人跟踪方法主要包括有基于流形学习与稀疏表示、基于近正向俯 视监控视频、基于行人检测、基于改进的随机森林、基于HOG-LBP描述等五种 跟踪方法,例如:

申请号为CN201410489737.4、名称为《一种基于流形学习与稀疏表示的行 人跟踪方法》的中国专利申请公开了下述技术内容:对采集到的视频帧进行灰 度转换,缩小到统一尺寸;手动选定跟踪的行人目标,并记录目标各项参数, 通过计算PCA映射矩阵和OLPP映射矩阵生成目标模版;随机生成候选粒子,建 立系统的观测模型和运动模型,通过流形学习的方式,在粒子滤波框架下求解 最大后验概率估计;将各候选样本的运动模型和观测模型代入后验估计表达 式,取最大值所对应的样本为目标位置。

申请号为CN201210495491.2、名称为《一种近正向俯视监控视频行人跟踪 计数方法和装置》的中国专利申请公开了下述技术内容:获取当前监控场景下 的视频图像;将获取图像与背景图像进行比较,当判定所述视频图像为前景图 像时,对前景图像中的各团块进行分割以及组合,得到单个行人的目标团块; 根据检测区内各目标团块的质心坐标,进行跟踪和计数。

申请号为CN201310311020.6、名称为《一种基于行人检测和跟踪的人流监 控方法》的中国专利申请公开了下述技术内容:获取并解码摄像头视频流得到 RGB格式的单帧图像;根据图像积分通道特征,进行由疏到密多尺度识别,并 采用NMS方法组合所有尺度中的识别结果,通过计算每个检测结果区域和背景 区域差异,删除差异小的检测结果,得到行人位置以及对应的置信值;通过计 算相似度,匹配相邻帧中检测到的行人,从而实现行人跟踪并得到每个人的运 动轨迹;

申请号为CN201310353511.7、名称为《一种基于改进的随机森林的多目标 跟踪方法及装置》的中国专利申请公开了下述技术内容:随机产生森林训练模 块,用于对交叉前的目标进行训练,建立目标分类器;随机森林分类模块,在 下一帧用训练好的分类器对交叉后的目标区域进行分类;目标重新定位模块, 对分类后的块执行聚类操作,形成目标位置区域。本发明有效的解决了在多目 标跟踪过程中出现交叉时出现跟错跟丢的问题。

申请号为CN 201210046834.7、名称为《一种基于HOG-LBP描述的行人跟踪 方法》的中国专利申请公开了下述技术内容:建立适应HOG-LBP描述器要求的 图像正负样本集,对已建立的样本图像集进行批量特征提取,从而建立特征样 本集;通过SVM对特征样本集进行有监督训练, 建立含有类惩罚因子的软间隔SVM模型,并得到基于HOG-LBP描述的行人检测 器;利用行人检测器检测结果,采用粒子滤波跟踪方法完成行人跟踪。该方法 对场景中发生的运动交错、遮挡现象以及运动呈现的非线性特征具有较好的适 应性和稳定性。

上述五种方法存在的问题概述如下:

1)在粒子滤波框架下的跟踪方法主要依据大数定理采用蒙特卡罗方法来 求解贝叶斯估计中的积分运算,较好的解决了非线性、非高斯分布系统中的目 标跟踪问题,但上述方法随机生成候选粒子,只保证粒子采样多样性,并没有 选择更好的参考分布,来提高采样效率,增加了计算量,且随机生成的粒子也 没有考虑目标特有的运动行为,具有一定的盲目性;基于流形学习与稀疏表示 的行人跟踪方法,在跟踪前需要手动选定行人目标和缩小视频帧到统一尺寸, 这些都限制了跟踪方法的应用。

2)对前景图像各团块进行分割以及组合的方法易受到光照变化、人体被 遮挡等因素的干扰,使得人体区域分割的不完整,容易出现跟踪漂移,且该方 法只能对每帧中目标进行计数,并不能实现不同帧间目标行人的关联,无法实 现连续跟踪。

3)上述跟踪方法中将视觉跟踪转化为连续视频帧中的目标匹配问题,其 本质可以看作是在一个连续局部空间内的局部匹配寻优问题,能够实现对目标 的检测与跟踪,但需要获取所有尺度图像进行识别,增加了计算量,同时通过 计算相邻帧间目标的相似度来匹配关联不同目标行人,在行人相对较多的场景 难以获得准确的匹配度,对跟踪过程中行人的出现和消失情况也无法有效处 理。

4)基于改进随机森林和HOG-LBP描述的行人跟踪方法局限性表现为:此类 方法均需要建立目标分类器,但面临的主要问题有三个,一是分类器的构造需 要大量正负样本的学习,如何选择样本是一个关键问题;二是计算复杂度高, 计算量大,难以满足实时需要;三是需要在目标所在区域的一个范围内进行目 标搜索,如何优化搜索范围,使得既不因范围过小而影响目标跟踪精度,又不 会因范围过大而带来搜索效率的下降,仍需要进一步的理论研究。

发明内容

本发明的目的是提供一种基于运动行为模式的多视角室内行人跟踪方法, 提高行人跟踪信息的有效性,提高行人跟踪的鲁棒性及准确性。

为实现上述发明目的,本发明采用下述技术方案予以实现:

一种基于运动行为模式的多视角室内行人跟踪方法,其特征在于,所述方 法包括利用状态空间模型对目标运动状态进行预测的过程和利用观测模型对预 测的运动状态进行观测、获得跟踪结果的过程;

所述利用状态空间模型对目标运动状态进行预测的过程包括:

计算t时刻测试视频帧中目标所受的合力:利用根据测试视频帧的前一视 频帧所跟踪到的目标在跟踪场景网格坐标中的位置(xt,yt)计算目标与目的 地间的驱动力Finner、目标与其他行人间的作用力Fsoc及目标与障碍物间的作用 力Fphys,计算测试视频帧中目标所受的合力F为:F=Finner+Fsoc+Fphys;xt为目 标在网格坐标中的x坐标,yt为目标在网格坐标中的y坐标,跟踪场景网格坐 标是对跟踪场景的俯视场景形成的XY平面进行网格划分后的坐标;

计算t时刻测试视频帧中目标的概率力:在网格坐标中,以目标位置(xt, yt)所在的网格为目标网格,计算网格坐标中其他网格对目标网格所产生的概 率力FP:FP={FP1,...,FP*,...,FPp};其中,FP*=F·P*,P*为跟踪场景各摄像头 中其他目标区域根据网格坐标与视频图像像素点坐标间的对应关系对应到网格 坐标后第*个网格内包含的其他目标区域面积占该网格面积的比例,P*>0, *=1,2,...,p,p为具有其他目标区域的网格数量;

根据目标的概率力对下一时刻的目标运动状态进行预测:将目标抽象为粒 子,t时刻粒子状态定义为分别表示t时刻目标在网 格坐标x坐标轴方向的速度和y坐标轴方向的速度,则t+1时刻粒子状态 Xt+1=[xt+1,yt+1,vxt+1,vyt+1,w,h]T预测为:xt+1=xt+Δt·vxt,yt+1=yt+Δt·vyt,vxt+1=xt+vxtΔt+12FPx2Δt2,vyt+1=yt+vytΔt+12FPymΔt2,从而获得t+1时刻目标在网格 坐标下的p个预测位置;其中,xt+1、yt+1分别为预测的t+1时刻目标在网格坐标 中的x坐标和y坐标,分别表示预测的t+1时刻目标在网格坐标x坐标轴 方向的速度和y坐标轴方向的速度,Δt为t+1时刻和t时刻的时间差,FPx、FPy分别为目标的概率力FP在网格坐标x坐标轴方向上的分力和在y坐标轴方向上 的分力,m表示目标的质量,为设定常数;

利用观测模型对预测的运动状态进行观测、获得跟踪结果的过程包括:

根据网格坐标与视频图像像素点坐标间的对应关系,获得预测位置在跟踪 场景内每个摄像头的视频图像帧中的像素点位置,以像素点位置为中心、形成 宽为w、高为h的矩形区域作为测试区域,每个预测位置对应多个测试区域;

对每个预测位置的每个测试区域,随机采样相等大小的测试图像块,对每 个测试图形块分别提取超像素特征和LBP特征,获得测试图像块的超像素特征 向量和LBP特征向量;

根据公式计算每个测试图像块的特征向量与特 征模板的字典中同特征类型的每个关键字的相似度,将相似度最大的关键字确 定为测试图像块最为相似的关键字;其中,simn表示测试图像块n的特征向量 与字典中的关键字m的相似度,n=1,...,N,N为测试图像块的数量, m=1,...,cl_num,cl_num为字典的大小,Sn表示测试图像块n的特征向量,Cm表 示字典中关键字m的特征向量,d[Sn,Cm]表示两个特征向量Sn和Cm的相交距 离;

计算每个关键字作为测试图像块最为相似的关键字出现的频率,得到关键 字与作为测试图像块最为相似的关键字出现的频率形成的测试频率直方图;

根据公式计算测试频率直方图与特征模板中的训 练频率直方图的相似性,作为每个测试区域的权值,分别获得与超像素特征对 应的第一权值wsuperpixel和与LBP特征对应的第二权值wLBP;其中,Bm表示训练频率 直方图,BT表示某个测试区域对应的测试频率直方图,dt[BT,Bm]表示测试频率 直方图与训练频率直方图的相交距离;

对每个预测位置,将该预测位置所对应的所有测试区域中每个测试图像块 的特征向量与特征模板的字典中同特征类型的每个关键字的相似度的最大值作 为该预测位置的似然值,每个预测位置得到与超像素特征对应的第一似然值 psuperpixel(Zt|Xt)和与LBP特征对应的第二似然值pLBP(Zt|Xt);

根据公式pall(Zt|Xt)=a·psuperpixel(Zt|Xt)+b·pLBP(Zt|Xt)计算每个预测位置的总观 测似然值pall(Zt|Xt),并将总观测似然值的最大值所对应的预测位置确定为跟踪 位置;其中,a=wsup>wsup>+wLBP,b=wLBPwsup>+wLBP,且a+b=1;

其中,特征模板通过下述过程获得:

将目标已知的每个摄像头拍摄的多帧视频帧作为训练帧,提取每帧训练帧 中的目标区域;

根据网格坐标与视频图像像素点坐标间的对应关系,确定不同摄像头中同 一目标对应的目标区域,同一目标的所有目标区域形成该目标的训练样本集;

针对每个目标,对训练样本集中的每个训练样本,随机采样相等大小的训 练图像块,对每个训练图像块分别提取超像素特征和LBP特征,获得训练图像 块的超像素特征向量和LBP特征向量;

对提取的训练图像块的超像素特征向量和LBP特征向量分别聚类,获得多 组聚类,每组聚类中心作为字典的关键字、聚类的组数作为字典的大小,分别 创建目标的超像素字典和LBP字典;

对提取的相同特征类型的每个特征向量,确定所属字典中与该特征向量距 离最小的关键字,计算每个关键字确定为距离最小的关键字出现的频率,得到 关键字与确定为距离最小的关键字出现的频率所形成的训练频率直方图,得到 超像素训练频率直方图和LBP训练频率直方图;

超像素字典、LBP字典、超像素训练频率直方图和LBP训练频率直方图形成 特征模板。

与现有技术相比,本发明的优点和积极效果是:

本发明通过网格坐标与图像像素点坐标的对应融合多个摄像头所拍摄的图 像帧进行行人跟踪,减少因角度造成的行人遮挡,提高了跟踪信息的有效性; 此外,考虑到行人运动的各向异性,将行人的行为模式与目标状态空间相结 合,建立更接近行人运动行为的状态空间模型对行人的运动状态进行预测,增 加了目标跟踪的鲁棒性。本发明提出的方法跟踪准确,计算量小,实时性高, 可用于室内视频监控、智能人机交互、机器人视觉导航等领域。

结合附图阅读本发明的具体实施方式后,本发明的其他特点和优点将变得 更加清楚。

附图说明

图1是本发明基于运动行为模式的多视角室内行人跟踪方法一个实施例的 流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下将结合附图和 实施例,对本发明作进一步详细说明。

请参见图1,该图所示为本发明基于运动行为模式的多视角室内行人跟踪 方法一个实施例的流程图。在该实施例中,跟踪场景为室内,在室内分散设置 有多个具有不同拍摄视角的摄像头,且所有摄像头存在共同的重叠拍摄区域。

如图1所示,本发明实现上述跟踪场景中行人跟踪的方法包括下述步骤:

步骤1:计算测试视频帧中目标所受的合力。

当接收到t时刻测试视频帧时,根据该t时刻测试视频帧的前一视频帧、也 即t-1时刻视频帧所跟踪到的目标(即行人)在跟踪场景网络坐标中的位置计 算目标所受的合力。

室内行人跟踪过程是持续进行的,跟踪场景中摄像头传输的视频帧也是连 续不断的。在室内行人跟踪过程中,一般的,将首先得到的指定数量的视频帧 作为训练帧,执行训练过程,建立特征模板(具体方法参见后面的描述)。将 各摄像头传输的最后一帧训练帧中的目标区域分别取在视频图像像素点坐标中 的质心(同一目标在多个摄像头下会存在多个质心),将每个质心根据网格坐 标与视频图像像素点坐标间的对应关系(对应关系的建立参见后面的描述)映 射到网格坐标,求属于同一目标的多个网格坐标的平均值,将该平均值作为该 目标在跟踪场景网格坐标中的位置。该位置将作为该目标在测试阶段的初始位 置,即第一测试视频帧的前一时刻视频帧在跟踪场景网格坐标中的位置。对于 后面的测试视频帧,在跟踪场景网格坐标中的位置就可以利用状态空间模型对 前一时刻的视频帧进行预测得到,该实施例以t时刻测试视频帧不是第一帧测 试视频帧为例进行描述。

其中,跟踪场景网格坐标是对跟踪场景的俯视场景所形成的XY平面进行 网格划分后的坐标,网格划分过程在跟踪方法的训练阶段之前已预先执行完 毕。网格划分后的坐标建立方法如下:跟踪场景的俯视场景为XY平面,设每个 网格大小为:宽度为grid_width,高度为grid_heigth,俯视场景XY平面的宽度 和高度分别为xwidth、yheigth,按照设定的宽度和高度对该XY 平面进行网格划分,得到num_width×num_heigth个网格。设定网格化的XY平面 的某个顶角(如左上角)为坐标原点,结合XY平面的x坐标轴和y坐标轴的设 定,形成网格坐标。

根据社会力模型,行人目标在环境中所受的合力F可表示为: F=Finner+Fsoc+Fphys。其中,Finner表示目标与目的地间的驱动力,也称为内在驱 动力;Fsoc表示目标与其他行人间的作用力,也称为目标与其他行人间的排斥 力;Fphys表示目标与障碍物间的作用力,也称为目标与障碍物间的排斥力。合 力的计算可以采用现有技术中的计算方法。而在该实施例,优选采用下述的方 法来计算目标所受的合力:

设dij表示目标行人i与其他行人j中心间的距离,dic为行人i与障碍物c间的 距离,rij表示两个行人间的半径之和,ric为行人i到某障碍物c的垂直距离。根 据目标与其他行人及障碍物间的距离的大小,分为如下四种不同的情况来计算 目标所受的合力。

第一种情况,对于任意j(≠i)和c,如果dij>rij且dic>ric,说明目标与其他行 人和障碍物均在安全范围之外,目标存在向各个方向移动的可能,因此,合力 中各分量的计算公式为:

Fiinner=midvidt=mivi0(t)ei0(t)-vi(t)τi,ei0(t)=PDest-Pcur||PDest-Pcur||;Fisoc=Σj(i)fij,fij=Aiexp[rij-dijBi]nij,nij=[ri(t)-rj(t)]/dij(t);Fiphys=Σcfic,fic=Aiexp[ri-dicBi]nic,nic=[ri(t)-rc(t)]/dic(t);

第二种情况,如果dij≤rij且dic>ric,表明目标与障碍物在安全范围之外,但 目标与其他行人在安全范围以内。此时,行人间会产生身体接触力,由相互接 触的压力和滑动摩擦力组成,分别在两行人中心的连线方向和切向方向。因 而,合力中各分量的计算公式为:

Fiinner=midvidt=mivi0(t)ei0(t)-vi(t)τi,ei0(t)=PDest-Pcur||PDest-Pcur||;Fisoc=Σj(i)fij,fij=Κ(rij-dij)nij+κ(rij-dij)ΔvijτijFiphys=Σcfic,fic=Aiexp[ri-dicBi]nic,nic=[ri(t)-rc(t)]/dic(t);

第三种情况,如果dij>rij且dic≤ric,表明目标与其他行人在安全范围之外, 但目标与障碍物在安全范围以内。此时,行人与障碍物间会产生接触力,合力 中各分量的计算公式为:

Fiinner=midvidt=mivi0(t)ei0(t)-vi(t)τi,ei0(t)=PDest-Pcur||PDest-Pcur||;Fisoc=Σj(i)fij,fij=Aiexp[rij-dijBi]nij,nij=[ri(t)-rj(t)]/dij(t);Fiphys=Σcfic,fic=Κ(ric-dic)nic+κ(ric-dic)Δvicτic

第四种情况,如果dij≤rij且dic≤ric,目标与其他行人及障碍物均在安全范围 之内,则合力中各分量的计算公式为:

Fiinner=midvidt=mivi0(t)ei0(t)-vi(t)τi,ei0(t)=PDest-Pcur||PDest-Pcur||;Fisoc=Σj(i)fij,fij=Κ(rij-dij)nij+κ(rij-dij)Δvijτij;fic=Κ(ric-dic)nic+κ(ric-dic)Δvicτic

上式中,mi表示行人i的质量,为常量;表示行人i的期望速率,单位 为m/s,受到年龄、性别、行动能力、天气、行走设施等多种复杂因素综合影 响,可根据实际跟踪场景选择一个设定值;表示行人i期望的运动方向,在 跟踪算法中与该行人前进方向相同;vi(t)为行人i的即时行走速度,由行人i从 上一时刻位置到当前时刻位置所经过的距离与时间的比值得出;τi为行人i的反 应时间,一般条件下人的反应时间为0.1-0.5s,可根据跟踪场景选择该范围内 的某一定值;表示行人i当前时刻期望到达的位置,即根据行人i当前时刻 的实际位置和速度所得到的目标位置;Pcur表示行人i当前时刻的实际位置;fij表示行人i与行人j间的作用力;Ai为行人间相互作用力强度,为常量;Bi为行 人间作用力的作用范围,为常量;nij为行人j指向行人i的单位化矢量;ri(t)和 rj(t)分别为行人i与行人j在t时刻的位置,fic表示行人i与障碍物c间的作用 力;ri为行人i的半径;nic为障碍物c指向行人i的单位化矢量,rc(t)为障碍物c 在t时刻的位置;Κ为压力系数,κ为摩擦力系数,两个均为常量;Δvij为行人i 与其他行人j的速度差;τij为行人j与行人i的切线方向;Δvic为行人i相对障碍 物的速度差,即行人i的速度;τic为障碍物c与行人i的切线方向。

步骤2:计算测试视频帧中目标的概率力。

在网格坐标中,以目标位置(xt,yt)所在的网格为目标网格,计算网格 坐标中其他网格对目标网格所产生的概率力FP:FP={FP1,...,FP*,...,FPp};其 中,FP*=F·P*,P*为跟踪场景各摄像头中其他目标区域根据网格坐标与视频图 像像素点坐标间的对应关系对应到网格坐标后第*个网格内包含的其他目标区 域面积占该网格面积的比例,P*>0,*=1,2,...,p,p为具有其他目标区域的网 格数量,即能对目标网格产生概率力的网格数量。其中,其他目标区域的确定 方法可参考步骤4观测过程中测试区域的确定过程。

由于目标所受到的社会力合力的计算复杂度会随着网格数量线性增加,为 了进一步降低合力计算的复杂度作为更优选的实施方法,采用下述方法计算概 率力:

在网格坐标中,以目标位置(xt,yt)所在的网格为目标网格,计算网格 坐标中其他网格对目标网格所产生的概率力FP:FP={FP1,...,FP*,...,FPp};

以目标在网格坐标中的位置(xt,yt)为极坐标系的极点,设定起始方向 和正方向,将(xt,yt)周围的360°范围等分为8个指定方向,将其他网格对 目标网格所产生的概率力转化为距离概率力方向最近的指定方向上的概率力, 将每个指定方向上的所有概率力通过加权求和转化为该指定方向上的1个概率 力,进而获得t时刻测试视频帧中目标在8个方向的概率力场描述子。

通过将概率力降维至8个方向形成概率力场描述子,减少了目标预测位置 的数量,降低了计算量,更适合实时的目标跟踪。

步骤3:根据目标的概率力预测下一时刻的目标运动状态。

将目标抽象为粒子,t时刻粒子状态定义为分 别表示t时刻目标在网格坐标x坐标轴方向的速度和y坐标轴方向的速度,则 t+1时刻粒子状态Xt+1=[xt+1,yt+1,vxt+1,vyt+1,w,h]T预测为:xt+1=xt+Δt·vxt,yt+1=yt+Δt·vytvxt+1=xt+vxtΔt+12FPxmΔt2,vyt+1=yt+vytΔt+12FPymΔt2,从而获得t+1时刻目标在网 格坐标下的p个预测位置。其中,xt+1、yt+1分别为预测的t+1时刻目标在网格坐 标中的x坐标和y坐标,分别表示预测的t+1时刻目标在网格坐标x坐标 轴方向的速度和y坐标轴方向的速度,Δt为t+1时刻和t时刻的时间差, FPx、FPy分别为目标的概率力FP在网格坐标x坐标轴方向上的分力和在y坐标轴 方向上的分力,m表示目标的质量,为设定常数。

步骤1至步骤3构成了利用状态空间模型对目标运动状态进行预测的过程。 采用上述方法对目标运动状态进行预测时,考虑到行人运动的各向异性,引入 了目标的概率力,并将目标的概率力全力转化为形成所受的加速度来预测目标 的速度,并根据目标速度的变化自动调整目标的移动范围,实现对行人运动状 态的预测,建立更接近行人运动行为方式的状态空间模型,实现基于行为模式 的跟踪,能够获得更好的预测效果,且能够到达目标高似然区域,减少了因目 标速度的变化而造成的目标跟丢现象,增加了目标跟踪的鲁棒性。

步骤4:利用观测模型对预测的运动状态进行观测,获得跟踪结果。

利用上述方法预测到目标的多个运动状态,然后再利用观测模型对预测的 多个运动状态进行观测,确定最可能的运动状态。

具体来说,观测过程如下:

首先,根据网格坐标与视频图像像素点坐标间的对应关系,获得预测位置 在跟踪场景内每个摄像头的视频图像帧中的像素点位置,以像素点位置为中 心、形成宽为w、高为h的矩形区域作为测试区域,每个预测位置对应多个测 试区域。

然后,对每个预测位置的每个测试区域,随机采样相等大小的测试图像 块,对每个测试图形块分别提取超像素特征和LBP特征,获得测试图像块的超 像素特征向量和LBP特征向量。

根据公式计算每个测试图像块的特征向量与特 征模板的字典中同特征类型(超像素特征或LBP特征)的每个关键字的相似 度,将相似度最大的关键字确定为测试图像块最为相似的关键字。其中,simn表示测试图像块n的特征向量与字典中的关键字m的相似度,n=1,...,N,N为 测试图像块的数量,m=1,...,cl_num,cl_num为字典的大小,Sn表示测试图像 块n的特征向量,Cm表示字典中关键字m的特征向量,d[Sn,Cm]表示两个特征向 量Sn和Cm的相交距离,也即欧式距离。

再然后,计算每个关键字作为测试图像块最为相似的关键字出现的频率, 得到关键字与作为测试图像块最为相似的关键字出现的频率形成的测试频率直 方图。

根据公式计算测试频率直方图与特征模板中的训 练频率直方图的相似性,作为每个测试区域的权值,分别获得与超像素特征对 应的第一权值wsuperpixel和与LBP特征对应的第二权值wLBP;其中,Bm表示训练频率 直方图,BT表示某个测试区域对应的测试频率直方图,dt[BT,Bm]表示测试频率 直方图与训练频率直方图的相交距离;

最后,对每个预测位置,将该预测位置所对应的所有测试区域中每个测试 图像块的特征向量与特征模板的字典中同特征类型的每个关键字的相似度的最 大值作为该预测位置的似然值,每个预测位置得到与超像素特征对应的第一似 然值psuperpixel(Zt|Xt)和与LBP特征对应的第二似然值pLBP(Zt|Xt)。

再根据公式pall(Zt|Xt)=a·psuperpixel(Zt|Xt)+b·pLBP(Zt|Xt)计算每个预测位置的总 观测似然值pall(Zt|Xt),并将总观测似然值的最大值所对应的预测位置确定为跟 踪位置,也即目标最有可能的移动位置。

其中,a和b分别为第一似然值psuperpixel(Zt|Xt)和第二似然值pLBP(Zt|Xt)的权 值,满足:且a+b=1,且在目标转移过程中不 断进行动态变化。

其中,网格坐标与视频图像像素点坐标间的对应关系在跟踪开始之前已经 建立起来。具体来说,可以利用单应性变换矩阵来建立,具体方法如下:

将具有多个摄像头的跟踪场景的俯视场景形成的XY平面进行网格划分, 形成网格坐标;

设置标定物,利用摄像头标定原理,计算下述对应关系公式中的参数,建 立同一时刻、同一场景、不同摄像头所拍摄的视频图像像素点坐标与网格坐标 的对应关系:

Zcuv1=ax0u000ayv000010RT01XwYwZw1=NHXwYwZw1

上式中,(u,v)为视频图像像素点坐标,(Xw,Yw,Zw)为俯视场景下的网格点坐 标,Zc为摄像头坐标系下的Z方向坐标值,u0、v0、ax、ay为待标定的四个内部参 数,R和T分别为待标定的单应性变换矩阵中的旋转矩阵和平移向量。

而观测过程中所用的特征模板是在跟踪之前、通过训练预先建立的。具体 建立过程如下:

将目标已知的每个摄像头拍摄的多帧视频帧作为训练帧,提取每帧训练帧 中的目标区域。在室内场景中,由于较少受到如风、雾、雨、复杂背景等外部 环境的干扰,可采用背景差分的方法来提取行人目标区域。

根据网格坐标与视频图像像素点坐标间的对应关系,确定不同摄像头中同 一目标对应的目标区域,同一目标的所有目标区域形成该目标的训练样本集。

针对每个目标,对训练样本集中的每个训练样本,随机采样相等大小的训 练图像块,对每个训练图像块分别提取超像素特征和LBP特征,获得训练图像 块的超像素特征向量和LBP特征向量。

对提取的训练图像块的超像素特征向量和LBP特征向量分别聚类,每个特 征聚类后均获得多组聚类。每组聚类的聚类中心能够表示最典型的特征,作为 字典的关键字,聚类的组数作为字典的大小,从而分别创建目标的超像素字典 和LBP字典,每个字典具有关键字和字典大小属性,且关键字为多个。通过创 建字典,将一组数量较大的训练样本集转化为数量较小的字典,便于行人跟踪 方法的实现。

字典形成之后,对提取的相同特征类型的每个特征向量, 确定所属字典(如果是超像素特征向量,所属字典是超像素字典;如果是LBP 特征向量,所属字典是LBP字典)中与该特征向量距离最小的关键字,计算每 个关键字确定为距离最小的关键字出现的频率,进而得到关键字与确定为距离 最小的关键字出现的频率所形成的训练频率直方图,从而得到超像素训练频率 直方图和LBP训练频率直方图。

超像素字典、LBP字典、超像素训练频率直方图和LBP训练频率直方图形成 该实施例中行人跟踪的特征模板,用于后续观测过程中的决策。

在行人跟踪过程中,即使是在室内环境,由于目标的尺度、姿态等变化会 经常发生,之前的字典所组成的特征模板可能已不适用于对后续帧中目标的跟 踪。为提高目标跟踪的准确性,优选进行特征模板的更新。

对特征模板的更新,是指对特征模板中的两个字典进行更新,具体更新方 法为:

间隔指定数量的测试视频帧后,再选取目标已知的每个摄像头拍摄的多帧 视频帧作为新的训练帧,按照上述特征模板建立过程的方法获得新的训练帧的 超像素特征向量和LBP特征向量。然后,再按照上述的聚类方法将新的训练帧 的超像素特征向量与在先的超像素字典再次聚类,形成更新的超像素字典;将 新的训练帧的LBP特征向量与在先的LBP字典再次聚类, 形成更新的LBP字典。而且,聚类后,新字典的大小保存不变。

作为更优的实施方式,先将在先的超像素字典乘以设定的遗忘因子,再与 新的训练帧的超像素特征向量再次聚类;同样的,将在先的LBP字典也乘以该 遗忘因子,再与新的训练帧的LBP特征向量再次聚类。而且,遗忘因子为大于0 、小于1的一个常数,用来降低在先字典的重要性,使得新的字典能够更关注 新训练帧中的图像块,反映新的行人特征。

采用上述实施例及其优选实施方式,利用摄像头标定技术,通过网格化与 单应性变换融合多个摄像头所拍摄的图像帧,减少了因角度造成的行人遮挡, 提高了跟踪信息的有效性;此外,考虑到行人运动的各向异性,将行人的行为 模式与目标运动模型相结合,对行人的运动状态进行预测,从而建立更接近行 人运动行为方式的状态空间模型,增加了目标跟踪的鲁棒性。

以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照 前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依 然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进 行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要 求保护的技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号