首页> 中国专利> 一种面向遮挡和场景变换的运动对象追踪方法

一种面向遮挡和场景变换的运动对象追踪方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种面向遮挡和场景变换的运动对象追踪方法，包括下列步骤：a对输入的视频序列进行前景运动检测，提取运动对象；b如果已经保存有追踪对象的特征，则进入步骤d；如果未保存，则根据用户选定的区域完成对目标物体的模板初始化和SURF特征提取，以及Kalman滤波器的初始化；c采用基于Kalman滤波器的方法对运动目标进行预测跟踪，直至视频内容结束，进入步骤e；当追踪过程中发生遮挡时，则进入步骤d；d使用基于SURF特征的匹配方法确定追踪对象，在特征匹配趋于稳定并判断遮挡结束时，重新初始化Kalman滤波器后进入步骤c；e输出并保存目标对象特征信息。本发明是一套完整的适用于固定背景单目摄像机的视频运动对象追踪方法，可制成软件，便于应用。

著录项

公开/公告号CN103106667A

专利类型发明专利
公开/公告日2013-05-15

原文格式PDF
申请/专利权人山东科技大学;
展开▼

申请/专利号CN201310039754.3
发明设计人房胜;汴紫涵;徐田帅;王飞;党超;
展开▼

申请日2013-02-01
分类号G06T7/20(20060101);
代理机构37205 济南舜源专利事务所有限公司;
代理人王连君
地址 266590 山东省青岛市经济技术开发区前湾港路579号
入库时间 2024-02-19 18:38:18

法律信息

法律状态公告日

法律状态信息

法律状态
2020-01-17

未缴年费专利权终止 IPC(主分类):G06T7/20 授权公告日:20160120 终止日期:20190201 申请日:20130201

专利权的终止
2016-01-20

授权

授权
2013-06-12

实质审查的生效 IPC(主分类):G06T7/20 申请日:20130201

实质审查的生效
2013-05-15

公开

公开

说明书

技术领域

本发明属于图像处理技术、运动对象的追踪技术领域。具体地说是涉及基于kalman滤波和SURF方法相结合来实现遮挡和场景变换情况下运动对象的快速、准确追踪方法。

背景技术

目前的视频运动对象追踪方法有如下几种：

一是基于区域的跟踪方法，其首先分割出每一帧的视频对象，然后建立各分割对象间的对应关系，从而实现对视频对象的跟踪。这种方法对视频对象的分割要求很高，一旦视频片段中的某一帧或某几帧的对象分割错误，则整个视频对象的跟踪就会失败。

二是Graph Cuts方法（又称为Min-Cut/Max-Flow方法），是一种经典的图像分割方法，目前很多图像分割方法都是基于Graph Cuts衍生出来的。由于运动对象的跟踪方法的前一步通常都是运动前景物体的提取，因此这种基于区域的跟踪方法应用比较广泛。但由于这种方法不能很好地分割相互遮挡的物体，因此这种方法在遮挡频繁发生的场景中效果较差。

三是基于模型的跟踪方法，目前基于模型的跟踪方法主要分为两类：即基于模型的人体跟踪和基于模型的车辆跟踪。由于该方法的特性，在得到物体2D图像坐标和3D坐标的对应关系后，即使物体发生较大程度的角度变换，也可以利用物体的3D模型进行跟踪。该方法要求先对被跟踪物体进行建模，然后将该模型和视频图像中的内容进行匹配来实现跟踪；且这种方法要求对被跟踪物体有足够的先验知识，才能建立出有效的目标模型。

发明内容

本发明的任务在于提供一种面向遮挡和场景变换的运动对象追踪方法，该方法能够快速、准确地实现对视频中特定运动物体的追踪。

其技术解决方案是：

一种面向遮挡和场景变换的运动对象追踪方法，包括下列步骤：

a对输入的视频序列进行前景运动检测，提取运动对象；然后进入步骤b，

b如果已经保存有追踪对象的特征，则进入步骤d；如果未保存有追踪对象的特征，则根据用户选定的区域完成对目标物体的模板初始化和SURF特征提取，以及Kalman滤波器的初始化；然后进入步骤c，

c采用基于Kalman滤波器的方法对运动目标进行预测跟踪，直至视频内容结束，进入步骤e；当追踪过程中发生遮挡时，则进入步骤d；

d使用基于SURF特征的匹配方法确定追踪对象，在特征匹配趋于稳定并判断遮挡结束时，重新初始化Kalman滤波器后进入步骤c；

e输出并保存目标对象特征信息。

上述步骤a中，建立两个参考帧I_bg(x,y)、I_up(x,y)，I_bg(x,y)为当前场景的背景帧，I_up(x,y)是一个随时间不断更新的参考帧；将当前帧I(x,y)分别与I_bg(x,y)、I_up(x,y)进行差分二值化，得到的结果记为：F_bg(x,y)、F_up(x,y)，根据二者的值分辨出场景中的遗留物和运动物体。

上述步骤c中，首先对Kalman滤波器进行初始化，然后根据观测到的目标物体状态进行预测跟踪；在跟踪过程中，根据目标对象的轮廓变化情况自适应地更新模板图像，并将有代表性的特征信息进行保存；在追踪过程中，采用基于轮廓相交的判断方法对是否发生遮挡进行建模、分析和判断。

上述步骤d中，自动搜索视频内容并找到与被跟踪物体特征点匹配最多的前景团块，针对测量误差和噪声引起的错误匹配，在得到SURF特征匹配点对后使用RANSAC算法进行精确匹配并得到图像间的转换的单应性矩阵，在视频中标定目标对象；判断遮挡是否结束与上述判断是否发生遮挡采用相同模型；重新初始化Kalman滤波器采用的方法与上述Kalman滤波器的初始化方法相同。

本发明可具有如下有益技术效果：

本发明采用Kalman滤波器和SURF特征匹配相结合的方法，一方面在无遮挡和场景变换时，Kalman滤波器可以快速的完成预测和追踪，另一方面在发生遮挡和场景变换时，利用SURF特征的尺度不变等特性可以有效解决Kalman滤波器失效情况下的目标跟踪问题；因此具有快速、准确的优点，并且由于可以根据目标轮廓的变化自适应地更新目标模板，鲁棒性也很好。本发明是综合运用遗留物检测算法、Kalman滤波器、SURF特征、遮挡判断等，提出来的一套完整的适用于固定背景单目摄像机的视频运动对象追踪方法，可制成软件，便于应用。

附图说明

下面结合附图与具体实施方式对本发明作更进一步的说明：

图1为本发明中的前景运动检测过程示意图。

图2为本发明中所使用的基本Kalman滤波器工作流程示意图。

图3为本发明中所使用的SURF与SIFT算法构建的尺度空间对比示意图。

图4为本发明中所使用的SURF算法在三个方向上的方框滤波示意图。

图5为本发明的流程框图。

具体实施方式

为了更好地理解及实现本发明，首先对本发明使用的技术背景介绍如下：

一、运动对象检测算法。

1.时间域差分法

时间域差分就是将视频序列中相邻俩帧图像做差，通过得到的像素差值提取运动对象。这种方法简单方便，适合动态背景下的运动提取。但通过这种方法得到的目标轮廓可能并不完整。例如当运动物体移动十分缓慢，而且本身具有大面积平滑区域时，这样将相邻俩帧图像做差就不能得到重叠的部分，得到的轮廓会出现“空洞”。

目前一种改进方法是利用三帧差分代替俩帧差分，这样就能较好地检测出中间帧运动目标的轮廓。设视频序列中相邻的三帧图像为：I_t-1(x,y)、I_t(x,y)、I_t+1(x,y)，分别计算相邻俩帧的像素差值：

然后对得到的差值图像进行二值化处理，得到二值化图像：

对b_(t，t1)(x,y)和b_(t+1,t)(x,y)进行逻辑“与”运算，得到二值图像B_t(x,y):

$> B_{t} (x, y) = (\begin{matrix} 1 & b_{(t, t - 1)} (x, y) \cap b_{(t + 1, t)} (x, y) = 1 \\ 0 & b_{(t, t - 1)} (x, y) \cap b_{(t + 1, t)} (x, y) = 0 \end{matrix}) - - - (3)$ >

最后对得到的二值图像进行腐蚀、膨胀等处理，以消除噪声和“空洞”。

2.光流法

光流法检测运动物体的基本原理是：给图像中的每一个像素定义一个速度矢量，如果图像中没有运动物体，则光流矢量在整个图像区域中是连续变化的；如果图像中存在运动物体，则运动物体和背景之间存在相对运动，二者的速度矢量不同，从而检测出运动物体。由于光流的计算方法十分复杂而且计算量很大，因此一般不被实时系统所采用。

3.背景建模

背景建模和时间域差分方法有相似之处，都是做两帧图像的差值，不同的是背景建模方法是将当前帧与参考帧（背景帧）进行差值运算。背景建模方法广泛应用于静止摄像头的运动检测，背景帧的选取是整个算法的关键，背景建模也就是对背景帧的建模，理想状态下的背景帧应该不含运动物体，而且能够按照一定的策略进行更新以适应场景的动态变化，例如光照变化、背景中的树叶摆动、水波荡漾、雨雪飘落等情况。现有的背景建模方法大致可分为六类：增量式高斯平均、时序中值滤波、混合高斯模型、核密度估计、顺序核密度近似和特征背景模型。

本发明采用的运动检测方法就是一种基于背景建模思想的简单快速方法：遗留物检测法，结合图1。建立两个参考帧I_bg(x,y)、I_up(x,y)。I_bg(x,y)为当前场景的背景帧，I_up(x,y)是一个随时间不断更新的参考帧。将当前帧I(x,y)分别与I_bg(x,y)、I_up(x,y)进行差分二值化，得到的结果记为：F_bg(x,y)、F_up(x,y)并根据二者的值分辨场景中的遗留物和运动物体。

二、基于Kalman滤波器的追踪算法，结合图2。

1.离散Kalman滤波器

这是本发明使用的在无遮挡、无场景变换时的运动对象追踪方法。基本的卡尔曼滤波是解决线性滤波和预测问题的方法，以均方误差最小为准则，具有简单、快速的特点。

Kalman滤波器预测过程：

$> {\hat{X}}_{k}^{-} = F_{k} {\hat{X}}_{k - 1} + B_{k - 1} u_{k - 1} - - - (1)$ >

$> P_{k}^{-} = F_{k - 1} P_{k - 1} {F_{k - 1}}^{T} + Q_{k - 1} - - - (2)$ >

Kalman滤波器更新过程：

$> K_{k} = P_{k}^{-} {H_{k}}^{T} {(H_{k} P_{k}^{-} {H_{k}}^{T} + R_{k})}^{- 1} - - - (3)$ >

$> {\hat{X}}_{k} = {\hat{X}}_{k}^{-} + K_{k} (Z_{k} - H_{k} {\hat{X}}_{k}^{-}) - - - (4)$ >

$> P_{k} = (I - K_{k} H_{k}) P_{k}^{-} - - - (5)$ >

其中F是状态转移矩阵，H是测量矩阵，Z是观测值，B是输入变换矩阵，u是输入值（在有些系统中不需要新的输入值，因此B和u可以省略）。Q和R分别表示状态转移过程和观测过程中噪声向量的方差。表示k-1时刻对k时刻状态X_k的最佳预测值，表示用k时刻的观测值Z_k和前一时刻对本时刻的预测值对X_k所作的状态更新。P是协方差，其上下标的含义与X相同，K表示Kalman增益。

2.扩展的Kalman滤波器

针对非线性状态空间模型的次优方法，应用最为广泛的一类方法是扩展的Kalman滤波器（extended Kalman filtering，EKF）。EKF的基本思路是首先将非线性系统线性化，然后再进行与线性Kalman滤波器类似的处理。其具体方法是对非线性函数的泰勒展开式进行截断，从而将非线性函数线性化。根据泰勒展开式进行的是一阶还是二阶截取，EKF主要可分为一阶EKF（first order EKF）和二阶EKF（second order EKF）。

虽然扩展的Kalman滤波器在解决非线性模型方面有出色的表现，但它在实际应用中也存在明显的不足：一是将非线性模型进行线性化的过程中可能会产生不稳定的滤波；二是在计算雅克比矩阵的导数时，实现较为复杂；三是现实中的模型函数可能存在不可微的情况，这样就会导致EKF失效。因此在模型的非线性较强以及系统中的噪声为非高斯分布时，EKF的估计精度就会大大降低，最终导致失败。

三、SIFT、SURF特征匹配法，结合图3，图中的左图为传统方法中构建的图像金字塔，上一层图像是对前一层图像的下采样；右图为SURF算法中构建尺度空间的方法，图像不变，改变的只是滤波模板的大小。

SURF算法是SIFT的改进算法。SURF算法在特征匹配速度上要远远优于SIFT算法，因此SURF算法可以进一步应用到实时的图像匹配场景中去。本发明采用SURF算法进行特征点匹配。

SURF算法分为尺度空间构建、特征点检测、特征描述符生成和特征点匹配四个部分。

1.尺度空间构建

SURF算法的尺度空间构成

传统的尺度空间被描述为一个金字塔，高斯卷积核是实现尺度变换的唯一线性核，给定一幅图像I(x,y)，则它的尺度空间定义为：

L(x,y,δ)=G(x,y,δ)*I(x,y) （1）

其中G(x,y)是尺度可变高斯函数，

$> G (x, y, δ) = \frac{1}{{2 πδ}^{2}} e^{- (x^{2} + y^{2}) / {2 δ}^{2} - - - (2)}$ >

(x,y)是空间坐标，δ是尺度坐标，δ的大小决定了图像的平滑程度。利用上面的公式，根据图像的大小最终决定金字塔尺度空间的阶数，以及每阶金字塔中包含图像的层数。第一阶金字塔的第一层是原始图像，之后往上的每一层是对前一层进行Laplace变换（高斯卷积，δ值逐渐增大）。从直观上来看，越往上的图像越模糊。

为了有效地在尺度空间中检测到稳定的关键点，Lowe等人提出了高斯差分尺度空间（DOG scale-space）。

D(x,y,δ)=(G(x,y,kδ)-G(x,y,δ))*I(x,y)=L(x,y,kδ)-L(x,y,δ) (3)

DoG金子塔尺度空间的每一层是由高斯金字塔相邻两层相减得到的，因此DoG金字塔与高斯金子塔相比，塔的阶数相同，但每阶塔中的层数减一。

SIFT算法的尺度空间构成

SIFT算法构建尺度空间的方法，其缺点在于每层图像的建立都要依赖于前一层图像，而且图像的尺寸需要重新设置，因此这种方法的运算量较大。

SURF算法在构建图像金字塔时改变的不是图像尺寸，而是滤波模板的大小。SURF算法在构建尺度空间时可以并行处理，而且不需要对图像进行二次抽样，从而提高了运算速度。SURF算法与SIFT算法构造的尺度空间的差异如图3所示。

2.特征点检测

给定一幅图像I(x,y)，其积分图像为

$> I_{Σ} (x, y) = Σ_{i = 0}^{i \leq x} Σ_{j = 0}^{j \leq y} I (i, j) - - - (4)$ >

SURF特征点检测利用Hessian矩阵的行列式判断图像上某点是否为极值点。设f(x,y)是一个二阶可微的函数，则其Hessian矩阵为

$> H (f (x, y)) = (\begin{matrix} \frac{\partial^{2} f}{{\partial x}^{2}} & \frac{\partial^{2} f}{\partial x \partial y} \\ \frac{\partial^{2} f}{\partial x \partial y} & \frac{\partial^{2} f}{{\partial y}^{2}} \end{matrix}) - - - (5)$ >

则矩阵H的行列式

$> \det H = \frac{\partial^{2} f}{{\partial x}^{2}} \frac{\partial^{2} f}{{\partial x}^{2}} - {(\frac{\partial^{2} f}{\partial x \partial y})}^{2} - - - (6)$ >

是H的特征值的乘积，若det H<0，则点(x,y)不是局部极值点；若det H>0，则点(x,y)是局部极值点。于是图像I(x,y)在尺度δ下的Hessian矩阵为

$> H (x, y, δ) = (\begin{matrix} L_{xx} (x, y, δ) & L_{xy} (x, y, δ) \\ L_{xy} (x, y,δ) & L_{yy} (x, y, δ) \end{matrix}) - - - (7)$ >

其中L_xx(x,y,δ)是图像在点(x,y)处与高斯函数二阶偏导的卷积，类似地可定义L_xy(x,y,δ)和L_yy(x,y,δ)。

Bay等人对卷积核进行合理的离散化和裁剪后用方框滤波模板代替，并使用积分图像来加速卷积速度降低计算量。经过裁剪后三个卷积核分别为D_xx、D_yy和D_xy，它们是L_xx、L_yy和L_xy的简化表示。9×9的方框滤波模板如图4所示，对应的二阶高斯滤波尺度因子δ=1.2。

由于方框滤波是二阶高斯滤波的近似估计，因此为了弥补用方框滤波代替二阶高斯滤波计算Hessian矩阵行列式值而造成的误差，则有

detH=D_xxD_yy-(0.9D_xy)² (8)

边长为9的卷积核是最小尺度的卷积核,随着尺度的不断增加,卷积核(滤波模板)的大小也成比例的增加。如果滤波模板大小为N*N,则对应尺度δ=N*1.2/9。

通过Hessian矩阵行列式得到各个尺度的极值点后，每个极值点和其同一尺度的8个相邻点以及它上下两个尺度的各9个点进行比较，当该极值点的值在26个值中最大或最小时，才将该极值点被作为候选特征点。

最后用M.Brown所提到的方法进行插值运算，得到亚像素精度的特征点位置及所在尺度值。同时去掉对比度低的特征点和不稳定的边缘响应点（因为DoG方法会产生较强的边缘响应），以提高抗噪声能力和增强匹配的稳定性。

由于特征点是在图像尺度空间上选取的局部稳定点，所以满足尺度变化情况下特征匹配的要求。

SURF算法之所以比SIFT算法的运算效率高，是因为SURF算法使用了积分图像和Hessian矩阵来加速特征点的检测。

3.SURF特征描述符生成

SURF特征描述子的生成分为两步：主方向确定和构建描述符。

主方向确定。为保证特征点的旋转不变性，在特征点周围6δ（δ为特征点所在尺度）的邻域内按步长δ对像素点采样，并且在采样点处求取边长为4δ的Harr小波卷积核在X和Y方向上的响应值。为使靠近特征点的响应贡献大，远离特征点的响应贡献小，对小波响应按σ=2δ进行高斯加权，然后表示为一个二维坐标上的点，最后可得到所有采样点响应在二维平面上的分布图。然后用一个张角为60°的滑窗按固定步长滑动，每次将60°范围内的响应相加形成新矢量，选择最长矢量的方向为此特征点的主方向

构建描述符。然后以特征点为中心，将坐标轴旋转到主方向。选取边长为20δ的正方形区域，将该窗口分成4×4的子区域，在每一个子区域内计算25个采样点的Harr响应，分别记为d_x和d_y。然后在每个子窗口上以σ=3.3δ的高斯函数加权得到d_x和d_y的累积值，即∑d_x，∑d_y，∑│d_x│，∑│d_y│。每个子区域形成一个四维的新矢量，由于正方形区域包含16个子窗口，则每一个特征点形成16×4=64维的描述符。

通过主方向对齐的方法，SURF特征具有旋转不变性，可用于旋转情况下的特征匹配。

4.SURF特征点匹配

特征点的匹配利用特征向量的欧式距离作为两幅图像中关键点的相似性判定度量。欧氏距离的公式为：

d=sqrt(∑(x_i1-x_i2)²) (9)

x_i1表示第一幅图像上某一点的第i维坐标，x_i2表示第二幅图像上某一点的第i维坐标。

具体做法为：取第一幅图像中的某个关键点，找出第二幅图像中与其欧氏距离最近的前两个关键点。如果在这两个关键点中最近的距离除以次近的距离小于某个阈值，则认为找到一对匹配点。增加这个阈值，匹配点的数目就会增多，但准确率下降；相反降低这个阈值，匹配点的数目就会减少，但准确率会提高。

5.SURF算法在运动对象追踪中的不足

虽然SIFT/SURF特征对图像的尺度缩放、旋转、平移、亮度变化等具有较为稳定的不变性，但将它应用在运动对象追踪中依然存在着不足，主要有以下几个方面：

1）由于在构建尺度空间时采用的是基于图像金子塔的方法，因此可能会出现层取得不够紧密从而造成尺度匹配有误差的情况。当原图像本身较小时，构建尺度空间对特征点的提取影响不大。

2）在SURF特征点过滤过程中会去除对比度低的点和不稳定的边缘响应点。如果图像内容中存在大片平滑区域，这样这部分内容的特征信息就会被过滤。同样作为重要特征的边缘信息也可能会被省略。

3）SURF特征是图像内容的局部特征，忽略了图像本身的全局信息。

4）SURF算法在特征点匹配时使用的搜索策略效率不高，而且不能充分利用邻近特征点间的位置关系，从而可能会造成错误匹配。

5）SIFT/SURF算法本身只利用了图像的灰度特性，没有考虑到图像本身颜色信息。

6）与kalman滤波器追踪技术相比，SURF算法的运算量要大的多；单纯使用SURF算法用于视频运动对象的追踪很难满足实时性的要求。

四、单应性矩阵。

在进行目标对象定位时，用到了单应性矩阵的概念。同一空间内两幅图像AB，如果从图像A到图像B之间存在一一对应的映射关系，该映射关系用矩阵表示就是一个单应性矩阵。设两幅图像中某点坐标分别为I(x,y,1)，I'(x',y',1)，单应性矩阵H，则对应的投影关系为：

$> k (\begin{matrix} x^{'} \\ y^{'} \\ 1 \end{matrix}) = H (\begin{matrix} x \\ y \\ 1 \end{matrix}) = (\begin{matrix} h_{1} & h_{2} & h_{3} \\ h_{4} & h_{5} & h_{6} \\ h_{7} & h_{8} & h_{9} \end{matrix}) (\begin{matrix} x \\ y \\ 1 \end{matrix}) - - - (1)$ >

其中k为比例系数，通常H为自由度为8的变换矩阵，当h₉=1时，由(1)可得：

h₁x+h₂y+h₃-h₇xx′-h₈yx′-x′=0 (2)

h₄x+h₅y+h₆-h₇xy-h₈yy-y=0 (3)

这样只要有4对匹配点的坐标就可以计算出单应性矩阵H。

结合上述内容以及图1与图5，下面进一步详细说明本发明的技术方案：

a对输入的视频序列进行前景运动检测，提取运动对象。

在本发明所需要处理的应用场景中，运动对象进入后长时间滞留在同一位置、或者背景中的物体突然移动都是可能出现的情况。本发明采用遗留物检测方法来提取运动对象。

遗留物检测与运动检测不同，它不仅需要检测出原来场景中不存在的物体，还要判断该物体是否停留在该场景中。

具体方法为：建立两个参考帧I_bg(x,y)、I_up(x,y)。I_bg(x,y)为当前场景的背景帧（不包括运动物体，和一般的背景建模中用的背景帧一致），I_up(x,y)是一个随时间不断更新的参考帧，设当前图像帧为I(x,y)，则更新方法为：

I_up(x,y)=(1-α)I_up(x,y)+αI(x,y) (1)

α为更新速度权重，α越大更新速率越快，α越小更新速率越慢。这样如果外界物体停留在场景中，则经过一段时间后该物体就会融入I_up(x，y)中，成为“背景”的一部分。将I(x,y)分别与I_bg(x,y)、I_up(x,y)进行差分二值化，得到的结果记为：F_bg(x,y)、Fup(x,y)。如果点(x,y)处的像素值F_bg(x,y)=1，F_up(x,y)=0则可以判断该点属于遗留物，具体可根据表1中定义的方法分辨出场景中的遗留物和运动物体。

表1遗留物检测方法判决表

F_bg(x,y)F_up(x,y)判断类型Ⅰ11运动对象Ⅱ10暂时静止对象（遗留物）Ⅲ01随机噪声Ⅳ00场景中静态物体

b如果已经保存有追踪对象的特征，则直接进入步骤d；如果没有，则根据用户选定的区域完成对目标物体的模板初始化和SURF特征提取，以及Kalman滤波器的初始化。

如果在硬盘的指定目录下已经保存有追踪对象的特征，则意味着发生了场景变换，此时首先导入指定目录下保存的目标对象的模板信息和特征信息，然后在视频帧内进行全局搜索匹配，如果某一帧内的运动物体与模板的匹配点数超过某个规定的阈值，则认为目标物体出现在该场景中，此时需要初始化Kalman滤波器进行跟踪处理。

如果在硬盘的指定目录下没有保存追踪对象的相关特征，则需要用户通过鼠标在监控画面上画选目标物体。算法根据画选的目标物体进行模板初始化和SURF特征提取。

上述Kalman滤波器的初始化如下列步骤：

1）由于本发明实际应用场景的限制，目标物体在场景中的运动速度一般不会发生大的变化，因此本发明采用匀速运动的运动方程对物体进行分析和处理：

x_t=x_t-1+v_x (2)

y_t=y_t-1+v_y (3)

式(2)和式(3)分别表示物体在x轴和y轴方向上的运动方程，v_x、v_y分别表示物体在两个方向上的速度。在t时刻，一个运动物体的状态表示为X_t=(x_t,y_t,v_x,v_y)^T，观测值为Z_t=(x_t,y_t)^T。

2）对照Kalman滤波器模型和运动方程可知系统的状态转移矩阵F和测量矩阵H分别为：

$> F = (\begin{matrix} 1 & 0 & 1 & 0 \\ 0 & 1 & 0 & 1 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{matrix}),$ > $> H = (\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \end{matrix}) - - - (4)$ >

3）根据本发明实际应用场景的相关实验情况和参考资料，本发明中所采用的Kalman滤波器的状态转移过程和观测过程中噪声向量的方差矩阵Q和R的取值分别如下所示：

$> Q = (\begin{matrix} 0.01 & 0 & 0 & 0 \\ 0 & 0.01 & 0 & 0 \\ 0 & 0 & 0.01 & 0 \\ 0 & 0 & 0 & 0.01 \end{matrix}),$ > $> R = (\begin{matrix} 0.2845 & 0.0045 \\ 0.0045 & 0.0455 \end{matrix}) - - - (5)$ >

4）系统初始状态向量协方差矩阵P定义如下：

$> P_{0} = (\begin{matrix} 100 & 0 & 0 & 0 \\ 0 & 100 & 0 & 0 \\ 0 & 0 & 100 & 0 \\ 0 & 0 & 0 & 100 \end{matrix}) - - - (6)$ >

5）当摄像头的位置调整时，以上矩阵Q、R、P₀的定义可以根据实际情况进行相应调整。对于初始状态的定义，本文算法允许用户自定义的选择，即用户可以用鼠标划选出某一时刻想跟踪的目标物体，然后系统根据此时该物体左上角顶点坐标的观测位置和速度初始化

c采用基于Kalman滤波器的方法对运动目标进行预测跟踪，直至视频内容结束，进入步骤e；当追踪过程中发生遮挡时，则进入步骤d；

对Kalman滤波器进行初始化之后，系统就可以对目标物体的位置进行预测跟踪了。在跟踪过程中，根据目标对象的轮廓变化情况自适应地更新模板图像，并将有代表性的特征信息进行保存。

本发明根据被跟踪物体的外形变化，实时地判断是否要更新目标模板和SURF特征描述子。此处的外形变化主要是指在摄像头焦距不变的情况下目标因自身运动位置和方向的变化，所造成的图像中目标所占的像素总面积发生的变化。即

A_m-A_n|>H (7)

时，判断目标发生外形变化，Am和An分别表示m和n时刻目标所占的像素面积，H是一阈值，该阈值可根据具体场景进行调整。

当判断物体所占的像素面积发生变化后，系统继续判断该目标物体的长宽比是否发生变化，如果此时目标物体的长宽比R_t与之前保存的目标模板的长宽比R_m相比发生明显变化，则认为物体发生角度变化，需要更新目标对象的模板信息。

R_t-R_m|>H_R，R_t=W_tH_t (8)

H_R为判断目标对象长宽比发生较大变化时的阈值，W_t和H_t分别表示t时刻目标对象的宽度和高度

判断遮挡的发生。本发明采用基于轮廓相交的判断方法，该方法快速有效，其需要解决两种情况的遮挡：一是对象间的相互遮挡，二是目标对象被背景遮挡。

我们可知当目标对象发生遮挡时，它的轮廓所占的像素面积是迅速增加或减少的。像素面积增加表示发生了对象间的遮挡，像素面积减少表示发生了背景遮挡对象的情况。因此通过运动检测得到运动物体轮廓的二值化图像后，再利用下式进行判断就可以知道遮挡发生的时刻了。

|S_t-S_t-1|>T (9)

S_t和S_t-1分别表示当前时刻和前一时刻目标对象所占的像素面积，T表示设定好的阈值。该阈值需要根据具体场景中摄像头的焦距进行改变。

d使用基于SURF特征的匹配方法确定追踪对象，在特征匹配趋于稳定并判断遮挡结束时，重新初始化Kalman滤波器后，进入步骤c；

通过SURF算法得到的两幅图像之间一些匹配的特征点对并不是完全正确的，它们中存在着因测量误差和噪声引起的错误匹配。因此，本发明在得到SURF特征匹配点对后，使用RANSAC算法进行精确匹配并得到图像间的转换的单应性矩阵，从而在视频中标定目标对象。

RANSAC（random sample consensus）算法是一种估计数学模型参数迭代的方法，其基本思路是通过随机采样和验证的方法求得大部分样本（指相互匹配的特征点对）都能满足的数学模型的参数。

本发明运用RANSAC算法的具体步骤如下：

1）首先随机选取四对SURF匹配点作为初始内点集合，通过初始集合内的四对匹配点计算出变换矩阵H。

2）判断内点集合外的点是否可加入该集合。计算I′和HI之间的距离，如果该值小于设定好的阈值，则将该点加入内点集合。

3）重复1）和2）步骤N次，选取内点集合中点数最多的那一组集合作为最终需要的匹配点集合。最后根据该集合，运用最小二乘法更新变换矩阵H。

在上述过程中，假设最终得到的匹配点占初始SURF匹配点总数的比例为p，则随机抽取四对匹配点不全是最终正确匹配的概率为1-p⁴，迭代N次初始的四对点都不全是正确匹配点的概率为(1-p⁴)^N，那么得到正确的变换矩阵H的概率P为：

P=1-(1-p⁴)^N (10)

在实际应用中，既为了保证较大概率得到变换矩阵H，又使算法的迭代次数N较少，一般取N在10~20之间即可。

在得到变换矩阵H之后，将模板中目标对象的四个顶点映射过去就得到了图像中物体的大体位置，计算方法如下所示：

x_i′=h₁*x_i+h₂*y_i+h₃ (11)

y_i′=h₄*x_i+h₅*y_i+h₆ (12)

(x_i′,y_i′)表示视频图像中目标对象第i个顶点的坐标，(x_i,y_i)为模板中目标对象的第i个顶点坐标。

判断遮挡的结束。该部分用到的方法与判断遮挡是否发生用到方法相同，即判断物体轮廓是否相交。当遮挡过程结束时，二值图像中观察到的目标对象所在团块占据的像素面积会发生明显变化，通过式(9)就可以判断某时刻遮挡是否结束。

遮挡结束时，系统将根据之前搜索匹配的结果，重新初始化Kalman滤波器，然后通过Kalman滤波器不断地预测和更新来继续完成跟踪处理。

e输出并保存目标对象特征信息。

根据用户的需要，保存目标对象特征信息到指定目录。

本发明的意义在于：

视频对象的追踪处理是智能视频处理的关键技术，是行为识别、事件识别、身份识别等高级语义操作和处理的前提。在遮挡和场景变换等复杂场景下，快速、准确的实现对视频对象的追踪是国内外研究的热点和难点。近年来，人们对遮挡情况下的跟踪问题进行了大量的研究，目前现有的方法虽然能解决部分问题，但还没有一种方法能很好地解决所有问题。例如，图像分层方法虽然能解决遮挡跟踪问题，但复杂程度高，难以满足实时性的要求；而基于颜色或轮廓的跟踪方法初始化困难、目标模型更新困难，难以用于实际系统中；在同一场景中利用多摄像机联合监控是目前解决遮挡问题的热门方法，但目前该方法与单摄像头下的跟踪方法相比还很不成熟，而且实现成本和复杂度都很高。相比遮挡，场景变换情况下的跟踪更为复杂，目前在该领域国内外可参考的文献资料还较少，主要的解决方法依然是将单场景下的跟踪算法扩展到多场景跟踪。而本发明，不需要多台摄像机，只需要一台摄像机就可以针对固定背景环境下的运动对象进行快速追踪，并且在发生遮挡和场景变换时仍然具有较高的准确率和鲁棒性。

特别说明的是，本发明工作受国家自然科学基金项目(61170253)、山东科技大学信息学院科研创新团队计划支持。

上述方式中未述及的有关技术内容采取或借鉴已有技术即可实现。

需要说明的是，在本说明书的教导下本领域技术人员还可以作出这样或那样的容易变化方式，诸如等同方式，或明显变形方式。上述的变化方式均应在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种面向遮挡和场景变换的运动对象追踪方法 [P] . 中国专利： CN103106667B . 2016.01.20
2. 一种面向遮挡和场景变换的运动对象追踪方法 [P] . 中国专利： CN103106667A . 2013-05-15
3. Method of generating a map of the occlusion image property for a view position of occlusion for a scene tridimentional, product of computer program.A software tool for use with a computer program for modeling the tridimentional to generate a map of image property of occlusion and apparatus for the generation of a map of the occlusion image property for a view position of occlusion for a scene Tridi Mencional [P] . BRPI0914466A2 . 2015-10-27

机译：为场景三维的遮挡视图位置生成遮挡图像特性图的方法，计算机程序。一种与计算机程序一起使用的软件工具，用于对三维进行建模以生成遮挡的图像特性图和装置用于为场景Tridi Mencional遮挡的视图位置生成遮挡图像属性的图
4. Padding of object border blocks for motion estimation and transform coding in an object-oriented video coder [P] . 欧洲知识产权局专利： EP0892559A1 . 1999-01-20

机译：面向对象视频编码器中用于运动估计和变换编码的对象边界块的填充
5. Directional occlusion methods and systems for shading a virtual object rendered in a three-dimensional scene [P] . 美国专利： US10762697B1 . 2020-09-01

机译：用于遮挡三维场景中渲染的虚拟对象的方向遮挡方法和系统