首页> 中国专利> 基于特征点分类的监控录像中实时多目标检测与跟踪方法

基于特征点分类的监控录像中实时多目标检测与跟踪方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于特征点分类的监控录像中实时多目标检测与跟踪方法，该方法主要包含两部分：离线预处理阶段，先根据特征点在目标物体上的分布情况，把目标物体分为若干部分，提取每个部分的特征来训练一个分类器；在线时，在求得的特征点周围提取特征，通过训练好的分类器来确定特征点对应的物体部分，并计算出对应的目标中心点，根据中心点的分布情况来检测目标，最后在跟踪特征点的基础上进行目标物体的跟踪。该方法不需要估计静态的背景，因此对光照变化和相机的抖动也具有很好的鲁棒性，并且本方法使用了快速稳定的随机树作为分类器，特征点周围的梯度作为分类数据，具有很好的检测跟踪效果，而且能够满足实时性要求。

著录项

公开/公告号CN101901354A

专利类型发明专利
公开/公告日2010-12-01

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN201010224544.8
发明设计人章国锋;鲍虎军;全晓沙;华炜;
展开▼

申请日2010-07-09
分类号G06K9/66;H04N7/18;
代理机构杭州求是专利事务所有限公司;
代理人周烽
地址 310027 浙江省杭州市西湖区浙大路38号
入库时间 2023-12-18 01:18:04

法律信息

法律状态公告日

法律状态信息

法律状态
2014-08-20

授权

授权
2011-01-12

实质审查的生效 IPC(主分类):G06K9/66 申请日:20100709

实质审查的生效
2010-12-01

公开

公开

说明书

技术领域

本发明涉及一种目标检测与跟踪方法，尤其涉及一种交通监控系统中的实时多目标检测与跟踪方法。

背景技术

多目标运动物体的检测与跟踪是计算机视觉领域一个非常重要且很具有挑战性的问题，有着广泛的应用。在智能交通监控系统中，就需要实时识别并跟踪出现的车辆和行人。和其它的一些传感器相比，摄像机不但价格便宜，而且安装方便，所以大多数的道路上都安装有摄像头，摄像头拍摄的录像可以用来统计车流量、跟踪车辆行人等等。

近十几年来广大研究者们提出了很多监控录像中车辆行人的检测与跟踪算法，也出现了一些这方面的商业软件。其中大多数的算法都是基于减背景法。减背景法首先通过一段视频序列估计出一个静态的背景，然后通过计算当前图片与背景之间的差异，来检测出属于前景的物体。为了增加减背景法的稳定性，又有研究者提出了高斯混合背景，特征背景(Eigenbackground)等等。

减背景法具有简单快速的优点，但是却会受到遮挡、阴影、光照变化或者相机抖动等的影响。实际中，跟踪目标可能会被遮挡，单纯通过减背景得到的结果难以正确地分割出所跟踪的目标物体。另一方面，减背景法很难处理光照突然变化以及运动目标停下来的情况，比如在路口停下来的车辆会随着背景的更新最终成为背景的一部分。另外一种方法是基于特征点的跟踪与聚类，如ZuWhan Kim.Real time object tracking based on dynamic feature grouping withbackground subtraction.In Proc.IEEE Conf.on Computer Vision and PatternRecognition(CVPR)，2008。这种方法首先提取并跟踪角点(corner point)，然后根据角点的位置、运动轨迹聚类，聚好的类用来代表目标物体。由于单个角点的跟踪很不稳定，上文又提出了动态聚类的方法：首先将角点聚成比较小的类，然后在这个基础上再次聚类。相比减背景法，角点聚类的方法能更好的处理目标物体遮挡的情况，然而由于实际目标的大小不同，聚类很难达到稳定的效果，例如，车辆和行人的大小差很多，如果车辆和行人在一个地方同时出现，聚类的结果很可能会和实际的目标物体有偏差。

还有一些方法采用基于物体的外表匹配(如粒子滤波)，并结合一些检测方法，例如Michael D.Breitenstein，Fabian Reichlin，Bastian Leibe，EstherKoller-Meier and Luc Van Gool Robust Tracking-by-Detection using a DetectorConfidence Particle Filter.IEEE International Conference on Computer Vision(ICCV′09)，虽然可以达到比较好的跟踪效果，但计算相对复杂，在物体比较多的时候难以达到实时。

发明内容

本发明的目的在于针对现有录像监控中的多目标检测与跟踪方法的不足，提供一种基于特征点分类的监控录像中实时多目标检测与跟踪方法。

本发明的目的是通过以下技术方案来实现的：一种基于特征点分类的监控录像中实时多目标检测与跟踪方法，包括如下步骤：

1、离线预处理阶段，将目标物体划分成若干区域，在训练样例中提取每个区域的特征来训练一个分类器，并计算所有训练样例中每个区域相对于目标中心位置偏移的平均值和标准差；

2、提取当前图片帧中的角点，通过离线训练好的分类器确定角点所属的区域，计算出对应的目标中心位置，即目标中心点；

3、根据目标中心点的分布情况，快速检测出目标物体；

4、确定角点和目标物体之间的对应关系，在跟踪角点的基础上跟踪物体。

进一步地，所述的离线预处理阶段，将目标物体划分成若干区域，在训练样例中提取每个区域的特征来训练一个分类器，并计算所有训练样例中每个区域相对于目标中心位置偏移的平均值和标准差，具体包含以下步骤：

1)以角点相对集中的地方为中心，周围一个邻域块看作是目标物体的一个局部，把物体分为若干块，块与块之间可以互相重叠，目标物体可以不必被这些块完全覆盖；

2)使用多颗随机树作为分类器，并手工标记训练样例中目标物体的各个区域块，计算每个块的梯度，把梯度块缩放到一固定大小然后作为特征去训练分类器；

3)计算所有训练样例中每个区域相对于目标中心位置偏移的平均值和标准差：其中d_i表示目标中心到第i个部分的，是第n个训练样例的d_i值，N为训练数据的总数。这里的d_i和σ_i都是一个2维向量，包含x和y方向。

所述的提取当前图片帧中的角点，通过离线训练好的分类器确定角点所属的区域，计算出对应的目标中心位置，即目标中心点，具体包含以下步骤：

1)选取图片中的角点，提取其周围的梯度块并使用随机树分类，得到角点属于物体各个区域的概率分布；

2)选取其中大于λ(λ为固定阈值)的项，求出对应的目标中心点，用c表示中心点，f表示角点，p_f为f对应的概率分布(其中c和f为2维的向量，包含x和y方向)，则有：

c_fi＝f+d_i，if p_f(i)＞λ

下标fi表示中心点对应f的第i项，p_f(i)为p_f的第i项值。同时定义c_fi的概率p(c_fi)＝p_f(i)，以及类型type(c_fi)＝i。

所述的根据目标中心点的分布情况，快速检测出目标物体，具体包含以下步骤：

1)用W表示一个大小为3σ_max×3σ_max的窗口(σ_max＝max{|σ₁|，...，|σ_T|})，按从左到右，从上到下的顺序遍历图片中所有的W，直到找到一个W满足下面的公式：

式中的α和β都是固定的参数。第一个条件是指W中所有中心点的概率之和要大于α；第二个条件中，{type(c)，c∈W}表示W中所有中心点的类型的集合，其元素个数要大于β×T，也就是说W至少要包含β×T个不同类型的中心点。

2)以第一步找到的窗口为起始位置，用mean-shift方法找到局部最大的窗口，所谓局部最大是指这个窗口包含的中心点概率之和在一个邻域内是最大的。这个局部最大的窗口就作为检测到的目标物体的位置。

3)标记找到的窗口，以免重复检测，然后从上次的位置开始继续遍历。

所述的确定角点和目标物体之间的对应关系，在跟踪角点的基础上跟踪物体，具体包含以下步骤：

1)角点所属的物体是其概率最大的中心点所属的物体，用o表示一个物体，W_o表示物体中心的窗口，则有：

$f \in oif c_{{fi}_{m}} \in W_{o}, i_{m} = \underset{i}{\arg >\max} (p_{f} (i))$

2)通过KLT来跟踪角点，计算出每个角点的位移offset_f，并通过下面的式子计算目标物体的位移：

${offset}_{o} = \frac{\underset{f \in o}{Σ} {offset}_{f} \times w_{f}}{\underset{f \in o}{Σ} w_{f}}$

其中trackedcount_f是特征点被连续跟踪的帧数，跟踪时间越长的特征点具有越大的权重，同时为了避免一个点的权重变得过大，做了一个截断，w_f的最大值为0.25。

本发明的有益效果是：

一、不需要静态的背景图像，可以通过特征点的分类结果去掉背景上的点，因而不易受环境光照变化、相机抖动等因素的影响；

二、具有高效稳定的目标检测算法。检测算法类似但又不同于经典的目标检测算法ISM(Implicit Shape Model)，具有更快的速度，适合于本文的应用；

三、采用基于局部分块的目标跟踪策略，能够鲁棒地处理局部遮挡；

四、使用了一个快速的分类器以及快速的特征提取方法，能够达到实时的速度要求。

附图说明

图1是本发明的基本流程图；

图2是本发明使用的随机树的基本结构；

图3是本发明中的物体分块模型；

图4是本发明中的物体检测方法；

图5是本发明在不同情况下的运行时间；

图6是本发明实施例中的2个序列：(a)自行车序列和(b)汽车序列，图中绿色点为角点，红色点为中心点，红色方框代表检测到的目标。每个序列中，第一行图片为原始序列的检测跟踪结果，第二行图片为第一行中蓝色虚框部分的放大。

图7是本发明实施例中的另外3个序列。绿色点为角点，红色点为中心点，每个序列中不同颜色的方框代表不同类型的目标。其中(b)为运动摄像机拍摄的序列，在(c)序列中恢复了路平面的三维信息，并计算出运动速度。

具体实施方式

本发明提供了一种稳定高效的基于特征点分类的录像监控中实时多目标检测与跟踪方法，图1显示本发明的基本流程图，主要包括如下步骤：

一、离线预处理阶段，将目标物体划分成若干区域，在训练样例中提取每个区域的特征来训练一个分类器，并计算出每个区域相对于目标中心位置的偏移。

具体包含以下步骤：

1)以角点相对集中的地方为中心，周围一个邻域块看作是目标物体的一个局部，把物体分为若干块，块与块之间可以互相重叠，目标物体可以不必被这些块完全覆盖。以角点集中的地方为中心选取块，使得在线跟踪的时候它们有更大的几率被检测到，因为在线跟踪时是在角点周围提取特征并分类的。块的大小视具体情况而定，一般来说，一个目标物体通常被分为6-9个部分，例如在图3中，我们把自行车分成8个部分。

2)把物体的每个局部看作一个类型，提取训练样例中每个局部的特征训练一个分类器。本发明采用Vincent Lepetit and Pascal Fua.Keypoint Recognitionusing Randomized Tree.IEEE Transactions on Pattern Analysis and MachineIntelligence Volume 28，Issue9(September 2006)中的方法创建多颗随机树作为分类器。图2显示了一颗随机树的基本结构，树的一颗内部节点包含一个简单的测试用来分割数据空间，而树的叶子节点则包含这个节点上的数据在所有类上的概率分布，这个概率分布由落在这个节点上的训练数据所得。当需要分类一个数据的时候，我们从根结点开始，做相应的测试，根据测试的结果，这个数据被分到左子节点或者右子节点，最后落在叶子节点上。根据叶子节点上的概率分布，我们可以确定这个数据所属的分类。

一颗随机树往往很难达到精确的分类结果，本发明构建多颗随机树来划分数据空间，通过把所有随机树的结果相加取平均，可以得到更稳定的结果。更确切的说，叶子节点上所存的概率分布可以表示为P_η(l，d)(Y(d)＝c)(其中c是类标签，d是需要分辨的数据，η(l，d)表示数据d在第l棵树上所到达的叶子节点)，这个概率的值等于在这个叶子节点中，落在类c上的训练数据个数除以总的数据个数，即为了防止叶子节点上没有训练数据而出现除零的情况，以上式子可以改为：最后，我们用以下公式来表示数据d的分类概率，其中L为随机树的棵数：

$\hat{Y} (d) = \underset{c}{\arg \max} p_{c} (d) = \underset{c}{\arg >\max} \frac{1}{L} \underset{l = 1 . . . L}{Σ} P_{η (l, d)} (Y (d) = c)$

在本文中，数据是一个大小为32×32的图像块。随机树内部节点的测试条件只是简单的比较一下两个像素m₁和m₂的值，根据结果的不同而选择左边或者右边。用I(d，m)表示块d中像素m的值，测试条件可以表示如下：

$T (m_{1}, m_{2}) = (\begin{matrix} ifI (d, m_{1}) \leq (d, m_{2}) & gotoleftchild \\ otherwise & gotoright \end{matrix})$

像素m1和m2的选取有两种方法：一种是经典的从上至下，在每个内部节点，遍历m1、m2所有可能的值，选取使训练数据期望熵降低最快的值；另一种是完全随机的方法，m1和m2的值是完全随机选取。本文中选取第二种方法来生成m1、m2的值，因为这种方法要简单快速的多，而且实验结果显示在具有多棵随机树的时候，分类效果和第一种方法差不多。本发明使用了10棵随机树，每棵树的最大深度为12。

训练流程如下：首先手工标记训练样例中目标物体的各个区域块，并计算每个块的梯度，然后把梯度块缩放到32×32的大小作为特征去训练分类器。这里本发明使用梯度作为特征来训练随机树，主要是因为：1、同一类物体的不同实例，颜色往往会不一样，但是却有相似的轮廓，所以用梯度会比用颜色可靠。2、相比于其它的一些特征，如Shape Context、SIFT等，梯度的计算很容易，更适合于实时的计算要求。并且Shape Context、SIFT等特征也是基于梯度求得，虽然比较稳定，但是毕竟丢失了一些信息。3、使用随机树，使得对高维数据的操作变的很容易，虽然这里的数据有1024(32×32)维，但是使用随机树只需要几次简单的比较便可得到分类结果。

二、提取当前图片帧中的角点，通过离线训练好的分类器确定角点所属的区域，计算出对应的目标中心位置，即目标中心点。

具体包含以下步骤：

1)根据Jianbo Shi and Carlo Tomasi.Good Feature to Track.In Proc.IEEEConf.on Computer Vision and Pattern Recognition(CVPR)，1994中的方法提取图片中的角点，然后提取角点周围的梯度块并使用随机树分类，得到角点属于物体各个区域的概率分布；

2)选取其中大于λ(λ为固定阈值，一般取值为0.3-0.5)的项，求出对应的目标中心点，用c表示中心点，f表示角点，p_f为f对应的概率分布(其中c和f为2维的向量，包含x和y方向)，则有：

c_fi＝f+d_i，if p_f(i)＞λ

下标fi表示中心点对应f的第i项，p_f(i)为p_f的第i项值。同时定义c_fi的概率p(c_fi)＝p_f(i)，以及类型type(c_fi)＝i。

三、根据目标中心点的分布情况，快速检测出目标物体。

具体如下：不同的物体实例因为在大小、视角等因素上的差异，使得计算得到的中心点不会全部集中在一个像素上，本发明提出用一个窗口来容忍这种差异，根据窗口中的中心点分布来判断此处是否存在目标物体，如图4所示。窗口的大小为3σ_max，其中σ_max＝max{|σ₁|，...，|σ_T|}。用W表示一个大小为3σ_max×3σ_max的窗口，当且仅当满足下面的条件时，我们把W作为一个检测到的目标物体：

式中的α和β都是固定的参数。式中的第一个条件是指W中所有中心点的概率之和要大于α；第二个条件中，{type(c)，c∈W}表示W中所有中心点的类型的集合，其元素个数要大于β×T，也就是说W至少要包含β×T个不同类型的中心点。α反应了对概率响应的强度要求，一般取值为2.0至3.0；β则体现了对跟踪目标遮挡程度的要求，β越小，对跟踪目标完整性要求越低，但相对的错误检测率也会变大。从两个方面来约束目标检测的条件，具有很高的稳定性，一些错误计算的中心点并不会影响检测结果。

接下来本发明按下面的步骤来检测跟踪目标：

(1)按从左到右，从上到下的顺序遍历图片中所有的W，直到找到一个W满足公式上面的公式1。

(2)以第一步找到的窗口为起始位置，用mean-shift方法找到局部最大的窗口，所谓局部最大是指这个窗口包含的中心点概率之和在一个邻域内是最大的。这个局部最大的窗口就作为检测到的目标物体的位置。

(3)标记找到的窗口，以免重复检测，然后从上次的位置开始继续遍历。

因为按照从左到右，从下到上的顺序找到的满足式(5)的窗口未必是局部最大的窗口，所以在步骤(2)中我们用mean-shift来进一步优化。这里的mean-shift是在中心点概率图上进行的，所谓中心点概率图，是指它的像素灰度值等于落在该像素上的中心点的概率之和。在步骤(1)中找到的窗口离局部最大的窗口十分接近，所以mean-shift只需要经过1、2次迭代就可以聚合。我们利用积分直方图(integral histogram)在O(1)的时间内完成的计算，所以对一张m×n的图片，检测算法的时间复杂度是O(m×n)。

四、确定角点和目标物体之间的对应关系，在跟踪角点的基础上跟踪物体。

具体包含以下步骤：

1)角点所属的物体是其概率最大的中心点所属的物体，用o表示一个物体，W_o表示物体中心的窗口，则有：

$f \in oif c_{{fi}_{m}} \in W_{o}, i_{m} = \underset{i}{\arg >\max} (p_{f} (i))$

2)通过KLT来跟踪角点，计算出每个角点的位移offset_f，并通过下面的式子计算目标物体的位移：

${offset}_{o} = \frac{\underset{f \in o}{Σ} {offset}_{f} \times w_{f}}{\underset{f \in o}{Σ} w_{f}}$

其中trackedcount_f是特征点被连续跟踪的帧数，跟踪时间越长的特征点具有越大的权重，同时为了避免一个点的权重变得过大，做了一个截断，w_f的最大值为0.25。在跟踪的过程中，一个目标物体所包含的特征点是动态更新的，旧的角点在跟踪的时候可能会丢失，同时也会有新的角点加入。可以看到，任意两帧之间，只要这个目标物体有一个特征点能跟的上，整个目标就能跟踪成功，这使得本发明对于部分遮挡具有很强的鲁棒性，我们没有使用任何颜色信息，仅仅是依靠一些特征角点，这使得本发明具有很快的速度，能够应用于实时的多目标跟踪。

下面根据实施例详细描述本发明，本发明的目的和效果将变得更加明显。

实施例1

一种的基于特征点分类的录像监控中实时多目标检测与跟踪方法的应用实例如图6和图7所示。在图6的序列(a)中检测并跟踪自行车，在图6的序列(b)中检测并跟踪汽车，结果表明不仅能在互相遮挡以及拥挤的地方准确地识别出目标，而且能稳定地对其进行跟踪。图7的三个序列中，本发明有效地识别出了各种目标，并能准确地进行跟踪，其中序列(b)是一个移动摄像机拍摄的视频。另外，在序列(c)中，恢复了地平面的三维信息，从而还可以实时地计算出跟踪目标的运动速率。性能方面，表1列出了各个测试序列的运行时间(只用单线程)，最慢的序列也达到了26.48帧每秒，完全符合实时的速度要求。图5显示了本发明在不同图片大小以及不同目标种类个数下的运行速度。可以看出，本发明在实际的交通监控应用中具有很好的效果，不仅能稳定并且高效的检测及跟踪各种目标，而且完全符合实时的速度要求。

序列图像分辨率目标种类个数帧/秒 (FPS) 图6 (a) 400× 300 1 50.68 图6 (b) 240× 180 1 110.10 图7 (a) 420× 315 3 34.35 图7 (b) 450× 300 3 34.98 图7 (c) 480× 360 3 26.48

表1测试序列的运行速度

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于特征点分类的监控录像中实时多目标检测与跟踪方法 [P] . 中国专利： CN101901354B . 2014.08.20
2. 基于特征点分类的监控录像中实时多目标检测与跟踪方法 [P] . 中国专利： CN101901354A . 2010-12-01
3. METHOD FOR TRACKING MULTIPLE OBJECTS BASED ON SALIENT FEATURE POINTS IN IMAGE OBJECT HAVING PARTIAL OCCLUSION [P] . 韩国专利： KR101681104B1 . 2016-11-30

机译：局部遮挡的图像中基于显着特征点的多目标跟踪方法
4. Method for detecting lane in vehicle environment, involves classifying road level lying feature points and/or image objects, and detecting lane based on feature points and/or image objects in roadway plane [P] . 德国专利： DE102011111856A1 . 2013-02-28

机译：在车辆环境中检测车道的方法，涉及对道路平躺的特征点和/或图像对象进行分类，以及基于车道平面中的特征点和/或图像对象来检测车道
5. Real-time pet detection method based on deep-learning and multi-object tracking method [P] . KR20220000611A . 2022-01-04

机译：基于深度学习和多目标跟踪方法的实时PET检测方法