首页> 中国专利> 一种针对人群密集监控场景的选择式特征背景减除方法

一种针对人群密集监控场景的选择式特征背景减除方法

摘要

本发明提供了一种针对人群密集监控场景的选择式特征背景减除方法。针对传统的背景减除方法在人群密集场景下会导致较高漏检和误检的问题,本发明提出一种选择式特征背景减除方法。包括:建立场景稀疏度模型;选取与稀疏度模型相似度较高的视频帧作为训练样本,利用批处理主成分分析求取初始化的特征背景;更新场景稀疏度模型,选取与稀疏度模型相似度较高的视频帧用增量式主成分分析对特征背景进行更新;在像素级上进行选择式地重构背景;求取自适应阈值以对差值图像进行阈值化,得到前景图像。本发明可以在光照条件比较稳定的人群密集场景中,较好地检测出运动缓慢和静止的前景对象,同时保持较低的误检率。

著录项

  • 公开/公告号CN102013022A

    专利类型发明专利

  • 公开/公告日2011-04-13

    原文格式PDF

  • 申请/专利权人 北京大学;

    申请/专利号CN201010555962.5

  • 发明设计人 黄铁军;胡志鹏;田永鸿;

    申请日2010-11-23

  • 分类号G06K9/66(20060101);

  • 代理机构北京万象新悦知识产权代理事务所(普通合伙);

  • 代理人贾晓玲

  • 地址 100871 北京市海淀区颐和园路5号

  • 入库时间 2023-12-18 02:09:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-10-10

    授权

    授权

  • 2011-06-01

    实质审查的生效 IPC(主分类):G06K9/66 申请日:20101123

    实质审查的生效

  • 2011-04-13

    公开

    公开

说明书

技术领域

本发明涉及一种图像和视频处理方法,尤其是一种针对人群密集监控场景的选择式特征背景减除方法。

背景技术

传统的监控视频分析采取的是人眼观看的方式。然而,在视频监控系统广布的今天,传统的以人力为主的解决方案面临着必须解决超大视频数据的现实问题。因此,智能视频监控的必要性越发明显。依赖于计算机视觉分析技术,智能视频监控系统通过将场景中背景和目标分离进而检测并跟踪在摄像头场景内出现的目标。用户可以在不同的监控场景和应用中预设不同的事件规则,一旦目标在场景中做出了违反预定义的规则的行为,系统会将其作为异常事件检测出来,并自动发出报警。

从智能视频监控系统工作机制可以看出,场景中目标和背景的分离是非常重要的一步。场景中的目标和背景分离的过程被称为背景减除。通过背景减除,可以直接获得场景中的前景对象,或者可以将减除的结果作为预处理的过程提供给后续的对象检测和跟踪模块,缩小其搜索范围,使系统可以实时运作。

目前常用的背景减除方法可以分为三类。第一类是以论文”Adaptive background mixturemodels for real-time tracking.”(用于实时跟踪的自适应混合背景模型)为代表的高斯混合模型方法,这类方法对每个像素点建立高斯混合模型以描述其多模式的变化;第二类是以论文”Nonparametric model for background subtraction.”(用于背景减除的非参数模型方法)为代表的核密度估计方法,这类方法对观测数据服从的概率密度函数所服从的形式并不做假定,概率密度函数仅仅由观测到的数据通过核函数的线性加权逼近和拟合,而不是由参数控制;第三类方法是以论文”Real-time foreground background segmentation using codebook model.”(利用码本模型的实时前景背景分割方法)为代表的基于码本的方法,在训练阶段为每个像素建立背景码本,在减除阶段通过将观测值与码本进行比较得到前景背景分割的结果。

在实际应用中,对人群密集场景的监控是具有重大安防意义的。比如在机场候车厅中,如果有人突然跑动或者丢下一个包长期置于候车厅中,那么很有可能会发生恐怖活动等。人群密集场景的一个重要特点就是行人的运动速度缓慢,大部分人甚至是静止不动的。这时,上述三类背景减除方法均会在背景更新过程中将静止的人群作为背景的一部分减除掉,造成大量的误检,致使后续的人体检测和跟踪等算法失效。

检测运动缓慢和静止对象的一种有效方法是论文”A Bayesian computer vision system formodeling human interactions.”(一个对交互行为建模的贝叶斯计算机视觉系统)提出的特征背景(Eigenbackgrounds)方法。这种方法包含训练和减除两个阶段。在训练阶段得到描述背景特征的特征背景(Eigenbackgrounds),在减除阶段首先利用特征背景重构当前帧的背景,然后对重构的背景与当前帧的差值进行阈值化得到前景图像。在人群比较稀疏的场景中,这种方法可以获得较好的背景减除结果,运动缓慢和静止的人群可以被检测出来。但是在人群密集场景下,训练得到的特征背景中不仅包含了背景的特征,还包含了部分前景的特征。因此,在人群密集场景中,传统的Eigenbackground仍然会产生明显的漏检和误检。

由以上分析可知,由于人群密集场景的特殊特点,直接对其使用现有的背景减除技术具有一定的困难。为了尽量多的检测到人群密集场景中的前景对象并减少误检,本发明提出了一种选择式的特征背景减除方法。

发明内容

本发明的目的在于提供一种针对人群密集监控场景的背景减除方法,大致工作流程包括训练阶段和减除阶段。在训练阶段,建立场景稀疏度模型并选取合适的视频帧计算特征背景;在减除阶段,对场景稀疏度模型和特征背景进行更新,利用更新后的模型重建当前帧的背景,从而进行背景减除。

本发明的技术方案如下:

一种针对人群密集监控场景的选择式特征背景减除方法,其特征在于,该方法包括下列步骤:

1)利用已有的训练视频帧建立场景稀疏程度的统计模型;

所述的统计模型可以是单高斯模型或者高斯混合模型;

2)根据建立的场景稀疏度模型自动选取前景对象稀疏的训练视频帧,利用批处理主成分分析求取初始化的特征背景;

所述训练帧的选取方法为:求取视频帧向量与场景稀疏度模型的相似度,选取相似度大于指定阈值的帧作为训练帧;

3)对场景稀疏度模型进行更新,利用更新后的场景稀疏度模型判断当前帧场景中的人群是否稀疏,如果是,则利用增量式主成分分析对特征背景进行更新;否则,特征背景保持不变;

实现方法为:

a)对当前视频帧和以往的视频帧分配一个权重系数,采用滑动平均的方法对场景稀疏度模型进行更新;

b)求取当前视频帧向量与场景稀疏度模型的相似度,如果相似度大于指定阈值,则利用增量式主成分分析对特征背景进行更新;否则,特征背景保持不变;

4)在像素级上利用主成分分析对当前视频帧的背景进行选择式地重构;

实现方法为:对每个像素点选取特征背景向量中各维元素绝对值最小的特征背景进行背景重构;

5)求取当前视频帧与重构的背景帧的差值图像,并利用自适应阈值对差值图像进行阈值化,得到当前帧的前景图像。

与已有的背景减除方法相比,本发明的创新之处在于如下三点:

1)自动选取前景对象稀疏的训练视频帧。目前的大部分方法假设监控视频开始的时间段是没有前景对象出现的,因此直接利用视频的开始时间段进行背景模型的训练;或者对视频帧按照固定的步长进行采样,利用采样后的视频帧进行背景模型的训练。在人群稀疏的场景下,这样做是有效的。但是在人群密集的场景下,这些假设不成立,因此导致建立的背景中会包含较多的前景信息。本发明的方法通过建立描述场景稀疏程度的统计模型自动地选取包含前景稀疏的视频帧,克服了传统方法的缺陷。

2)在减除阶段选择合适的视频帧对特征背景进行更新。传统的基于特征背景的方法在减除阶段直接利用固定的特征背景进行背景重构。某些方法虽然对背景模型进行更新,但是采取的是盲更新的方法,也就说,不论更新帧是否含有前景对象,都用其对背景模型进行更新。本发明的方法引入了选择式更新机制,只用包含前景对象稀疏的视频帧对背景模型进行更新。这样始终保证背景模型反映的是背景的特征。

3)像素级的背景重构。传统的特征背景方法利用特征背景直接在帧层级上进行背景的重构,这样,重构的背景在帧级上取得最优结果,不能保证所有的像素都取得理想的结果。在本发明的方法中,在像素层级上进行背景的重构,对每个像素选取最能反应其背景特征的特征背景进行背景重构,这样,每个像素都取得最优的结果。

给定一段真实场景下的监控视频,本发明的背景减除方法可以在任何平台的服务器和个人电脑上实时地产生较好的前景对象检测结果。此外,本发明同样也适用于通过固定摄像头采集的数据、电视卡获取的特定电视广播等。通过对这些数据进行预处理,并应用本发明的背景减除方法,可以在视频编辑中,自动抠取视频中的前景,之后进行再合成等工作。本发明可以在光照条件比较稳定的人群密集场景中,较好地检测出运动缓慢和静止的前景对象,同时保持较低的误检率。

附图说明

图1选择式特征背景减除框架;

图2伦敦Gateway机场数据集上的样本滤波结果。顶行:原训练样本集中随机选取的视频帧;底行:样本滤波后的训练集中随机选取的视频帧;

图3伦敦Gateway机场数据集摄像头3上的实验。第一行:原始视频帧;第二行:C-PCA的背景减除结果;第三行:加入样本滤波后的结果;第四行:加入自适应阈值的结果(FS-PCA结果);第五行:像素级进行背景重构的背景减除结果(PS-PCA结果);

图4摄像头3上的ROC分析;

图5摄像头1上的背景减除结果。第一列:原始视频帧;第二列:C-PCA的背景减除结果;第三列:FS-PCA的背景减除结果;第四列:PS-PCA的背景减除结果;

图6摄像头1上的ROC分析。

具体实施方式

图1给出了本发明的框架。以下对本发明的实施进行详细的描述。

1.批处理主成分分析和增量式主成分分析

本发明中,在训练阶段利用批处理主成分分析求得初始化的特征背景,在减除阶段利用增量式主成分分析对特征背景进行实时更新。因此,批处理主成分分析和增量式主成分分析是本发明的基础。

批处理主成分分析可以利用下面的公式进行描述:

Cxui=λui    (1)

Cx=1NΣi=1N[x(i)-x][x(i)-x]T---(2)

x=1NΣi=1Nx(i)---(3)

其中X=[x(1),x(2)...x(N)]是训练样本的集合,U=[u1,u2,...,uMp]是对协方差矩阵Cx进行特征值分解得到的前Mp个具有最大特征值的特征向量的集合。在背景减除领域中,特征向量U被称作特征背景。

为了能够在背景减除阶段利用新的背景观测值对背景模型进行更新,本发明引入了增量式主成分分析。为了能够尽量达到实时的处理速度,采用了”Candid covariance-free incrementalprincipal component analysis”(无协方差矩阵的增量式主成分分析)一文中的增量式主成分分析方法。设x(n)是输入的第n个帧图像向量,指定υi(n)=λi(n)ui(n),其中λi(n)和ui(n)分别是由x(n)更新后的第i个特征值和特征向量,则利用无协方差矩阵的增量式主成分分析进行更新的方法可描述如下:

x(n)=n-1nx(n-1)+1nx(n)---(4)

μ1(n)=x(n)-x(n)---(5)

υi(n)=n-1-ζnυi(n-1)+1+ζnμi(n)μiT(n)υi(n-1)||υi(n-1)||---(6)

μi+1(n)=μi(n)-μiT(n)υi(n)||υi(n)||υi(n)||υi(n)||---(7)

其中ζ是更新速率参数,μi(n)是更新第i个特征向量时的输入向量。式(6)(7)描述的是一个迭代过程,每次迭代更新一个特征向量,而且高阶的特征向量的更新是在低阶特征向量的补空间上进行的。

2.数据降维

在背景减除阶段,只有当前视频帧含有较少前景对象时,才用其更新特征背景。因此,首先要建立一个统计模型来描述场景中前景对象的稀疏程度。这是通过对训练样本进行统计分析进行的。这样做的一个问题是帧图像向量的维数非常高,而且各维之间具有较强的相关性。因此,有必要对样本进行降维。鉴于其较低的计算复杂度以及和特征背景方法的一致性,本发明采用主成分分析PCA进行数据的降维。所有的输入数据被作为(2)式的输入,利用(1)式可以求得由Mp个特征向量构成的特征向量矩阵Ud,然后将样本向量x向Ud构成的低维空间中投影,即得到降维后的数据x′:

x=UdT(x-x)---(8)

3.场景稀疏度模型的建立

可以对降维后的数据进行统计以建立描述场景前景对象稀疏程度的概率模型。本发明中建立如下的单高斯模型作为这样的概率模型

f(x)=1(2π)d/2|cx|exp{-12d2(x)}---(9)

d(x)=(x-x)TCx-1(x-x)---(10)

其中d(x′)是向量x′和模型的均值向量之间的Mahalanobis距离,Cx′是由所有的降维数据x′求得的协方差矩阵。模型中的均值向量和协方差矩阵将会在背景减除阶段进行更新。

4.样本滤波

由于场景中的人群比较密集,背景经常被前景长时间覆盖,因此如果利用所有的样本求取特征背景,那么特征背景中不可避免地会含有较多的前景信息。为了获得比较“纯净”和稳定的背景模型,有必要对样本进行滤波,去除含有较多前景对象的视频帧。视频帧中含有的前景对象越少,那么该视频帧向量与建立的场景稀疏模型相似度越高。这种相似度可以用(10)式中的Mahalanobis距离描述。如果当前视频帧向量与建立的高斯模型的均值向量之间的距离小于指定的阈值T,那么该视频帧向量就被用来在训练阶段求取初始化的特征背景或者在减除阶段对特征背景进行更新。图2给出了训练阶段的样本滤波结果,可以看到,利用本发明的样本滤波方法,自动选取出了含有前景对象较少的视频帧。

5.模型的更新

在减除阶段,首先利用当前输入的视频帧向量x(t)执行CCIPCA以更新用于进行数据降维的特征向量Ud。利用更新后的特征向量,对输入的视频帧x(t)降维得到向量x′(t),之后便可以对高斯模型的均值向量和协方差矩阵进行滑动平均式的更新:

x(t)=(1-α)x(t-1)+αx(t)---(11)

Cx(t)=(1-α)Cx(t-1)+α[x(t)-x(t)][x(t)-x(t)]T---(12)

其中α是更新速率参数,其值越大,模型更新越快。利用更新后的高斯模型,可以求得x′(t)与均值向量之间的Mahalanobis距离。如果距离小于指定的阈值T,那么就利用当前视频帧向量x(t)执行CCIPCA以更新特征背景。总结起来,场景稀疏模型的更新是盲更新,即用所有的视频帧向量对高斯模型的参数进行更新;特征背景的更新是选择式更新,只利用了含有前景对象较少的视频帧。

6.背景的重构

当利用特征背景方法进行背景的重构时,输入的视频帧被拉伸为一个d=H+W维的向量,其中H和W分别为视频帧的高度和宽度,求得的特征背景向量的维数也为d。因此,第i个特征背景uj的第j个元素uij对应于视频帧中的第j个像素点,并且描述了第j个像素点的外表特征。在某些特征背景中,第j个元素描述了第j个像素的背景的外表特征,而在其他的特征背景中,第j个元素描述了第j个像素的前景的外表特征。

传统的特征背景减除方法中的背景重构可以用式(13)描述

B(x)=UUT(x-x)+x---(13)

其中U=[u1,u2,...,uMp]为所有的特征背景构成的矩阵,x为当前输入的视频帧向量,为视频帧向量的均值。可以看到,传统的特征背景方法是在视频帧层级上进行背景重构。它利用所有的特征背景进行背景的重构,由上面的分析可知,对一个像素点而言,在某些特征背景中对应的元素描述的是其前景特征,故重构后的背景必然包含了前景,因此造成漏检和误检。

特征背景中的每个元素的绝对值可以用来衡量视频帧中对应像素点的离散度。相对前景而言,背景像素值的离散度较小,因此,特征背景中某个元素的绝对值越小,它就越描述了对应像素点的背景特征。据此,本发明提出了像素层级的背景重构方法。重构第i个像素点的背景值时,从所有的特征向量中选取第i个元素的绝对值最小的特征向量进行背景重构,重构后的背景的第i个像素点的背景值即为所求。该算法可描述如下:

B(i)=ψki(i)         (14)

ψκi=uκiuκiTx---(15)

uki=minj{|uj(i)|}    (16)

其中B(i)为第i个像素的重构背景值,ψki为重构的背景帧,uki是为第i个像素点选取的特征背景,uj(1)为第j个特征背景的第i个元素。

自适应阈值的背景减除:

传统的基于特征背景的背景减除方法中,通过对当前帧和重构的背景图像的差值图像进行阈值化得到背景减除的结果。阈值化的时候通常是选取一个固定阈值T。阈值化后的图像中的白色像素点表示前景,黑色像素点表示背景。这种方法的最大缺点是很难找到一个合适的阈值使得对所有的视频帧都取得理想的阈值化结果。利用某一固定阈值,某些帧的减除结果中会出现较多的误检,而在其他帧中也许会出现较多的漏检。因此,在本发明中,利用自适应的阈值进行背景减除,也就是说,每一帧选取不同的阈值进行背景减除。本发明采用“Thresholding for change detection”(用于变化检测的阈值化方法)的方法求取自适应阈值

Tt=maxk{Σi=kPixRangei2bint(i)Σi=kPixRangebint(i)-[Σi=kPixRangeibint(i)Σi=kPixRangebint(i)]2}---(17)

bint(i)=Σj=1PixNumbersti(j)---(18)

sti(j)=1|xt(j)-Bt(j)|=i0otherwise---(19)

其中Tt是第t帧图像的阈值,PixRange是像素值的最大值,xt(j)和Bt(j)分别是第j个像素点的像素值和重构的背景值。

为了验证本发明的算法的有效性,使用了TRECVID2009的事件检测任务中的伦敦Gateway机场数据集进行测试。这个数据集包括由五个摄像头拍摄的五个场景的监控视频。由于人群密集,场景复杂,遮挡严重等,该数据集是目前视频分析领域最有难度的数据集之一。

为简便起见,将传统的特征背景方法称为C-PCA,它利用批处理主成分分析求取初始化的特征背景,并利用无协方差的增量式主成分分析进行更新,其中没有任何的选择式操作。为了验证像素级背景重构方法的有效性,将算法分为不完整的算法和完整的算法两类。前者称为FS-PCA,它像传统的特征背景方法那样利用所有的特征背景在帧级上进行背重构;后者称为PS-PCA,它为每个像素选取最佳的特征背景进行背景重构。在实验中,选取5个特征背景并且求得背景减除结果后不进行任何形态学操作。

为了进行定量的评测,人工的对数据集的部分数据进行了标注。基于“BackgroundSubtraction in Varying Illuminations Using an Ensemble Based on an Enlarged Feature Set.”(在变化光照条件下基于扩展的特征集组合的背景减除方法)中的评测方法,随机抽取部分视频帧,用矩形框标注出视频帧中的前景对象(包括行人,旅行包等)。背景减除后,如果标注的矩形框中有30%以上的像素被分类为前景,则认为此前景对象被检测到了。检测到的对象的数目与实际标注的对象的数目的比值被作为正检率,在标注框之外的前景的像素数目与检测到的总前景像素点的比值作为误检率。

首先对本发明提出的样本滤波的必要性和有效性进行验证。样本滤波包括选取合适的训练帧求取初始化的特征背景和选取合适的输入视频帧对特征背景进行更新。图3的第二行和第三行给出了样本滤波前和滤波后的对比结果。可以看到,样本滤波前,背景减除结果中有大量明显的漏检和误检。这是因为所有的视频帧都被用来求取和更新特征背景,因此特征背景中含有大量的前景信息。样本滤波后,去除了很多误检和漏检。

之后,加入自适应阈值对当前帧和重构的背景图像的差值图像进行阈值化。这实际上就是FS-PCA算法。图3的第四行给出了FS-PCA算法的背景减除结果。与第三行的实验结果相比,可以看到自适应阈值去除掉了很多噪声,尤其是对于后面的三帧图像。

接着,对FS-PCA和PS-PCA算法进行对比。图3的最后一行给出了PS-PCA的背景减除结果。可以看到,误检被进一步去除掉,同时很多漏检对象被检测出来了。这是因为对每个像素点都选取最能表示其背景特征的特征背景进行背景重构,这相当于减少了特征背景中的前景信息。

为了能够产生对C-PCA,FS-PCA和PS-PCA进行量化对比的ROC曲线,去除算法中的自适应阈值。通过变化背景减除时的阈值,可以产生图4所示的ROC曲线。可以看到,FS-PCA的性能比C-PCA高出了很多。在误检率为20%左右的时候,FS-PCA的正检率仍接近90%,但是C-PCA的正检率却下降到了65%。通过为每个像素选取最佳特征背景进行背景重构,PS-PCA进一步改善了FS-PCA的性能。

图5给出了在摄像头1上的背景减除结果,图6给出了三种算法的ROC对比。从这些结果中可以得到相同的结论:PS-PCA的背景减除结果是最好的,而C-PCA的结果在人群密集场景中不尽人意。特别地,在这个数据上,PS-PCA对FS-PCA的性能进行了很大的改进。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号