首页> 中国专利> 使用统计像素建模的视频分割

使用统计像素建模的视频分割

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种用于将视频数据分割成前景和背景部分(324)的方法，该方法利用对像素的统计建模。为各像素构建背景的统计模型，并且将到来的视频帧中的各像素与用于该像素的背景统计模型做比较(326)。基于比较将像素确定为前景或者背景。用于分割视频数据的方法可以并入用于实施智能视频监视系统的方法中。可以用硬件实施用于分割视频数据的方法。

著录项

公开/公告号CN101443789A

专利类型发明专利
公开/公告日2009-05-27

原文格式PDF
申请/专利权人实物视频影像公司;
展开▼

申请/专利号CN200780017762.0
发明设计人艾伦·J·利普顿;尼尔斯·黑林;齐山·拉希德;奥马尔·贾韦德;张忠;尹卫红;彼得·L·韦奈蒂阿奈尔;加里·W·迈尔斯;
展开▼

申请日2007-03-01
分类号G06K9/00(20060101);G06K9/36(20060101);G06K9/40(20060101);G06K9/62(20060101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人潘士霖;高少蔚
地址美国弗吉尼亚州
入库时间 2023-12-17 21:57:44

法律信息

法律状态公告日

法律状态信息

法律状态
2022-10-21

专利权的转移 IPC(主分类):G06K 9/00 专利号:ZL2007800177620 登记生效日:20221010 变更事项:专利权人变更前权利人:威智伦富智堡公司变更后权利人:摩托罗拉解决方案公司变更事项:地址变更前权利人:加拿大不列颠哥仑比亚省变更后权利人:美国伊利诺伊州

专利申请权、专利权的转移
2015-02-25

专利权的转移 IPC(主分类):G06K9/00 变更前: 变更后: 登记生效日:20150128 申请日:20070301

专利申请权、专利权的转移
2011-12-28

授权

授权
2009-07-22

实质审查的生效

实质审查的生效
2009-05-27

公开

公开

说明书

技术领域

本发明涉及用在视频处理系统中的视频帧的处理，这些视频处理系统比如是作为在安全、监视以及有关领土安全和反恐怖主义系统中利用的闭路电视系统(Closed Circuit Television System，CCTV)的一部分来使用或者结合该CCTV来使用的智能视频监视(intelligent video surveillance，IVS)系统、针对市场研究的目的为了建立店内人类行为趋势而处理零售商业机构中的监视视频的IVS系统、监视交通工具的交通以检测错道交通(wrong-way traffic)、损坏的交通工具、事故和道路阻塞的IVS系统以及视频压缩系统。IVS系统是在视频分割步骤之后进一步处理视频以执行如下对象分类的系统，在该对象分类中前景对象可以分类为一般类，如动物、交通工具或其它移动的但是未分类的对象，或者可以按照更具体分类来分类，如人、小型或者大型非人类动物、汽车、飞行器、船只、卡车、树木、标记或者水区。在IVS系统中，一旦发生这样的视频分割和分类，就处理检测到的对象以确定它们的位置、移动和行为如何与用户定义的虚拟视频绊网和兴趣虚拟区域(其中兴趣区域可以是整个视野或者场景)有关。出现的用户定义事件然后会被标记为将向当班安全职员或者专业人员传达的兴趣事件。此类事件的例子包括越过虚拟视频绊网的人或者交通工具、逛入或者进入虚拟兴趣区域或者场景的人或者交通工具、或者留在虚拟区域或者场景中或者从虚拟区域或者场景中带走的对象。具体而言，本发明所处理的是使用包括视频帧的区域的统计性质将视频帧分割成它们的组成部分。

背景技术

在基于对象的视频压缩中，用于检测和跟踪视频对象的视频分割以及在其它类型的面向对象的视频处理中输入的视频被分成两个流。一个流包含代表静止背景信息的信息，而另一个流包含被表示为前景信息的代表视频的移动部分的信息。背景信息表示为背景模型，该背景模型包括场景模型，即由例如会在视频帧序列中发现的一系列有关图像组份的合成图像；背景模型也可以包含附加模型和建模信息。通过对准图像(例如通过匹配点和/或区域)并且确定它们之间的重叠来生成场景模型。在一种高效发送或者存储方案中，场景模型只需发送一次，而对各帧发送前景信息。例如，在观察器(即作为视频源的相机等)仅经历摇摄、倾斜、滚动和变焦类型的运动情况中，场景模型只需发送一次，因为场景模型的外观不因帧而改变，除了基于观察者运动定义好的方式之外，而这可通过发送运动参数来轻易地解决。注意这样的技术在除了摇摄、倾斜、滚动和变焦之外的其它形式的运动情况中也适用。在IVS系统中，即使当背景像素可能由于相机的摇摄、倾斜和变焦运动而经历明显运动时，对不同的移动前景和背景对象的创建仍然允许系统对移动的兴趣对象尝试分类。

为了使自动的面向对象的视频处理可行，需要能够区分视频序列中移动或者变化的区域并将它们从静止的背景区域中分离(即分割)。当存在例如会由摇摄、倾斜、滚动和/或变焦的观测器引起(或者归因于包括实际观测器运动的其它运动有关现象)的明显运动时必须执行这一分割。为了应对这一运动，如上文讨论的那样先对准图像；也就是说，确定图像中的对应位置(即帧)。在该对准之后，可以从场景中的静止对象中分割相对于静止背景真实地移动或者变化的对象。然后使用静止区域以创建(或者更新)场景模型，并且为各帧识别移动的前景对象。

如上文讨论的那样特别是当存在观测器运动时识别和自动地区分作为移动前景的视频对象和静止背景并非易事。另外，为了提供最大压缩程度或者其它视频处理技术的最大精细度或准确度，希望尽可能精细地分割前景对象，这例如使得能够维持在连续视频帧之间的平滑性和在单独帧内的鲜明性。然而已知的技术已经证实难以利用而且对于小的前景对象而言并不准确并且需要大量处理能力和存储器。因此将希望有一种允许在前景与背景信息之间的准确分割和对前景对象的准确且鲜明的表示的技术，而无现有技术那些限制。

发明内容

本发明涉及一种用于基于源视频的统计性质将视频分割成前景信息和背景信息的方法。具体而言，该方法是基于创建和更新与视频的区域的特征有关的统计信息并且基于统计信息来标注这些区域(即标注为前景或者背景)。例如在一个实施例中，区域是像素而特征是色强度(chromaticintensity)。存在明显的诸多其它可能。在更多特定实施例中，本发明涉及使用本发明的视频分割方法来实施智能视频监视系统的方法。

在本发明的实施例中，发展包含至少两个组份的背景模型。第一组份是例如可以如在前述美国专利申请中讨论的那样构建和更新的场景模型。第二组份是背景统计模型。

在第一实施例中，本发明方法包括二通路视频分割过程。该实施例的二通路包括其中构建和更新背景统计模型的第一通路和其中分割帧中的区域的第二通路。第一通路的一个实施例包括以下步骤：将各视频帧与场景模型对准；以及基于对准的帧数据来更新背景统计模型。第二通路的一个实施例包括对各帧进行以下步骤：标记帧的区域和执行空间滤波的步骤。

在第二实施例中，本发明方法包括一通路视频分割过程。单通路包括对视频流的帧序列中各帧进行以下步骤：将帧与场景模型对准；构建背景统计模型；标注帧的区域；以及执行空间/时间滤波。

在又一实施例中，本发明方法包括前述一通路视频分割过程的变形。这一实施例类似于先前实施例，不同之处在于构建背景统计模型的步骤为构建背景统计模型和辅助统计模型的步骤所取代。

在第四实施例中，本发明方法包括一通路视频分割过程。单通路可以包括对实时视频流中各帧进行以下步骤：标注帧中的像素；执行对帧中像素的空间/时间滤波；可选地精化像素标注；构建/更新背景和前景统计模型；以及将对象插入背景统计模型中。

可以用运行执行实施例步骤的软件的计算机系统和包含代表实施例步骤的软件的计算机可读介质的形式实施这些实施例中的各实施例。

可以用硬件装置的形式实施这些实施例中的各实施例。

定义

在描述本发明时通篇(包括上文)适用如下定义。

“计算机”指的是能够接受结构化输入、根据指定规则来处理结构化输入并且产生处理结果作为输出的任何装置。计算机的例子包括计算机、通用计算机、超级计算机、大型计算机、超级小型计算机、小型计算机、工作站、微型计算机、服务器、交互式电视机、计算机和交互式电视机的混合式组合、以及用以仿效计算机和/或软件的专用硬件。计算机可以具有单个处理器或者可以并行和/或不并行操作的多个处理器。计算机还指代经由用于在计算机之间发送或者接收信息的网络来连接在一起的两个或者更多个计算机。此类计算机的例子包括用于经由网络所链接的计算机来处理信息的分布式计算机系统。

“计算机可读介质”指的是用于存储计算机可存取的数据的任何存储设备。计算机可读介质的例子包括硬磁盘、软盘、光盘如CD-ROM或DVD、磁带和存储器芯片。

“软件”指的是用以操作计算机的指定规则。软件的例子包括软件、代码段、指令、计算机程序和编程的逻辑。

“计算机系统”指的是具有计算机的系统，其中该计算机包括实现用以操作该计算机的软件的计算机可读介质。

“网络”指的是通过通信设施来连接的多个计算机和关联设备。网络涉及到永久连接如线缆或者临时连接如通过电话或者其它通信链路来进行的连接。网络的例子包括互联网如因特网、内部网、局域网(LAN)、广域网(WAN)以及网络如互联网和内部网的组合。

“视频”指的是以模拟和/或数字形式表示的运动画面。视频的例子包括在安全、监视和反恐怖主义应用中来自CCTV系统的视频馈送、电视、电影、来自相机或者其它观察器的图像序列、以及计算机生成的图像序列。可以例如从有线或者无线实况馈送、存储设备、防火墙接口、视频数字化器、视频流服务器、设备或者软件部件、计算机图形引擎或者网络连接中获得这些视频。

“视频处理”指的是任何视频操控，该视频操控例如包括压缩和编辑。

“帧”指的是视频内的特定图像或者其它离散单位。

“摄像机”可以指的是用于视觉记录的装置。摄像机的例子可以包括摄像机、数字摄像机、彩色相机、单色相机、相机、可携式摄像机、PC相机、摄像头、红外线(IR)摄像机、低照度摄像机、热感摄像机、闭路电视(CCTV)相机、摇摄、倾斜、变焦(PTZ)相机以及视频感测设备中的一个或者多个。摄像机可被定位用以执行对兴趣区域的监视。

附图说明

现在将结合附图更具体地描述本发明，在附图中：

图1示出了与本发明第一实施例的实施对应的流程图；

图2a和2b示出了与图1的流程图中的标注步骤的两个替代实施例对应的流程图；

图3a和3b示出了与图1的流程图中的空间/时间滤波步骤的实施对应的流程图；

图4示出了与本发明第二实施例的实施对应的流程图；

图5示出了与图4的流程图中的步骤之一的实施对应的流程图；

图6a和6b一起示出了与图4的流程图中的另一步骤的实施对应的流程图；

图7示出了与本发明第三实施例的实施对应的流程图；

图8a和8b一起示出了与图7的流程图中的步骤之一的实施对应的流程图；

图9描绘了可以是计算机系统的一部分、形式为实施于计算机可读介质上的软件的本发明一个实施例；

图10描绘了根据本发明一个实施例的实施智能视频监视系统的方法的流程图；

图11示出了与本发明第四实施例的实施对应的流程图；

图12示出了与图11的流程图中的步骤之一的实施对应的流程图；

图13示出了与图11的流程图中的步骤之一的实施对应的流程图；

图14示出了与图12和图13的流程图中的步骤之一的实施对应的流程图；以及

图15示出了与图11的流程图中的步骤之一的实施对应的流程图。

注意相同对象在包含它们的所有附图中用相同的附图标记来标注。

具体实施方式

如上文讨论的那样，本发明涉及将视频流分割成与移动对象对应的前景信息和与视频的静止部分对应的背景信息。可以以多种方式来实现本发明，以下讨论其中四种特定的方式。这些实施例旨在于举例说明而非穷举。

以下讨论涉及“像素”和“色强度(chromatic intensity)”；然而本发明方法不限于此。实际上，处理可以涉及到任一类区域(包括含多个像素的区域)而不仅仅是像素并且可以使用针对这样的区域或者与这样的区域有关地来测量的任一类特征而不仅仅是色强度。

1.第一实施例——二通路(two-pass)分割

本发明的第一实施例在图1中示出并且对应于一种二通路分割方法。如图1中所示，该方法以从视频流获得帧(或者视频)序列(步骤1)开始。帧序列优选地包括视频流的两个或者更多个帧。帧序列可以例如是视频流的一部分或者整个视频流。作为视频流的一部分，帧序列可以例如是视频流的一个连续帧序列或者视频流的两个或者更多个不连续帧序列。作为对准步骤的一部分，还构建和更新场景模型。

在步骤1之后，在步骤2中确定是否已经处理所有帧。如果不是，则下一帧被获取并且与视频流的底部的场景模型对准(步骤3)；在上文中以及在诸多其它参考文献中已讨论了该对准。

本发明方法是基于使用统计建模来确定应当将特定像素分类为前景对象或者其一部分还是背景或者其一部分。步骤4涉及使用在步骤3中对准的各帧来构建和更新背景的统计模型。

本发明的统计模型包括一阶和二阶统计量。在以下讨论中，将使用平均值和标准偏差作为该一阶和二阶统计量；然而，这旨在于仅举例说明可以使用的统计量。

一般而言，通过求取N个样本之和并且将和除以N来计算N个样本的平均值x，即：

$\overline{x} = \frac{Σ_{i = 1}^{N} x_{i}}{N}, - - - (1)$

其中x_i是与给定像素(或者区域)对应的特定样本，该特定样本在当前情况中下可以例如是与给定像素(或者区域)对应的第i个样本的测量的色强度。于是，在当前设置中，将为各像素或者区域计算这样的平均值。

尽管等式(1)给出用于样本平均值的通用公式，但是使用这一公式可能并不总是最优的。在视频处理应用中，像素的样本值可能在对象移动经过该像素时明显改变而在移动对象不再处于该像素内时(明显)改变回到在它的先前值附近的值。为了解决这一类考虑，本发明利用其中在先值比当前值被加权更多的加权平均值。具体而言，可以使用如下等式：x_N＝W_px_N-1+W_nx_N， (2)

其中W_p是过去值的权值而W_n是赋予最新值的权值。

此外，x_J代表J个样本的加权平均值而x_K代表第K个样本。W_p和W_n可以设置为在0与1之间的任一对值，使得它们之和为1并且使得W_n<W_p以便保证过去值比最新值被加权更多。作为例子，发明人已经成功地使用W_p＝0.9和W_n＝0.1。

将标准偏差σ确定为所考虑的值的方差σ²的平方根。一般而言，按照如下公式来确定方差：

$σ^{2} = \overline{x^{2}} - {(\overline{x})}^{2}, - - - (3)$

其中代表x²的平均数；因此如下给出标准偏差：

$σ = \sqrt{\overline{x^{2}} - {(\overline{x})}^{2}} . - - - (4)$

由于本发明方法使用流动统计量(running statistics)，所以这就变成：

$σ_{N} = \sqrt{{\overline{x^{2}}}_{N} - {(\overline{x_{N}})}^{2}}, - - - (4 a)$

其中如上述等式(2)中定义的那样，而定义为直至第N个样本的样本平方值的加权平均值并如下给出：

${\overline{x^{2}}}_{N} = W_{p} {\overline{x^{2}}}_{N - 1} + W_{n} x_{N}^{2} . - - - (5)$

与在样本值的加权平均值情况中一样，使用权值来保证过去值比当前值被加权更多。

在这样的情况下，步骤4用以针对各帧通过为各像素计算等式(4a)的值来创建和更新统计模型。在步骤4中，还在逐个像素的基础上(相对于如何接收它们，即在逐帧的基础上)存储像素的值；也就是说，针对帧序列为各像素编制值数组。注意在替代实施例中，步骤4仅执行值的存储这一步骤。

在步骤4之后，该方法返回步骤2以检查是否已经处理了所有帧。如果是，则该方法进行到步骤5，步骤5开始该实施例的第二通路。

在步骤5中，完成统计背景模型。这是通过使用各像素的存储值并且确定它们的模(mode)来完成的，其中模是最经常出现的值。这可以例如通过求取存储值的直方图并且选择直方图具有最大值的值来完成。然后将各像素的模指定为该像素的背景统计模型的值。

在步骤5之后，该方法进行到步骤6，该步骤6确定是否已经处理了所有帧。如果没有，则该方法进行到步骤7，在该步骤7中将帧中的各像素标注为前景(FG)像素或者背景(BG)像素。在图2a和2b的流程图中示出了这一步骤的工作的两个替代实施例。

图2a描绘了二层决策方法。在图2a中，像素标注步骤7始于步骤71，在该步骤71中确定是否已经处理帧中的所有像素。如果没有，则该方法进行到步骤72以检查下一像素。步骤72确定像素是否与背景统计模型匹配，即像素的值是否与用于该像素的模型匹配。这是通过求取在像素值与用于该像素的背景统计模型的值(即模)之间的绝对差值并且将该绝对差值与阈值做比较来执行的；也就是说，

Δ＝|x_pixel-m_pixel| (6)

与阈值θ做比较。在等式(6)中，x_pixel表示像素的值，而m_pixel代表用于该像素的统计背景模型的值。

可以用诸多方式确定阈值θ。例如，该阈值可以是(给定像素的)标准偏差σ的函数。在一个特定示例实施例中，θ＝3σ；在另一实施例中，θ＝Kσ，其中K由用户选择。作为另一例子，可以向θ赋值以预定值(同样对于各像素)或者由用户选择的值。

如果Δ≤θ，则认为像素值与背景统计模型匹配。在这一情况中，在步骤73中将像素标注为背景(BG)，并且该算法继续回到步骤71。另外如果Δ>θ，则认为像素值不与背景统计模型匹配，并且在步骤74中将像素标注为前景(FG)。同样，该算法然后继续回到步骤71。如果步骤71确定已经处理(帧中的)所有像素，则完成步骤7。

图2b描绘了标注为7’的三层决策方法。在图2b中，该过程再次始于步骤71，该步骤71确定是否已经处理了所有像素。如果没有，则该过程考虑处理下一像素并且执行步骤72，该步骤72确定正在处理的像素是否与背景统计模型匹配；这是以与图2a中相同的方式完成的。如果匹配，则将像素标注为BG(步骤73)，并且该过程返回步骤71。如果不匹配，则该过程进行到步骤75；这正是图2b的过程有别于图2a的过程之处。

在步骤75中，该过程确定所考虑的像素是否完全不与背景统计模型匹配。这是经由与步骤72相似的阈值测试来实现的，只是在步骤75中给予θ以更大的值。与在步骤72中一样，θ可以由用户赋值或者预定。在一个实施例中，θ＝Nσ，其中N是预定数字或者用户设置的数字，N>K。在另一实施例中，N＝6。

如果步骤75的结果是Δ≤θ，则将像素标注为FG(步骤74)。如果不是这样，则在步骤76中将像素标注为明确前景(definite foreground，DFG)。在各情况中，该过程返回步骤71。一旦步骤71确定已经处理帧中的所有像素，则步骤7’完成。

回到图1，一旦已经标注帧的所有像素，该过程进行到步骤8，在步骤8中执行空间/时间滤波。尽管在图1中表示为顺序步骤，但是可替代地步骤8可与步骤7并行执行。在图3a和3b的流程图中示出了步骤8的细节。

在图3a中，步骤8以关于是否已经处理了帧的所有像素的测试(步骤81)开始。如果没有，则在步骤85中该算法选择下一像素P_i用于处理并进行到步骤82，在该步骤82中确定像素是否被标注为BG。如果是，则该过程回到步骤81。如果不是，则像素进行到步骤83和84中的进一步处理。

步骤83的邻域滤波用来在图像被对准时校正未对准。如果当前图像与发展成的背景统计模型略微未对准，则特别是在强边缘附近，使用背景统计模型的本发明的分割过程将像素标注为前景。邻域滤波将校正这一点。在图3b的流程图中描绘了步骤83的实施例。

在图3b中，步骤83始于步骤831，在该步骤831中确定与P_i对应的场景模型位置P_m。接着选择包括场景模型中P_m周围像素P’_m的邻域(步骤832)。接着步骤833确定是否已经处理邻域中的所有像素。如果是，则步骤83完成，并且P_i的标注保持原样；如果不是，则该过程进行到步骤834，在该步骤834中考虑下一邻域像素P’_m。步骤835然后测试以确定P_i是否与P’_m匹配。这一匹配测试是通过以如下变形的方式执行标注步骤(步骤7或者7’)来实现的，在该变形的方式下使用P_i作为所考虑的像素而P’_m作为“对应”背景统计模型点。如果标注步骤返回标注FG或者DFG则不存在匹配，而如果它返回标注BG则存在匹配。如果不存在匹配，则该过程返回步骤833；如果存在匹配，则这表示P_i可能标注有误，并且该过程进行到步骤836。在步骤836中，选择包括帧中P_i周围的像素P’_i的邻域，并且执行类似过程。也就是说，在步骤833中确定是否已经考虑邻域中的所有像素P’_i。如果是，则步骤83完成，并且P’_i的标注保持原样；如果不是，则该过程进行到步骤838，在该步骤838中考虑下一邻域像素P’_i。步骤839进行测试以确定P_m是否与P’_i匹配；这是与步骤833类似地执行的，其中使用所考虑的P’_i作为正在考虑的像素而P_m作为它的“对应”背景统计模型点。如果不匹配，则该过程返回步骤837；如果匹配，则将P_i重新标注为BG，并且步骤83完成。

返回图3a，在步骤83之后执行步骤84，在该步骤84中执行形态学腐蚀(erosion)和膨胀(dilation)。首先执行预定次数(n次)腐蚀以去除标注错误的前景。注意标注为DFG的像素可以不被腐蚀，因为它们代表几乎确定是前景的像素。此后是n次膨胀，这些膨胀恢复正确地标注为前景但是被腐蚀的像素。最后执行第二预定次数(m次)膨胀以填充前景对象中的孔。可以使用常规腐蚀和膨胀技术来执行、根据用户指定参数来应用并且如上文讨论的那样修改腐蚀和膨胀，使得标注为DFG的像素不被腐蚀。

在替代实施例中，步骤84可以包括除了形态腐蚀和膨胀之外附加的或者取而代之的滤波技术。一般而言，步骤84可以利用任何形式的空间和/或时间滤波。

返回图1，在步骤8之后，该算法返回步骤6以确定是否已经处理了所有帧。如果是，则帧序列的处理完成，并且该过程结束(步骤9)。

该二通路的实施例具有相对简易的优点，并且它是无需直接或者少量延时处理的应用可接受的方式。此类应用的例子包括对安全和监视视频的脱机视频压缩和非线性视频编辑和法医处理。另一方面，比如其中及时的事件报告至关重要的视频安全和监视这样的诸多其它应用确实具有这样的需求，并且使下文将讨论的实施例适于满足这些需求。

2.第二实施例——一通路分割

图4描绘了根据本发明第二实施例的一通路分割过程的流程图。比较图4与图1(第一实施例)，第二实施例的不同之处在于对于各帧序列仅有单个处理通路。如下文将讨论的那样，如图4中的步骤2、3、31、32、8中所示，该单个通路将第二通路(图1中的步骤5-8)与第一通路(图1中的步骤2-4)的过程合并，尽管是以修改的形式。

与在第一实施例的情况中一样，图4中所示的第二实施例(一通路过程)始于获得帧序列(步骤1)。与在第一实施例中一样，该过程然后执行测试以确定是否已经处理所有帧(步骤2)。也与在第一实施例中一样，如果答案为否，则将待处理的下一帧与场景模型对准(步骤3)。如上文讨论的那样，作为步骤3的一部分，构建和更新背景模型的场景模型组份，因而在背景模型中各位置处至少总是有具有确定性的确定值。

在这一点，该过程包括构建背景统计模型的步骤(步骤31)。这不同于图1的步骤4并且在图5中更具体地示出。该过程始于确定是否已经处理正在处理的帧中所有像素的步骤(步骤311)。如果没有，则该过程确定背景统计模型是否“成熟”(步骤312)和“稳定”(步骤313)。

步骤312和313的原因在于起初不会充分地发展统计背景模型以进行关于像素性质的准确判断。为了克服这一点，应当在标注像素之前处理某一数目的帧(即背景统计模型应当“成熟”)；在本发明的一个实施例中，这是用户定义的参数。这可以实施为如下“预测”过程，在该过程中使用有限数目的帧以在像素标注之前积累背景统计模型(图4中的步骤32)。

尽管仅处理数目由用户定义的帧可能足以提供成熟的统计模型，但是稳定性是第二项关注(步骤313)，并且它依赖于背景统计模型的标准偏差。具体而言，如下文将讨论的那样，统计背景模型包括各像素的标准偏差。统计模型(对于特定像素)被定义为在其方差(或者等效为其标准偏差)合理地小时已经变得“稳定”。在本发明的一个实施例中，步骤313通过将标准偏差与用户定义的阈值参数做比较来确定这一点；如果标准偏差小于这一阈值，则将统计背景模型(对于该像素)确定为稳定。

关于步骤31的流，在图5中，如果背景统计模型被确定为成熟(步骤312)，则确定背景统计模型是否稳定(步骤313)。如果这些测试中的任一测试失败，则该过程进行到步骤315，在该步骤中使用正在处理的像素的当前值来更新该像素的背景统计模型。下文将进一步说明步骤315。

如果背景统计模型被确定为既成熟又稳定(在步骤312和313中)，则该过程进行到步骤314，在该步骤中确定正在处理的像素是否与背景统计模型匹配。如果匹配，则使用当前像素值来更新背景统计模型(步骤315)；如果不匹配，则该过程返回步骤311以确定是否已经处理了帧中的所有像素。

步骤314通过根据当前背景统计模型确定当前像素值是否在像素的平均值的某一范围内来工作。在本发明的一个实施例中，该范围是用户定义的范围。在又一实施例中，它被确定为用户定义数目的标准偏差；即如果满足下式则像素值x与背景统计模型匹配：

$| x_{pixel} - \overline{x_{pixel}} | \leq Kσ, - - - (7)$

其中K是标准偏差σ的用户定义数目；x_pixel是当前像素值；而是背景统计模型中当前像素的平均值。执行步骤314的目的在于在可能的程度保证仅背景像素用来发展和更新背景统计模型。

在步骤315中，更新背景统计模型。在这一实施例中，背景统计模型包括(针对帧序列)对于各像素的值的平均值和标准偏差。这些是根据上述等式(2)和(4a)来计算的。

在步骤315之后，该过程返回步骤311以确定是否已经处理(当前帧中的)所有像素。一旦已经处理所有像素，则该过程进行到步骤316，在该步骤中完成背景统计模型。这一完成步骤包括向各像素赋值以它的当前平均值和标准偏差(即到目前为止处理所有帧的结果)。

注意用于给定像素的背景统计模型有可能从不稳定。这一般表示特定像素不是帧序列中的背景像素，因此无需为了背景统计模型的目的而向它赋值。注意如上文讨论的那样也构建和更新场景模型，在背景模型中至少总是有与各像素关联的具有确定性的确定值。

在步骤316之后，该过程如图4中所示进入步骤32，在该步骤中根据帧中的像素的类型(即明确前景、前景或者背景)来标注像素。在图6a和6b的流程图中更具体地示出了步骤32。

以下概念在随后对步骤32的描述中具体化。从理想意义上说，将总是通过针对各像素在背景统计模型中的对应点测试该像素来完成标注，但是这并非总是可能的。如果未准备好基于处理的帧的数目来使用背景统计模型(即“成熟”)，则该过程必须退回到针对场景模型中的对应点的测试。如果背景统计模型准备好使用但是尚未调整好(即不“稳定”)，则这表示像素在变化并且应当标注为前景。如果背景统计模型已经出于某一原因(例如由于它与场景模型匹配失败或者由于它已经再次变得未调整好)而变得不稳定，则该过程必须再次退回到针对场景模型的测试。

如图6a中所示，步骤32始于步骤321，在该步骤中确定是否已经处理(当前帧中的)所有像素。如果是这样，则步骤32完成；如果不是这样，则在步骤322等步骤中处理下一像素。

步骤322确定背景统计模型是否成熟。这是以与上文讨论的图5步骤312中相同的方式完成的。如果不是，则该过程进行到步骤323，在该步骤中确定像素是否与场景模型的对应点的背景色度数据匹配。

通过进行测试以确定给定像素是否落在背景色度数据值的某一范围内来执行步骤323。这类似于图5的步骤314，其中用背景色度数据值取代统计平均值。可以用相似方式(预定、用户确定等)确定阈值。

如果步骤323确定像素不与背景色度数据匹配，则在图6b的步骤329中将像素标注为BG(在连接符A之后)。该过程从步骤329(经由连接符D)返回步骤321。

如果步骤323确定像素未与背景色度数据匹配，则在图6b的步骤3210中将像素标注为FG(在连接符B之后)。该过程从步骤3210(经由连接符D)返回步骤321。

如果步骤322确定背景统计模型成熟，则处理进行到步骤324，该步骤确定背景统计模型是否稳定。步骤324以与上文讨论的图5的步骤313相同的方式执行这一任务。如果不是这样，则该过程进行到步骤325，在该步骤中确定背景统计模型是否曾经稳定过(即它是否一度稳定过、但是现在不稳定)。如果是这样，则该过程分支到步骤323，并且该过程如上所述从此继续。如果不是这样，则在图6b的步骤3211中将像素标注为DFG(在连接符C之后)，此后该过程(经由连接符D)返回步骤321。

如果步骤324确定背景统计模型稳定，则该过程进行到步骤326。步骤326测试背景统计模型是否与背景色度数据匹配。类似于上述先前匹配测试，这一测试求取在用于像素的背景统计模型的值(即平均值)与用于像素的(场景模型的)背景色度数据之间的绝对差值。然后与上文一样将这一绝对差值与某一阈值(预定、用户确定等)做比较。

如果步骤326确定在背景统计模型与背景色度数据之间无匹配，则该过程分支到步骤323，在该步骤中处理以与上文所述相同的方式继续。另一方面，如果步骤326确定有匹配，则该过程继续到步骤327。

步骤327确定当前像素是否与背景统计模型匹配。这一步骤是以与上文讨论的图5的步骤314相同的方式执行的。如果当前像素确实匹配(如上文讨论的那样这是通过将它与对应于当前像素的平均值做比较来确定的)，则在图6b的步骤329中将像素标注为BG(在连接符A之后)，然后该过程(经由连接符D)返回步骤321。如果不是这样，则在步骤328中执行进一步测试。

假如当前像素值不反映BG像素，则步骤328确定它反映FG像素还是DFG像素。这是通过确定像素值是否远未与背景统计模型匹配来完成的。如上文讨论的那样，通过确定FG像素的值与平均值之差是否大于特定量、例如某一数目的标准偏差(见等式(7))来区别FG像素与BG像素(在步骤325中)。步骤328应用同一测试但是使用更大范围。同样，阈值可以设置为预定参数、计算的参数或者用户限定的参数，并且它可以按照相对于平均值的某一数目的标准偏差来给定，即：

$| x_{pixel} - \overline{x_{pixel}} | \leq Nσ, - - - (8)$

其中N是比等式(7)的K更大的数。如果像素值落在例如按照等式(8)定义的范围外，则在图6b的步骤3211中将它标注为DFG(在连接符C之后)，并且该过程(经由连接符D)返回步骤321。如果它落在该范围内，则在图6b的步骤3210中将像素标注为FG，并且该过程(经由连接符D)进行到步骤321。

在步骤32完成之后，该过程如图4中所示进行到步骤8，在该步骤中对帧中的像素执行空间/时间滤波。在本发明的这一实施例中以与针对二通路的实施例来实施的相同的方式实施步骤8，不同之处在于图6a和6b的像素标注算法用于步骤83的步骤833和837(与在二通路的实施例中使用的像素标注算法相对)。在步骤8之后，该过程返回步骤2，在该步骤中如果已经处理所有帧，则该过程结束。

如这里呈现的单通路方式具有无需第二通路的优点，由此减少与该过程关联的延时。这对于大量延时有害的应用是有用的，诸如视频电视会议、万维网广播、实时游戏等。

3.第三实施例——变形的一通路分割

尽管上述一通路方式具有比二通路方式更少的延时，但是它就背景统计模型而言确实具有一个弊端。具体而言，在本发明的一通路实施例中使用的累积统计建模方式可能在用于单元(例如像素、区域等；也就是说无论所考虑的单元的大小如何)的非代表性的统计模型上稳定。如果与视频场景的特定单元对应的帧单元的值(例如色度值)根本地改变(即发生改变视频的某些情况，比如停放的汽车扬长而去、移动的汽车停放、光照改变等)，则场景模型单元将不再准确地代表真实场景。可以通过利用动态地更新背景统计模型的机制、使得它在任何给定时间都准确地代表视频中所示场景的真实性质来解决这一问题。在图7中所示本发明实施例中描绘了这样的机制。

在图7中，步骤1-3、32、8和9如在上述一通路实施例中所述。图7的实施例与图4的实施例不同之处在于在将给定帧与场景模型对准(步骤3)之后，该过程执行步骤310，在该步骤中构建背景统计模型并且同时构建辅助背景统计模型。结合图8a和8b更充分地描述步骤310。

如图8a中所示，步骤310包括图5中的步骤31中所示所有步骤(用相同标号来表示)，并且它始于确定是否已经处理所有像素的步骤(步骤311)。如果没有，则通过进行到步骤312来处理下一像素。在步骤321中，确定背景统计模型是否成熟。如果不是，则该过程分支到步骤315，在该步骤中使用该像素来更新背景统计模型。在步骤315之后，该过程返回步骤311。

如果步骤312确定背景统计模型成熟，则该过程进行到步骤313，在该步骤中确定背景统计模型是否稳定。如果不稳定，则与在步骤312中的否定确定情况中一样，该过程分支到步骤315(然后返回步骤311)。否则该过程进行到步骤314。

在步骤314中，确定所考虑的像素是否与背景统计模型匹配。如果匹配，则该过程进行到步骤315(然后返回步骤311)；否则该过程执行图8b中所示步骤，该步骤构建和更新辅助背景统计模型。该辅助背景统计模型如图8b中反映的那样与背景统计模型并行地来构建，使用与用来构建和更新背景统计模型相同的过程，并且代表不与背景统计模型匹配的像素值。

在步骤314中的否定确定之后，该过程然后进行关于辅助背景统计模型是否成熟的判断(步骤3107)。以与步骤313中相同的方式进行该判断。如果不是这样，则该过程分支到步骤3109，在该步骤中使用与用于背景统计模型相同的过程(步骤315)来更新辅助背景统计模型。该过程从步骤3109返回步骤311(在图8a中)。

如果步骤3107确定辅助背景统计模型成熟，则该过程进行到步骤3108，该步骤(使用与步骤314中相同的过程)确定辅助背景统计模型是否稳定。如果不稳定，则该过程进行到步骤3109(并且从此进行到步骤311)。如果稳定，则该过程分支到步骤31010，在该步骤中用辅助背景统计模型取代背景统计模型，此后该过程返回步骤311。此外，与在步骤31010中用辅助背景统计模型取代背景统计模型并行地用辅助统计模型的平均值取代场景模型数据。在这一点，将辅助背景统计模型重置为零，并且将使用后续数据来构建新的辅助背景统计模型。

这一修改的一通路的实施例具有较一通路的实施例而言提高统计准确度的优点，并且它解决了变化的背景图像的潜在问题。它实现这一点而又仍然维持较二通路的实施例而言改进的延迟时间并且较一通路的实施例而言处理速度仅有可忽略的下降。

4.第四实施例：实时视频流一通路分割

第一、第二和第三示例实施例的关注点是用于压缩应用的分割。对于压缩应用，其思想在于保持代表视频序列或者视频序列一部分的统计背景模型。因此，其思想在于创建背景模型、然后在分割视频序列之时保持背景模型恒定一段时间。

在监视应用中，一般不对视频序列(即视频帧的有限集)而是对实时视频流(例如无可辨别端点的视频帧的连续集)执行处理。因而，一般出于两个原因而不可能创建用以代表视频场景的背景模型。首先是场景由于光照条件和气象条件(例如雨水、阴影、云、昼/夜变化等)而在动态地改变，其次是场景中的组份改变(例如停放汽车、在场景内添加、去除或者移动对象等)。为了在实时监视应用中适应这些条件，在这一实施例中利用对一通路算法的六项变形：(1)除了背景模型之外还添加一个或者多个前景模型；(2)删除背景或者前景模型“成熟”的概念；(3)添加自动增益控制(AGC)补偿；(4)添加对象插入机制；(5)处理顺序不同以满足实时处理需求；以及(6)使用遮掩特征以减少需要处理的像素的数目。

关于六项不同，首先除了背景模型之外还使用前景模型来描述被标注为前景的区域。在上述第三实施例中，辅助背景模型用来对背景场景中在主背景已经“成熟”之后出现的变化进行建模。在第四实施例中，一个(或者多个)前景模型用来描述被检测为前景的像素(或者对象)。创建一个或者多个前景模型的原因在于涵盖当前景对象(例如车辆)停止于场景区域中时的情况。在这样的情况中，出于对象检测的目的而希望开始将前景对象视为背景(例如汽车停放而人在汽车前方步行)。前景模型是以与背景模型完全相同的方式来创建和维护的、但是应用于被标注为“前景”的像素。有可能使多个前景模型描述相互遮蔽的多个对象。例如，一辆汽车停放并且通过一个前景模型来建模。接着，另一辆汽车停放于第一辆汽车前方并且通过第二前景模型来建模。

第二，从第四实施例中删除模型成熟的概念。对于处理视频流而不是视频序列的这一实施例，假设模型不会成熟而代之以会持续地和动态地改变以适应缓慢的环境变化，如阴影随着太阳移动而缩短和延长；乌云蔽日或者拨云见日；雨、雪或者雾在场景中开始或者结束；以及昼夜在场景中改变。在这一实施例中，在逐帧和逐个像素的基础上连续地修改背景模型(以及前景模型)，使得模型最好地反映背景的“当前”状态而不是成熟模型，其中该成熟模型是先前创建的并且可能甚至是在过去很久以前创建的。

第三，在第四实施例中利用AGC补偿。AGC是视频成像器自动地调整整个图像的亮度和对比度以测试和优化图像的动态范围的过程。该过程可以很快地发生并且可以改变背景像素的强度、使得它们可以在实际上不存在前景对象时表现为前景像素。因而，添加AGC补偿组份以在视频图像中有AGC调整的情况下修改背景模型。

第四，向第四实施例添加对象插入机制以允许外部信号控制对象在背景模型中的插入。这里的思想在于例如当汽车停放于场景中时对于代表该汽车的所有像素会有前景模型。外部过程可以判断这些像素代表汽车并且该汽车事实上已经停放。一旦进行该判断，外部过程提供指示应当向背景模型添加(例如“烧入(burn in)”)前景模型的通知。出于分割的目的将前景模型视为背景的一部分。

第五，在实时处理中，在处理帧之后没有时间退回并改进像素标注(与在脱机处理或者具有延时的处理中的情况一样)。因而，实时算法的步骤的顺序不同。起初，当新的帧到来时，将现有背景模型用于标注像素。接着，使用各种其它过程(如例如空间-时间滤波)来精化标注，然后更新模型。这一顺序在实时处理中为各帧提供更优的分割结果。

第六，在第四实施例中添加用以将像素指定为被忽视的遮掩。添加该能力是为了设置视频图像中不应当施加分割的区域。这样做的原因在于节约处理资源以便维持实时性能。因而如果视频场景中有预先已知无需分割的区域(所谓的“无兴趣区域”)，则遮掩掉这些像素(取而代之，可以定义“兴趣区域”)。另外，自动化算法可以用来确定无需施加分割的这些无兴趣区域。这样的无兴趣区域之所以可能存在是因为相机在视频帧的边缘附近产生无实际图像数据的各种“未使用”像素。这样的无兴趣区域也可能存在于场景中不希望处理或者处理不会很好地起作用的区域中(如天空)。

图11图示了用于本发明示例第四实施例的流程图。在步骤1101中，从实时视频流提取视频帧。

在可选步骤1102(其中用虚线轮廓表示该步骤的可选性质)中，可以将提取的帧与场景模型对准以适应相机运动(例如抖动或者有意识的运动如摇摄、倾斜、变焦或者平移运动)。

在步骤1103中，将帧中的各像素标注为背景、前景或者明确前景(或者按照需要有更多颗粒度级)。这构成将帧分割成背景和前景组份。在一个实施例中，可以针对步骤1103使用关于图2b讨论的使用背景统计模型的技术。在其它实施例中，可以使用背景统计模型和/或前景统计模型。

在步骤8中，对分割执行空间-时间滤波以改进结果。

在可选步骤1104中，可以包括执行分割或精化分割的附加过程。例如，可以在步骤1104中包括对象跟踪和分类。作为另一例子，可以在步骤1104中包括静止目标检测。

在步骤1105中，使用分割以构建和/或更新用于各像素的背景和前景统计模型。

在步骤1106中，将对象插入背景统计模型中。作为一种选择，来自步骤1107的外部过程可以判决应当执行插入。

在可选步骤1107中，静止目标检测器可以确定某一组或者多组像素代表已经移入场景中并且停止的对象(例如汽车移入和停放于场景中)。该过程可以判决从此这些像素应当视为背景(因为判断出在这些像素有停止的对象)。

图2图示了用于图11的步骤1103的流程图。在步骤1201中，相应地处理各帧。

在可选步骤1202中，执行对AGC(或者其它全局光照变化)的补偿。

在步骤1203中，相应地处理帧中的各像素。

在步骤1204中，如果已经分析了帧中的各像素，则流程进行到步骤1214；否则流程进行到步骤1205。

在可选步骤1205中，判断像素是否在兴趣区域中。标注在兴趣区域内的像素而不标注在兴趣区域外的像素。可以利用遮掩(来自可选步骤1213)或者任何其它这样的机制来执行对像素是否在兴趣区域内的判断。可以人工地生成(如在可选步骤1212中那样)或者通过一种确定兴趣区域可以在帧内何处的自动过程(如在可选步骤1211中那样)生成遮掩。兴趣区域可以跨帧连续或者不连续并且可以包括帧中的一组或者多组像素。如果像素在兴趣区域中，则流程继续到步骤1206；否则流程回到步骤1203。

步骤1206至1210以与其它先前实施例中的方式相似的方式执行对像素的标注。在步骤1206中，如果像素的强度值足够接近背景统计模型中该像素的平均值，则在步骤1209中将该像素标注为背景。在步骤1207中，如果像素的强度值较远离背景统计模型中该像素的平均值，则在步骤1210中将该像素标注为前景。在步骤1208中，如果像素的强度值远离背景统计模型中该像素的平均值，则将像素标注为明确前景。在步骤1208、1209和1210之后，流程回到步骤1203。

在数学意义上说，步骤1206至1210可以概括如下。对于步骤1206至1209，如果

|i(x)-i(x)|<T₁σ(x)，

则将像素i(x)标注为背景，其中i(x)是在位置x处的像素强度，i(x)是背景统计模型在位置x处的平均值，T_i是阈值，而σ(x)是背景统计模型在位置x处的标准偏差。对于步骤1207和1210，如果

T₁σ(x)≤|i(x)-i(x)|<T₂σ(x)，

则将像素i(x)标注为前景，其中T2是大于T1的阈值。对于步骤1207和1208，如果：

|i(x)-i(x)|≥T₂σ(x)，

则将像素i(x)标注为明确前景。

图13图示了用于图11的步骤1105的流程图。在步骤1301中，相应地处理各帧。

在可选步骤1202中，执行对AGC(或者其它全局光照变化)的补偿。

在步骤1303中，相应地处理帧中的各像素。

在步骤1304中，如果已经分析帧中的各像素，则流程进行到步骤1318；否则流程进行到步骤1305。

在可选步骤1305中，确定像素是否在兴趣区域中。标注在兴趣区域内的像素而不标注在兴趣区域外的像素。可以利用遮掩(来自可选步骤1313)或者任何其它这样的机制来执行对像素是否在兴趣区域内的判断。可以人工地生成(如在可选步骤1313中那样)或者通过一种确定兴趣区域可以在帧内何处的自动过程(如在可选步骤1311中那样)生成遮掩。兴趣区域可以跨帧连续或者不连续并且可以包括帧中的一组或者多组像素。如果像素在兴趣区域中，则流程继续到步骤1306；否则流程回到步骤1303。

接着，使用在图11中的步骤1103、8和1104中生成的前景遮掩作为用以更新背景和前景统计模型的滤波器。在步骤13106中，获得前景遮掩。

在可选步骤1317中，可以通过某一形态如膨胀对前景遮掩进行滤波以保证前景对象边缘上的像素不破坏背景模型。

在步骤1306中，如果像素不是前景或者明确前景像素，则流程进行到步骤1307；否则流程进行到步骤1308。

在步骤1307中，利用在该像素位置处来自当前帧的信息更新背景统计模型的平均值和方差。如果背景统计模型尚不存在，则可以基于在先前实施例中的讨论来构建背景统计模型。

在步骤1308中，像素是前景或者明确前景像素。如果前景模型存在，则流程进行到步骤1309；否则流程进行到步骤1312。

在步骤1312中，前景统计模型在像素的位置并不存在，并且创建新的前景统计模型。该模型的形式为 $\overline{i_{f}} (x) = i (x); σ_{f} (x) = D,$ 其中代表前景统计模型在像素位置x处的平均值，σ_f(x)代表前景统计模型在像素位置x的标准方差，而D是默认值。

在步骤1309中，前景统计模型存在于这一位置并且利用来自当前像素的数据来更新。

在步骤1310中，如果像素已经在前景状态中存在一长段时间，则流程进行到步骤1311；否则流程进行到步骤1303。

在步骤1311中，像素已经在前景状态中存在一长段时间并且可以开始视为背景。通过在这一位置用前景模型取代背景模型来实现这一分割移位：

$\hat{i} (x) = \overline{i_{f}} (x); σ (x) = σ_{f} (x) .$

在第四实施例中，不同于先前三个实施例，在步骤1307和1309中对背景和前景模型的更新可以不同。在先前实施例中，使用游动平均值和标准偏差。在背景可能连续地经历明显变化(例如当白昼化为黑夜时并且反之亦然)的针对这一实施例的实时情况中，游动平均值和标准偏差会提供可能并不准确的统计模型。在这一实时实施例中，当前平均值和标准偏差应当代表在当前时间的前景。因此，应当向新信息比向旧信息给予更多权值。为此，考虑先前统计值的滤波器如例如无限冲激响应(IIR)滤波器应当用来更新背景和前景模型。滤波器可以应用如下：

i(x)＝(1-α)i(x)+αi(x)

σ(x)＝(1-α)(|i(x)-i(x)|)+ασ(x)

其中α是混合(blending)常数。混合常数α可以映射到标准混合时间常数。

图14图示了用于图12和图13的步骤1202的流程图。在步骤1401中，相应地处理各帧。

在可选步骤1402中，相应地处理兴趣区域中的各像素。可以通过可选步骤1408提供兴趣区域。

在步骤1403中，相应地处理各背景像素。背景像素可以被确定为不在步骤1409提供的前景遮掩中的像素。

在步骤1404中，生成在来自步骤1411的背景模型与来自步骤1410的当前帧之间的差值直方图。差值直方图针对背景模型中的各像素强度值测量在背景模型与当前帧之间存在的差值量。作为例子，对于背景模型中强度值为10的像素，在这些像素与它们在当前帧中的对应像素之间的平均强度差值可以表示为5个灰度级。对于强度值为100的像素，平均差值可以是30个灰度级。

在步骤1405中，分析帧以检测任何全局AGC效应。通过检查直方图值的平均值来分析帧。如果直方图值都很小，则这可能意味着背景像素就强度而言与当前帧像素基本上一致。如果直方图值都很大，则这可能意味着平均而言在当前帧与背景模型之间有大的强度差异，因此在帧中可能有全局AGC效应(或者全局光照变化)。如果在帧中检测到全局AGC效应，则流程进行到步骤1406；否则流程回到步骤1401。

在步骤1406中，检测AGC效应，并且更新背景模型。通过使用来自步骤1404的差值直方图作为查找表来更新背景模型。按照在当前帧强度数据与背景模型强度数据(对于这一背景平均强度值)之间的平均差值来调整背景模型中各像素的平均值。这一更新可以概括如下：

i(x)＝H(i(x))+i(x)，

其中H(i)是在背景模型中强度为i的像素与它们在当前帧中的对应像素之间的平均强度差值。

在步骤1407中，由于存在AGC而调整模型参数。例如，如果检测到AGC，则可以减小用于图13的步骤1307和1309中更新的混合常数α。通过减小混合常数α，向来自当前帧的数据给予更多加权，使得当分别在步骤1307和1309中更新背景和前景模型时，模型更新更快并且对全局强度变化不那么敏感。当没有检测到AGC时增大α，这使得步骤1307和1309中的模型更新过程对强度变化更敏感。

图5图示了用于图11中的步骤1106的流程图。作为例子，如果对象被检测到并且被跟踪而且被确定为静止(例如汽车停放)，则可能希望将这些对象烧入背景模型中，使得背景模型可以继续检测该区域中的前景。

在步骤1502中，关于是否在背景模型中插入对象进行判断。作为一种选择，外部过程(来自可选步骤1107)可以确定应当在背景模型中插入对象。如果要插入对象，则流程进行到步骤1503；否则流程进行到步骤1505并且结束。

在步骤1503中，对于对象中的各像素，流程相应地继续。可以通过可选对象遮掩(来自可选步骤1506)或者任何其它机制来描述对象。

在步骤1504中，对于遮掩中的各像素，利用在该位置的前景模型(来自步骤1508)取代在该位置的背景模型(来自步骤1507)，从而造成在一个步骤中在背景中全体地插入整个对象。

5.附加实施例和备注

尽管上述讨论考虑了二级和三级像素标注算法，但是这一实施例并不仅限于这些情况。实际上，预期可以使用与不同范围(例如阈值)对应的任意数目的判决级。在这样的情况下，模糊或者软判决逻辑将用来在分割过程的后续步骤中进行判决。

上述讨论主要讨论了像素和色度值(可以是RGB、YUV、强度等)；然而如上文讨论的那样，本发明不限于这些量。可以使用除像素之外的区域并且可以使用除色度值之外的量。

如上文讨论的那样，可以用计算机系统的形式或者以包含实施本发明的软件的计算机可读介质的形式实施包括先前段落中讨论的所有实施例的本发明。这一点在图9中示出，该图示出了用于本发明的计算机系统的平面图。计算机91包括计算机可读介质92，该介质实施用于实现本发明的软件和/或用以根据本发明来操作计算机91的软件。计算机91如图所示接收视频流并且输出所分割的视频。取而代之，还可以在计算机内进一步处理所分割的视频。

除了利用计算机和软件来实施这里描述的所有实施例之外，还可以用电路和/或硬件来实施这里讨论的所有实施例。电路可以例如包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)或者在数字信号处理器(DSP)、通用预处理器(GPP)或者其它处理设备上的或者耦合到DSP、GPP或者其它处理设备的硬件加速器。电路可以例如用芯片和/或芯片组来实施。电路可以例如位于印刷电路板上、附加卡上和/或附加槽中。电路可以例如位于摄影机、视频路由器、视频编码器和/或数字录像机(DVR)中。其它基于电路和/或基于硬件的实施对于本领域普通技术人员而言将变得明显。

也如上文讨论的那样，上述统计像素建模方法可以并入一种实施智能视频监视系统的方法中。图10描绘了该方法的一个实施例。具体而言，步骤1001代表了使用例如上述统计像素建模。一旦已经完成统计像素建模，步骤1002使用结果对对象进行识别和分类。步骤1002可以使用例如用于执行此类识别和分类的统计或者面向模板的方法。在执行识别和分类时，确定给定对象是否为兴趣对象；例如，可能对经过受监视区域的人的移动感兴趣，这会使人成为“兴趣对象”。在步骤1003中，分析兴趣对象的行为；例如，可以确定人是否已经进入受限制区域。最后在步骤1004中，如果希望则可以发出各种通知或者采取其它适当动作。

已经关于优选实施例描述了本发明，并且对于本领域技术人员来说，从前文显然可看到在本发明的更广义范围中可做出变化和修改而不脱离本发明。因此，如在权利要求中限定的本发明旨在于涵盖落入本发明的真正实质内的所有此类变化和修改。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 使用统计像素建模的视频分割 [P] . 中国专利： CN101443789B . 2011.12.28
2. 使用统计像素建模的视频分割 [P] . 中国专利： CN101443789A . 2009-05-27
3. Video segmentation using statistical pixel modeling [P] . 美国专利： US9020261B2 . 2015-04-28

机译：使用统计像素建模的视频分割
4. VIDEO SEGMENTATION USING STATISTICAL PIXEL MODELING [P] . 韩国专利： KR101392294B1 . 2014-05-27

机译：使用统计像素建模进行视频分割
5. Video segmentation using statistical pixel modeling [P] . 美国专利： US8457401B2 . 2013-06-04

机译：使用统计像素建模的视频分割