首页> 中国专利> 通过跟踪行人从视频序列进行三维道路布局估计

通过跟踪行人从视频序列进行三维道路布局估计

摘要

通过观察行人并从视频画面序列中行人的大小和位置估计道路参数,可实现对行人经过的道路和路径的3D布局估计。系统包括分析3D场景视频画面和检测视频画面中对象和对象位置的前景对象检测单元、估计对象3D变换参数并至少部分基于该参数预测对象高度的对象比例预测单元以及使用对象位置估计3D场景的道路边界以生成道路图的道路图检测单元。

著录项

  • 公开/公告号CN101167085A

    专利类型发明专利

  • 公开/公告日2008-04-23

    原文格式PDF

  • 申请/专利权人 英特尔公司;

    申请/专利号CN200580049502.2

  • 发明设计人 A·V·博夫林;K·V·罗迪乌什金;

    申请日2005-04-18

  • 分类号G06K9/00;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人曾祥夌

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-17 19:58:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2011-11-23

    授权

    授权

  • 2008-06-18

    实质审查的生效

    实质审查的生效

  • 2008-04-23

    公开

    公开

说明书

技术领域

本发明一般涉及视频监控,并且更具体地说,涉及在三维(3D)场 景中的对象移动分析。

背景技术

视频监控系统用于为人们和场所提供安全保障。在早期系统中, 安全人员连续监视视频图像。在长期观察多个显示屏时,人们经常 感到疲劳,并经常错过在监视场景的捕捉图像中发生的关注事件。 为此,一些视频监控系统仅在受监视场景中发生变化时才捕捉图像。 然而,这些系统仍需要安全人员的人工控制和观察。

最近,已开发出各种自动捕捉和分析图像的技术。计算机视觉已 成为计算机科学研究的一个公认分支。然而,在开发监控系统中自 动捕捉和分析图像的可行应用方面,仍有大量工作需要进行。

附图说明

从下面的本发明详细说明中将明白本发明的特性和优点,其中:

图1是根据本发明一个实施例的处理系统框图;

图2是根据本发明一个实施例示出一个对象从地平面投射到相机 平面的图形;

图3是包括对象高度估计的场景样本图像;

图4是另一场景的样本图像;

图5是对应于图4场景的样本道路图;

图6是对应于图4场景的样本3D道路图;以及

图7是根据本发明一个实施例示出对象比例预测和道路图检测处 理的流程图。

具体实施方式

本发明的实施例包括用于自动学习由单个未经校准的摄像机观察 的室外场景三维(3D)结构的方法和系统。具体而言,通过在时间上观 察行人并从视频画面序列中行人的高度和位置估计道路参数,可形 成行人经过的道路和路径的3D布局估计。真实的室外视频实验显 示,对于相机噪声、场景亮度变化、移动对象检测中的可能错误、 道路覆盖变化和相机抖动,本发明实施例表现鲁棒。估计的3D道路 图(达到一个比例因子)可用在需要校准相机与3D场景之间相对位置 的计算机视觉应用中,如视频监控、人的活动识别和人的步态分析。

说明书对本发明“一个实施例”或“实施例”的引用是指结合该实施 例描述的特定特性、结构或特征包括在本发明的至少一个实施例中。 因此,在说明书通篇各个位置出现的“在一个实施例中”的短语不一定 全部指同一实施例。

本发明处理两个相互关连的问题:所观察场景上的对象比例预测 和道路图估计。第一个问题是如何估计场景中二维(2D)对象位置与对 象比例之间的对应关系。针对此目的,使用对象的运动轨迹,估计 将相机平面的相对位置反射到地平面的函数参数。本发明的实施例 包括预测场景中对象高度的准确和鲁棒过程。

仅在移动对象的轨迹是在道路平面(即,地平面)上时才可准确 地预测对象高度。本发明的实施例包括使用与场景中跟预测比例不 冲突的移动对象有关的信息进行场景中道路检测的过程。视频画面 中对象的近似位置可使用几种熟知的前景检测技术之一进行估计(例 如,“从包含复杂背景的视频进行前景对象检测”(Liyuan Li,Weimin Huang,Irene Y.H.Gu和Qi Tian,“Foreground Object Detection from Videos Containing Complex Background”,Proceedings of the eleventh Association of Computing Machinery(ACM)International Conference on Multimedia,MM2003,2003))。本发明实施例的道路图检测过程对 于估计位置、场景亮度变化(例如,在白天时)、图像噪声及道路覆盖 变化(例如,在场景上下雨或下雪后)中出现的误差表现鲁棒。

道路图检测过程无人管理,并能够在相机移动、部分场景变化和 其它所观察环境改变的情况下进行自适应。在本发明作为一部分包 括在内的视频监控应用中,道路图检测过程无人管理,使得无需操 作人员或用户控制该过程。如果相机位置改变或者发生其它环境改 变(如光照条件的改变),则道路图检测过程能够通过自动更新3D变 换参数而进行自适应。要产生正确的结果,该过程只需远方场景的 由上至下的视图。该过程基于如下假设:移动对象是从对象(例如, 人)大小的已知统计分布绘出,并且场景中的所有道路位于同一平面。 这些假设在大多数视频监控任务中得到满足,如人的活动识别、人 的步态分析、对象地理位置估计以及车辆跟踪和计数。地平面约束 经常包含在现有监控技术中。

本发明的实施例组合了对象比例预测和道路图检测,以便产生在 单个相机捕捉的场景中道路3D布局的准确、可靠结果。

图1是根据本发明一个实施例的处理系统100框图。视频流102 包括由单个相机(未示出)捕捉的视频画面序列。序列中的每个画面包 括一个像素位图,位图具有相机所捕捉的选定大小。视频流的每个 画面可由已知的前景对象检测单元104处理,以便从画面背景提取 每个视频画面前景中的对象(由“斑点”表示)。每个检测的斑点在地平 面的3D场景中具有相关联的足迹位置。在一个实施例中,前景对象 检测单元实现“从包含复杂背景的视频进行前景对象检测”(Liyuan Li,Weimin Huang,Irene Y.H.Gu和Qi Tian,“Foreground Object Detection from Videos Containing Complex Background”,Proceedings of the eleventh Association of Computing Machinery(ACM)Intemational Conference on Multimedia,MM2003,2003)中所述的技术。然而,在 其它实施例中,可使用其它前景对象检测过程。前景对象检测单元104 将检测的对象斑点106转发到对象比例预测单元108和道路图估计 单元110。前景对象检测单元104也将从确定前景对象而得到的背景 图像112转发到道路图估计单元110。对象比例检测单元108分析所 捕捉场景中的对象斑点以估计其高度。道路图估计单元110生成捕 捉场景道路图的估计。前景对象检测、对象比例预测和道路图检测 可在视频流的每个视频画面上执行。对象比例预测单元和道路图检 测单元的结果组合在一起。以产生在视频流中存在的场景道路114 上移动对象的比例图。该比例图可输入到其它应用116,诸如视频监 控应用、内容创建应用、3D重构系统等等。

对象比例预测108可在对象斑点上执行。对于在给定视频画面中 前景对象检测单元检测到的每个斑点,对象比例预测单元部分基于 对应的斑点足迹来计算对象的估计高度。图2是根据本发明一个实 施例示出一个对象从地平面投射到相机平面的图形。在此示例中,3D 场景中的对象(例如,人)在相对于场景地平面的点(tx,ty,tz)具有“头 部”。在场景由具有相机平面的相机捕捉时,对象在相机平面的(X,Y) 具有足迹,在(px,py)具有头部。

假设,在相机(未示出)与捕捉的3D场景之间的一般透视变换根 据以下形式:

px=fxRxxtx+Rxyty+Rxztz+Rx0Rzxtx+Rzyty+Rzztz+Rz0,py=fyRyxtx+Ryyty+Ryztz+Ry0Rzxtx+Rzyty+Rzztz+Rz0,

其中,tx、ty、tz表示场景中对象头部的3D世界坐标, Rxx,Rxy,Rxx,Rxz,Rx0,Rzx,Rzy,Rzx,Rz0,Ryx,Ryy,Ryz,Ry0,Rzx,Rzy,Rzz,和Tz0表示常 量,并且px、py表示相机平面中一个点(即,对象头部)的坐标。

我们假设场景中的所有移动对象都具有几乎相同的高度。使用此 假设,可以看到,根据式1,在相机平面中对象“头部”的Y坐标py 取决于相机平面中的其“脚部”位置(X,Y):

py=p1X+p2Y+p3p4X+p5Y+1---(1)

在不失一般性的情况下,我们假设场景中的移动对象为人。场景 中的每个人i在相机平面中具有相关联的足迹位置(X[i],Y[i])和头部y 位置(py[i])。使用N个人“脚部”位置(X[i],Y[i])的估计集合,N为正整 数,通过将以下函数最小化可估计3D变换参数p1、p2、p3、p4、p5:

Σi=1N(py[i]-p1X[i]+p2Y[i]+p3p4X[i]+p5Y[i]+1)2->min---(2)

为解决此最小化问题,在一个实施例中,可使用一种熟知的数值 迭代优化(如William H.Press等人所著的“Numerical Recipes in C:The Art of Scientific Computing”(Cambridge University Press,1992)所示) 来获得初始解。在其它实施例中,可使用其它技术。要获得(2)的初 始解,可使用SVD算法(如William H.Press等人所著的“Numerical Recipes in C:The Art of Scientific Computing”(Cambridge University Press,1992)所示)求解线性系统(3)。

py[i](p4X[i]+p5Y[i]+1)-

(p1X[i]+p2Y[i]+p3)=0i=1..N    (3)

然而,在人足迹的数据集中经常可能有噪声。为减少人的位置估 计和大小估计的误差影响,可使用离群点(outlier)去除过程来排除数 据集中的噪声斑点。每个人斑点的高度(和比例)可通过由式(2)获得的 最佳参数而使用式(1)来预测。则在一个实施例中,可从人“脚部”点 (X[i],Y[i])集合中去除其预测高度与实际斑点高度有最大偏差的大约 P%的斑点。在一个实施例中,P可设为大约30%。在其它实施例中, 可使用其它值。太小的斑点和/或太大而与人无关的斑点可能出现最 大偏差。无离群点的人足迹数据集可用于使用式(2)再训练模型(1)。

在离群点去除后的对象比例预测单元108的输出是视频画面中每 个剩余斑点的估计高度(py[i]-Y[i])和位置(X[i],Y[i])。此信息可在视频 画面上以可视方式表示。图3是示出“典型”人的高度估计的示例。黑 线对应于视频画面中对应位置的所估计人高度。白线表示视频画面 中人斑点的真实(跟踪)高度。

道路图检测可由道路图检测单元110使用对象106斑点和背景图 像112执行。图4是3D场景的样本图像。对象(即,人)“脚部”(X[i],Y[i]) 位置的过滤集合可用于场景上的道路边界估计。假设,这些位置与 假设为均匀的道路具有相同颜色的像素。因此,假设对象是在道路 上行走的行人。区域增长过程可用于查找属于道路表面的视频画面 的像素。该过程从第i个种子像素(此处是在(X[i],Y[i])的对象“脚部” 上的像素)开始填充一个连通的部分,其中该部分内的所有像素具有 与种子像素颜色基本上类似的颜色。更正式地说,如果在估计背景 图像112中点(x,y)的颜色满足以下条件,则它将被视为属于“道路”:

(I(X[i],Y[i])r-t<=I(x,y)r<=I(X[i],Y[i])r+t)AND

(I(X[i],Y[i])g-t<=I(x,y)g<=I(X[i],Y[i])g+t)AND

(I(X[i],Y[i])b-t<=I(x,y)b<=I(X[i],Y[i])b+t).

其中,I指强度,Ir、Ig、Ib是估计背景图像112中像素的颜色分 量,并且t是道路颜色变化参数(例如,t=20)。估计的背景图像用于 从估计道路的场景中排除对象。由于道路边界通常对应于图像的边 缘,因此区域增长在它达到图像边缘像素时便停止。这种处理可在 每个视频画面上执行。在一个实施例中,可使用由J.Canny在“一种 边缘检测计算方法”(“A Computational Approach to Edge Detection”, IEEE Trans.Patt.Analy.And Mach.Intell,8(6):679-698,1986)中所述 的一种已知边缘检测器过程来查找这些边缘(也在“3D计算机视觉初 步技术”(“Introductory Techniques for 3-D Computer Vision”by Emanuele Trucco and Alessandro Verri,Prentice Hall,1998,pp.71-79) 中有所描述)。在其它实施例中,可使用其它边缘检测过程。

为了降低对象“脚部”位置估计中的误差影响,在一个实施例中, 可计数像素被归类为“道路”的次数N,并且仅在N>MaxN*0.1的情 况下才将像素视为属于当前场景中道路像素类,其中MaxN是场景 视频画面所有像素中的N的最大值。因此,可从道路图排除一些噪 声像素。道路图估计的此类离群点去除过程还允许用户只观察最“受 欢迎”的道路。要注意的是,该过程可以正确地分析覆盖不均匀的场 景道路(例如,堤道)。

图5是由道路图检测单元在处理十分钟长样本视频流后所产生的 对应于图4场景的样本道路图。图6是由道路图检测单元所产生的 对应于图4场景的样本3D道路图。该道路图包括对象比例信息,其 中深度信息范围从暗色表示远到亮色表示近。

图7是根据本发明一个实施例示出对象比例预测和道路图检测处 理的流程图。视频流的每个画面可输入到对象比例预测单元108以 及道路图检测单元110。在框700,前景对象检测单元104使用前景 估计检测画面中对象的位置。在一些情况下,对象包括画面中人(例 如,行人)的表示。在框702,对象比例预测单元使用函数方程(2)估 计变换方程(1)的3D变换参数p1、p2、p3、p4和p5。在框704,对 象比例预测单元使用式(1)预测对象的高度。接着,在框706,对象比 例预测单元确定是否已从对象的预测高度去除了离群点。如果离群 点尚未去除,则可在框708去除离群点。这为模型再训练产生了对 象的过滤集合。处理随后在框702继续。如果离群点已经去除,则 处理继续到框710的道路图检测处理。

在框710,道路图检测单元使用从前景对象检测单元104获得的 背景图像和区域增长过程,填充从每个对象的足迹开始并在到达图 像边缘像素时停止的均匀颜色区域。此动作可对于对象数据集中的 每个对象进行,以生成道路图。在框712,可从估计的道路图去除离 群点。最后,在框714,可基于道路图检测单元110产生的道路图, 估计道路上移动对象的高度图(即,比例图114)。

本发明的实施例提出了一种在3D场景中估计典型对象比例的方 法和一种在摄像机观察的场景中进行道路检测的方法。本发明由于 其能够在每个视频画面上再训练,离群点去除处理及其自适应特征, 实现了全自动视频监控系统校准。本发明对于场景亮度变化(例如, 在白天期间)、摄像机噪声及道路覆盖变化(例如,在下雨或下雪后) 表现鲁棒。本发明是无人管理式,并能够在相机移动、部分场景变 化和其它所观察环境改变的情况下进行自校准。本发明还自动估计 相机图像平面中2D坐标与观察场景道路的3D世界坐标之间的变换。

本发明的实施例可大大提高需要校准相机与3D场景之间相对位 置的许多计算机视觉应用的可靠性(诸如,人的活动分析、机器人视 觉、内容创建、对象检测和跟踪、3D场景理解、视频处理、3D重构 及姿势识别系统)。本发明的实施例可使视频监控系统更自动化且更 可靠。例如,本发明可配置为在检测到人在道路或路径边界外行走 时,或者检测到的对象大小与预测的平均值有偏差时,生成警报。

虽然本文所述的操作可描述为顺序过程,但一些操作实际上可并 行或同时执行。另外,在一些实施例中,操作的顺序可重新安排, 并不脱离本发明的精神。

本文所述的技术并不限于任一特定硬件或软件配置;它们可在任 一计算或处理环境中具有适用性。该技术可用硬件、软件或两者的 组合实现。该技术可用诸如在移动或固定计算机、个人数字助理、 机顶盒、蜂窝电话和寻呼机及其它电子装置等可编程机器上执行的 程序实现,这些机器每个都包括处理器、可由处理器读取的存储介 质(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置 以及一个或多个输出装置。程序代码应用到使用输入装置输入的数 据,以执行所述功能和生成输出信息。输出信息可应用到一个或多 个输出装置。本领域的技术人员可理解,本发明可通过各种计算机 系统配置实践,包括微处理器系统、微型计算机、大型计算机及诸 如此类。本发明也可在分布式计算环境中实践,在该环境中任务可 由通过通信网络链接的远程处理装置执行。

每个程序可用面向过程或面向对象的高级编程语言实现以便与处 理系统通信。然而,程序在需要时可以汇编语言或机器语言实现。 在任一情况下,语言均可被编译或解释。

程序指令可用于使编程有指令的通用或专用处理系统执行本文所 述的操作。或者,操作可由包含用于执行操作的硬件逻辑的特定硬 件组件执行,或者由编程计算机组件和定制硬件组件的任意组合执 行。本文所述的方法可提供为一种计算机程序产品,其可包括上面 存储有指令的机器可存取介质,而这些指令可用于对处理系统或其 它电子装置编程以执行该方法。本文中使用的术语“机器可存取介质” 将包括能够存储或编码由机器执行的指令序列和使机器执行本文所 述任一方法的任何介质。术语“机器可存取介质”因此应包括但不限于 固态存储器、光盘和磁盘以及对数据信号编码的载波。此外,在本 领域中以一种或另一种形式(例如,程序、过程、进程、应用、模块、 逻辑等等)将软件表述为采取动作或产生结果是常见的。此类表述只 是表示处理系统执行软件使处理器执行一个动作或产生一个结果的 一种简写方式。

虽然本发明已参照说明性实施例进行了描述,但此说明书并无限 制意义。本发明有关领域的技术人员明白的说明性实施例的各种修 改以及本发明的其它实施例,均应视为在本发明的精神和范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号