首页> 中国专利> 一种复杂场景中的运动目标检测与跟踪方法

一种复杂场景中的运动目标检测与跟踪方法

摘要

本发明公开了一种复杂场景中的运动目标检测与跟踪方法,包括多运动目标检测和多运动目标跟踪两个步骤:在多运动目标检测中,针对复杂场景的监控,建立基于自适应非参数核密度估计的背景模型,能有效抑制微小物体运动的干扰,并消除目标阴影,检测出多运动目标;在多运动目标跟踪中,建立目标模型,通过“匹配矩阵”来确定目标的运动状态,并根据目标不同运动情况采取相应跟踪策略。针对多目标相互遮挡问题,通过概率推理方法“恢复”目标信息,分析目标遮挡程度。本发明的算法能较好地实现运动目标跟踪,获得运动目标的轨迹,具有良好的实时性和适应环境变化的能力。本发明适用范围广,精确度高,是具有通用性的智能视觉监控核心方法。

著录项

  • 公开/公告号CN101141633A

    专利类型发明专利

  • 公开/公告日2008-03-12

    原文格式PDF

  • 申请/专利权人 湖南大学;

    申请/专利号CN200710035635.5

  • 发明设计人 王耀南;万琴;王磊;

    申请日2007-08-28

  • 分类号H04N7/18(20060101);G06T7/20(20060101);

  • 代理机构43008 湖南兆弘专利事务所;

  • 代理人赵洪

  • 地址 410082 湖南省长沙市河西岳麓山湖南大学电气与信息工程学院

  • 入库时间 2023-12-17 19:54:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2011-01-05

    授权

    授权

  • 2008-05-07

    实质审查的生效

    实质审查的生效

  • 2008-03-12

    公开

    公开

说明书

技术领域

本发明主要涉及到智能视觉监控领域,特指一种复杂场景中的运动目标检测与跟踪方法。

背景技术

视觉处理系统采用图象传感器对监控场景中的运动目标(如行人、车辆等)进行实时观测,通过检测、识别和跟踪图象序列中的运动目标,监视场景中目标的活动,并能理解和描述目标的各自行为和相互间行为。视觉监控技术在20世纪60年代出现,基于视频的监控系统的发展是从模拟监控(CCTV)开始,监控系统的鲁棒性、自动化程度低。随着传感器、计算机软硬件、信号处理和通信等视觉监控所需的技术和设备发展,使得视觉监控的广泛应用和迅猛发展有了坚实的物质基础。在监控系统中采用高性能计算机获取、处理图象成为可能,复杂背景下的运动目标跟踪目前主要采用单摄象机监控场景,运动目标的检测、识别是研究重点,到目前,美国,欧洲和日本等发达国家已发展到自动化视觉监控技术,正迅速向全数字智能视觉监控技术发展。

目前,采用摄像机作为主要传感器的视频监控系统被广泛应用于各种场合如银行、停车场、超市、宾馆、住宅小区等,但是传统的模拟监控系统中图象数据的采集,传输,显示和存储大多是基于模拟信号,需要人工不间断的观察多个监视器画面,不仅花费人力物力而且经常发生漏警和误警,不能做到实时有效发现、制止危险事件,从而极大地降低了系统的可靠性和可信度,视频图象数据往往仅作为事故发生后处理的证据而失去了其主动实时的特点,更无法做到异常事件预警。要使得视频监控系统具有预警、实时监测等“智能化”功能,需要系统能对大量的视频信息进行处理分析、理解,将提取的有用信息反映给监控人员。随着计算机软件、硬件快速发展,利用计算机视觉技术对监控系统中的视频信息进行分析、处理,使监控系统向智能化方向成为可能。基于数字图象的视觉监控系统具有实时、隐蔽和可视化的特点,它的研究发展使得效率低、误检率高的传统模拟监控系统转变为高效的、无人值守的智能视觉监控系统,具有广泛的应用前景和潜在的商业价值,是近年来计算机视觉领域的前沿研究方向。

发明内容

本发明要解决的技术问题就在于:室外监控场景的背景干扰大,如树叶、水波、雨点的微小运动,需要抑制干扰,得到背景模型从而正确检测目标;多运动目标跟踪结果能作为实际场景监控中目标运动分析、判断并自动预警的依据,而多目标运动情况复杂,尤其在目标相互遮挡时,如何识别目标、跟踪目标是关键问题。本发明提出了复杂场景中背景建模、目标检测方法,以及场景固定时对多个运动目标分析特征建立目标模型、根据不同运动情况进行跟踪,获得目标运动轨迹。本发明提出的方法实现了初步的监控“智能化”,多目标跟踪结果能作为行为分析理解、系统主动预警的依据,可广泛应用于视觉安防,机器视觉检测、人机接口等领域,是一种具有通用性的智能视觉监控的核心方法。

为解决上述技术问题,本发明提供的技术方案为:一种复杂场景中的运动目标检测与跟踪方法,其特征在于步骤为:

(1)、基于自适应非参数核密度估计的多运动目标检测:

①、将监控视频中的前t帧图象(未出现目标)作为初始背景模型,即初始采样集;

②、从输入的第t+1帧图象开始检测目标:当前帧图象象素点作为估计点,根据自适应非参数核密度估计方法,得到估计点属于背景模型的概率值,并将当前帧象素点作为新采样点更新背景模型,即更新采样集;

③、判断上一步中象素点(估计点)概率值是否小于阈值T;如小于阈值T,则该象素点是目标点;

④、按以上①~③步骤依次处理当前帧图象所有象素点,得到的目标点集合,即为检测到的目标区域;

(2)、多运动目标跟踪:

⑤、对当前帧图象中检测到的目标区域,建立目标模型:颜色模型、运动模型、形状模型;

⑥、建立当前帧检测的目标与上一帧目标的匹配矩阵,矩阵元素是两帧间目标模型的匹配度,得到目标匹配情况;

⑦、根据匹配情况,分析当前帧目标运动状态;

⑧、记录当前帧目标信息并更新此目标模型;

⑨、如视频输入未结束,返回目标检测模块,再执行目标跟踪模块,即上述步骤⑤~⑧。

所述自适应非参数核密度估计法中核密度估计器的带宽选择,提出基于采样点、估计点的概率分布特征选择带宽,即公式(3)。并可从数学理论上推导发现:该估计器能更好地反映出估计点和采样点概率分布的接近程度,从而大大提高了估计器的准确率。

<mrow><mi>H</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>&Sigma;</mi><msub><mi>x</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>x</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>

其中,∑xi表示采样点方差,∑x表示估计点方差。

所述自适应非参数核密度估计法采集颜色、梯度特征作为采样点、估计点取值,通过公式(5)、公式(6)和公式(7)计算当前帧图象各象素点(估计点x)的概率,

<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>&Phi;</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>=</mo><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>|</mo><msub><mi>&Phi;</mi><mi>bc</mi></msub><mo>)</mo></mrow><mo>&times;</mo><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><msub><mi>x</mi><mi>g</mi></msub><mo>|</mo><msub><mi>&Phi;</mi><mi>bg</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>

<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>|</mo><msub><mi>&Phi;</mi><mi>bc</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>n</mi><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mn>3</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mfrac><mn>1</mn><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>&Sigma;</mi><msub><mi>xc</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>xc</mi></msub><mo>|</mo><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>-</mo><msub><mi>x</mi><mi>ci</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msup><mrow><mo>(</mo><msub><mi>&Sigma;</mi><msub><mi>xc</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>xc</mi></msub><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>-</mo><msub><mi>x</mi><mi>ci</mi></msub><mo>)</mo></mrow></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>

<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><msub><mi>x</mi><mi>g</mi></msub><mo>|</mo><msub><mi>&Phi;</mi><mi>bg</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>n</mi><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mn>3</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mfrac><mn>1</mn><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>&Sigma;</mi><msub><mi>xg</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>xg</mi></msub><mo>|</mo><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>g</mi></msub><mo>-</mo><msub><mi>x</mi><mi>gi</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msup><mrow><mo>(</mo><msub><mi>&Sigma;</mi><msub><mi>xg</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>xg</mi></msub><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><msub><mi>x</mi><mi>g</mi></msub><mo>-</mo><msub><mi>x</mi><mi>gi</mi></msub><mo>)</mo></mrow></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>

其中,p(xgbg)分别表示基于颜色特征、梯度特征的非参数密度估计。

所述步骤③中,如果当前帧象素的概率估计<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>&Phi;</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>&lt;</mo><mi>T</mi><mo>,</mo></mrow>则说明该象素属于背景模型的概率值低,则认为是前景目标点,目标点的集合构成目标区域,即能从当前帧图象中分割出目标,其中阈值T通过期望的误警率来设定。根据Neyman-Pearson规则,误警率ε定义为:

<mrow><mi>&epsiv;</mi><mo>=</mo><msub><mo>&Integral;</mo><msub><mi>&Omega;</mi><mn>2</mn></msub></msub><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>&Phi;</mi><mi>b</mi></msub><mo>)</mo></mrow><mi>dx</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>

其中Ω2是拒绝领域。

所述步骤⑤中,颜色模型、运动模型和形状模型分别为:

(1)、颜色模型,在目标分割生成的掩摸区域内,将每个象素的RGB值转换为HSV值,并将三维HSV矢量量化后用一维颜色直方图表示。颜色模型在每一帧中的更新方程为:

<mrow><msub><mover><mi>H</mi><mo>^</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mover><mi>H</mi><mo>^</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>+</mo><mi>&beta;</mi><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>H</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msub><mover><mi>H</mi><mo>^</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>

其中,0<β<1,根据实验确定;<mrow><msub><mover><mi>H</mi><mo>^</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>H</mi><mi>i</mi></msub><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow><mo>,</mo></mrow>i=1,…,M,M为颜色直方图最大位数(在一维HSV直方图中,M=72),Hi(k+1)是第k+1帧颜色直方图的第i位;

(2)、运动模型,检测出的运动目标以外接矩形框标注,对于实时视频序列,每两帧时间间隔Δt比较小,可以认为目标在相邻帧间运动变化缓慢,近似为匀速运动,并分别针对矩形框中心点坐标的x、y方向建立目标二维运动模型,则目标运动可用线性动态模型表示为:

X(t)=AX(t-1)+W(t-1)    Y(t)=Cx(t)+V(t)

<mrow><mi>X</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfenced>Y(t)=[p]    (10)

其中,X(t)、X(t-1)是t、t-1时刻状态向量,其分量分别为象素点位置p和速度Y(t)是t时刻观测向量(即从图象中得到的实际数据);W为系统噪声,假设W为高斯分布,均值为零,协方差矩阵为Q,取Q=0.01*I,其中I为2×2的单位矩阵;V为观测噪声,其均值为零,协方差矩阵为R,R可以通过求的背景图象中某象素点观测值的方差得到;根据式(10),由经典卡尔曼滤波器方程可得到对状态向量X在当前帧中的估计值,及在下一帧中的预测值;

(3)、形状模型,目标形状表示为目标区域外接矩形框的长宽比,设某目标外接矩形框平均长度为,宽度为,则根据下式得到其形状模型的长度更新(宽度更新同理可得):

<mrow><mover><mi>h</mi><mo>^</mo></mover><mrow><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mover><mi>h</mi><mo>^</mo></mover></mrow><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>+</mo><mi>&beta;</mi><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mrow><mo>(</mo><mi>h</mi><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><mover><mi>h</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>

其中,<mrow><mover><mi>h</mi><mo>^</mo></mover><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow><mo>=</mo><mi>h</mi><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow><mo>,</mo></mrow>h(k+1)表示在k+1帧目标外接矩形框的长度值,宽度更新可同理得到,则是更新后目标形状长宽比。

在上述步骤⑦中,为了确定相邻帧间目标匹配关系,根据目标模型在相邻帧间建立“匹配矩阵”,设定匹配矩阵的行号i代表当前帧检测到的目标,列号j代表上一帧检测的目标,计算当前帧目标与上一帧目标的运动模型匹配度Mij、形状模型相似度Sij、颜色模型相似度Hij,并将和值:Tij=Mij+Sij+Hij作为匹配矩阵元素值记录,通过匹配矩阵,可得到对应于不同的运动状态的五种匹配情况,从而可确定当前帧中多运动目标的运动状态,所述五种匹配情况分别是:

(1)、如i行无匹配,则i行所代表的目标为新出现目标,对应为运动状态“出现新目标”;

(2)、如i行与列中某一元素匹配,则i行代表目标为运动正常情况,对应为运动状态“目标运动正常”,和匹配情况“正常情况”;

(3)、如i行与列中多个元素匹配,则i行所代表目标在当前帧发生遮挡,对应为运动状态“目标遮挡及分离”,和匹配情况“遮挡情况”;

(4)、如j列中与行有多个元素匹配,则行中匹配目标是遮挡目标分离产生,对应为运动状态“目标遮挡及分离”;

(5)、如j列目标与行中无目标匹配,则说明j列代表的目标在当前帧消失,对应为运动状态“目标消失”,和匹配情况“无匹配”。

上述步骤⑦中,通过匹配矩阵判断当前帧目标运动状态是发生目标遮挡,按下述步骤跟踪目标:

(1)、通过目标在当前帧中的预测值产生多个“虚目标”:设目标j被遮挡,由目标j产生的“虚目标i”表示为<mrow><msubsup><mi>B</mi><mi>j</mi><mi>i</mi></msubsup><mo>=</mo><mo>{</mo><mrow><msubsup><mi>p</mi><mi>j</mi><mi>i</mi></msubsup><mo>,</mo><msub><mi>h</mi><mrow><mi>i</mi><mn>1</mn></mrow></msub><mo>,</mo></mrow><msub><mi>h</mi><mrow><mi>i</mi><mn>2</mn></mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>h</mi><mrow><mi>i</mi><mn>72</mn></mrow></msub><mo>}</mo><mo>,</mo></mrow>其中pji表示“虚目标”中心点,满足高斯分布,{hi1,hi2,...,hi72}是目标HSV空间一维颜色直方图的各位数;

(2)、建立各“虚目标”模型,再通过它们与目标在上一帧的模型建立匹配矩阵,确定最佳匹配的“虚目标”,即“恢复”目标信息。

(3)、基于概率方法分析遮挡目标:由于目标颜色具有稳定性,根据目标被遮挡前的颜色概率分布(先验概率),估计当前帧遮挡目标在目标组中的颜色概率(后验概率),分析目标被遮挡程度:

①、先验概率:目标在发生遮挡前,其颜色直方图代表了目标颜色概率分布,可得到目标i区域中每个象素的概率P(x|i),假设当遮挡情况发生,目标i与其他目标相互遮挡,形成新目标组I。我们可通过获得目标i在被遮挡前掩膜区域内的象素数目,通过公式(17)估计其遮挡前在目标组I中的深度:

<mrow><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>A</mi><mi>i</mi></msub><mrow><msub><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>I</mi></mrow></msub><msub><mi>A</mi><mi>j</mi></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>17</mn><mo>)</mo></mrow></mrow>

其中Ai表示目标i未被遮挡前掩膜区域面积,即包含的象素数目。

②、后验概率:根据先验概率,通过公式(18)求得其在遮挡目标组I中颜色分布,即后验概率:

<mrow><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>|</mo><msub><mi>x</mi><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow></msub><mo>|</mo><mi>i</mi><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>I</mi></mrow></msub><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow></msub><mo>|</mo><mi>j</mi><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>18</mn><mo>)</mo></mrow></mrow>

式中P(xx,y|i)是在目标i区域内坐标x,y处的象素值在目标i颜色直方图中的概率。采用颜色直方图表示目标颜色分布可使得式子的求解简单、实时有效。通过式(18)可得到在目标i区域中某象素在遮挡目标组I中属于目标i的概率,求得的值越大说明该象素在目标组I中属于原目标i概率越大,也即象素未被遮挡的可能性越大,值越低则越可能属于遮挡部分或目标组中其他目标。

与现有技术相比,本发明的优点就在于:

1、提出建立基于自适应非参数核密度估计的背景模型,并且核密度估计器的带宽由采样点、估计点的概率分布特征确定,能有效抑制干扰,背景模型准确性高。

2、对于采样点、估计点特征选取问题,提出将颜色、梯度特征相结合,避免目标检测结果中出现“空洞”,并能消除目标阴影。

3、考虑到算法计算复杂度,在基本不影响计算精度的前提下,部分计算进行了有效的简化,降低了计算复杂度,大大提高了算法的实时性。

4、对于目标特征描述,提出将颜色特征、形状特征、运动状态有机结合,建立目标模型,反映了目标的重要属性:颜色恒常性、形状及运动特点,是后续跟踪分析的基础。

5、设计“匹配矩阵”分析帧间目标匹配情况,并根据匹配结果,提出将目标运动状态分为四类,分别采取相应跟踪策略。算法实现了多运动目标在不同运动情况下的跟踪,并能获得目标运动轨迹。

6、针对目标遮挡时其信息丢失而无法跟踪的情况,提出基于概率统计分析方法分析被遮挡目标的运动、遮挡情况。算法能有效恢复目标的丢失信息,解决了目标遮挡时的跟踪问题。

附图说明

图1是多运动目标检测、跟踪基本流程图;

图2是目标检测流程图;

图3是多运动目标跟踪流程图;

图4是跟踪过程中四种运动状态相互转换图;

图5是跟踪流程第3)步在目标遮挡时的算法流程图。

具体实施方式

以下将结合附图和具体实施过程对本发明做进一步详细说明。

本发明公开了一种复杂场景中的运动目标检测与跟踪方法,步骤为:

(1)、基于自适应非参数核密度估计的多运动目标检测:

①、将监控视频中的前t帧图象(未出现目标)作为初始背景模型,即初始采样集;

②、从输入的第t+1帧图象开始检测目标:当前帧图象象素点作为估计点,根据自适应非参数核密度估计方法,得到估计点属于背景模型的概率值,并将当前帧象素点作为新采样点更新背景模型,即更新采样集;

③、判断上一步中象素点(估计点)概率值是否小于阈值T;如小于阈值T,则该象素点是目标点;

④、按以上①~③步骤依次处理当前帧图象所有象素点,得到的目标点集合,即为检测到的目标区域;

(2)、多运动目标跟踪:

⑤、对当前帧图象中检测到的目标区域,建立目标模型:颜色模型、运动模型、形状模型;

⑥、建立当前帧检测的目标与上一帧目标的匹配矩阵,矩阵元素是两帧间目标模型的匹配度,得到目标匹配情况;

⑦、根据匹配情况,确定当前帧目标运动状态;

⑧、记录当前帧目标信息并更新此目标模型;

⑨、如视频输入未结束,返回目标检测模块,再执行目标跟踪模块,即上述步骤⑤~⑧。

在具体实施中,摄象机得到的固定场景下的监控视频,首先输入多运动目标检测模块,通过背景建模、背景更新、背景减除及阈值化等算法处理,检测出的运动目标区域作为下一步多运动目标跟踪模块的输入。在该模块中,能实现对固定场景中多个运动目标的跟踪,获取各个目标在场景中的运动轨迹。本发明复杂场景中的运动目标检测与跟踪方法的运行环境:PC机(PentiumIV-1.5GHZ,内存256M,硬盘40G),加拿大Matrox公司Meteor图像采集卡,开发工具:VC++6.0,实时视频图像分辨率384×288,处理速度可达15-17帧/秒,基本达到实时性要求。

下面将根据步骤详细描述具体实现方法:

1、基于自适应非参数核密度估计的多运动目标检测方法:

运动目标的正确检测是目标跟踪的前提条件,对于摄象机固定的复杂场景监控,光线变化;树叶、水波晃动等微小物体运动会造成较大干扰,本发明提出的基于自适应非参数密度估计的多运动目标检测方法,基本思想是根据象素点的采样值概率分布建立背景模型并实时更新,估计当前帧象素点概率,根据概率阈值判断其是否属于背景,不属于背景的象素点集合即为目标区域。实验证明该方法能较好地抑制干扰,提高检测准确率。

以上算法具体说明如下:

1.1建立背景模型及更新:

1)建立背景模型(即确定初始采样集)

说明:

此步骤得到初始采样集作为背景模型,下一步(1.2节)将根据此采样集,计算当前帧(从第t+1帧开始)图象各象素点属于背景的概率。

算法:

对输入视频的前t帧图象(目标未出现)中每帧图象的象素点(采样点)x获取初始采样集,即得到初始背景模型:Φb={x1,x2,...,xn},其中x1,x2,...,xn表示象素点x在图象帧1到图象帧n(n=t)的采样值。

但是由于每个象素点的采样集都包含n个采样点,如大小为h*w的图象,采样点共有h*w*n个!计算花销很大,为了减少计算复杂度,本发明提出将象素在每5帧图象中的采样点均值作为其新采样值:

Φb={x′i,i=1,2,...,n},其中n=t/5,x′i表示集合{xi,xi+1,...,xi+4}(i=1,...,n-(i+4))的均值。

实验证明该方法基本不影响计算精度,并可以在保证准确性的基础上降低计算复杂度,提高实时性。

2)背景模型更新

说明:

固定监控场景处于动态变化中,如发生光线变化、树叶、水波等微小物体的运动,背景模型要能反映监控场景的变化,需要进行实时更新。在计算当前帧象素概率估计(1.2节)后,进行背景模型更新,即更新采样集。

算法:

本发明采用采样点先进先出原则更新采样集,即各象素点(采样点)x的新采样值取代原采样集的第一个采样值,如象素i下一个新采样值xn+1′代替采样集Φi中的第一个采样值x′1,以此类推。

1.2当前帧象素点属于背景的概率估计:自适应非参数核密度估计法

下面根据采样集(更新前),估计当前帧(从第t+1帧开始)象素点属于背景的概率。

1)基本原理:

说明:

推导本发明提出的自适应非参数核密度估计方法的基本原理,即得到的公式(4)。

算法:

本发明提出自适应非参数核密度估计方法,能抑制干扰,得到有效的概率估计。将当前帧象素点x作为估计点,其属于背景(采样集)的概率为:

<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>&Phi;</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mfrac><mn>1</mn><msup><mrow><mo>|</mo><mo>|</mo><mi>H</mi><mo>|</mo><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mfrac><mi>K</mi><mrow><mo>(</mo><msup><mi>H</mi><mrow><mo>-</mo><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msubsup><mi>x</mi><mi>i</mi><mo>&prime;</mo></msubsup><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>

其中,x表示当前估计点;x′i表示采样集中的采样点;K是d维核函数(d表示采样点、估计点维数),取d维高斯密度函数,则核函数K表示为:

<mrow><msub><mi>K</mi><mi>H</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mi>d</mi><mo>/</mo><mn>2</mn></mrow></msup><msup><mrow><mo>|</mo><mi>H</mi><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mi>x</mi><mi>T</mi></msup><msup><mi>H</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mi>x</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>

H表示带宽,是d×d对称正定矩阵,带宽H的确定对核密度估计非常重要,带宽太小会导致采样特征错误,带宽太大会丢失重要的细节信息。本发明提出基于采样点、估计点的概率分布特征选择带宽,并可从数学理论上推导发现:该估计器能更好地反映出估计点和采样点概率分布的接近程度,从而大大提高了估计器的准确率。带宽H表示为:

<mrow><mi>H</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>&Sigma;</mi><msub><mi>x</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>x</mi></msub></mrow>                (3)

其中,∑xi表示采样点方差,∑x表示估计点方差。

将式(2)、(3)带入(1),得到象素x概率估计的完整公式:

<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>&Phi;</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>n</mi><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mi>d</mi><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mfrac><mn>1</mn><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>&Sigma;</mi><msub><mi>x</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>x</mi></msub><mo>|</mo><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msup><mrow><mo>(</mo><msub><mi>&Sigma;</mi><msub><mi>x</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>x</mi></msub><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>

2)采样点、估计点特征选取

说明:

确定公式(4)中采样点x′i、估计点x的取值,即象素点的特征选取;再根据选取特征的概率分布特点,推导公式(4)的等价表示,即得到公式(5)~(7)。

算法:

本发明提出将颜色、梯度特征作为采样点、估计点取值。因为当背景、前景的色度没有区别时,如仅依靠象素级的颜色信息,检测率低。因此我们引入了梯度信息,采用sobel算子在x,y方向得到象素梯度值,则采样点xi取值表示为:xi=[xr,xg,xb,xgr,xgg,xgb]∈Rd(d=6),其中xr,xg,xb表示采样点RGB颜色值,xgr,xgg,xgb表示采样点RGB通道对应的梯度值。估计点x也同样取其RGB颜色值和梯度值。

则式(4)将对6维向量计算,为了进一步减少计算复杂度,假设颜色、梯度信息是独立的(该假设基本不影响计算精度),得到:

<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>&Phi;</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>=</mo><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>|</mo><msub><mi>&Phi;</mi><mi>bc</mi></msub><mo>)</mo></mrow><mo>&times;</mo><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><msub><mi>x</mi><mi>g</mi></msub><mo>|</mo><msub><mi>&Phi;</mi><mi>bg</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>

其中,p(xgbg)分别表示基于颜色特征、梯度特征的非参数密度估计:

<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>|</mo><msub><mi>&Phi;</mi><mi>bc</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>n</mi><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mn>3</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mfrac><mn>1</mn><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>&Sigma;</mi><msub><mi>xc</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>xc</mi></msub><mo>|</mo><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>-</mo><msub><mi>x</mi><mi>ci</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msup><mrow><mo>(</mo><msub><mi>&Sigma;</mi><msub><mi>xc</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>xc</mi></msub><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>-</mo><msub><mi>x</mi><mi>ci</mi></msub><mo>)</mo></mrow></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>

<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><msub><mi>x</mi><mi>g</mi></msub><mo>|</mo><msub><mi>&Phi;</mi><mi>bg</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>n</mi><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mn>3</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mfrac><mn>1</mn><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>&Sigma;</mi><msub><mi>xg</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>xg</mi></msub><mo>|</mo><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>g</mi></msub><mo>-</mo><msub><mi>x</mi><mi>gi</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msup><mrow><mo>(</mo><msub><mi>&Sigma;</mi><msub><mi>xg</mi><mi>i</mi></msub></msub><mo>+</mo><msub><mi>&Sigma;</mi><mi>xg</mi></msub><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><msub><mi>x</mi><mi>g</mi></msub><mo>-</mo><msub><mi>x</mi><mi>gi</mi></msub><mo>)</mo></mrow></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>

则系统采用公式(5)~(7)计算当前帧图象各象素点(估计点x)的概率。

1.3确定阈值T并分割背景、前景(目标)

说明:

确定象素概率判定阈值T,并据此分割得到前景、背景。

算法:

如果当前帧象素的概率估计<mrow><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>&Phi;</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>&lt;</mo><mi>T</mi><mo>,</mo></mrow>则说明该象素属于背景模型的概率值低,则认为是前景目标点。目标点的集合构成目标区域,即能从当前帧图象中分割出目标。

阈值T通过期望的误警率来设定。根据Neyman-Pearson规则,误警率ε定义为:

<mrow><mi>&epsiv;</mi><mo>=</mo><msub><mo>&Integral;</mo><msub><mi>&Omega;</mi><mn>2</mn></msub></msub><mover><mi>p</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>&Phi;</mi><mi>b</mi></msub><mo>)</mo></mrow><mi>dx</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>

其中,Ω2是拒绝领域。如在背景减除中,它代表前景数据空间。如果我们希望达到ε<α,则通过期望误警率ε可计算出阈值T。

2、多运动目标跟踪方法:

跟踪等价于在连续的图像帧间创建基于位置、速度、形状、纹理、色彩等有关特征的对应匹配问题,对于单个目标,可以通过获得目标在每一帧中的位置得到运动轨迹,即建立跟踪,但对于多个目标,情况较为复杂,在运动目标遮挡、暂时消失等情况下目标信息丢失使跟踪失败。本发明提出了基于目标模型的跟踪方法,在建立目标模型的基础上,针对目标不同运动情况,特别是多运动目标相互遮挡,提出了有效的解决方法。

将总流程图(图1)中多目标跟踪模块的主要步骤表示在图3该模块框中,其主要流程步骤包括:

⑤、对当前帧图象中检测到的目标区域,建立目标模型:颜色模型、运动模型、形状模型,在2.1节中阐述;

⑥、建立当前帧检测的目标与上一帧目标的匹配矩阵,矩阵元素是两帧间目标模型的匹配度,得到目标匹配情况,在2.2节中阐述;

⑦、根据匹配情况,确定当前帧目标运动状态,在2.3节中阐述;

⑧、记录当前帧目标信息并更新此目标模型。

⑨、如视频输入未结束,返回目标检测模块,再执行目标跟踪模块,即步骤1)~4)。

2.1建立目标模型

说明:

当检测到新目标出现时,建立其颜色、运动、形状模型,在该目标跟踪过程中,计算当前帧目标与上一帧目标的各模型相似度,作为下一步(2.2节)建立的匹配矩阵的元素,匹配完成后更新当前帧目标各模型参数。

算法:

1)颜色模型

为了更好的描述目标颜色特性,我们选择HSV颜色空间,它更符合人类视觉感知特征。在目标分割生成的掩摸区域内,将每个象素的RGB值转换为HSV值,并将三维HSV矢量量化后用一维颜色直方图表示。颜色模型在每一帧中的更新方程为:

<mrow><msub><mover><mi>H</mi><mo>^</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mover><mi>H</mi><mo>^</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>+</mo><mi>&beta;</mi><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>H</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msub><mover><mi>H</mi><mo>^</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>

其中,0<β<1,根据实验确定。<mrow><msub><mover><mi>H</mi><mo>^</mo></mover><mi>i</mi></msub><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>H</mi><mi>i</mi></msub><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow><mo>,</mo></mrow>i=1,...,M,M为颜色直方图最大位数(在一维HSV直方图中,M=72),Hi(k+1)是第k+1帧颜色直方图的第i位。

2)运动模型

检测出的运动目标以外接矩形框标注,对于实时视频序列,每两帧时间间隔Δt比较小,可以认为目标在相邻帧间运动变化缓慢,近似为匀速运动,并分别针对矩形框中心点坐标的x、y方向建立目标二维运动模型,则目标运动可用线性动态模型表示为:

X(t)=AX(t-1)+W(t-1)        Y(t)=Cx(t)+V(t)

<mrow><mi>X</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfenced>Y(t)=[p]       (10)

其中,X(t)、X(t-1)是t、t-1时刻状态向量,其分量分别为象素点位置p和速度Y(t)是t时刻观测向量(即从图象中得到的实际数据)。W为系统噪声,假设W为高斯分布,均值为零,协方差矩阵为Q,取Q=0.01*I,其中I为2×2的单位矩阵。V为观测噪声,其均值为零,协方差矩阵为R,R可以通过求的背景图象中某象素点观测值的方差得到。

根据式(10),由经典卡尔曼滤波器方程可得到对状态向量X在当前帧中的估计值,及在下一帧中的预测值。

3)形状模型:

为降低算法复杂度,目标形状表示为目标区域外接矩形框的长宽比,设某目标外接矩形框平均长度为,宽度为,则根据下式得到其形状模型的长度更新(宽度更新同理可得):

<mrow><mover><mi>h</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mover><mi>h</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>+</mo><mi>&beta;</mi><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mrow><mo>(</mo><mi>h</mi><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><mrow><mover><mi>h</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>

其中,<mrow><mover><mi>h</mi><mo>^</mo></mover><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow><mo>=</mo><mi>h</mi><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow><mo>,</mo></mrow>h(k+1)表示在k+1帧目标外接矩形框的长度值。宽度更新可同理得到,则是更新后目标形状长宽比。

2.2建立匹配矩阵

说明:

跟踪目标i,需要在当前帧多个目标中找出哪一个目标与i对应。本发明通过“匹配矩阵”,分析当前帧目标与上一帧目标的对应匹配关系。

算法:

为了确定相邻帧间目标匹配关系,本发明提出“匹配矩阵”方法。根据目标模型在相邻帧间建立“匹配矩阵”。

设定匹配矩阵的行号i代表当前帧检测到的目标,列号j代表上一帧检测的目标。计算当前帧目标与上一帧目标的运动模型匹配度Mij、形状模型相似度Sij、颜色模型相似度Hij,并将和值:Tij=Mij+Sij+Hij作为匹配矩阵元素值记录。

对于得到的匹配矩阵,需要针对表示当前帧目标的每行寻找最佳的某个上一帧目标匹配,这样的问题在数学上称为指派问题。采用解决线性指派问题的匈牙利算法,必须使得匹配矩阵为n行n列矩阵,如匹配矩阵不满足要求,通过增加假设目标及其测量值(设为0)使其行、列数相同。

通过匹配矩阵,可得到对应于不同的运动状态的五种匹配情况,从而可确定当前帧中多运动目标的运动状态,并更新其模型参数。五种匹配情况分别是:

1)如i行无匹配,则i行所代表的目标为新出现目标;

2)如i行与列中某一元素匹配,则i行代表目标为运动正常情况;

3)如i行与列中多个元素匹配,则i行所代表目标在当前帧发生遮挡;

4)如j列中与行有多个元素匹配,则行中匹配目标是遮挡目标分离产生;

5)如j列目标与行中无目标匹配,则说明j列代表的目标在当前帧消失。

由于以上五种匹配情况在目标跟踪过程中会相互转换,为描述跟踪过程,将这五种匹配情况表示为四种“目标运动状态”:出现新目标、目标运动正常、目标遮挡及分离、目标消失;和三种“匹配情况”:正常情况、遮挡情况、无匹配。

情况1)对应为运动状态“出现新目标”;

情况2)对应为运动状态“目标运动正常”,和匹配情况“正常情况”;

情况3)对应为运动状态“目标遮挡及分离”,和匹配情况“遮挡情况”;

情况4)对应为运动状态“目标遮挡及分离”;

情况5)对应为运动状态“目标消失”,和匹配情况“无匹配”。

2.3运动情况分析及相应跟踪策略:

1)运动情况分析:

说明:

根据相邻帧间目标匹配情况,将目标在监控场景中的运动分为四种情况,并据当前帧匹配情况,确定目标运动状态。

算法:

四种运动情况包括:出现新目标、目标运动正常、目标遮挡及分离、目标消失,这几种运动情况可根据跟踪中目标匹配情况的不同而相互转换(如图4)。

①、出现新目标:

根据当前帧匹配矩阵,判定目标运动状态是“出现新目标”。如果连续Tn帧(实验中取值为4)目标匹配都是“正常情况”,则转为“目标运动正常”状态;如出现目标匹配情况是“无匹配”,则转为“目标消失”状态,连续Tn帧内都是“目标消失”状态,则终止跟踪,删除目标。

②、目标运动正常:

在“目标运动正常”状态时,得到相邻帧间的目标匹配是“正常情况”,则继续“正常跟踪”;如目标匹配出现“无匹配”情况则转为“目标消失”状态;如目标匹配是“遮挡情况”则转为“目标遮挡及分离”状态。

③、目标遮挡及分离:

目标相互遮挡时,依据下一点给出的“目标遮挡时的跟踪”算法,恢复被遮挡目标信息,并以该目标信息继续跟踪,如出现遮挡目标分离,即匹配矩阵中,分离的目标能与当前帧目标一一对应,即匹配为“正常情况”,则由“目标遮挡及分离”状态转为“目标运动正常”状态;如匹配矩阵中出现分离的多个目标与某当前帧目标匹配,即该目标匹配是“遮挡情况”,则运动状态不便;如某分离的目标出现“无匹配”情况则转为“目标消失”状态。

④、目标消失

如目标是“目标消失”状态后,根据其目标模型得到的相邻帧间匹配矩阵,出现连续Tn帧“无匹配”情况,则认为目标消失,该目标跟踪的终止;如Tn帧内目标匹配出现“正常情况”则转为“目标运动正常”状态;如Tn帧内目标匹配出现“遮挡情况”则转为“目标遮挡及分离”状态。

下面针对目标发生遮挡情况的跟踪算法详细介绍。

2)目标遮挡时的跟踪

当目标出现相互遮挡时,多个目标检测为一个目标组,原目标信息可能丢失,而实现跟踪需要识别出目标组中的各个目标,以便在目标分离后仍能有效跟踪目标。目标在被遮挡前的特征是识别遮挡目标组中不同目标的重要依据。在本发明中,针对遮挡情况下的跟踪,通过改进基于目标模型的跟踪方法,实现在目标相互遮挡时能识别不同目标。

①、被遮挡目标的匹配

说明:

在通过匹配情况判断当前帧某目标运动状态是“遮挡”后,跟踪流程第3)步采用的算法如图5所示:由于在当前帧目标被遮挡,其参数无法获取而丢失,因此,首先通过目标在当前帧中的预测值产生多个“虚目标”;建立各“虚目标”模型;再通过它们与目标在上一帧的模型建立匹配矩阵;根据匹配矩阵确定最佳匹配“虚目标”,将其作为恢复的目标参数;最后根据恢复的目标信息分析目标遮挡程度。

算法:

设目标j被遮挡,由目标j产生的“虚目标i”表示为:

<mrow><msubsup><mi>B</mi><mi>j</mi><mi>i</mi></msubsup><mo>=</mo><mo>{</mo><mrow><msubsup><mi>p</mi><mi>j</mi><mi>i</mi></msubsup><mo>,</mo><msub><mi>h</mi><mrow><mi>i</mi><mn>1</mn></mrow></msub></mrow><mo>,</mo><msub><mi>h</mi><mrow><mi>i</mi><mn>2</mn></mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>h</mi><mrow><mi>i</mi><mn>72</mn></mrow></msub><mo>}</mo><mo>,</mo></mrow><mrow><msubsup><mi>p</mi><mi>j</mi><mi>i</mi></msubsup><mo>~</mo><mi>&eta;</mi><mrow><mo>(</mo><msub><mover><mi>y</mi><mo>^</mo></mover><mi>j</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>|</mo><mi>k</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo><msub><mi>S</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow>

其中pji表示“虚目标”中心点,满足高斯分布,均值为第j个目标由卡尔曼滤波器得到的预测位置方差为Sj(k)。{hi1,hi2,...,hi72}是HSV空间一维颜色直方图的各位数。则颜色相似性可计算为:

<mrow><msub><mi>H</mi><mi>j</mi></msub><mrow><mo>(</mo><msubsup><mi>B</mi><mi>j</mi><mi>i</mi></msubsup><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mn>72</mn></munderover><mi>min</mi><mrow><mo>(</mo><mfrac><msub><mi>h</mi><mi>ik</mi></msub><msub><mover><mi>N</mi><mo>^</mo></mover><mi>j</mi></msub></mfrac><mo>,</mo><msub><mover><mi>h</mi><mo>^</mo></mover><mi>jk</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>

式中,表示目标j的在当前帧中估计的象素点数数目和。

将“虚目标”位置作为当前帧目标的测量值,针对遮挡前原目标得到运动模型匹配度。则“虚目标”与未遮挡前目标的匹配度可表示为:

<mrow><msubsup><mi>T</mi><mi>j</mi><mi>i</mi></msubsup><mo>=</mo><msub><mi>M</mi><mi>j</mi></msub><mrow><mo>(</mo><msubsup><mi>B</mi><mi>j</mi><mi>i</mi></msubsup><mo>)</mo></mrow><mo>+</mo><msub><mi>H</mi><mi>j</mi></msub><mrow><mo>(</mo><msubsup><mi>B</mi><mi>j</mi><mi>i</mi></msubsup><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>

根据得到的匹配度建立匹配矩阵,确定最佳匹配的“虚目标”,即“恢复”目标信息。而在当前帧图象中是否能标记遮挡目标,需要判断该目标是否被完全遮挡。下面中将给出分析遮挡目标可见部分的算法。

②、基于概率方法分析遮挡目标:

说明:

由于目标颜色具有稳定性,根据目标被遮挡前的颜色概率分布(先验概率),估计当前帧遮挡目标在目标组中的颜色概率(后验概率),此概率能反映目标被遮挡程度。

算法:

先验概率:

目标在发生遮挡前,其颜色直方图代表了目标颜色概率分布,可得到目标i区域中每个象素的概率P(x|i),如已知t时刻的象素概率,t+1时刻的象素概率更新为:

<mrow><msub><mi>P</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>x</mi><mo>|</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mi>&beta;</mi><msub><mi>P</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>|</mo><mi>i</mi><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&beta;</mi><mo>)</mo></mrow><msubsup><mi>P</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow><mi>new</mi></msubsup><mrow><mo>(</mo><mi>x</mi><mo>|</mo><mi>i</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>16</mn><mo>)</mo></mrow></mrow>

其中,0<β<1,Pi+1new(x|i)是t+1时刻的象素概率。

假设当遮挡情况发生,目标i与其他目标相互遮挡,形成新目标组I。我们可通过获得目标i在被遮挡前掩膜区域内的象素数目,估计其遮挡前在目标组I中的深度:

<mrow><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>A</mi><mi>i</mi></msub><mrow><msub><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>I</mi></mrow></msub><msub><mi>A</mi><mi>j</mi></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>17</mn><mo>)</mo></mrow></mrow>

其中Ai表示目标i未被遮挡前掩膜区域面积,即包含的象素数目。

后验概率:

目标i发生遮挡形成目标组I,虽然由于相互遮挡不能直接分割出目标以更新目标颜色直方图,但目标的颜色直方图代表目标颜色分布特征具有稳定性,同时我们可通过目标遮挡前的颜色直方图作为先验概率,求得其在遮挡目标组I中颜色分布,即后验概率:

<mrow><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>|</mo><msub><mi>x</mi><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow></msub><mo>|</mo><mi>i</mi><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mi>I</mi></mrow></msub><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow></msub><mo>|</mo><mi>j</mi><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>18</mn><mo>)</mo></mrow></mrow>

式中P(xx,y|i)是在目标i区域内坐标x,y处的象素值在目标i颜色直方图中的概率。采用颜色直方图表示目标颜色分布可使得式子的求解简单、实时有效。通过式(18)可得到在目标i区域中某象素在遮挡目标组I中属于目标i的概率,求得的值越大说明该象素在目标组I中属于原目标i概率越大,也即象素未被遮挡的可能性越大,值越低则越可能属于遮挡部分或目标组中其他目标。

实验中首先计算目标j在目标组中的颜色后验概率,如概率达到“可见”阈值Tp(实验中取值为0.6)的象素点数目超过阈值Tpresent(实验中设为目标j未被遮挡前面积的1/2),且其“虚目标”匹配度大于更新阈值Tnew(实验中设定为0.5)则将目标j的匹配“虚目标”信息更新当前目标j模型,并标记目标位置。如在最佳“虚目标”区域内可见象素点数目小于Tlost(实验中设为实验中设为目标j未被遮挡前面积的1/4),且其“虚目标”匹配度小于Tnew,则将目标j视为被完全遮挡,则不能标记目标位置。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号