首页> 中国专利> 基于视觉大数据驱动的群体性行为分析的视频监控方法

基于视觉大数据驱动的群体性行为分析的视频监控方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种计算机实现的视频监控方法，包括步骤：接收由摄像机捕获的视频数据；根据接收到的视频数据建立群体性行为模型；估计所述群体性行为模型的参数，获得场景中存在的多种人群行为；使用得到的群体性行为模型获得不同人群的行为特征集；对得到的行为特征集进行转换，并使用转换的行为特征集来针对每种人群行为得到统计的人数值。根据本发明的方法，摄像头角度设置具有普遍适用性，可以用于开放出入口人数统计；并且计算量小，可以满足实时视频处理的要求。

著录项

公开/公告号CN103679215A

专利类型发明专利
公开/公告日2014-03-26

原文格式PDF
申请/专利权人中国科学院自动化研究所;
展开▼

申请/专利号CN201310746795.6
发明设计人黄凯奇;康运锋;曹黎俊;张旭;
展开▼

申请日2013-12-30
分类号G06K9/66(20060101);G07C9/00(20060101);H04N7/18(20060101);
代理机构11021 中科专利商标代理有限责任公司;
代理人杨静
地址 100190 北京市海淀区中关村东路95号
入库时间 2023-12-17 01:05:13

法律信息

法律状态公告日

法律状态信息

法律状态
2017-03-01

授权

授权
2014-04-23

实质审查的生效 IPC(主分类):G06K9/66 申请日:20131230

实质审查的生效
2014-03-26

公开

公开

说明书

技术领域

本发明涉及一种视频监控方法，特别涉及一种基于视觉大数据驱动的群体性行为分析技术的视频监控方法。

背景技术

大多数传统的监控系统需要专门的监控人员针对监控视频进行人工判断。这需要耗费大量的人力，而且人长时间专注于一件事情，可能会疏忽某些异常情况，从而带来不利后果。智能视频监控系统可以识别不同的对象，当发现监控画面中的异常情况时，能够以最快和最佳的方式发出警报和提供有用信息，从而能够更加有效的协助监控人员获取准确信息和处理突发事件，并最大限度的降低误报和漏报现象。

相关技术中，根据人群行为检测方法的不同可以将视频监控方法分为两类。一类方法基于运动跟踪的多人行为识别方法，该方法受到人群中人数的挑战。当人数较多时，遮挡严重，无法进行单人跟踪，因此只能应用于场景简单且人数少的情况。第二类方法基于特征学习或构造行为模型的人群行为识别方法，多用于人群中异常行为检测，如人群聚集、人群散开、以及人群奔跑和群殴等异常行为等。该方法更适合于人多场景，通过提取特征，建立模型，并使用机器学习方法获得模型参数，有利于提高检测率。但是一种模型不能描述所有的行为，因此对特定的行为需要不同的模型。另外缺少训练样本仍然给获得最优的模型参数带来挑战。

发明内容

本发明的目的是提供一种视频监控方法，能够检测并识别人群行为，并统计不同行为人群的人数。

为了实现上述目的，一种视频监控方法可以包括步骤：

1)接收由摄像机捕获的视频数据；

2)根据接收到的视频数据建立群体性行为模型；

3)估计所述群体性行为模型的参数，获得场景中存在的多种人群行为；

4)使用得到的群体性行为模型获得不同人群的行为特征集；

5)对得到的行为特征集进行转换，并使用转换的行为特征集来针对每

种人群行为得到统计的人数值。

根据本发明的技术方案，其优点在于：1)数学模型简单，参数少，训练方便；2)可用于人群拥挤环境，计算特定行为人数的累积量；3)摄像头角度设置具有普遍适用性，可以用于开放出入口人数统计；4)计算量小，可以满足实时视频处理的要求。

附图说明

图1示出了根据本发明实施例的视频监控方法的流程图；

图2示出了根据本发明实施例的词-文档模型结构；

图3示出了根据本发明实施例的现场场景示例；

图4示出了根据本发明实施例的现场场景中不同人群行为特征集；

图5示出了根据本发明实施例的几何校正示意图；

图6示出了根据本发明实施例得到的现场园区人数变化示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。此外，以下实施例中提到的方向用语，例如“上”、 “下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本发明。

根据本发明的技术方案，首先针对场景人群的复杂性，使用群体性行为模型来挖掘场景中的多种行为；然后，根据检测到的K类人群行为，针对每类人群获得行为特征集；然后，将得到的行为特征集转换为例如5维特征向量，以便减少特征维数，并通过关联时间参数，获得一个5*G维特征向量；然后，利用得到的5*G维特征向量训练人工神经网络，从而统计每类人群的行为人数的累积量。本发明实施例的整个技术方案流程图如附图1所示。下面对本发明的实施例进行详细说明。

步骤1：接收由摄像机获取的视频数据，并可以对接收到的视频数据进行例如去噪等处理。

步骤2：基于接收到的视频数据建立群体性行为模型。

由于人群行为的复杂性，通常在一个场景中存在不同的人群行为，难于用单一模型描述所有行为。因此可以通过群体性行为模型来获取每种行为的特征集，并使用行为特征集做人群分析。该群体性行为模型可以是一种词-文档模型，即：底层特征作为词，视频片段作为文档，从而挖掘视频中的人群行为，即隐含主题，并获得每种人群行为的特征集，即底层特征集合。

本发明实施例采用的模型底层特征为局部运动信息。例如，可以通过帧差法获得运动像素，然后使用光流法(Horn B K P，Schunck B G. Determining optical flow[J].Artificial intelligence，1981，17(1)：185-203) 来计算运动像素的速度向量，进而得到运动像素的特征，即位置和运动速度。这里，把每个运动像素作为一个词w_i，一段视频可以包括M帧图像，即M个文档，每个文档可以用一个词集表示，即，文档W＝{w_i，i＝1，...，N}，其中w_i＝{x_i，y_i，u_i，v_i}，N是该视频帧中的像素数目，x表示像素的水平位置， y表示像素的垂直位置，u表示像素沿水平方向的速度，v表示像素沿垂直方向的速度。当然，本领域技术人员可以采用运动估计领域中的其他公知技术来表示文档W。

图2示出了本发明实施例使用的词-文档模型结构。其中，α表示文档集合中隐含主题间的相对强弱，β表示所有隐含主题自身的概率分布，随机变量π_j表征文档层j，随机变量π_j的大小表示目标文档中各隐含主题的比重。在词层，z_ji表示目标文档j分配给每个词i的隐含主题份额，x_ji是目标文档的词向量表示形式。假设有K个行为主题，则每个主题是词的多项分布，α可以是语料库的Dirichlet分布。对于每个文档j，Dirichlet分布 Dir(π_j|α)是以π_j为参数。对于在文档j中的每个词i，主题z_ji的概率分布为π_jk，词x_ji是关于参数的多项分布。其中π_j和z_ji为因变量，α和β是需要优化的参数。当给定α和β时，随机变量π_j、主题z_j＝{z_ji}、词x_j＝{x_ji} 的联合概率分布如公式(1)所示：

$(\begin{matrix} p (x_{j}, z_{j}, π_{j} | α, β) = p (π_{j} | α) Π_{i = 1}^{N} p (z_{ji} | π_{j}) p (x_{ji} | z_{ji,} β) \\ = \frac{Γ (Σ_{k = 1}^{K} α_{k})}{Π_{k = 1}^{K} Γ (α_{k})} π_{j 1}^{α_{1} - 1} \cdot \cdot \cdot π_{jk}^{α_{k} - 1} Π_{i = 1}^{N} π_{{jz}_{ji}} β_{z_{ji} x_{ji}} \end{matrix}) - - - (1)$

因此，构建词-文档模型的核心问题是隐含变量分布的推断，即获得目标文档内部隐含主题的构成信息(π，z)。然而，由于后验分布p(z_j，π_j|α，β)不容易计算，则可以利用如下所示的公式(2)的变分分布来近似该分布：

$q (z_{j}, π_{j} | γ_{j}, φ_{j}) = q (π_{j} | γ_{j}) Π_{i = 1}^{N} q (z_{ji} | φ_{ji}) - - - (2)$

其中，γ_j为Dirichlet分布q(π_j|γ_j)的参数，{φ_ji}为多项分布q(z_j|φ_j)的参数。(γ_j，φ_j)可以通过计算logp(x_j|α，β)的最大值获得。

步骤3：估计群体性行为模型的参数，获得场景中存在的各种人群行为。

最优参数(α，β)可以通过计算logp(x_j|α，β)的最大值获得，如公式(3) 所示。

$(α^{*}, β^{*}) = \underset{(α, β)}{\arg \max} Σ_{j = 1}^{M} \log p (x_{j} | α, β) - - - (3)$

同样由于p(x_j|α，β)不容易直接计算，可以通过一种变分的最大似然估计EM方法来估计参数(α，β)：在E-step中，对于每个文档j，找到最优的变分参数，使用由E-step获得的最优变分参数的变分分布来近似上述公式(2)，通过两步循环计算，获得最优参数(α^*，β^*)。

作为示例，图3示出了接收的视频数据的某帧图像，其中使用本发明实施例的群体性行为模型挖掘到该场景下包括例如四个隐含主题(人群行为)，即：向上运动、向下运动、向左运动、向右运动。

步骤4.：使用得到的群体性行为模型获得不同人群行为特征集。

视频中的每帧图像都包含不同的人群行为，可以使用在步骤3中得到的群体性行为模型的参数，通过词-文档模型获得每种人群行为的特征集，如下式(4)所示。

$(\begin{matrix} f_{k^{*}} = {x_{k^{*} i} | i = 1, . . ., F} \\ k^{*} = \underset{k \in {1, . . ., K}}{\arg \max} p (x_{i}, z_{k, i} | α, β) \end{matrix}) - - - (4)$

其中，为第k*个行为的特征集，F为第k*个行为的特征集中特征的个数，x_ki为词是第k种行为的第i个像素点的特征。

图4示出了场景中的人群行为，其中利用光流特征点(图像中只显示了部分特征点)来表示不同的行为，图中有三种人群行为：矩形区域1中的特征点表示向上运动、矩形区域2中的特征点表示向左运动、矩形区域 3中的特征点表示向下运动。

步骤5：对得到的行为特征集进行转换，并使用转换的行为特征集来针对每种行为得到统计的人数值。

以上通过群体性行为模型获得了不同的人群行为以及每种行为的特征集。尽管行为特征集也可以描述行为人群的人数，但特征维数较高，参数训练时间较长，并且不能直接获得累积人数。因此，根据本发明的方法，可以将每帧图像的行为特征集转换为5维特征向量，由此降低特征维数。同时，可以将时间参数加入行为特征集中，对于利用上述式(4)得到的每个行为特征集，可以获得一个5*G维的特征向量 NF＝{AS_G，SV_G，DV_G，DD_G，NP_G}，其中G为时间参数，表示G个帧，用于统计特定行为人数的累积量。具体地，可以利用以下方法来得到上述5*G维特征向量：

(1)平均速度向量AS_G：

AS_G＝{AS_g，g＝1，...，G}，其中AS_g为第g帧图像的平均速度，可以如式 (5)所示得到AS_g。

${AS}_{g} = \frac{1}{F} Σ_{i = 1}^{F} \sqrt{v_{gi}^{2} + u_{gi}^{2}} - - - (5)$

其中，u_ji和v_gi分别表示第g帧图像中第i个特征的x和y方向速度分量。

(2)速度方差向量AV_G：

SV_G＝{SV_g，g＝1，...，G}，其中SV_g为第g帧图像的速度方差，用于衡量每帧图像中光流速度的复杂度，可以如式(6)所示得到SV_g。

${SV}_{g} = \frac{1}{F} Σ_{i = 1}^{F} {(\sqrt{v_{gi}^{2} + u_{gi}^{2}} - {AS}_{g})}^{2} - - - (6)$

(3)方向方差向量DV_G：

DV_G＝{DV_g，g＝1，...，G}，其中DV_g为第g帧图像的方向方差，用于衡量光流方向的复杂度，可以如式(7)所示得到DV_g。

${DV}_{g} = \frac{1}{8} Σ_{i = 1}^{8} {({ND}_{gi} - {\overline{ND}}_{g})}^{2} - - - (7)$

将0～360°分为8个区间，把每种行为特征集中光流的方向特征按着角度区间投票，获得每种行为的方向直方图。ND_gi为方向直方图的第i个区间的统计值，为{ND_gi，i＝1，...，8}的平均值。

(4)方向散度向量DD_G：

DD_G＝{DD_g，g＝1，...，G}，其中DD_g为第g帧图像的方向散度，可以如式 (5)所示得到DD_g。

$(\begin{matrix} {DD}_{g} = Σ_{i = 1}^{8} {ND}_{gi} \times | {RD}_{g} (i) | \\ {RD}_{g} (i) = \mod (i - {MD}_{g}, 8) - 8 \times (\mod (i - {MD}_{g}, 8) \geq 4) \end{matrix}) - - - (8)$

其中MD_g＝max(ND_gi)，i＝1，...，8。

(5)行为像素总数向量

由于监控场景景深一般较大，场景在图像平面上的投影存在比较严重的透视现象(同样的物体，离摄像机近看起来大，离摄像机远看起来小)，因此需要对图像平面上不同像素的贡献作加权处理。假设地面是平面，人垂直于地面。如图5所示，设消逝点P_v的坐标为(x_v，y_v)，参考线为y_r＝H/2，则可以如式(9)所示得到图像平面上任意一个像素I(x，y)的贡献因子。

$S_{C} (x, y) = {(\frac{y_{r} - y_{v}}{y - y_{v}})}^{2} - - - (9)$

则针对该行为的像素总数为：该行为的像素总数向量为NP_G＝{NP_g，g＝1，...，G}

获得5*G维特征向量后，通过手工标定进出两种不同行为的人数，用于训练人工神经网络模型，将训练好的神经网络模型用于进出人数统计。可以使用公知的神经网络方法来获得人数统计。实验通过统计该场景下出口的进门人数与出门人数之差的方法获得进入园区内的总人数。图6(a) 示出了现场某帧图像进出行为人群的人数。在图像右上角用红色字体表示出从开始计数到目前为止进门人数与出门人数：进(In)：157，出(Out)： 39，图像中仅显示了部分光流特征点，椭圆区域1中的特征点表示“出”，椭圆区域2中的特征点表示“进”，箭头表示特征点运动方向，黑色框为人数统计区域。图6(b)示出了园区内人数的变化(每2分钟为单位)，其中园区内人数统计的平均正确率为92.35％。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而己，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于视觉大数据驱动的群体性行为分析的视频监控方法 [P] . 中国专利： CN103679215B . 2017.03.01
2. 基于视觉大数据驱动的群体性行为分析的视频监控方法 [P] . 中国专利： CN103679215A . 2014-03-26
3. USER BEHAVIOR ANALYSIS METHOD AND SYSTEM BASED ON BIG DATA MINING [P] . 世界知识产权组织专利： WO2018137104A1 . 2018-08-02

机译：基于大数据挖掘的用户行为分析方法和系统
4. method for video surveillance of an area with behavioral analysis and computer system for implementing the method [P] . SE534706C2 . 2011-11-22

机译：具有行为分析的区域视频监控方法和实现该方法的计算机系统
5. method for video surveillance of an area with behavioral analysis and computer system for implementing the method [P] . SE1000386A1 . 2011-10-17

机译：具有行为分析的区域视频监控方法和实现该方法的计算机系统