首页> 中国专利> 基于阈值矩阵和特征融合视觉单词的人物行为识别方法

基于阈值矩阵和特征融合视觉单词的人物行为识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于阈值矩阵和特征融合视觉单词的人物行为识别方法，其特征在于，包括以下步骤：首先采用显著度计算法提取视觉单词，具体如下，对训练视频帧进行显著度计算，取得人物所在的区域位置，然后对区域内外采取不同的阈值进行兴趣点检测，基于取得的兴趣点计算出视觉单词；然后对取得的视觉单词进行建模分析，建立动作的模型；在动作模型建立好后，对测试视频帧采用同样的显著度计算法提取视觉单词，然后将取得的视觉单词作为输入，放入建好的动作模型中进行分类；最后将动作的分类结果作为测试视频中人物行为的标签返回出来，完成人物行为的识别。本发明可以有效地解决复杂场景下人物行为识别准确度的问题。

著录项

公开/公告号CN104616316A

专利类型发明专利
公开/公告日2015-05-13

原文格式PDF
申请/专利权人苏州大学;
展开▼

申请/专利号CN201410222664.2
发明设计人龚声蓉;谢飞;刘纯平;王朝晖;季怡;
展开▼

申请日2014-05-23
分类号G06T7/20(20060101);
代理机构11331 北京康盛知识产权代理有限公司;
代理人伊美年
地址 215123 江苏省苏州市工业园区仁爱路199号
入库时间 2023-12-18 08:49:45

法律信息

法律状态公告日

法律状态信息

法律状态
2017-11-10

授权

授权
2015-06-10

实质审查的生效 IPC(主分类):G06T7/20 申请日:20140523

实质审查的生效
2015-05-13

公开

公开

说明书

技术领域

本发明涉及一种人物行为识别的方法，可用于目标跟踪、人物识别、智能监控、人机交互等多个领域。

背景技术

行为识别的研究和应用已经成为当今世界的热门主题。人机交互系统是人物行为识别的一个典型的应用，人机交互系统利用通过利用图像传感器读入视频，然后使用计算机视觉、图像处理和模式识别等算法进行处理，最终的目的是通过读入的视频识别出其中人物的行为从而做出相应的回应。在整个交互系统中，如何提取出人物行为关键位置的特征来表征行为成为了一个主要的问题，在对特征进行提取过后，对于这些传入的数据，选择不同的模型进行建模分析和识别也非常重要。对于输入的视频，一般可以粗略的将其区分为简单背景和复杂背景。简单背景一般指场景比较单一，如讲课时，老师一般站立在黑板之前，背景除了黑板没有其他目标。复杂背景一般可以认为是动态的背景，即除了前景目标外，背景也存在着少量的运动，如飘动的树叶或者远处的人流。在整个人机交互系统中，必须要考虑到背景对人物目标特征提取的影响。因此，如何能够降低背景对前景的干扰，如何能够更好的选择特征来表示行为成为了人物行为识别需要解决的主要问题。上述的人机交互例子属于计算机视觉中的概念，而完成这项工作的基础就是要对场景中人物的行为进行识别。

行为识别，即输入视频中前景目标的行为进行分析和分类的过程。而人物行为指的就是视频中的前景目标为人，而非汽车，动物。人物行为识别是计算机视觉中的一个重要研究方向，通过对人物特征的提取建立行为模型，然后通过模型的推导求出整个行为的类别，从而达到识别的目的。

从上述的例子可知，人机交互系统中计算机如何能够做出最准确响应完全依赖于对视频帧的人物行为识别的准确性，所以提取出能够充分描述行为的特征，选择准确度高的分类模型来提高识别率成为了人物行为识别需要解决的主要问题。

目前，人体行为分析在诸多方面都有着广泛的应用前景和潜在的商业价值。如基于内容的视频分析，视频监控和安全系统以及人机交互系统；在我们的日常生活中，视频信息已经非常普及。随着视频分享网站的日益扩大，分类和存储相关主题的视频也成为了一个研究的热点，而要对各个视频进行分类存贮的前提是需要知道每个视频中的人物在做的事情，这就需要进行行为的识别；又如监狱内的视频监控系统需要根据犯人的异常行为来给出警告，这时就需要算法可以很好的对犯人的各种行为进行分类，通过与常规行为的比对来判断犯人的行为是否有异常；再如之前提到的人机交互系统，对于讲课的教师的肢体动作来判断是否需要将ppt进行翻页或者后退等操作。所有的应用都需要计算机可以正确的识别出视频中人物所做的行为，因此对人物行为识别已经成为了计算机视觉中的一个重要研究领域。

对于各种不同场景下的输入视频，行为识别的过程基本一致。首先对训练视频进行动作的表征，即提取各种特征来描述行为，然后针对不同的方法，选择不同的模型对这些特征向量(准确的说是视觉单词聚类前的特征，但是一般可以认为是视觉单词)进行建模分析，从而建立各个动作的模型；在动作模型建立好后，同样对测试视频提取特征，然后将特征作为输入，放入建好的动作模型中进行分类，最后将动作的分类结果作为测试视频中人物行为的标签返回出来，达到识别的目的。

目前，对于行为特征提取主要分为两种：基于局部特征的提取和基于全局特征的提取。常见的局部特征提取方法有基于三维Harris角点的方法、基于Cuboids立方体的方法和基于三维SIFT特征的方法，其中基于角点的方法将视频中检测出的三维Harris角点作为视频的时空兴趣点，建立以兴趣点为中心的时空立方体并构建光流直方图和梯度直方图作为特征生成视觉单词，这种方法可以很好地提取出兴趣点周围的运动信息，但是容易受到光照的影响；基于Cuboids立方体的方法使用Gabor滤波检测视频中的兴趣点，之后生成基于Cuboids的视觉单词，由于该视觉单词使用简单的空间立方体，因此该特征不能很好地反映出兴趣点周围的运动变化；基于三维SIFT特征的方法，使用三维SIFT算子作为视频的视觉单词，有效地减少了噪声和光照等因素的影响，但是三维 SIFT特征对于运动信息的表示有一定的欠缺，在遇到两个动作近似的情况下，往往得不到较好地结果。常见的全局特征提取方法如梯度方向直方图和光流直方图将整帧图像作为一个特征，这种方法能够很好的描述图像的运动信息以及运动趋势，但是无法细致的描绘行为的细节特性。并且所有的方法在特征提取时，均对图像进行全局的考虑，没有对前背景区别对待，因此当背景相对复杂时，识别精度会有明显下降。

对于识别时的分类模型，目前主要分为三种：判别式模型分类，时空状态模型分类和主题模型分类。判别式模型方法不会过多地考虑视频序列在时间维度上的信息，他们一般假设所有的视频在每一帧上的人物行为都是独立的，其中的以k近邻分类方法利用训练集视频中行为表征间的距离来区分行为，一般使用离聚类中心最近的类别标记视频。这类方法在训练数据集非常大的情况下，每个特征间距离的比较次数会很多，计算开销就会变的非常大；最为典型的时空状态模型是隐马尔科夫模型(HMM)，该模型由各个状态通过边来相连接而成，假设其中的每个状态都表示在一个特定时刻的行为并且观测变量都是相互独立的，但是这一假设并不符合实际，因此在实际应用中，时空状态模型的识别精度并不高；随着主题模型在文本分类上的巨大成功，近年来大量学者引入了主题模型用于分类识别视频中的行为，不同与前面两种方法，主题模型在对特征进行分类识别时，还加入了高层的语义信息，并且在训练时，无需对训练数据进行人工标注，且运算速度块，识别精度较高，在行为识别领域有较广泛的应用前景。

近年来，大量的研究人员对人物行为识别方法进行了研究与改进，本发明将其分为两类：1)对视觉单词(特征)的更改；2)对模型的更改。

1)对视觉单词(特征)的更改

提取视觉单词的方法一般分为三种：基于整体均匀网格，随机采样和基于关键区域或兴趣点的方式。对于基于整体均匀网络的方法：该方法一般对整个图像进行处理，首先将图像分割成均匀的区域，这些区域可以采用重叠或者非重叠的方式，然后分别对每个区域进行局部特征的提取，例如梯度直方图特征、颜色直方图特征等，并将这些特征映射成为视觉单词。该方法在提取特征时不需要进行太多的预处理，能保留图像所有区域内的相关信息，因此该方法在处理有大量语义信息的场景时比较有效，比如自然场景分类；对于随机采样方法，主要是使用基于随机采样的方式来生成视觉单词。Maré等人为了解决图像或视频分析中经常出现的目标遮挡，尺度和视角，变换等问题，在视觉单词生成过程中，使用随机树在图像上产生多个随机的窗口来进行采样，然后对这些区域数据进行视觉单词生成，最后根据一定的规则创建索引，由于该方法计算简单，时间复杂度很低并且同时鲁棒性较高，因此在处理大规模数据时具有一定的优势；对于基于兴趣点的方法：Jun Yang等人使用DOG检测子检测出图像中的关键点(兴趣点)，之后计算关键点的PCA-SIFT特征作为图像的视觉单词，这种视觉单词具有较好地抗噪性和尺度不变性，并且与传统的SIFT相比，PCA-SIFT在计算速度上也更有优势，但是使用 DOG检测方法无法获得足够多的兴趣点，影响到了后续的图像分类。对于三维的视频， Laptev首先将二维图像中的Harris角点检测方法扩展到了三维空间，从视频中检测出三维Harris角点作为视频的时空兴趣点，建立以兴趣点为中心的时空立方体并构建光流直方图和梯度直方图作为特征生成视觉单词，这种方法可以很好地提取出兴趣点周围的运动信息，但是受到光照的影响。Dollar使用Gabor滤波检测视频中的兴趣点，之后生成基于Cuboids的视觉单词，由于该视觉单词使用简单的空间立方体，该特征不能很好地反映出兴趣点周围的运动变化，并且受到场景变化的影响。Scovanner将二维SIFT扩展到三维，使用三维SIFT算子作为视频的视觉单词，有效地减少了噪声和光照等因素的影响，但是三维SIFT特征对于运动信息的表示有一定的欠缺，在遇到两个动作近似的情况下，往往得不到较好地结果。

2)对模型的更改

常见的分类模型主要分为三种：直接分类法，时空状态模型分类法和不基于模型的分类方法。对于直接分类法：Blank等人使用基于欧式距离的近邻分类方法来获取行为的全局特征，Batra等人则通过近邻分类方法来得到直方图码本单词。但是在图像表征方面，使用欧式距离并不是特别合适。Rodriguez等人使用马氏距离来得到一种可以有效获取原子动作的时空模版。在动作表征方面，有很多方法都基于了关键姿态和原子行为。Sullivan 和Carlsson使用边缘特征来表示关键姿态来识别网球正反手打击动作。Wang等人也使用了边缘特征，但是在聚类过后，他们手工给行为类别进行标记。Weinland使用3D像素值来表征关键姿态。这些方法对于行为的分类仅仅使用单一的帧图像，这样的一个缺点是很多动作类别在单一帧上仅有很少的信息，如果可以将一个时间序列中的所有姿态一起考虑的话，可以很好地减少动作间的歧义性；对于时空状态模型分类法：Yamato等人首先提取出轮廓特征作为码本，使用HMMs来识别不同的网球击打动作。Feng和 Perona使用静态的HMM来找出各个状态中的关键姿态。Weinland等人通过判别式选择模版提取出码本特征，然后使用HMM来获得行为的观测视角。Lv和Nevatia通过使用关键姿态和视角来构建一个行为网络，通过将姿态和视角准确编码来进行状态的转换。 Ahmad和Lee提取多视角作为特征，然后使用多维的HMM来识别不同的行为。Lu和 Little使用混合HMM来处理形状、位置、速度和尺度相融合的特征码本；对于不基于模型的分类方法：Zelnik-Manor和Irani将视频在不同的时间尺度上分割成多个词袋，每个单词都是一个局部块的梯度方向，这种单词注重与行为的运动方向信息但是当行为本身运动不大时，检测效果不佳。Ning等人使用Gabor响应函数代替梯度方向进行了改进，解决了运动幅度小的问题。这两种方法都使用了直方图平均距离来进行分类。Shechtman 和Irani认为这些视频中的小块之间应该在时间和空间上都具有联系，因此他们提出了一个自相似描述子来计算小块之间的相关性。这个描述子由颜色和纹理来描述相互关系。上述的方法在提取局部小块时往往会遇到一个问题，他们都需要使用一个滑动窗口来计算小块，这就导致了计算复杂度的提高。Yuan等人通过检测时空兴趣点来取得时空小块，降低了滑动窗口方法的计算量。

以上这些人物行为识别算法，在视觉单词生成阶段，对于整帧图像往往一起进行处理，没有对前背景分开分析，导致在提取兴趣点和特征时容易造成背景的干扰，在使用特征进行表征时仅仅使用单一的特征，无法全面的描述人物行为，另外，分类模型没有考虑高层语义信息，且训练数据集需要人工标注，增加了训练的复杂性。

发明内容

本发明的目的是为了解决传统兴趣点检测方法和特征提取方法容易受到背景干扰，分类模型准确率不高等问题，通过所提出的方法，可以有效地解决复杂场景下人物行为识别准确度的问题。

本发明的技术方案是：一种基于阈值矩阵和特征融合视觉单词的人物行为识别方法，其特征在于，包括以下步骤：首先采用显著度计算法提取视觉单词，具体如下，对训练视频帧进行显著度计算，取得人物所在的区域位置，然后对区域内外采取不同的阈值进行兴趣点检测，基于取得的兴趣点计算出视觉单词；然后对取得的视觉单词进行建模分析，建立动作的模型；在动作模型建立好后，对测试视频帧采用同样的显著度计算法提取视觉单词，然后将取得的视觉单词作为输入，放入建好的动作模型中进行分类；最后将动作的分类结果作为测试视频中人物行为的标签返回出来，完成人物行为的识别。

显著性算法和兴趣点检测算法具体如下：

(1)显著性算法

显著性算法实际上就是模拟人类的视觉行为，找出图像中引起观察者注意的目标。与原始图像相比，显著图突出了目标，削弱了背景。GBVS模型对于一幅给定的输入图像，首先计算得到它所对应的特征图，然后把这个特征图上的每一个像素(也可以是patch) 看作图的一个节点。节点之间的边代表任意两个节点之间的差异性，差异性的定义如下式：

ω₁((i,j)||(p,q))□d((i,j)||(p,q))F(i-p,j-q) (2)

其中，M(i,j)表示像素点(i,j)所代表的特征值，M(p,q)表示像素点(p,q)所代表的特征值，d((i,j)||(p,q))表示两个点之间的距离，由式1给出，F由式3给出，ω₁指的是这两个节点的差异性，由式2给出。根据公式2的计算，可以得到每一个节点与其他所有节点之间差异性的矩阵，之后归一化矩阵的每一行，得到这个图的一个邻接矩阵A。 GBVS方法把这个矩阵看成是对应的一个马尔科夫链，链上的每一个节点都对应图的节点。根据马尔科夫的思想，任意一个状态经过不断的更新后可以进入一个最终的稳定状态，这表示系统的状态经过下一次跳变已经不发生变化了。邻接矩阵的更新通过式4定义：

ω₁((i,j)||(p,q))□A(p,q)F(i-p,j-q) (4)

再对ω₁的每一行进行归一化后，得到最终状态。通过这个稳定状态，就可以分析单位时间内每个节点被访问到的概率。如果一小簇节点和周围差异性很大，那么从任意一个状态出发，到达这些节点的概率就会很小，这样，这一小簇节点就具有显著性。

(2)兴趣点检测算法

本发明使用了高斯滤波器在空间上对每一帧图像对应的显著图进行滤波，然后使用两个正交的一维Gabor滤波器在时间上进行滤波，之后定义响应函数：

R＝(S*g*h_ev)²+(S*g*h_od)² (5)

其中g(x,y；σ)是一个二维高斯平滑核，S是每一帧的输入图像，h_ev和h_od是一对正交的一维Gabor滤波器：

$h_{ev} (t; τ, ω) = - \cos (2 πtω) e^{- t^{2} / τ^{2}} - - - (6)$

$h_{od} (t; τ, ω) = - \sin (2 πtω) e^{- t^{2} / τ^{2}} - - - (7)$

σ和τ是滤波器空间和时间上的两个尺度参数，ω＝4/τ。对于每个像素点，使用公式5计算出它对应的响应值后，找出其中的局部最大值来作为整个视频的时空兴趣点。

本发明根据GBVS显著图，确定人物的大致区域，对区域内外使用不同的阈值，然后通过计算得到每一个像素点的阈值矩阵后，再寻找局部最大值作为兴趣点。首先定义空间上每个像素对应的阈值：

$w_{i} = (\begin{matrix} {(\frac{S + δ}{S_{in}})}^{- 1} \times ϵ_{in}, pixel> \\ {(\frac{S + δ}{S_{out}})}^{- 1} \times ϵ_{out}, pixel> \end{matrix}) - - - (8)$

其中，S_i是像素对应的显著度值，S_in表示在区域内的所有像素的显著度值的总和。同样的S_out是区域外的所有像素的显著度值之和。δ是一个微小的值，防止分母为0。ε_in和ε_out是两个权重因子，使区域内的权重总是比区域外的权重小。在时间上，我们计算连续的2×ξ的权重序列的平均值：

$\overline{w_{t}} = avg (Σ_{i = t - ξ}^{t + ξ} w_{i}) - - - (9)$

经过式9的计算过后，我们就得到了一个三维的阈值矩阵。在后续的局部最大值的计算中，我们使用这个三维的阈值矩阵来代替单一的阈值。

优选的，所述基于取得的兴趣点计算出视觉单词的方法为：计算兴趣点的3D-SIFT 特征和整帧图像的HOOF特征，然后将所述3D-SIFT特征和HOOF特征利用谱聚类进行聚类，得到视觉单词。

3D-SIFT特征和HOOF特征以及谱聚类具体算法如下：

(1)3D-SIFT特征

在二维空间中，每一个像素的梯度大小和方向可以由式10和11计算得到：

$m_{2 D} (x, y) = \sqrt{L_{x}^{2} + L_{y}^{2}} - - - (10)$

$θ (x, y) = \tan^{- 1} (\frac{L_{y}}{L_{x}}) - - - (11)$

由于在图像中各个像素是离散存在的，无法计算连续的偏导函数，因此在计算L_x和 L_y时使用离散的近似算法来得到具体的值。对于L_x，使用L(x+1,y)-L(x-1,y)来近似，对于L_y，用L(x,y+1)-L(x,y-1)来近似。对于三维梯度可以由以下公式得到：

$m_{3 D} (x, y, t) = \sqrt{L_{x}^{2} + L_{y}^{2} + L_{t}^{2}} - - - (12)$

θ(x,y,t)＝tan^-1(L_y/L_x) (13)

$φ (x, y, t) = \tan^{- 1} (\frac{L_{t}}{\sqrt{L_{x}^{2} + L_{y}^{2}}}) - - - (14)$

其中φ是一个范围在中，表示二维平面梯度方向的角度。每个点的梯度方向都由一个唯一的点对(θ,φ)来表示。在计算时，与二维梯度计算一样，也利用离散差分方法来近似求取偏导函数的值。对于一个候选点，计算它周围的每个像素点的梯度值和方向，然后统计梯度方向直方图，得到一个主方向，之后利用式15：

$(\begin{matrix} \cos θ \cos φ & - \sin θ & - \cos θ \sin φ \\ \sin θ \cos φ & \cos θ & - \sin θ \sin φ \\ \sin θ & 0 & \cos θ \end{matrix}) - - - (15)$

将所有像素点的梯度方向旋转到这个主方向上，重新统计直方图的每个bin的大小，并利用式16和17：

加权得到最终的bin值。将所有的bin值展开成为向量作为最终的SIFT特征。

(2)HOOF特征

在图像中，假设E(x,y,t)为点(x,y)在时刻t的灰度。设t+Δt时刻该点运动到 (x+Δx,y+Δy)点，他的灰度为E(x+Δx,y+Δy,t+Δt)。根据光流约束方程，由于对应的是同一个点，因此得到式18：

E(x,y,t)＝E(x+Δx,y+Δy,t+Δt) (18)

将上式右边做泰勒展开，并令Δt→0，则得到式19：

E_xu+E_yv+E_t＝0 (19)

其中： $E_{x} = \frac{dE}{dx}, E_{y} = \frac{dE}{dy}, E_{t} = \frac{dE}{dt}, u = \frac{dx}{dt}, v = \frac{dy}{dt},$ 通过使用离散差分近似计算偏导函数，最终计算出u和v作为光流特征的两个维度值。在计算得到光流后，假设光流向量v＝[x,y]^T，他的方向的大小在范围根据它的角度，我们将它分到第b个直方图分量中。最后，归一化直方图，使它所有分量之和为一。

(3)谱聚类

给定一个数据点集X₁,…,X_n，定义相似度矩阵S，其中S_ij表示X_i和X_j之间的相似性。非归一化的拉普拉斯矩阵定义如下L＝D-S，其中D是一个对角矩阵

Step1 计算相似性矩阵S∈R^n×n

Step2 计算非归一化拉普拉斯矩阵L

Step3 计算L矩阵的前k个特征向量u₁,…u₂

Step4 构造一个矩阵U∈R^n×k，其中每一列是一个向量u₁,…u₂

Step5 使用k-means聚类算法对矩阵U进行聚类计算，得到聚类中心

进一步的，所述动作模型为TMBP主题模型。

TMBP模型具体如下：

TMBP模型本质上属于LDA模型，只不过在参数推导过程中不使用传统的BP和GS 算法，而是将原本的LDA模型转化成与其等价的因子图，利用信念传播的理论对参数进行推理。

为了使参数推导更为简便，TMBP模型基于了三个假设：

1)相同的文档中不一样的单词索引倾向于赋予它们相同的主题；

2)不同的文档中的相同单词索引也倾向于赋予相同的主题；

3)所有的单词索引不能赋予相同的主题。

TMBP模型的因子图表示如图1：

在单词层，原本的w和z合并为一个变量z_w,d，它分别由z_-w,d和z_w,-d所影响，其中 z_-w,d表示文本d中除了单词w外的其他单词所属的主题的索引，z_w,-d表示单词w在除了文本d外的其他文档所属的主题的索引；z_w,d表示文档d中单词w所属的主题的索引；在文档层的θ_d和φ_k不变，与LDA模型中的定义一致，分别表示文档在主题上的分布和主题在单词字典上的分布；在最外层的α和β是两个超级参数，用来约束变量θ_d和φ_k。在一般情况下，超参确定了两个参数θ和φ的稀疏性。文献给出了超参推导的具体方法。为了避免推导的复杂性，一般将两个Dirichlet超参α和β设置为α＝50/K，β＝0.01。

本发明的优点是：

1)针对复杂和动态背景容易造成兴趣点误检，影响检测精度的问题，提出了基于显著图和阈值矩阵的兴趣点检测方法(SMTM-IPD)。该方法使用显著图模型来提取出视频中前景人物目标区域，对区域内外使用不同的阈值来降低背景兴趣点个数，有效保留人物附近兴趣点。在KTH和UCF数据库的实验对比表明，提出的方法可以很好地降低背景影响，突出前景的目标，并能解决单一阈值造成的兴趣点全局增减的问题，有效地去除了背景兴趣点从而降低了误检率。

2)针对人物行为姿态多变，噪声干扰大，运动幅度变化不一等情况，提出了一种融合多特征的视觉单词生成方法(3DSH)。该方法融合了3D-SIFT和HOOF特征，具有3D-SIFT 特征的尺度不变性和抗噪性，可以很好地描述姿态多变，尺度不同的行为，又具有HOOF 特征对全局运动信息的描述，能很好解决运动幅度变化不一的问题。与现在比较流行的7 种视觉单词生成方法的实验对比表明，相对于流行的局部特征视觉单词生成方法，提出的方法在简单行为的KTH数据集上的平均识别率相对于比较的7种方法提高了7.7％，在复杂动态的UCF行为数据集上的平均识别率相对于比较的4种方法提高了14％。

3)针对现有LDA主题模型在单目标人物行为识别参数推导过程中没有考虑相同视频中不同视觉单词和不同视频中相同视觉单词之间存在的概率关系导致了识别精度不高的问题，提出了基于TMBP模型的人物行为识别方法。该方法根据信息传递的思想把LDA 模型表示成因子图，以一定的概率将每个视觉单词索引赋予各个主题，在参数推导过程中保留所有的后验概率信息，并且在视频处理中的视频、视觉单词和行为标签与文本处理中的文档、单词和主题分别一一对应，因此主题模型的方法完全可以很好地应用于视频处理中。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为TMBP模型的因子图表示。

图2为个显著度模型的对比结果。

图3为KTH数据集上使用单一阈值和使用阈值矩阵测兴趣点的结果。

图4为在UCF数据集上使用单一阈值和使用阈值矩阵测兴趣点的结果。

图5为KTH和UCF上单词数对召回率的影响。

具体实施方式

实施例：本发明算法对多种场景下的人物行为进行了实验。硬件环境：Intel(R) Core(TM)i5@2.50GHz，4G内存，512M AMD显卡；软件环境：Windows7.0操作系统， Matlab2010a。整个实验对两个行为数据集进行了分类测试，分别是KTH数据集以及从 UCF数据集中取出的6种具有代表性的动作集。KTH数据集包括boxing(打拳)、 handclapping(拍手)、handwaving(招手)、jogging(慢跑)、running(快跑)和walking(步行) 几个动作，由25个人物在4种场景下完成，每个动作100个视频，共计600个视频。从 UCF数据集中选出的6种动作分别为：diving(跳水)、horse riding(骑马)、lifting(举重)、 swing bench(鞍马)、swing sideangle(高低杠)和tennis(网球)。在整个实验中，本发明首先使用GBVS对整个视频计算显著性图像，之后使用区域生长的方式，确定人物的大致位置，以σ＝2，τ＝2为尺度来寻找时空兴趣点。在生成阈值矩阵时，参数确定为δ＝e^-6， ε_in＝10^-6，ε_out＝10^-3。

图2给出了各种显著性模型的对比结果。基于剩余光谱的显著性模型的检测结果可以勾勒出显著度的细节信息，但是从图中可以看出左下角有一片高亮区域，这是视频中的一个高亮时间标签，模型对亮度较为敏感，因此突出了该区域。PQFT模型容易将近景的目标分割成多个显著区域，检测出的人物目标区域很小，并且背景区域和人物区域的显著度差距不大。ITTI模型在处理复杂场景时效果不好，背景干扰严重。GBVS 显著性更能突出场景中的前景目标，可以最大程度上减少背景对后续操作的影响，并且在预测人物定位时比其他方法更加准确可靠。因此本发明选择使用GBVS显著性模型对原始视频进行处理来获取前景目标区域。

图3和图4分别给出了使用统一阈值和使用阈值矩阵在KTH和UCF数据集上兴趣点检测的结果。由于前一步使用了显著图的关系，兴趣点的检测精度得到了提高，但是数量却有所下降。然而使用单一阈值产生的问题是，如果单方面的调节阈值，兴趣点数量会在整个图像中整体增加，但是我们仅仅希望兴趣点在人物周围有所增长，而在背景部分要尽可能的少。因此我们使用阈值矩阵，对前景和背景采取不一样的阈值可以有效地解决单一阈值造成的全局兴趣点数量增加的问题，使得兴趣点数量仅仅在人物周围增长。从实验对比结果来看，阈值矩阵可以很好地克服单一阈值造成的问题。

表1在KTH库上使用不同分类模型在各个方法上识别率的对比结果(％)

表2在UCF库上使用不同分类模型在各个方法上识别率的对比结果(％)

表1和表2是使用不同的分类方法在KTH和UCF数据库上的识别率的对比结果。整个实验使用了3个常见的主题模型：pLSA、LDA、TMBP和一个经典的分类方法SVM 来进行对比。SVM分类器实现简单，分类精度较好，从表上可以看出，使用常见的pLSA 和LDA模型在分类精度上都无法超过SVM分类器，使用TMBP模型在大部分类别精度上都可以超过SVM分类器方法。pLSA模型由于在文档层面没有一个统计模型，模型中参数的个数随文档和单词的个数的增加呈线性增加，使得模型变得越来越庞大而它所采用的EM算法需要反复迭代，计算量很大，收敛较慢。而LDA是一种层次贝叶斯模型，模型中的参数全部看作随机变量，并且为文档层变量引入了语料库级控制参数，即：超级参数，使得LDA模型对外始终只有两个参数，从而实现彻底的概率化。因此LDA模型的精度要高于pLSA模型，实验表格中的pLSA和LDA行中的识别精度也能够很好地证明这一论断，对于每种不同的视觉单词生成方法，LDA模型的平均识别精度要比pLSA 高出0.5％，而使用TMBP模型相比于LDA模型，平均识别精度要高出0.7％，这是因为LDA模型所采用的GS和VB近似推理算法的精度都不是非常的理想，而TMBP模型本质上是使用BP算法来对LDA模型进行推理，BP算法一种更加快速和高精度的学习算法，其在近似推理的过程中是对文档的单词索引分析，并以一定的概率将每个单词索引赋予各个主题，其在训练速度和精度上均优越于GS和VB算法。

图5是不同的视觉单词数量对行为识别召回率的影响。实验中，以500个单词数量为单位，逐渐增加，可以看出，当单词数量过多或过少时，结果均不是最优。单词数量过少，就会忽略特征间的细节，不能够充分描述人物的行为。单词数量过多，单词与单词之间就会存在大量的冗余信息，也会影响最后的识别结果。在对KTH数据集进行聚类时，一共得到45万个特征向量，使用谱聚类将这些特征聚成2000个视觉单词时，效果最好。在对UCF数据进行聚类时，一共得到23万个特征向量，视觉单词数量在1500个时可以获得最佳结果。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于阈值矩阵和特征融合视觉单词的人物行为识别方法 [P] . 中国专利： CN104616316B . 2017.11.10
2. 基于阈值矩阵和特征融合视觉单词的人物行为识别方法 [P] . 中国专利： CN104616316A . 2015-05-13
3. Speech Recognition Method and Device by Integrating Audio, Visual and Contextual Features Based on Neural Networks [P] . 韩国专利： KR100576803B1 . 2006-05-10

机译：基于神经网络的音频，视觉和语境特征融合的语音识别方法和装置
4. EXTRACTION METHOD FOR INFORMATION ON COLOR AND SHAPE FEATURE IN VISUAL INSPECTION SYSTEM FOR OBJECT, OBJECT DISCRIMINATION METHOD BASED ON COLOR AND SHAPE FEATURE AND VISUAL INSPECTION SYSTEM FOR OBJECT [P] . 日本专利： JP2001013007A . 2001-01-19

机译：对象视觉检查系统中颜色和形状特征信息的提取方法，基于对象视觉颜色系统的颜色，对象识别方法
5. METHOD AND SYSTEM FOR FACE RECOGNITION BY MEANS OF DICTIONARY LEARNING BASED ON KERNEL NON-NEGATIVE MATRIX FACTORIZATION, AND SPARSE FEATURE REPRESENTATION [P] . 世界知识产权组织专利： WO2018149133A1 . 2018-08-23

机译：基于核非负矩阵分解和稀疏特征表示的基于字典学习的人脸识别方法和系统