首页> 中国专利> 基于自顶向下运动注意机制的视频事件识别方法

基于自顶向下运动注意机制的视频事件识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明是一种基于自顶向下运动注意机制的视频事件识别方法，包括步骤S1：利用高斯差分检测子，在计算机上检测视频集中每一个视频每一帧的兴趣点，所述视频集包括：训练视频集和测试视频集；步骤S2：对检测得到每一帧的兴趣点提取尺度不变特征描述子特征和光流特征；步骤S3：建立表观词汇表和运动词汇表；步骤S4：在训练视频集上学习每一个运动单词关于每一类事件的概率并由此建立基于运动信息的注意直方图；步骤S5：采用推土机距离计算视频集中的视频之间的相似度，并生成核函数矩阵；步骤S6：利用得到的核函数矩阵对支持向量机分类器进行训练，得到分类器参数并对测试视频集分类，输出分类结果。

著录项

公开/公告号CN102034096A

专利类型发明专利
公开/公告日2011-04-27

原文格式PDF
申请/专利权人中国科学院自动化研究所;
展开▼

申请/专利号CN201010591513.6
发明设计人胡卫明;李莉;
展开▼

申请日2010-12-08
分类号G06K9/00(20060101);G06K9/66(20060101);
代理机构11021 中科专利商标代理有限责任公司;
代理人梁爱荣
地址 100190 北京市海淀区中关村东路95号
入库时间 2023-12-18 02:05:01

法律信息

法律状态公告日

法律状态信息

法律状态
2013-03-06

授权

授权
2011-06-15

实质审查的生效 IPC(主分类):G06K9/00 申请日:20101208

实质审查的生效
2011-04-27

公开

公开

说明书

技术领域

本发明涉及计算机应用技术领域，特别涉及视频事件识别方法。

背景技术

近几年来，随着Internet的飞速发展，视频压缩技术、DVD、WebTV、第三代移动通信技术(3G)等技术的推广和普及，尤其是宽带网的建设使得人们交互访问视频信息的机会越来越多，一些视频门户网站应运而生，如国内的优酷和土豆网，国外的youtube等。世界上的视频信息制作者，如电视台、电影制片商、广告制作商等，甚至各种各样的数字捕捉设备如数码相机、数码摄像机等已走入平常百姓家，每时每刻都在源源不断地生产制作出新的视频材料，数字视频媒体已开始大量充斥人们的生活空间。

如何使人们对视频中包含的有用信息进行快捷定位、方便获取以及有效管理是一个亟待解决的问题，该问题的本质就是如何用计算机技术对视频内容进行有效管理和表达；而视频内容理解已经是国际上的一个研究热点，很多研究人员开始运用相关的视频数据处理技术来提取视频中隐含的、有用的、可以理解的语义信息，从而实现视频内容理解。视频信息有其自身的特点，那就是数据量大，结构性差，所以视频信息膨胀带来的问题也非常严重。很多领域由于对大量的视频信息无法有效的处理而导致采集的视频信息闲置。

事件识别一直都是TRECVID的主要任务之一。随着网络上各种多媒体信息的不断丰富，基于内容的多媒体检索技术越来越受到关注和重视。目前，基于内容检索所面临的最大问题就是底层特征和高层语义之间存在的“语义鸿沟”。视频事件的检测与识别是将计算机视觉技术与基于内容的多媒体检索技术相结合，联系上下文的信息和相关的领域知识，融合各种线索进行推理，以事件为基础建立底层特征和高层语义之间的联系。通过建立基于事件的视频语义描述，我们可以对多媒体视频进行更高层次的语义分析，建立高效的索引和检索机制。以前的视频分析都局限于一些固定摄像机下的视频或者是严格控制的视频如Weizman、KTH、IXMAS等数据库，不同于普通视频，事件检测中的视频都来源于真实视频如新闻广播视频、体育比赛视频和电影中的视频等，这就使得事件检测面临了诸多挑战：无序的运动、复杂的背景、目标的遮挡、光照以及目标的几何形变等等。

通常一个视频事件是由是什么(what)和如何发生(how)个方面描述。what通常指的是视频帧镜头特征，即表观特征，例如人、物体、建筑物等；how通常指的是视频的动态特征即运动特征。运动信息是视频数据所独有的，它表示了视频内容随时间的发展变化情况，对于描述和理解视频内容具有相当重要的作用。如何有效地融合这两个方面也是一个很有挑战性的问题。但是目前还缺乏有效的描述事件的方法，这主要是因为目前的方法只考虑事件的某一方面，如what或者是how，尤其是有些方法只利用运动的分布信息，这种方法在真实视频中并不鲁棒。对于两者的融合方面目前的工作都很少，而且对于传统的融合方法如先融合与后融合方法，基本上都是自底向上的，只是盲目地去将事件的两个方面结合起来，并不是任务驱动的。

发明内容

(一)要解决的技术问题

为了解决现有技术背景信息对分类过程的干扰，使得提取到的特征具针对性不强，识别的准确度低的技术问题，为此本发明的目的是提供一种视频静态特征和动态特征融合的基于自顶向下运动注意机制的视频事件识别方法。

(二)技术方案

为达到上述目的，本发明提供了一种基于自顶向下运动注意机制的视频事件识别方法，该方法的解决技术问题的技术方案包括：

步骤S1：利用高斯差分检测子，在计算机上检测视频集中每一个视频每一帧的兴趣点，所述视频集包括：训练视频集和测试视频集；

步骤S2：对检测得到每一帧的兴趣点提取表观特征和运动特征，所述表观特征为尺度不变特征描述子特征，所述运动特征为光流特征；

步骤S3：对得到的尺度不变特征描述子特征和光流特征进行聚类，并分别建立表观词汇表和运动词汇表；

步骤S4：在训练视频集上学习每一个运动单词关于每一类事件的概率并建立基于运动信息的注意直方图；

步骤S5：利用视频集的基于运动注意直方图特征，采用推土机距离计算训练视频集与训练视频集之间的相似度、及训练视频集与测试视频集之间的相似度，并生成核函数矩阵；

步骤S6：利用得到的核函数矩阵对支持向量机分类器进行训练，得到分类器参数，利用训练好的支持向量机分类器模型对测试视频集分类，输出测试视频集的分类结果。

其中，所述每一帧的兴趣点提取采用哈里斯角点、哈里斯-拉普拉斯兴趣点、黑森-拉普拉斯兴趣点、哈里斯-仿射变换兴趣点、黑森-仿射变换兴趣点、最大稳定极值区域兴趣点、快速鲁棒特征兴趣点或网格点及高斯差分检测子中的一种。

其中，所述建立基于运动信息的注意直方图的步骤包括：

步骤S41：设定视频集中视频每一帧Iⁱ由下式表示：

$n (w^{v} | I^{i}, C = c) = Σ_{j = 1}^{| | I^{i} | |} P (C = c | w_{d_{j}}^{m}) δ (w_{d_{j}}^{v}, w^{v}),$

式中：n(·)是第i帧Iⁱ的直方图表示，w^v是表观特征单词，w^m是运动特征单词，C是事件的类别标签，c∈{1，2，...}，是运动单词属于第c类的概率；δ为示性函数，分别为兴趣点d_j的运动和表观特征单词指标；

步骤S42：对于运动强度和运动方向建立两种类型的注意直方图为：

基于视觉单词的运动强度直方图(MMA-BOW)如下式表示：

$n (w^{v} | I^{i}, C = c) = Σ_{j = 1}^{| | I^{i} | |} P (C = c | w_{d_{j}}^{Mag}) δ (w_{d_{j}}^{v}, w^{v}),$

式中：为兴趣点d_j的运动幅度单词指标；

基于视觉单词的运动方向直方图(OMA-BOW)如下式表示：

式中：为兴趣点d_j的运动方向单词指标；

步骤S43：同时考虑光流的强度和方向信息，建立基于视觉词袋的运动注意直方图(MOMA-BoW)如下式表示：

$n (w^{v} | I^{i}, C = c) = Σ_{j = 1}^{| | I^{i} | |} P (C = c | w_{d_{j}}^{Mag}) P (C = c | w_{d_{j}}^{Orient}) δ (w_{d_{j}}^{v}, w^{v}) .$

其中，对于训练视频集中的每一类训练视频集c∈C，每一个运动单词w^m关于每一类的概率P(C＝c|w^m)通过贝叶斯法则得到：

$P (C = c | w^{m}) = \frac{P (w^{m} | C = c) P (C = c)}{P (w^{m})},$

$P (w^{m} | C = c) = \frac{1}{| | T^{c +} | |} \underset{w_{d_{j}} \in T^{c +}}{Σ} δ (w_{d_{j}}^{m}, w^{m})$

$P (w^{m}) = \frac{1}{| | T^{c} | |} \underset{w_{d_{j}} \in T^{c}}{Σ} δ (w_{d_{j}}^{m}, w^{m})$

式中T^c+是所有属于第c类的训练视频集的集合，T^c是所有训练样本的集合，||·||表示的是兴趣点的数目。

其中，所述采用推土机距离来度量视频集的两个视频序列的距离，对于任意两段视频P和Q，分别表示为其中p_i和q_i分别表示视频P和Q的直方图特征，和分别表示视频P和视频Q的第i帧的权重，m和n分别表示视频P和视频Q的帧数，视频P和视频Q的相似度D(P，Q)由下式计算：

$D (P, Q) = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} d_{ij} f_{ij}}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij}}$

式中d_ij是p_i和q_j之间的欧式距离，f_ij是视频P和视频Q的最优匹配，所述最优匹配由一个线性规划问题解决。

(三)有益效果

从上述技术方案可以看出，本发明具有以下优点：

1、本发明提供的这种视频的识别方法，由于兴趣点的选择方法多种多样，兴趣点处局部特征的选择也很灵活，使得如果今后出现了更为快速鲁棒的兴趣点检测方法及兴趣点处局部特征的提取方法，可以轻而易举地添加到本系统中，从而进一步提升系统的性能。

2、由于在视频上直接提取到的兴趣点数量往往非常大，包含了复杂的背景信息，这些背景信息的存在对后续的处理带来非常严重的干扰，降低分类的准确率，本发明提供的这种视频识别的方法，由于采用了人的注意机制对兴趣点进行选择，突出那些对事件识别贡献大的那些兴趣点，大大减少了背景信息对分类过程的干扰，使得提取到的特征更具针对性，可以显著提高识别的准确度。

3、传统的特征融合方法如先融合与后融合都是自下而上的，而我们利用人的注意机制采用自上而下的方式来融合视频的静态和动态特征，融合效率有了显著提高。

本发明根据人的注意机制利用自顶向下的方式来融合视频的表观和运动特征，该融合方法不需要任何参数的设置，能很好地结合先融合与后融合的优势，显著提高了识别效率，本发明克服了传统事件识别方法需要背景减除、目标跟踪、检测等技术的缺点，具有很好的应用前景。

附图说明

图1为本发明基于自顶向下运动注意机制的视频事件识别方法的流程图；

图1a-图1d为本发明的视频图像帧的兴趣点检测及光流示例；

图2为本发明系统结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的执行环境采用一台具有3.0G赫兹中央处理器和2G字节内存的奔腾4计算机并用Matlab和C语言编制了高效的视频事件识别的算法程序，还可以采用其他的执行环境，在此不再赘述。

本发明系统方案的整体框架见附图2，利用计算机实现基于自顶向下运动注意机制的视频事件识别任务，含有主要的五个模块为：

兴趣点检测模块1，该模块的主要功能是将视频数据库分为训练集(训练视频)和测试集(测试视频)两部分，利于利用高斯差分检测子检测训练视频和测试视频每一帧的兴趣点。

特征提取模块2的输入端与兴趣点检测模块1的输出端连接，特征提取模块2的主要功能是在兴趣点检测模块1的基础上，提取每一个兴趣点的尺度不变特征描述子特征和光流特征。

词汇表的建立模块3的输入端特征提取模块2的输出端连接，用于对得到的尺度不变特征描述子和光流特征在训练数据上聚类，并分别建立表观词汇表和运动词汇表；

基于运动信息的注意直方图的建立模块4的输入端与特征提取模块2的输出端和词汇表的建立模块3的输出端连接，根据训练数据，计算运动词汇表中的每一个运动单词关于每一个事件特别类的运动概率，通过所述的概率以及表观词汇表中的表观单词得到基于运动信息的注意直方图。

分类模块5的输入端与与基于运动信息的注意直方图的建立模块4的输出端连接，用于接收视频的基于运动注意的直方图特征，并采用推土机距离计算任意两个视频的相似度，生成核函数矩阵，利用训练集对支持向量机分类器进行训练，得到分类器参数，利用训练好的支持向量机分类器模型对测试集分类，并输出测试视频集的分类结果，其中“出现车(Existing Car)，握手(Handshaking)，跑(Running)，示威游行(Demonstration Or Protest)，走(Walking)，暴动(Riot)，跳舞(Dancing)，射击(Shooting)，群众行军(People Marching)”是我们的事件识别任务。

如图1示出的基于自顶向下运动注意机制的视频事件识别方法的流程图；下面详细给出该发明技术方案中所涉及的各个细节问题的说明。

(1)兴趣点检测

兴趣点的提取方法可以有很多选择，如：哈里斯角点(Harris)、哈里斯-拉普拉斯兴趣点(Harris Laplace)、黑森-拉普拉斯兴趣点(Hessian Laplace)、哈里斯-仿射变换兴趣点(Harris Affine)、黑森-仿射变换兴趣点(Hessian_Affine)、最大稳定极值区域兴趣点(Maximally Stable Extremal Regions，MSER)、快速鲁棒特征兴趣点(Speeded Up Robust Features，SURF)以及网格点(Grid)等

将视频V记作V＝{Iⁱ}，i∈{1，2，...，N}。对视频的每一帧Iⁱ高斯差分核(DOG，Difference of Gassian)尺度空间中同时检测局部极值点以作为兴趣点。

(2)特征提取

接下来提兴趣点处的局部图像特征，可供选择的局部特征提取方法有：尺度不变量特征(Scale Invariant Feature Transform，SIFT)、快速鲁棒特征(Speeded Up Robust Features，SURF)、以及形状上下文描述特征(Shape Context，SC)等。

我们采用128维的SIFT来表示兴趣点的表观特征，根据检测到的兴趣点，利用金字塔中的迭代Lucas-Kanade方法计算了一个稀疏特征集的光流。图1a至图1d给出了一些视频帧上检测到的兴趣子和光流向量的示例。

用k均值聚类方法或者其它的聚类方法将检测到的兴趣点根据表观和运动特征分别聚类，聚类成两个词汇表：w^m(运动单词)和w^v(表观单词)，定义每一个聚类中心为一个单词(word)。

在极坐标系下光流可以用强度Mag和方向Orient表示，在二维运动场中，每个运动矢量都包含了强度和方向这两种运动线索。强度信息反映了运动的空间幅度，方向信息反映了运动的趋势。因此我们有两种类型的运动单词：一种是运动强度单词一种是运动方向单词

(3)基于运动信息的注意直方图的建立

由图1a-图1d可以看出，视频帧上所提的兴趣点数量往往非常大，包含了复杂的背景信息以及与我们的事件识别任务无关的信息，这些信息的存在会对我们后续的处理带来非常严重的干扰。本发明利用人的注意机制对兴趣点进行选择和权衡，生物和心理研究证明，人类总是主动地特别关注于某些特定的、能够产生新异的刺激和人所期待的刺激的区域，被称为注意焦点或者显著区域。视觉显著性包括自底向上和自顶向下的两种模式，前者是由数据驱动的，后者是由知识或者任务驱动的。利用人的自顶向下的注意机制，突出那些对事件识别贡献大的那些兴趣点，尽量忽略那些对识别任务无关的兴趣点。

视频的每一帧Iⁱ可以由下式表示：

$n (w^{v} | I^{i}, C = c) = Σ_{j = 1}^{| | I^{i} | |} P (C = c | w_{d_{j}}^{m}) δ (w_{d_{j}}^{v}, w^{v}),$

式中：C是事件的类别标签，c∈{1，2，...}，δ为示性函数，分别为兴趣点d_j的运动和表观特征单词指标；

从上式我们可以看出，尺度不变特征描述子(SIFT)特征的功能是一个描述子，描述事件中的what方面，而运动特征的功能有两个方面，一方面描述事件中的how方面，另一方面又作为一个注意线索，指导人们去识别相应的事件类别。

对于运动强度和运动方向可以建立两种类型的注意直方图：

基于视觉单词的运动强度直方图(MMA-BOW)表示如下：

$n (w^{v} | I^{i}, C = c) = Σ_{j = 1}^{| | I^{i} | |} P (C = c | w_{d_{j}}^{Mag}) δ (w_{d_{j}}^{v}, w^{v}),$

式中：为兴趣点d_j的运动幅度单词指标；

基于视觉单词的运动方向直方图(OMA-BOW)表示如下：

$n (w^{v} | I^{i}, C = c) = Σ_{j = 1}^{| | I^{i} | |} P (C = c | w_{d_{j}}^{Orient}) δ (w_{d_{j}}^{v}, w^{v}),$

式中：为兴趣点d_j的运动方向单词指标；

如果同时考虑光流的强度和方向信息，基于视觉词袋的特别类的运动注意直方图(MOMA-BoW)：

$n (w^{v} | I^{i}, C = c) = Σ_{j = 1}^{| | I^{i} | |} P (C = c | w_{d_{j}}^{Mag}) P (C = c | w_{d_{j}}^{Orient}) δ (w_{d_{j}}^{v}, w^{v}),$

而对于每一类视频事件c∈C，每一个运动单词关于每一类的概率可以通过贝叶斯法则得到：

$P (C = c | w^{m}) = \frac{P (w^{m} | C = c) P (C = c)}{P (w^{m})},$

$P (w^{m} | C = c) = \frac{1}{| | T^{c +} | |} \underset{w_{d_{j}} \in T^{c +}}{Σ} δ (w_{d_{j}}, w^{m}),$

$P (w^{m}) = \frac{1}{| | T^{c} | |} \underset{w_{d_{j}} \in T^{c}}{Σ} δ (w_{d_{j}}, w^{m}),$

其中T^c+是所有属于第c类的视频的集合，T是所有训练样本的集合，||·||表示的是兴趣点的数目。

从基于运动信息的注意直方图的公式可以看出，运动信息隐含在视频的表示中，也可以当作是表观信息SIFT特征的权重。特别地，对于一个给定的运动单词，关于不同事件类的概率是不一样的，也就是说同一个运动单词对于不同类的识别的贡献是不一样。例如在我们进行事件“Running”分类的时候，在所有检测到的兴趣点中，确实描述“Run”这个动作的运动单词应该赋予大一些的权重。另一方面，对于一些象“Riot”这样的一些事件，运动信息并不是相关的，那么每一个运动单词对于这一类的概率基本上都是一样的，词包模型也会退化成最基本的形式。

(四)事件识别

给定一段视频V，可以得到第i帧的基于视觉词袋的运动注意直方图特征p_i后，这个视频就可以表示为表示第i帧的权重，满足这里采用默认值1/m。采用推土机距离(The Earth’s Mover Distance，EMD)来度量两个视频序列的距离。对于任意两段视频P和Q，分别可以表示为其中p_i和q_i分别表示视频P和Q的直方图特征，和分别表示视频P和视频Q的第i帧的权重，m和n分别表示视频P和视频Q的帧数，视频P和Q的相似度可以由下式计算推土机距离具有时序漂移和尺度变化的特点，前者指的是一段视频的起始帧可能与另外一段视频的结束帧匹配，后者指的是一段视频的一帧可能与另外一段视频的多帧匹配。

视频P和视频Q的相似度可以由下式计算：

其中d_ij是p_i和q_j之间的欧式距离，f_ij是两个视频P和Q的最优匹配，可以由一个线性规划问题解决。

$D (P, Q) = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} d_{ij} f_{ij}}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij}},$

$\min : WORK (P, Q, F) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} d_{ij} f_{ij}$

s.t.

f_ij≥0

$Σ_{j = 1}^{n} f_{ij} \leq p_{i}$

$Σ_{i = 1}^{m} f_{ij} \leq q_{j}$

$Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} = \min (Σ_{i = 1}^{m} p_{i}, Σ_{j = 1}^{n} q_{j}),$

接下来使用支持向量机作为分类器，“一对多”作为分类策略。

由于需要识别的是9个事件，因此训练了9个分类器，在每一个分类器中是一类事件的样本作为测试，其余的作为训练。视频之间的推土机距离嵌入到支持向量机分类器的高斯核函数中：

$K (P, Q) = \exp - (- \frac{1}{λ} D (P, Q)),$

M是一个归一化的因子，可以由所有训练数据集中的平均推土机距离得到。λ是尺度因子可以由交叉验证经验确定。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于自顶向下运动注意机制的视频事件识别方法 [P] . 中国专利： CN102034096B . 2013.03.06
2. 基于自顶向下运动注意机制的视频事件识别方法 [P] . 中国专利： CN102034096A . 2011-04-27
3. Method and apparatus for multi-scale SAR image recognition based on attention mechanism [P] . US11017275B2 . 2021-05-25

机译：基于注意机制的多尺度SAR图像识别方法和装置
4. NAMED ENTITY RECOGNITION METHOD AND APPARATUS BASED ON ATTENTION MECHANISM, AND COMPUTER DEVICE [P] . 世界知识产权组织专利： WO2020143163A1 . 2020-07-16

机译：基于注意机制的命名实体识别方法和装置以及计算机设备
5. Video system using dual stage attention based recurrent neural network for future event prediction [P] . 美国专利： US10169656B2 . 2019-01-01

机译：使用基于双阶段注意力的递归神经网络进行未来事件预测的视频系统