首页> 中国专利> 基于可判别性二叉树投票的动作识别方法

基于可判别性二叉树投票的动作识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于可判别性二叉树投票的动作识别方法属计算机视觉技术领域，本发明提出一种人动作行为分析和准确定位的方法，主要分为训练部分和检测部分，训练部分将连续动作分解成时空立方块，提取立方块低维特征，在二叉树构建过程中，通过最小化目标类别不确定性和立体块中心偏移不确定性分裂左右结点，使得叶结点中立体块集合纯度最高，当二叉树达到最大深度或者叶结点立体块数低于阈值时，二叉树构建完成；检测部分将检测立体块遍历二叉树集，叶结点为到达的立体块进行投票，在动作空间寻求最大值，确定动作类别和目标中心位置，实验结果证明，在低分辨率、图像特征明显的视频序列中，本发明能准确判断人物的动作类别和人物位置。

著录项

公开/公告号CN104809455A

专利类型发明专利
公开/公告日2015-07-29

原文格式PDF
申请/专利权人吉林大学;
展开▼

申请/专利号CN201510256419.8
发明设计人王世刚;鲁奉军;赵晓琳;赵文婷;卢洋;
展开▼

申请日2015-05-19
分类号
代理机构长春吉大专利代理有限责任公司;
代理人邵铭康
地址 130012 吉林省长春市前进大街2699号
入库时间 2023-12-18 10:16:50

法律信息

法律状态公告日

法律状态信息

法律状态
2017-12-19

授权

授权
2015-08-26

实质审查的生效 IPC(主分类):G06K9/00 申请日:20150519

实质审查的生效
2015-07-29

公开

公开

说明书

技术领域

本发明属计算机视觉技术领域，具体涉及一种基于可判别性二叉树投票的动作识别方法。

背景技术

人行为动作识别是计算机视觉领域中前沿的科学研究之一，在视频处理方面发挥着非常重要的作用。人行为分析包括对视频图像中人物进行检测、跟踪、目标分类和行为理解方面，主要通过对人物动作对应像素点变化来确定动作的行为类别。但是由于人在形状、外观、尺度、视角和姿势的高动态性，识别人的行为就变的很困难，使得这项研究变得很有挑战性。

早期的研究方法是研究在简单的，静态的背景下的单人视频图像，方法比较简单，抗干扰能力弱，分析的效果一般。现在正在尝试引进人物特征采样分析的方法来研究，而且在动作分类、确定人行为的类别也有了进一步的跟进，但是在低分辨率，人物动作模糊的情况下，很难有足够的稳定性和准确性。

西安电子科技大学提出的专利申请“一种基于霍夫森林的目标跟踪算法”(专利申请号 201410507656.2，公开号CN 104299243A)，通过训练已知目标样本建立霍夫森林，检测视频序列依次进入已训练霍夫森林，叶结点对目标中心进行投票，获取目标中心位置并初始化卡尔曼滤波参数，然后与上一帧的目标位置进行阈值比较，如果不符合标准，则通过卡尔曼滤波器进行目标预测位置。该方法虽然对目标中心进行检测和修正，但是在建立卡尔曼模型和目标中心均值耗费运行时间，增加算法复杂度，卡尔曼滤波器预测结果往往非常准确的，如果出现预测失误，会导致目标跟踪失败，而且该方法在人物动作识别方面没有内容。

上海交通大学提出的专利申请“一种人体动作识别的方法”(专利申请号 201310054812.X，公开号CN 103164694A)公开了一种基于目标时空特征提取和半监督分类器的动作识别方法，在较少的目标样本中，该方法能够实现动作行为的判定，但是算法的复杂度很高，判断人物动作轮廓，提取时空特征，建立k近邻图，通过拉普拉斯矩阵进行求解动作类别标签。此方法中的最终特征向量维数过高，求解广义的拉普拉斯矩阵变换复杂度过高，并不能够实时的对人物动作进行准确判断。

发明内容

本发明的目的在于提供一种高效的人体动作识别方法，二叉树作为机器学习中的优秀分类器，稳定性好，二叉树通过收集树的子结点对各个类别投票，选择最多的投票作为判断结果。

本发明的基于可判别性二叉树投票的动作识别方法，包括下列步骤：

1构建可判别性二叉树，具体包括下列步骤：

1.1对训练视频序列进行分类处理，将含有目标的动作类别定义为正样本，对正样本进行标记，不同的动作类别区别标记；将目标区域外的定义为负样本，负样本中只含有背景，负样本统一标记；

1.2人的动作行为在时间和空间上都含有信息，为了准确描述不同人的动作行为，将训练视频中整套动作在空间和时间上进行分解，其值设置为16x16x5大小的彩色立体块 {P_i＝(I_i,c_i,d_i)}，

其中：P_i表示三维立体块；I_i表示第i立体块提取的特征值，容纳多通道特征值，表示在第i个立体块中特征通道f∈(1,2,...,F)对应的特征值；c_i表示为动作类别标签，标记不同数字的立体块代表不同的动作类别，标记数字0的立体块代表负样本；d_i表示立体块中心到达时空域动作中心的三维矢量值；16x16和5分别表示训练视频序列的空间信息和时间信息；

1.3对1.2步骤中的立体块进行特征提取和标记，立体块特征包括：灰度强度、位置坐标对时间的导数和位置上的光流值；记录检测序列的立体块类别标记和立体块中心到三维完整动作中心的矢量值；

1.4设定二叉树的截止条件：根据构建二叉树的规则，指定树的最大深度d_Max和叶子含有最小立体块的数量N_min，当达到树的最大深度d_Max或每个叶子集合中的立体块少于最小立体块的数量N_min时立刻停止；

1.5从根结点开始构建二叉树，输入1.3步骤中提取的立体块三维信息，进行二值测试，通过比较特征通道f中位置p∈R³和q∈R³的特征值大小，其中R³表示三维空间，二值测试定义如下：

其中：τ表示特征阈值，特征阈值通过遍历此特征通道中最小值到最大值，即 minI^f(p)＜τ＜maxI^f(q)，由于给出已知视频序列，minI^f(p)和maxI^f(q)通过计算求得；

I^f(p)表示在位置中心p时，立体块中特征通道f的特征值，特征值按1.3步骤选取，特征通道f为1.2步骤所描述；t_B,f,p,q,τ(Γ)表示以两个不同位置p和q为中心的立体块在特征通道f中特征值的比较值，当特征通道f中以位置p为中心的立体块特征值小于以位置q为中心的立体块特征值与阈值τ的和时，二值比较值取0，当特征通道f中以位置p为中心的立体块特征值大于或等于以位置q为中心的立体块特征值与阈值τ的和时，二值比较值取1；

对所有立体块{P_i＝(I_i,c_i,d_i)}而言，随机选取p、q和τ值，会产生二值测试集合{t^k}，其中k表示集合的数量，二值集合{t^k}有两类立体块，一类是特征通道f中特征值的比较值为0的立体块集合1，记为另一类是特征通道f中特征值的比较值为1的立体块集合2，记为其中，立体块集合1中含有特征值I_j的比较值为0的立体块集合3，记为和比较值为1的立体块集合4，记为每一类立体块都含有特征通道f中特征值的比较值1和0的立体块集；

对二值测试集合中的立体块需要进行最佳分类，构建二叉树的过程中，每个子结点都需要分裂左右子结点，当树构建完成时，不同叶结点中有不同的立体块，这些立体块达到最佳分类，树的子结点具体分裂方法：

动作类别不确定性用动作类别信息增益ΔH表示，其数学表达式为：

$Δ H = - \frac{| I_{l} |}{| I_{l} | + | I_{r} |} H (I_{l}) - \frac{| I_{1} |}{| I_{l} | + | I_{r} |} H (I_{r}) - - - (2)$

其中：I_l和I_r分别表示分配到左右子结点的立体块集合，即为在特征通道f中特征值的比较值为1和0的立体块集合；H(·)为熵值p_k表示当前子结点立体块动作类别的概率，H(I_l)和H(I_r)分别表示左右子结点中立体块动作类别的熵值；

ΔH值越小，动作类别相似性越高，结点立体块集合一致性越高。

计算立体块中心偏移值用ΔD表示，其数学表达式为：

$Δ D = \underset{I_{i}}{Σ} | | d_{i}^{l} - {\overline{d}}^{l} | |^{2} + \underset{I_{r}}{Σ} | | d_{i}^{r} - {\overline{d}}^{r} | |^{2} - - - (3)$

其中：和分别表示落入左右子结点中第i个立体块矢量积；和分别表示落入左右子结点中立体块矢量积均值；

1.6在1.5步骤中两个测量标准随机选取，当其中一个不确定性达到最小值，子结点达到最优分裂，产生左右子结点，左右子结点各自继续寻求最佳分裂；当达到树的最大深度d_Max或者子结点中所含立体块数量小于最小立体块的数量N_min，即达到1.4步骤规定的条件，停止分裂，二叉树构建完成，若没有达到截止条件，继续计算动作类别信息增益ΔH或立体块中心偏移值ΔD；由于特征选取的随机性，将5棵二叉树作为一个二叉树集合；二叉树集合将立体块信息分类更准确。

1.7在1.6步骤构建成的二叉树中，叶结点存储2个信息，一是在训练中到达该叶结点不同动作类别概率值，第L个叶结点存储动作类别c的概率二是立体块中心偏移量的所有集合，第L个叶结点立体块中心矢量积存储的信息将会为检测立体块进行投票；

1.8根据1.7步骤中的叶结点信息直接进行投票会引入不必要的背景噪声，通过实验证明，设定动作类别概率的取值范围，能够减少引入背景噪声信息，减少算法运算时间，提高算法的效率，叶结点P_L值的定义如下：

(1)如果0≤P_L≤T_c1(T_c1＜0.5)，此叶子称为背景叶子，到达背景叶子的立体块判断为背景立体块，背景立体块没有投票信息，只是用来进行判断；

(2)如果T_c2≤P_L≤1，此叶子称为目标叶子，到达目标叶子的检测立体块判断为目标立体块，目标立体块具有投票信息；

(3)如果T_c1≤P_L≤T_c2(T_c2＞0.5)，此叶子称为不确定叶子，用这类叶子去判断检测立体块是属于动作类别还是背景，到达这类叶子立体块会被余下的N-1叶子进行分类，通过定义 S_w的值进行判断：

$S_{w} = \frac{Σ_{i} W_{p} + Σ_{j} W_{u} + Σ_{k} W_{n}}{N - 1} - - - (4)$

其中：W_p为目标叶子比例；W_u为不确定叶子比例；W_n为背景叶子比例；i,j,k分别代表目标叶子、不确定叶子和背景叶子的数目；

当S_w大于阈值T_s，把不确定叶子作为目标叶子，根据叶子存储P_L的值将叶子结点分为三类，使叶子结点具有判断信息，增加对目标的投票，减少背景噪声的影响，增加定位目标动作类型的准确性，按照实验效果，将T_c1、T_c2和T_s分别设置为0.4、0.6和0.5，当T_c1、T_c2和T_s分别设置为0.4、0.6和0.5时，实验效果较为理想。

2对测试视频序列中的目标动作进行定位和分类，具体包括下列步骤：

2.1准确定位目标动作和位置，将检测序列分成16x16x5大小的立体块，假设在检测立体块中存在中心为y∈R³的立体块P(y)＝(I(y),c(y),d(c(y),y))；

其中：I(y)、c(y)和d(c(y),y)分别表示立体块表观特征信息、未确定的动作类型和未确定的动作中心矢量值；

假设事件Q_c(x)表示，在目标中心x∈R³位置上目标动作类型属于c类事件，则 p(Q_c(x)|I(y))被分解为：

$\begin{matrix} p (Q_{c} (x) | I (y)) \\ = \underset{l \in C}{Σ} p (W_{c} (x) | c (y) = l, I (y)) p (c (y) = l | I (y)) \\ = p (Q_{c} (x) | c (y) = c, I (y)) p (c (y) = c | I (y)) \\ = p (d (c, y) | c (y) = c, I (y)) p (c (y) = c | I (y)) \end{matrix} - - - (5)$

其中：P(y)遍历整棵树，p(d(c,y)|c(y)＝c,I(y))表示属于c类动作类型立体块I(y)的矢量积概率分布，可通过核函数构造矢量积的概率密度分布；p(c(y)＝c|I(y))表示立体块 I(y)属于动作类别c的概率，可通过计算求解，在(5)中的所有参数都可被测量，假设立体块在树T的叶子L处结束，(5)式可表示为：

$p (Q_{c} (x) | I (y), T) = (\frac{1}{| D_{c}^{L} |} \underset{d \in D_{c}^{L}}{Σ} \frac{1}{2 {πσ}^{2}} \exp (\frac{| | (y - x) - d | |^{2}}{2 σ^{2}})) \cdot p_{c}^{L} - - - (6)$

其中：x表示已知目标中心的位置值；y表示检测立体块中心的位置值；d表示为立体块中心矢量积的随机变量；σ²表示核函数的方差；表示在树T的叶子L中立体块属于动作类别c类的概率；表示在树T的叶子L中立体块中心偏移矢量值，表示取立体块中心偏移矢量值的绝对值；

2.2在2.1步骤中通过计算式(5)和(6)可得动作空间图像，检测立体块遍历二叉树集中的所有树，最终停止在一个叶结点中，记录叶结点中的值，叠加所有检测立体块，得到动作空间图像；检测视频中每一像素点对应的立体块遍历二叉树集，检测立体块被分配到叶子中并获得叶子投票信息，投票信息是三维空间信息，提取动作类别和时间信息，得到二维动作空间图，求解动作空间图像最大值，把最大值作为目标中心，确定人的动作类别和人的位置；

2.3收集2.2步骤中得到的不同动作类别信息，评估检测序列动作类别的准确性。

可判别性二叉树方法投票法主要将动作的时空信息、时空局部特征以及动作类别和位置投票有效结合。训练部分包括构建可判别二叉树的内容，一套完整行为动作有自身信息，通过提取这些特征信息进行分类，对分类结果不断的进行优化，确保每个叶子能够得到最佳分类集合，由于每个叶结点会引入背景立体块噪声信息，通过设定叶结点中动作类别概率范围减小噪声信息，使得叶子能够具有投票判断性，尽管会影响运算准确率，但是运算过程中节省了大量时间。检测部分实现动作类别确定，检测视频序列立体块遍布整个二叉树集，叶结点能够判断检测立体块是属于正样本还是负样本，叶子信息为检测立体块进行动作类别投票，通过统计叶结点投票结果确定动作类型和位置信息。

本发明可解决提取的动作特征引入高纬度数据处理问题，仅选取最能够代表动作类别的低维特征信息，而且将动作类别和位置信息引入低纬度空间进行计算，可减少算法的复杂性，即使在低像素视频中也能准确实现动作类别和定位。

附图说明

图1为正样本和负样本标记示意图

图2为立体块示意图

图3为叶结点存储的信息

图4为构建二叉树流程图

图5为动作空间图像

图6为UCF不同动作类别空间图像

图7为Weizmann数据中动作行为分析结果示意图

图8为KTH数据库动作行为分析结果示意图

图9为UCF数据库动作分析结果示意图

具体实施方式

下面结合附图对本发明的具体实施方式进行描述。

1.训练视频序列正负样本标记

图1表示检测序列中滑板运行完整动作，每10帧选取一张图片，把边界框内标记为正样本，边界框以外的透明部分标记为负样本，对正样本的动作类型进行区别标记。

2.动作时空域分解

图2表示将完整动作在时空域中进行立体块{P_i＝(I_i,c_i,d_i)}分解。P_i表示三维立体块；I_i 表示第i立体块提取的特征值，可以容纳多通道特征值。表示在第i个立体块中通道f对应的特征值，本发明选取最能够代表动作运动的低维信息，灰度强度，以及像素(x,y)对时间的导数和在(x,y)处的光流绝对值；c_i表示为动作类别标签，不同的数值表示不同的动作类别，0表示负样本；d_i表示立体块中心到达时空域动作中心的三维矢量值。

3.构建二叉树

首先，按图4所示，输入立体块三维信息，进行二值测试，通过比较特征通道f中位置 p∈R³和q∈R³的大小，二值测试定义如下：

对所有立体块{P_i＝(I_i,c_i,d_i)}而言，随机选取p，q和τ值，会产生二值测试集合{t^k}。

其次，构建二叉树过程中，结点对二值测试集合{t^k}中为0和1的立体块集合进行信息增益ΔH或者中心偏移值ΔD最小化。动作类别不确定性信息增益表示为：

$Δ H = - \frac{| I_{l} |}{| I_{l} | + | I_{r} |} H (I_{l}) - \frac{| I_{l} |}{| I_{l} | + | I_{r} |} H (I_{r}) - - - (2)$

其中：I_l和I_r分别表示分配到左右子结点的立体块集合；H(·)为熵值p_k表示当前结点中动作类别的概率值。

背景立体块无矢量积，目标立体块在子结点中的中心偏移值ΔD表示为：

$Δ D = \underset{I_{i}}{Σ} | | d_{i}^{l} - {\overline{d}}^{l} | |^{2} + \underset{I_{r}}{Σ} | | d_{i}^{r} - {\overline{d}}^{r} | |^{2} - - - (3)$

其中：和分别表示落入左右子结点中第i个立体块矢量积；和分别表示落入左右子结点中矢量积均值，

在二叉树中每个结点随机优化两个不确定性，左右结点存储立体块表观特征信息和矢量积数值。二叉树从根结点开始，输入立体块三维信息，提取特征信息并进行二值测试，在产生的二值测试集合{t^k}中，为了寻求每个结点最佳分类，寻求到最佳阈值τ，使得左右结点立体块集合的动作类别信息增益ΔH或立体块中心偏移值ΔD最小，产生左右子结点，左右子结点各自继续寻求最佳分裂，当二叉树达到最大深度d_Max＝15或子结点中含有的立体块数量小于N_min＝20时，停止分裂，二叉树构建完成。每棵树的最终结点成为树的叶结点，经过训练后，第L个叶结点存储动作类别c的概率和立体块中心矢量积 $D_{c}^{L} = {d_{i}}_{c_{i} = c} .$

此外，叶结点中会含有训练时引入的背景立体块，根据动作类别P_L的值构建可判别性二叉树，减少背景立体块的噪声投票信息，提高算法的运算时间。叶结点可以被P_L值定义：

(1)如果0≤P_L≤T_c1(T_c1＜0.5)，此叶子称为背景叶子。到达背景叶子的立体块判断为背景立体块，背景立体块没有投票信息，只是用来进行判断。尽管在测试阶段会有非常小部分的目标立体块到达这类叶子，但是并不会影响最终的投票结果。因为这些叶子的投票是没有信息性。

(2)如果T_c2≤P_L≤1，此叶子称为目标叶子，到达目标叶子的检测立体块判断为目标立体块，目标立体块具有投票信息。尽管在测试阶段会有非常小量背景立体块会被作为目标立体块，但是对结果影响很小，可忽略不计。

(3)如果T_c1≤P_L≤T_c2(T_c1＞0.5)，此叶子称为不确定叶子。用这类叶子去判断检测立体块是属于动作类别还是背景，到达这类叶子立体块会被余下的N-1叶子进行分类，通过定义 S_w的值进行判断：

$S_{w} = \frac{Σ_{i} W_{p} + Σ_{j} W_{u} + Σ_{k} W_{n}}{N - 1} - - - (4)$

其中：W_p为目标叶子比例；W_u为不确定叶子比例；W_n为背景叶子比例；i,j,k分别代表目标叶子、不确定叶子和背景叶子的数目。当S_w大于阈值T_s，把不确定叶子作为目标叶子；

根据叶子存储P_L的值可以将叶结点分为三类，使叶结点具有判断信息，增加对目标的投票，减少背景噪声的影响，提高算法的速度，增加定位目标动作类型的准确性，按照实验效果，将T_c1、T_c2和T_s分别设置为0.4、0.6和0.5时，实验效果较为理想；

4.定位并确定目标动作类型

将检测视频序列在时空领域分解成16x16x5立体块，假设在检测立体块中存在中心为 y∈R³的立体块P(y)＝(I(y),c(y),d(c(y),y))，I(y)、c(y)和d(c(y),y)分别表示立体块表观特征信息、未确定的动作类型和未确定的动作中心矢量值；假设事件Q_c(x)表示，在中心x∈R³位置上，目标动作类型属于c类，则p(Q_c(x)|I(y))被分解为：

$\begin{matrix} p (Q_{c} (x) | I (y)) \\ = \underset{l \in c}{Σ} p (Q_{c} (x) | c (y) = l, I (y)) p (c (y) = c | I (y)) \\ = p (Q_{c} (x) | c (y) = c, I (y)) p (c (y) = c | I (y)) \\ = p (d (c, y) | c (y) = c, I (y)) p (c (y) = c | I (y)) \end{matrix} - - - (5)$

P(y)遍历整棵树，p(d(c,y)|c(y)＝c,I(y))表示属于c类动作类型立体块I(y)的矢量积概率分布，可通过核函数构造矢量积的概率密度分布；p(c(y)＝c|I(y))表示立体块I(y)属于动作类别c的概率，可通过计算求解，在(5)中的所有参数都可被测量，假设斑块在树T的叶子L处结束，(5)式可表示为：

$p (Q_{c} (x) | I (y), T) = (\frac{1}{| D_{c}^{L} |} \underset{d \in D_{c}^{L}}{Σ} \frac{1}{2 {πσ}^{2}} \exp (\frac{| | (y - x) - d | |^{2}}{2 σ^{2}})) \cdot p_{c}^{L} - - - (6)$

动作空间图像通过计算(5)和(6)式可得。但是(5)和(6)式计算过于复杂，通过叶结点信息简化计算动作空间图像。动作检测立体块遍历二叉树集中的所有树，最终停止在一个叶结点中，记录叶结点中的值，叠加所有检测立体块，得到动作空间图像(图5)，查找动作空间图像中每类动作中像素最大值，定位目标中心和动作类别。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于可判别性二叉树投票的动作识别方法 [P] . 中国专利： CN104809455B . 2017.12.19
2. 基于判别性超体素的人体动作识别方法 [P] . 中国专利： CN105590100B . 2018.11.13
3. DYNAMIC CYCLES AND SEQUENCERS, BASED ON BINARY TREES WITH MAGNETIC NODES, THE RAPIDITY OF EXECUTION, THE OPERATING RELIABILITY AND THE DURABILITY OF USE OF WHICH ARE OPTIMISED [P] . 世界知识产权组织专利： WO2005041411A1 . 2005-05-06

机译：基于具有磁节点的二叉树的动态循环和排序器，优化了执行的能力，操作的可靠性和耐用性
4. sequentialiseurs cycles and dynamic, based on binary trees have more nodes, the rapidity of execution, the operating reliability and sustainability of use are optimisees. [P] . MA26166A1 . 2004-07-01

机译：基于二叉树的顺序化循环和动态循环具有更多的节点，执行速度快，操作可靠性和使用的可持续性是最佳的。
5. FACIAL RECOGNITION METHOD BASED ON KERNEL DISCRIMINANT ANALYSIS [P] . 世界知识产权组织专利： WO2018187950A1 . 2018-10-18

机译：基于核判别分析的人脸识别方法