首页> 中国专利> 一种基于随机投影和Fisher向量的人物行为识别方法

一种基于随机投影和Fisher向量的人物行为识别方法

摘要

本发明公开了一种基于随机投影和Fisher向量的人物行为识别方法,采用随机投影定理的方法替代主成份分析法进行特征降维,以解决其时间消耗大,主成份保留不明确等问题,随机投影定理表明,通过一个压缩测量矩阵,可以把具有稀疏性质的原始信号投影到某个低维子空间上,该映射后的向量与原始高维特征向量间点距离基本保持不变,即整个压缩过程不会产生数据的曲解。此外不同于BoW模型的硬划分,本发明采用GMM—Fisher向量混合模型对轨迹特征向量进行软划分,它融合了Fisher核生成模式和判别模式的特点,不仅能计算出每个特性描述子出现的频率,还能从统计学的意义上描述这些特征描述子的概率分布情况,既丰富了行为动作的特征表达又提高了行为识别的效率。

著录项

  • 公开/公告号CN104881651A

    专利类型发明专利

  • 公开/公告日2015-09-02

    原文格式PDF

  • 申请/专利权人 南京信息工程大学;

    申请/专利号CN201510289260.X

  • 发明设计人 何军;薛莹;周媛;胡昭华;

    申请日2015-05-29

  • 分类号

  • 代理机构南京经纬专利商标代理有限公司;

  • 代理人许方

  • 地址 210044 江苏省南京市宁六路219号

  • 入库时间 2023-12-18 10:45:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-15

    授权

    授权

  • 2015-09-30

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20150529

    实质审查的生效

  • 2015-09-02

    公开

    公开

说明书

技术领域

本发明涉及信号处理技术领域,特别是一种基于随机投影和Fisher向量的人物行为 识别方法。

背景技术

行为识别技术被广泛运用到视频监控、视频检索、军事检测、医疗诊断和监护等领域, 具有广阔的应用前景和经济价值。传统的行为识别方法是将提取到的轨迹特征嵌入到视觉 词袋(Bag-of-Words,BoW)模型中,通过提取视频中的局部轨迹特征来构建一个丰富的 视觉词典,并利用中心聚类的方式分别统计出局部特征向量相对于中心单词出现的频率, 通过视觉词频构成的直方图来表征一类视频最终达到人物行为识别的目的。BoW模型最关 键的就是要构造出一个非常庞大的视觉词典,因而行为识别的准确率在很大程度上取决于 所构造特征词典的规模的大小,局部轨迹特征描述子越丰富,人物行为识别就越准确,但 同时行为轨迹向量维度就越高,这样在一定程度上就增加了计算成本和时间的消耗,同时 给分类器的学习和训练的过程也带来了巨大的挑战,因此在保证原始高维轨迹信息的前提 下寻找有效的措施来降低这些轨迹特征向量的维度就势在必行。

主成份分析法是在均方误差最小的意义下对原始信号实现线性降维。它用方差的大小 来衡量信息量的贡献的多少,即方差越大的分量其所含有用信息越多,于是摒弃那些贡献 小的分量上的信息,原始信号就映射到由前K个最大的主成分张成的线性子空间上,以达 到降低数据的维度的目的。但是该方法无法处理非线性流形上的数据且计算过程相当耗 时,需占用大量的存储空间,严重影响分类器训练和分类的效率。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于随机投影和 Fisher向量的人物行为识别方法,本发明采用GMM—Fisher向量混合模型对轨迹特征向量 进行软划分,它融合了Fisher核生成模式和判别模式的特点,不仅能计算出每个特性描 述子出现的频率,还能从统计学的意义上描述这些特征描述子的概率分布情况,既丰富了 行为动作的特征表达又提高了行为识别的效率。

本发明为解决上述技术问题采用以下技术方案:

根据本发明提出的一种基于随机投影和Fisher向量的人物行为识别方法,包括以下 步骤:

步骤(1)、在固定帧数前提下提取和跟踪视频中局部行为特征,在最小误差允许范 围内提取其特征轨迹,然后融合各类特征轨迹描述子信息,得到一个高维轨迹特征向量, 组成该类行为视频的特征轨迹矩阵空间;

步骤(2)、将步骤(1)得到的矩阵空间采用随机投影的方法投影到低维子空间中, 然后采用高斯混合模型对投影降维后的轨迹特征信号的生成过程进行建模,求得轨迹特征 的Fisher向量;

步骤(3)、将步骤(2)得到的Fisher向量再次利用随机投影的方法将其二次投影 到一个低维子空间中,用SVM分类器通过添加类别标签的方式训练出用于区别各种行为的 一个超平面;

步骤(4)、根据步骤(3)训练好的分类器对待测试视频的轨迹特征的Fisher向量 进行行为分类预测,实现行为分类识别。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化 方案,具体包括以下步骤:

步骤一、遍历所有m个训练视频S=[S1,S2,...Sm],针对每个训练视频SI提取其特征轨 迹描述子,形成轨迹特征得到高维轨迹特征矩阵X=[X1,X2,...,Xm];其 中,TI为第I个行为视频中轨迹的数目,I为整数且1≤I≤m,上标T为转置,xa为训练 视频中提取到的特征轨迹描述子,a为整数且1≤a≤TI

步骤二、将步骤一中的高维轨迹特征矩阵用随机投影的方法投影到一个低维子空间 中,即

VRP=[vtRd],t=1,...,ΣI=1mTI,d<<D;

其中,d表示轨迹特征经随机降维处理后的维度,D为原始轨迹维度,Rd表示降维后 的低维子空间,vt表示降维后的一个行为视频的轨迹特征,VRP表示投影降维后所有行为 视频轨迹特征的集合;

步骤三、pλ(vt)是关于参数集λ={wi,ui,∑i}的概率密度函数,用来对经随机投影降维 后的轨迹特征信号的生成过程进行建模,其中,wi表示第i个高斯单元的混合权重,ui表 示第i个高斯单元的均值向量,∑i表示第i个高斯单元的协方差矩阵,i=1,...,K;设vt∈Rd都服从独立同分布,对含有K个高斯单元的GMM的参数集λ的高斯混合模型的定义如下:

pλ(vt)=Σi=1Kwipi(vt);

其中表示降维后的轨迹特征vt的第i个高斯单元的 概率密度函数;协方差矩阵为对角矩阵,由贝叶斯公式可知,降维后的轨迹特征vt分配到 第i个高斯单元的概率为:

r(i)=wipi(vt)Σi=1Kwipi(vt);

步骤四、则是经随机投影后所有轨迹特征的集合V关于 λ的对数似然函数,则经过降维后的轨迹特征vt关于GMM参数集λ={wi,ui,∑i}的梯度分 别表示为:

lλ(V)wi=Σt=1Tm[r(i)wi-r(1)w1]

lλ(V)uik=Σt=1Tmr(i)[xtk-uikσik2]

lλ(V)σik=Σt=1Tmr(i)[(xtk-uik)2σik3-1σik];

其中,表示含k个主成分的第i个高斯单元的均值向量,表示含k个主成分的第i 个高斯单元的协方差向量;

归一化梯度向量后级联各个梯度值,最后求出轨迹特征的Fisher向量;

步骤五、将步骤四中得到的Fisher向量再次利用随机投影的方法将其二次投影到一个 低维子空间中,即

VRP=[vtRd],t=1,...,ΣI=1mTI,d<<d;

其中,d'表示Fisher向量经过随机投影二次降维后维度,Rd'表示二次降维后的低维 子空间,vt'表示二次降维后的一个Fisher向量,VRP'表示二次降维后所有Fisher向量的集 合;

步骤六、训练SVM分类器,将m个训练视频降维编码后的轨迹特征 分别贴上m个对应特征行为的标签,训练出能区分不同行为动 作的一个超平面;

步骤七、选取n个测试集Z=[Z1,Z2,...Zn,1≤J≤n]中的一个新的行为视频ZJ,提取测 试视频的轨迹特征其中,n表示测试集视频的个数,TJ表示第J个测 试集行为视频ZJ中轨迹的数目;

步骤八、对YJ利用随机投影定理对其进行特征降维,将其投影到一个的低维子空间 HRP中,即

HRP=[httRdd],tt=1,...,ΣJ=1nTJ;

其中,htt表示测试视频降维后的轨迹特征,dd表示降维后的维度,Rdd表示测试集轨 迹特征降维后的值域;

步骤九、令则其中H是经随机投影后所有轨迹特 征的集合,根据步骤四中得到的关于GMM参数集λ={wi,ui,∑i},计算测试集行为视频的 轨迹特征的相关的梯度向量,即

lλ(H)wi=Σtt=1Tn[r(i)wi-r(1)w1]

lλ(H)uik=Σtt=1Tnr(i)[xttk-uikσik2]

lλ(H)σik=Σtt=1Tnr(i)[(xttk-uik)2σik3-1σik];

归一化梯度向量后级联各个梯度值,最后求出测试集行为视频轨迹特征的Fisher向量;

步骤十、利用随机投影定理对测试集行为视频轨迹特征的Fisher向量进行二次特征 降维;

步骤十一、根据步骤六训练好的分类器对经过二次特征降维后的测试集行为视频轨迹 特征的Fisher向量进行行为分类预测,完成行为测试集视频的识别。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化 方案,所述步骤二中随机投影的方法,具体如下:

对原始D维轨迹特征空间xt∈RD,作用一个列单元长度的随机矩阵Φ,将其投影到一 个低维子空间vt∈Rd中,其中d<<D,其公式表达如下:

vtd=ΦxtD;

其中,表示轨迹特征的原始D维空间,表示轨迹特征被降为d维的低维子空间;

随机矩阵Φ满足JL引理,将xt∈RD以最小误差从vt∈Rd重构出来,即投影后的低维 子空间vt包含了原始的轨迹特征xt中的近似全部信息。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化 方案,所述随机矩阵为满足约束等距性质的随机矩阵。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化 方案,所述d=100,dd=d'=48。

作为本发明所述的一种基于随机投影和Fisher向量的人物行为识别方法进一步优化 方案,所述步骤六中的SVM分类器的核函数采用Linear线性核函数来实现一个多类输出。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明采用随机投影 定理的方法替代主成份分析法进行特征降维,以解决其时间消耗大,主成份保留不明确等 问题,随机投影定理表明,通过一个压缩测量矩阵,可以把具有稀疏性质的原始信号投影 到某个低维子空间上,该映射后的向量与原始高维特征向量间点距离基本保持不变,即整 个压缩过程不会产生数据的曲解。此外不同于BoW模型的硬划分,本发明采用GMM—Fisher 向量混合模型对轨迹特征向量进行软划分,它融合了Fisher核生成模式和判别模式的特 点,不仅能计算出每个特性描述子出现的频率,还能从统计学的意义上描述这些特征描述 子的概率分布情况,既丰富了行为动作的特征表达又提高了行为识别的效率。

附图说明

图1是本发明采用密集取样对视频集进行轨迹行为动作提取的可视化效果图,其中: (a)是KTH数据集人物挥手行为动作的可视化效果图;(b)是KTH数据集人物快跑行为 动作的可视化效果图;(c)是KTH数据集人物拳击行为动作的可视化效果图;(d)是UCF50 数据集人物打篮球行为动作的可视化效果图;(e)是UCF50数据集人物举重行为动作的 可视化效果图;(f)是UCF50数据集人物高尔夫球摆行为动作的可视化效果图。

图2是本发明所述基于随机投影和Fisher向量的人物行为识别方法的流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

本发明实验所用计算机的配置为内存8GB,CPU是Intel Core i3 3.4GHz的台式计算 机,所用代码是在visual studio 2013上用C++语言开发的。两种数据集设定以下相同的 缺省参数,在稠密轨迹跟踪算法中,取N=32,nσ=2,nτ=3,轨迹跟踪长度L=15帧, 取样步长W=5像素,随机投影中降维后的特征轨迹维度d=100,d'=48,SVM分类器的 核函数采用Linear线性核函数来实现一个多类输出。

如图1所示,一种对视频集稠密取样进行轨迹行为动作提取的可视化效果图。本发明 通过提取稠密的轨迹来表征一类行为运动,利用光流场对兴趣点进行多层次稠密采样来 实现跟踪。这些兴趣点沿一个密集的网格被重复采样且被跟踪在一个固定长度帧的范围 内,行为轨迹就是这些固定帧数内的特征描述子连续性表达的结果。轨迹的形状用来区 别不同的人物行为变化,它表现在视频中就是人物目标在视频中的运动位置在时间和空 间上的改变,即位移矢量。考虑到人物行为在每个视频中出现的位置的不同,本发明通 过对提取到的所有位置信息进行求和运算,实现位置矢量的归一化。对于任意一条轨迹 来说除了提取其位置信息外,还要各个描述子信息来丰富它的表达。如方向直方图(HOG) 用来描述人物外在的静态信息,光流直方图(HOF)用来描述轨迹的局部运动信息,而运 动边界直方图(MBH)用来描述像素之间的相对运动。因此最终的轨迹是位置信息、方向 梯度、光流和运动边界直方图信息的集合。图1中的(a)是KTH数据集人物挥手行为动 作的可视化效果图;图1中的(b)是KTH数据集人物快跑行为动作的可视化效果图;图1 中的(c)是KTH数据集人物拳击行为动作的可视化效果图;图1中的(d)是UCF50数据 集人物打篮球行为动作的可视化效果图;图1中的(e)是UCF50数据集人物举重行为动 作的可视化效果图;图1中的(f)是UCF50数据集人物高尔夫球摆行为动作的可视化效 果图。从图1中可以直观的看到所提取到的有效轨迹能够形象的描述出视频人物行为的连 续运动。

如图2所示,一种基于Fisher向量和投影定理的人物行为识别的流程图。本发明针 对一类行为视频,首先在固定帧数前提下提取和跟踪局部行为特征,再在最小误差允许 范围内提取有效轨迹,然后融合各类描述子信息形成一个高维轨迹特征向量,组成该类 行为视频的特征轨迹矩阵空间,最后嵌入到高斯混合-Fisher向量模型框架中,用一个 SVM分类器通过添加类别标签的方式训练出用于区别各种行为的一个超平面,通过这个超 平面实现最终的行为分类,期间我们采用随机投影的方式对高维特征进行二次投影降维 来降低计算复杂度。

如表一所示是本发明在KTH数据集下人物行为的识别率。KTH数据集包括6种人物行 为动作:散步、慢跑、快跑、拳击、挥手和拍手,每一个动作是在四个不同的场景中实 现的:户内,户外,户外尺寸改变,在户外搭配不同的服装。在大部分场景中背景单一 且静态,但背景噪声大。结果表明,本发明方法可以有效的识别出KTH数据集中不同的人 物行为动作。

表一

如表二所示是UCF50数据集下人物行为的识别率。UCF50数据集有50个动作类,包括 打篮球、跳水、高尔夫摆臂、举重、单杠、骑马等体育项目以及从YouTube选取的现实生 活的视频片段。该数据集背景复杂,场景不一,视觉角度各异,相对于行为识别难度较 大。结果表明,本发明方法可以有效的识别出UCF500数据集中不同的人物行为动作。

表二

如表三所示是随机投影和主成分分析法两种降维方法的计算时间的比较(单位:s)。 结果表明随机投影的降维方法大大提高了行为识别算法的效率,运行时间相对于主成分 分析法提高了近200倍。

表三

  10维 30维 50维 70维 90维 110维 130维 150维 RP 0.18 0.21 0.23 0.27 0.34 0.37 0.41 0.43 PCA 28.28 28.67 28.85 28.97 29.13 29.52 29.87 30.16

以上只是对本发明的优选实施方式进行了描述。对该技术领域的普通技术人员来说, 根据以上实施方式可以很容易地联想到其它的优点和变形。因此,本发明并不局限于上述 实施方式,其仅仅作为例子对本发明的一种形态进行详细、示范性的说明。在不背离本发 明宗旨的范围内,本领域普通技术人员在本发明技术的方案范围内进行的通常变化和替 换,都应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号