首页> 中国专利> 基于可配置卷积神经网络的RGB-D人物行为识别方法

基于可配置卷积神经网络的RGB-D人物行为识别方法

摘要

本发明公开一种基于可配置卷积神经网络的RGB-D人物行为识别方法,构建基于可动态调整结构(可配置)的深度卷积神经网络;该识别方法可以直接处理RGB-D视频数据,并根据人物行为在时域上的变化动态调整网络结构,进而有效地自动抽取复杂人物行为的时空特征,最终大幅度提高人物行为识别的准确率。

著录项

  • 公开/公告号CN104217214A

    专利类型发明专利

  • 公开/公告日2014-12-17

    原文格式PDF

  • 申请/专利号CN201410415114.2

  • 发明设计人 林倞;王可泽;李亚龙;王小龙;

    申请日2014-08-21

  • 分类号G06K9/62(20060101);G06N3/02(20060101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人林丽明

  • 地址 528300 广东省佛山市顺德区大良街道办广东顺德中山大学卡内基梅隆大学国际联合研究院

  • 入库时间 2023-12-17 03:04:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-19

    授权

    授权

  • 2015-01-07

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20140821

    实质审查的生效

  • 2014-12-17

    公开

    公开

说明书

技术领域

本发明涉及人物行为识别领域,更具体地,涉及一种基于可配置卷积神经 网络的RGB-D人物行为识别方法。

背景技术

人物行为识别是计算机视觉研究的一个重要领域。它的应用包括智能监控、 病人监护和一些涉及人机交互的系统。人物行为识别的目标是希望能够自动地 从未知的视频中(例如,一段图像帧)分析和识别视频中正在发生的人物活动。 简单来说,假如一个视频被分割成只包含一个单独的人物行为,系统的目标就 是将该视频正确的分类到它所属的人物行为类别里。更一般的,人物行为识别 希望能够持续地去识别视频中正在发生的人物活动,自动地标记出人物活动的 开始时间和结束时间。

人物行为识别是一个非常具有挑战的工作,识别的准确性很容易受到具体 环境的影响。例如,以前的很多人物行为识别的工作使用的都是可见光摄像机 拍摄的视频(或图像帧)数据,这些数据对人物的颜色、光线强度、遮挡以及 复杂背景十分敏感,使得识别的准确率低。

最近诞生的深度摄像机吸引了大批研究者的注意,且在视觉和机器人社区 中有着广泛的应用。相对于传统的摄像机,深度摄像机提供了更丰富的场景信 息(场景中物体距离摄像机的距离),并且能够在完全黑暗的环境中工作(这对 一些病人监护系统、动物观测系统等有着很大的帮助)。深度摄像机捕获的视频 称之为RGB-D视频。因而,深度摄像机的出现为人物姿势识别、动作行为识别 等工作提供了更多的便利和可能。

现有对Kinect深度摄像机获取的RGB-D视频中人物复杂行为活动的识 别,这里存在着两个主要的难点:

(1)对人物复杂行为的外观和运动信息的表达。由于人物个体的姿势和视 角的不同,通常很难准确地抽取到人物的运动信息作为特征。同时,深度摄像 机本身的机械噪声非常严重,使得人为的设计特征非常困难。

(2)人物行为在时域上的变化太大。单个人物的行为可以看作是时间序列 上发生的一系列子动作。例如,“用微波炉加热食物”可以被分解成拾取食物, 走动和操作微波炉等几个子动作。如附图2所示,不同的人物在做相同的行为 时,在时间上具有很大的差异(子动作持续的时间不同),使得识别非常困难。

现有RGB-D人物行为识别的方法大多数是将视频表示成一系列固定长度 的时间块,在该时间块上提取手工设计的特征,训练判别式或产生式的分类器 来识别行为。由于手工设计的特征难以表达RGB-D视频数据中的运动信息,同 时固定长度的时间块难以表达子动作在时间上的变化,其准确率不高。

发明内容

为了克服现有技术的不足,本发明提出一种结合深度学习和动态结构调整 的基于可配置卷积神经网络的RGB-D人物行为识别方法,该人物行为识别方法 可以直接处理RGB-D视频数据,有效地自动抽取复杂人物行为的时空特征,使 得人物行为识别的准确率高。

为了实现上述的目的,本发明的技术方案为:

一种基于可配置卷积神经网络的RGB-D人物行为识别方法,包括:

S1.构建可配置的深度模型,该深度模型包含隐变量,其构建过程为;

S11.模型包括M个子网络和两个全连接层,每个子网络包括顺次连接的第 一个三维卷积层、第一个降采样层、第二个三维卷积层、第二个降采样层和二 维卷积层;M个子网络的输出合并在一起,连接两个串联的全连接层;

S12.在步骤S11的模型中引入隐变量,对输入的RGB-D视频帧在时间上进 行划分,得到M个视频块,每个视频块作为一个子网络的输入;

S2.深度模型的学习,通过隐式网络结构反向传播算法来学习,算法迭代为:

S21.固定当前深度模型参数进行人物行为识别,同时获取每个训练样本视 频在时域上的优化分解模式;

S22.固定输入视频的分解模式,使用反向传播算法学习网络的每层参数;

S3.采用深度模型对RGB-D视频的人物行为进行识别。

与现有技术相比,本发明的有益效果为:

本方法是将单个人物行为表示成一系列隐式的子动作,每个子动作都和一 段不固定长度的类似立方体的视频段对应,利用深度网络,学习出一类人物行 为在时域结构上特征,即可动态调整结构的深度卷积神经网络,具有以下特点:

第一,深度结构是能自动从RGB-D数据中学习出有效的特征。首先,通过 堆砌三维卷积层,降采样层以及全连接层构建出深度网络。其中,每个深度网 络由M个子网络构成。每个子网络的输入是分割后的视频段。在子网络中,先 应用两组3D卷积核和降采样操作,抽取相邻视频帧包含的运动信息,再应用 2D卷积层抽取更抽象的高层语义信息;然后,将M个子网络的输出串联成一 个长向量,使得每个视频段抽取的运动特征融合在一起,作为后两层全连接层 的输入,最终得到行为的识别结果。

第二,本发明公开的模型支持动态结构调整,是模型对复杂行为准确表达 的关键。特别地,引入了隐变量来控制网络结构的动态调整。因此网络能够表 达在时域上具有较大变化的人物行为。针对模型的特性,提出了一种两步迭代 的优化方法来学习网络参数和确定隐变量,即隐结构的反向传播算法。

采样本发明的方法能够解决了RGB-D视频中复杂人物行为识别所存在两 个主要问题,可以直接处理RGB-D视频数据,进而有效地自动抽取复杂人物行 为的时空特征,使得人物行为识别的准确率高。

附图说明

图1是本发明系统的框图。

图2是相同行为不同用户的展示图。

图3是深度卷积神经网络示意图。

图4是三维卷积示意图。

图5是隐结构示意图。

图6是隐结构的反向传播算法图。

具体实施方式

下面结合附图对本发明做进一步的描述,但本发明的实施方式并不限于此。

1.结构化的深度模型

首先详细介绍结构化深度模型及引入的隐变量。

1.1深度卷积神经网络

为了对复杂的人物行为进行建模,在本实施方式中的深度模型如附图3所 示。它由M个子网络和两个全连接层构成。其中,M个子网络的输出串联成 一个长向量,再接两个全连接层。(图3中M为3,每个子网络用不同的图案来 表示)每个子网络处理其相对应的视频段,该视频段跟一个从复杂行为中分解 的子行为相关。每个子网络依次由三维卷积层、降采样层、三维卷积层、降采 样层和二维卷积层级联构成。其中,三维卷积层能抽取出RGB-D视频的运动特 征。降采样层能够对人物局部身体的变形进行很好的表达,同时对图像中的噪 声不敏感。接下来详细的定义模型的各个重要部分。

三维卷积层:三维卷积是指对输入RGB-D视频帧在时间域和空间域上同 时做卷积,使用它能够提取出人物的外观和运动信息。假设输入RGB-D视频帧 的宽度和高度分别为w和h,三维卷积核的大小为w'×h'×m',其中w',h',m' 分别表示宽度,高度和时域上的长度。如附图4所示,通过对从第s帧到s+m'-1 帧的视频段应用三维卷积,可以获得一个特征图。其中位于特征图(x,y)位置处 的值可以表示成,

vxys=tanh(b+Σi=0w-1Σj=0h-1Σk=0m-1ωijk·p(x+i)(y+i)(s+k))---(1.1)

其中p(x+i)(y+j)(s+k)表示输入的第(s+k)帧中(x+i,y+j)位置的像素值,ωijk表示卷积核的参数,b表示跟与该特征图相关的偏置。故此可以得到m-m'+1个 特征图,每个特征图的大小为(w-w'+1,h-h'+1)。由于单个卷积核只能抽取一 种类型的特征,因此在每一层卷积层引入了多个卷积核抽取多种不同的特征。 对于每一个子网络,分别将第一,第二个卷积层的卷积核数量定义为c1和c2

经过第一个三维卷积层操作后,得到了c1个特征图集,每个包含m-m'+1个 特征图。对于每一个特征图集,使用类似的三维卷积的方法得到更高层级、新 的特征图集。由于在c1个特征集上使用了c2个新的第二三维卷积核,因而可以 在下一层得到c1×c2个新的特征图集。

降采样层:在本实施方式中降采样使用max-pooling操作。该操作是指对 特征图按照一定策略(选取最大值)进行降采样的过程。这是一种被广泛应用 的有效过程,它能够提取出保持形状和偏移不变性的特征。对于一组特征图, max-pooling操作通过对它们降采样,得到同样数量的一组低分辨率特征图。更 多地,如果在a1×a2大小的特征图上应用2×2的max-pooling操作,抽取2×2不 重叠区域上的最大值,将得到大小为a1/2×a2/2的新特征图。

二维卷积层:二维卷积可以看成是三维卷积的特例,即将三维卷积核的时 域维度的长度设置为1,例如,m'=1。通过在一组特征图上应用二维卷积,可 以得到同样数量的一组新特征图。经过两层的二维卷积层以及max-pooling操作 后,每组特征图在时间维度上都已经减小到足够小。在此基础上,继续应用二 维卷积核来抽取特征图上更高层次的复杂特征。假设二维卷积核的数量为c3, 并且在已经得到的c1×c2组特征图集上应用这些二维卷积,最终得到c1×c2×c3组 新的特征图集。

全连接层:在模型中添加了两层全连接层,可以看做是在前面二维卷积层 输出的基础上建立的感知机模型,全连接层分别隐藏层和逻辑回归层。首先将 从M个子网络得到的特征图串联成一个长特征向量。该向量即是从RGB-D视 频中抽取到的特征。它的每一维元素都连向第一个全连接层(隐藏层)的所有 节点,并进一步全连接到所有的输出单元。输出单元共K个,等同于行为类别 的数量K,每一个单元的输出可以看做输入视频中人的行为属于某类别的概率。 为了归一化输出类别的概率,使用了softmax函数,即

σ(zi)=exp(zi)Σk=1Kexp(zk)---(1.2)

zi是倒数第二层神经元乘以第i个输出层的权重后的加权求和。σ(zi)表示 输出概率,且Σi=1Kσ(zi)=1.

输入数据细节:首先从每个RGB-D视频中抽取出视频帧对应的灰度图和 深度图。用两个通道分别存放灰度图和深度图。在进行卷积时,分别对这两个 通道内应用三维卷积,并且将两个通道的卷积结果加在一起得到最终的卷积结 果,这样使得卷积的特征图保持维度的一致。当然,模型可以应用到有更多通 道的视频帧(例如进一步得到视频帧的梯度或光流等通道信息)。

1.2引入了隐变量的网络结构

本实施方式的主要内容在于在深度模型结构中包含了隐变量。对于不同的 包含人物行为的视频,每个子网络所对应的输入帧的起始点以及输入帧的帧数 由隐变量控制。为了说明它,在附图5中展示了一个简单的例子,其中3个立 方体块分别用不同的图案表示。对应起来讲,首先整个行为被分解成3个动作 段,对应整个网络模型的3个子网络。每个子网络对应的输入的起始帧是可调 整的,由隐变量控制。如果出现某些子网络所对应的输入帧的帧数不足m帧, 那么子网络内部的部分单元将不会被激活(附图5中第一个和第三个子网络中 黑色的点状圆圈)。对于给定的输入RGB-D视频,使用前向传播算法来识别视 频中人物的行为。

对于单个视频样本,定义M个子网络的起始帧点为(s1,...,sM)并且对应的输 入帧的数量为(t1,...t,M),其中1≤ti≤m。然后,模型的隐变量表示为 H=(s1,...,sM,t1,...,tM),其表达的是每个子网络和视频段的对应关系。给定输入 视频X,隐变量H以及模型的参数ω(包括网络的边权重和偏置),识别的结 果可以表达成向量F(X,ω,H),其中每个元素表示视频X属于某一行为类别的 概率。并且,将其属于第i类的概率简记为Fi(X,ω,H)。

2.模型的学习——隐结构的反向传播算法

由于在本实施方式的深度模型引入了隐变量,标准的反向传播算法不能优 化模型的参数。因而,提出了一种隐结构的后向传播算法来学习模型参数。

隐变量指示如何对输入视频在时域上进行划分。针对在学习时模型的参数 ω和隐变量H必须同时进行优化,提出了一种以下步骤迭代地优化ω和H算 法:(i)给定模型参数ω,计算隐变量H,如附图6a;(ii)给定由H决定的输 入帧,使用反向传播算法优化模型参数ω,如附图6b。

假设共有N个训练样本(X1,y1),...(XN,yN),其中Xi表示输入视频, yi∈{1,...K}表示行为的类别并且K是类别的数量,i=1,……,N。为了更好的表 达,同时对所有样本定义了一组隐变量H={H1,...,HN}。在训练过程中,使用 逻辑回归定义损失函数J(ω,H),定义为,

J(ω,H)=-1N(Σi=1NΣk=1Kl(yi=k)logFk(Xi,ω,Hi)+(1-l(yi=k))log(1-Fk(Xi,ω,Hi)))+||ω||2,---(2.1)

其中l(·)∈{0,1}是指示函数。损失函数(2.1)的前两项表示似然的相反数,而 最后一项是正则项。

为了最小化损失J(ω,H),迭代地用以下步骤来优化参数ω和隐变量H。

(a)固定从上次迭代中优化的模型参数ω,可以通过最大化对应于每个样本 (Xi,yi)的概率函数来最小化公式(2.1),这可以通过找到最优的 隐变量H来实现,

Hi*=argmaxHiFyi(Xi,ω,Hi).---(2.2)

需要提及的是,在输出结果上应用softmax分类,见公式(1.2)所示。最 大化概率等价于降低样本属于其他类别的概率Fk(Xi,ω,Hi), 这样使得log似然增加从而降低损失J(ω,H)。

(b)固定每个样本的隐变量,H={H1,...,HN},可以得到输入RGB-D视频 在时域上的分解模式。计算此时相应的损失J(ω,H),能够获得J(ω,H)相对于 参数ω的梯度。通过应用反向传播算法,能够进一步地降低损失J(ω,H)同时 优化网络模型参数ω。值得注意的是,使用随机梯度下降算法更新模型的参数, 并且每轮更新都使用所有的训练样本来计算。

该优化算法在步骤(a)、(b)两步中迭代直到公式(2.1)收敛为止。

3.模型的学习——基于海量普通视频的预训练

对庞大的深度卷积神经网络参数来说,RGB-D视频的数据量是太少了。为 解决这一问题,同时提高识别的准确率。在本实施方式中采用了一种预训练的 机制——使用传统的普通视频数据集来预训练。能够有监督地使用海量的、有 动作类别标签的普通视频数据集来预训练模型。步骤如下:1)随机初始化网络 参数;2)把每个普通视频从帧数上等分分解到子网络中;3)使用传统的后向 传播算法来学习参数,再将学习到的子网络的参数来初始化深度模型。值得注 意的是,由于预训练是普通视频数据集,只学出了第一层的三维卷积核的灰度 通道的参数,没有学到深度通道的参数。而最终的输入是灰度/深度数据,所以 需要将灰度通道的参数复制给深度信息的通道(D)。另外,由于高层语义需要 从RGB-D数据集中学习,仅仅通过预学习来初始化子网络的参数,而全连接层 的参数仍然是随机初始化。

将整个的学习过程总结为算法1。

4.人物行为识别

人物行为识别是识别输入视频X所包含的人物行为。正式的,搜索类别行 为标签y和隐变量H使概率Fi(X,ω,H)最大化,

(y*,H*)=argmax(y,H)Fy(X,ω,H)      (3.1)

通过优化H并搜索所有类别标签y(1≤y≤K)来计算最大的概率 Fy(X,ω,H)。对于H的领域空间H=(s1,...,sM,t1,...,tM),限制每个模型块所包 含的输入帧数量为τ≤ti≤m,并且不同的视频段不允许有重叠(例如, si+ti≤si+1)。在本实施方式中,将τ设置成常数τ=4。枚举在该限制条件下(该 限制条件是指不同的视频段不允许有重叠)所有的H的取值情况,并通过前向 算法求出概率Fy(X,ω,H)。通过选择最大的概率,得到更合适的Fy(X,ω,H*)。 由于不同H决定的前向传播是相互独立的,可以通过并行计算来加速识别。在 本实施方式中,使用型号为英伟达GTX TITAN的显卡,处理一个35帧的视 频,只需要0.4秒。

以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何 在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发 明的权利要求保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号