首页> 中国专利> 基于多模态多粒度的老年人日常行为自动识别方法

基于多模态多粒度的老年人日常行为自动识别方法

摘要

本发明公开了一种基于多模态多粒度的老年人日常行为自动识别方法,包括以下步骤:将原始输入视频的骨骼模态和RGB模态分别被细化为骨骼点+骨架和提名+关键帧;对骨骼点和骨架数据建立图结构,并分别利用图卷积网络S‑GTCNs学习特征,得到基于骨骼点和骨架数据的动作类别得分;利用边界敏感网络提取视频的提名,利用I3D网络提取提名和关键帧的底层特征,基于提名和关键帧数据建立图结构,并分别使用图卷积网络R‑GCNs学习特征,得到基于提名和关键帧数据的动作类别得分;将四种颗粒度的识别得分进行融合得到最终的识别结果。该方法相比于其他方法,有更高的识别准确率。

著录项

  • 公开/公告号CN113850143A

    专利类型发明专利

  • 公开/公告日2021-12-28

    原文格式PDF

  • 申请/专利权人 南京理工大学;

    申请/专利号CN202110999523.1

  • 发明设计人 舒祥波;丁静;宋砚;

    申请日2021-08-29

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32203 南京理工大学专利中心;

  • 代理人陈鹏

  • 地址 210094 江苏省南京市孝陵卫200号

  • 入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及计算机视觉领域中的行为识别技术,特别是一种基于多模态多粒度的老年人日常行为自动识别方法。

背景技术

老年人行为识别的目标是能够自动识别出视频中老年人的行为类别。通过对老年人的日常行为视频进行调研发现,老年人行为的语义具有明显的细粒度性,即多数老年人行为在大部分的视频时长内具有非常高的重合度,真正区分类别的语义信息比较微妙。

当前主流的针对行为识别的基准方法大致分为三类:1)基于循环神经网络(Recurrent Nerual Networks,RNN)的方法;2)基于卷积神经网络(Convolutional NerualNetworks,CNN)的方法;3)基于图卷积神经网络(Graph Convolutional Networks,GCN)的方法。其中,基于RNN的方法可以利用时序关系处理序列数据,但是会产生梯度消失问题;基于CNN的方法可以处理高维数据并自动进行特征提取,但是无法处理非欧式空间数据。而基于GCN的方法可以完整地学习非欧式空间的数据,聚合空间和时间信息,相比前两种深度网络模型更有优势。但现有的基于GCN的老年人日常行为自动识别技术仅基于骨骼模态并且数据颗粒度较大。

发明内容

本发明的目的在于提供一种基于多模态多粒度的老年人日常行为自动识别方法。

实现本发明目的的技术解决方案为:一种基于多模态多粒度的老年人日常行为自动识别方法,包括以下步骤:

步骤1,将原始输入视频的骨骼模态和RGB模态分别被细化为骨骼点+骨架和提名段+关键帧;

步骤2,对骨骼点和骨架数据建立图结构,并分别利用图卷积网络S-GTCNs学习特征,得到基于骨骼点和骨架数据的动作类别得分;

步骤3,利用I3D提取提名和关键帧的底层特征,基于提名和关键帧数据建立图结构,并分别使用图卷积网络R-GCNs学习特征,得到基于提名和关键帧数据的动作类别得分;

步骤4,将四种颗粒度的识别得分进行融合得到最终的识别结果。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述基于多模态多粒度的老年人日常行为自动识别方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述基于多模态多粒度的老年人日常行为自动识别方法的步骤。

与现有技术相比,本发明的显著优点为:

(1)本发明提出了一种新的多模态多粒度图卷积网络,通过注意力图卷积网络对两类模态、四种颗粒度的数据同时建模来捕捉人体行为,解决实际场景下的老年人行为识别问题;(2)设计了一种“点-线-面-段”四种颗粒度的数据表示策略,利用多粒度数据的信息互补与整合来精细刻画视频中的细粒度人体行为;(3)所提出的方法在业界标准的老年人行为识别数据集ETRI-Activity3D上进行性能评测,取得了很好的性能,其识别精度领先现有的所有方法。

附图说明

图1是细粒度的定义与划分示意图,其中(a)为骨骼模态数据的划分,(b)为RGB模态数据的划分。

图2是本发明的结构图。

图3是基于骨骼模态的图卷积网络S-GTCNs示意图。

图4是基于RGB模态的图卷积模块R-GCNs示意图。

具体实施方式

针对老年人的日常行为识别任务,本发明提出了一种多模态多粒度图卷积网络(Multimodal Multi-granularity Graph Convolutional Networks,MM-GCN),通过注意力图卷积网络对两种模态、四种颗粒度的数据进行联合建模来全方位揭示老年人行为的时空演变规律。该方法相比于其他方法,有更高的识别准确率。

本发明的基于多模态多粒度的老年人日常行为自动识别方法,包括以下步骤:

步骤1,将原始输入视频的骨骼模态和RGB模态分别被细化为骨骼点+骨架和提名段+关键帧;

步骤2,对骨骼点和骨架数据建立图结构,并分别利用图卷积网络S-GTCNs学习特征,得到基于骨骼点和骨架数据的动作类别得分;

步骤3,利用I3D(Inflated 3D ConvNet)提取提名和关键帧的底层特征,基于提名和关键帧数据建立图结构,并分别使用图卷积网络R-GCNs学习特征,得到基于提名和关键帧数据的动作类别得分;

步骤4,将四种颗粒度的识别得分进行融合得到最终的识别结果。

进一步的,其中步骤1的骨骼点数据为数据集现有的,对骨骼点数据做差分得到骨架数据;利用边界敏感网络(Boundary-Sensitive Network,BSN)提取一个视频的多个提名段,对提名段进行等间隔采样,得到关键帧。

进一步的,步骤2具体包括如下步骤:

步骤201,对于单帧骨骼点数据,定义图结构G

步骤202,对于单帧骨架数据,定义图结构G

步骤203,将骨骼点和骨架数据送入S-GTCNs(Skeleton-图卷积+时序卷积网络)中,S-GTCNs包括了一个GTCN和两个A-GTCN模块。经过批量标准化(Batch Normalization,BN)操作归一化后分别被送入两个结构相同、参数独立的网络单元GTCN(图卷积+时序卷积网络)模块中,GTCN的网络结构包含了一层GCN和两层TCN;GTCN模块由一层图卷积和两层时序卷积组成,GCN用于聚合提取骨骼模态的特征,TCN用于提取时序信息;GTCN单元的输出被送入到A-GTCN(注意力图卷积+时序卷积网络)单元,A-GTCN的网络结构包含了一层GCN和两层TCN,并且在GCN中使用了注意力机制。A-GTCN单元引入了注意力机制;骨骼点与骨架数据经由S-GTCNs模块得到各自的输出:

其中,FC表示全连接层(Full-Connect layer),score

进一步的,其中步骤3具体包括如下步骤:

步骤301,对于步骤1中获取的视频提名段集合

步骤302,通过等间隔采样的方式,在提名段中采样关键帧;

步骤303,利用I3D提取提名段和关键帧的I3D特征x

步骤304,将提名段/关键帧作为节点,将提名/关键帧之间的关系作为边,建立图结构;当某两个提名pi=(t

基于关键帧的图结构建立同理;

步骤305,将提名段和关键帧的I3D特征分别送入两个结构相同/参数独立的R-GCNs(RGB-图卷积网络)模块中,R-GCNs包含两层GCN,其中第二层GCN引入了注意力机制,GCN用于提取提名段和关键帧之间关系信息,注意力机制可以更专注于有用信息,使得网络可以进行更高效的训练;提名段与关键帧经由R-GCNs模块得到各自的输出:

其中,FC表示全连接层,score

进一步的,步骤4具体包括如下步骤:

对双流R-GCNs与双流S-GTCNs进行整合得到最终的分类结果:

score=α·score

其中α、β、δ和σ代表各个流输出的权重。

下面结合实施例和附图对本发明的技术方案进行详细说明。

实施例

结合图1,一种基于“宿主-寄生”的人群行为识别方法,包括提取I3D特征、基于骨骼模态数据建立图结构并进行学习和识别、基于RGB模态数据建立图结构并进行学习和识别、对四流输出进行融合四个过程。图2为具体的结构图,包含一个S-GTCNs模块和一个R-GCNs模块。

提取I3D特征包括如下步骤:

步骤1)训练BSN网络,并用训练好的BSN网络为每个视频生成100个提名段。

步骤2)对每个提名段中的视频帧进行等间隔采样,得到关键帧。

步骤3)训练I3D网络,并提取每个提名段和关键帧的I3D特征。

基于骨骼模态数据建立图结构并进行学习和识别包括如下步骤:

步骤4)将原始输入细分成骨骼点和骨架两种粒度。对于单帧骨骼点数据,将骨骼点的差分作为骨架数据。输入尺寸为(N,M,V,C

步骤5)对输入数据进行批量标准化操作归一化。

步骤6)图3中的S-GTCNs用于处理骨骼模态数据,包含一层GTCN和两层A-GTCN,GTCN中包含一层GCN和两层TCN,A-GTCN包含一层引入注意力机制的GCN和两层TCN。将两种颗粒度的数据分别送入两个结构相同、参数独立的网络单元GTCN模块中。在GTCN模块中,利用一层图卷积使得节点从其邻域聚合信息,增强节点特征;利用两层时序图卷积捕获扩展的上下文信息。每层的输出通道数为96、96和96。

步骤7)将步骤6的输出送入两个串联的A-GTCN单元。与前者不同的是,A-GTCN单元引入了注意力机制,使得模型能够专注于关键特征。每层的输出通道数为96、192、192、192、384和384。

步骤8)将步骤7的输出送入全连接层,以得到每个动作类别的分数score:

其中,FC表示全连接层,score

基于RGB模态数据建立图结构并进行学习和识别包括如下步骤:

步骤9)基于RGB模态数据建立图结构G

步骤10)图4中的R-GCNs用于处理RGB视频模态数据,R-GCNs包含一层GCN和一层引入注意力的GCN。分别将提名段和关键帧的I3D特征并送入到两个结构相同、参数独立的GCNs模块中。GCNs由两层图卷积组成,其中第二层图卷积层加入了注意力机制。

步骤11)提名段与关键帧数据经由步骤10得到各自的输出,如下所示:

对四流输出进行融合包括如下步骤:

步骤12)双流R-GCNs与双流S-GTCNs进行整合得到最终的分类结果,如下所示:

score=α·score

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号