摘要:动作识别是计算机视觉领域的重要研究方向。在动作识别的研究中,可以用来识别动作类别的数据模式包括RGB数据、深度图像和骨骼点数据。不同的模态提供不同形式的信息,这些信息很有可能与其他信息互补。在此理论基础上,本文提出了一种基于运动能量的多模态信息互补网络模型架构。该网络同时利用RGB数据提供的丰富的外观特征信息和深度数据提供的深度信息,以及对亮度、观察角度鲁棒性的特点。通过两种模态的信息互补特性完成多模态的融合。此外,为了更好地对长范围时间结构建模,同时考虑到具有子动作共享现象的动作类别,采用了能量引导的视频分割方法。而在特征融合阶段,又提出了跨模态的十字融合方式,通过连接多个卷积层的特征图谱,使得卷积网络不仅在浅层中可以共享两个模态的局部特征,还可以在深层次的卷积层中获得全局特征的融合。最后,该模型在NTU-RGB+D数据集上证明了出色的性能。