首页> 中国专利> 一种基于时序增强模块的视频人体行为识别方法

一种基于时序增强模块的视频人体行为识别方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于时序增强模块的人体行为识别方法，目的是提高人体行为识别的准确度。所述方法包括三个方面：(1)针对输入的视频片段进行稀疏采样，以及对提取到的特征进行保留时序信息的池化下采样；(2)构建时序增强模块，对时空特征进行提取激活，同时对时序信息进行增强和交互处理；(3)构建分类器得到行为识别结果。本发明在模型训练的过程中进行时序信息增强和交互处理，增强了视频帧之间的时序信息，为模型的训练提供了丰富的语义信息，增强了模型的鲁棒性和健壮性，由此可以提高人体行为识别的准确度。

著录项

公开/公告号CN112464835A

专利类型发明专利
公开/公告日2021-03-09

原文格式PDF
申请/专利权人北京工商大学;
展开▼

申请/专利号CN202011391904.3
发明设计人明少锋;蔡强;高翠;
展开▼

申请日2020-12-03
分类号G06K9/00(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构
代理人
地址 100048 北京市海淀区阜成路33号
入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及计算机视觉领域，特别地涉及视频人体行为识别领域，具体是设计一种基于时序增强模块的视频人体行为识别方法。

背景技术

当前，社会处于一个大数据与云计算并行的时代，随着抖音、快手、火山小视频等视频社交软件的出现，互联网上的信息不再局限于文字和图像，视频信息也层出不穷。挖掘视频信息中的联系、对视频信息进行有效的监控，是当代社会一个不可避免的问题。

视频人体行为识别的目的是使用计算机对视频序列进行分析，自动识别出视频中的人体做了何种行为动作。其按照提取时空特征的方式可以分为双流网络和3D卷积网络。当前，视频人体行为识别技术在深度学习的背景下，取得了快速的发展。但是，在智能监控、人机交互、虚拟现实以及视频理解等领域对视频人体行为识别的应用，还存在很多的挑战。因此，本发明提出了一种基于时序增强模块的视频人体行为识别方法。

相较于图像来说，视频的一个关键元素是时序信息，人们普遍认为图像内容在视频相邻帧之间变化缓慢，尤其是在高级语义上。因此，视频相邻帧中物体的位置和外观在时间上应该是一致的，即人体姿态在视频相邻帧中不应该随着时间发生剧烈的变化，然而人体行为动作种类的划分十分依赖于人体特征在时序信息上的表达。由此可见，直接将未经处理的视频片段直接用于人体行为识别网络进行分类识别得不到较好的识别效果。所以要做好视频人体行为识别就要充分利用视频中包含的时序信息。

目前，视频人体行为识别主要的技术主要有以下几类：

(1)基于双流网络的人体行为识别方法。双流网络分为时间流卷积神经网络和空间流卷积神经网络两个分支，且两个分支具有相似的网络结构。时间流卷积神经网络先对视频序列中相邻两帧计算光流图像，再对多帧堆叠的光流图像提取时序信息，空间流卷积神经网络则对视频RGB图像提取空间特征。最后将两个网络分别得到的得分进行融合，从而得到最终的分类结果。虽然基于双流网络架构方法的准确率高，但提取时序信息过程复杂，并且分开训练两个网络，耗费计算资源，难以达到实时性的要求。

(2)基于传统3D卷积网络的人体行为识别方法。传统3D卷积网络使用正方体卷积核提取时空特征，对特征进行池化下采样；由于视频相邻帧包含时序信息和空间信息的比例不同，这种方法对时序信息和空间信息进行了等比例的采样，容易导致关键的时序信息丢失，从而降低了人体行为识别的准确率。

基于以上分析可得，当前视频人体行为识别遇到的问题是不能简单有效地提取和利用视频序列中的时序信息。而时序增强模块是一种基于深度学习的模板方法，通过利用不同的卷积核分别对时间、空间、特征维度和通道特征做相应的卷积特征提取，同时时序模块在对时空特征进行网络训练时，只在空间维度上进行特征池化下采样，在时间维度上不进行特征池化下采样，进而可以保留关键的时序信息；最后将各个通道上的时序信息进行交互，进一步增强时序信息的表达。由以上描述可得，时序增强模块提取时空特征的过程相对简单，不仅可以降低计算资源消耗，而且还可以有效地保留时序信息，提升时序信息在时空特征里的权重比例。

针对上述问题，构建一个能充分利用视频中时序信息的端到端网络，是解决视频人体行为识别问题的关键。由时序增强模块的特征提取过程可以发现，基于时序增强模块的方法在时序特征提取和保留方面有很大的优势。此外，我们还会在运用时序增强模块进行时序特征增强之前，通过对视频片段进行关键帧的稀疏采样预处理，以降低视频中冗余信息带来的计算量。根据现有了解，还没有任何机构或组织构建一个可以增强时序信息的表达以及对特征进行近邻通道交互的时序增强模块来提取时空特征，并将其传入一个端到端网络中进行训练。

发明内容

针对现有视频人体行为识别技术不能充分利用视频中时序信息的缺陷，本发明提出了一种基于时序增强模块的视频人体行为识别方法，算法中利用不同的卷积核分别对时间、空间、特征维度和通道特征做相应的卷积，接着将其卷积核组合成时序增强模块来进行时空特征提取，同时在网络训练过程中不对时间维度进行特征下采样，从而更好地利用视频中的时序信息进行人体行为识别。

本发明的技术方案如下：

一种基于时序信息的视频人体行为识别方法，包括以下步骤：

步骤(1)本发明使用了佛罗里达大学发布的人体行为动作基准数据集UCF-101作为实验用的数据集，该数据集包含了101种行为动作和13320个视频片段。

步骤(2)对长度为T帧的视频片段进行时间步幅为t的稀疏采样，设置T∶t的比例为8∶1，得到视频序列frames。

步骤(3)构建保留时序信息的池化层Pool

步骤(4)采用残差网络(ResNet)中的残差思想来设计时序增强模块Temporal_Block。Temporal_Block包含5层卷积层，分别为时间卷积层、空间卷积层、维度调整卷积层、跳跃连接卷积层和通道交互卷积层。将步骤(3)中的features_2输入到16组Temporal_Block中进行特征提取激活，同时对时序信息进行增强处理，以及不对时序信息进行特征下采样，得到富含时序信息的时空特征features_3。

步骤(5)对步骤(4)中时空特征features_3进行平均池化采样以及dropout处理，得到特征features_4。

步骤(6)将features_4输入到一个长度为N维的全连接层，得到行为预测结果，其中N为需要识别的行为动作种类个数。

本发明与现有的技术相比优点在于：通过上述步骤，基于时序增强模块的人体行为识别方法在端到端网络的训练过程中增强了时序信息的表达，同时保留了时序信息的真实性，为人体行为识别提供了丰富的语义信息，有利于模型对人体行为动作进行准确的分类；而且时序增强模块的方法相较于双流网络中的光流图像提取简单，速度快且可操作性强；相较于传统3D卷积网络保留了更多关键帧的时序信息，保证了视频人体行为分类的准确性。

附图说明

图1是本发明方法流程图；

图2是本发明提到保留时序特征的池化示意图；

图3是本发明提到的时序增强模块结构图；

图4是本发明提到的通道特征交互示意图；

图5是本发明的网络架构图；

具体实施方式

下面结合附图和具体实施方式对本发明进行描述。

如图1所示，本发明是一种基于时序增强模块的视频人体行为识别算法，通过构建时序增强模块对视频帧进行时空特征提取，并在端到端网络的训练过程中对时序特征信息进行了增强和交互处理，提高了视频中时序信息的利用率；同时相对于现有的视频人体行为识别技术来说，也降低了模型的复杂度。

实施例1：

(1)本发明使用了佛罗里达大学在2012年发布的UCF-101动作识别基准数据集，UCF-101数据集有101个动作类别，共13320个视频，在动作方面具有最大的多样性，并且在摄像机运动、物体外观及姿势、物体比例、杂乱的背景和照明条件等方面存在很大差异，可以进行广泛的研究。同时，该数据集按照8∶1∶1的比例进行划分训练集、验证集和测试集，其中训练集有10656段视频，验证集有1332段视频，测试集有1332段视频。本发明中的方法不仅适用于对该数据集包含的101种行为动作的识别分类，也可以扩展到其他类别的视频人体行为动作识别，例如人与人交互或人与物交互等行为动作。

(2)由(1)中的数据集，可得视频片段，将长度为T帧的视频片段以时间步幅t进行稀疏采样得到视频帧序列；其中T表示输入视频片段总帧数，t表示沿着时间轴方向，每间隔t帧视频图像进行采样一次。对于视频帧之间的采样比例T∶t，取值过小，会导致计算资源耗费过大；取值过大，又会导致丢失某些关键帧的时序信息；因此，采样比例T∶t的设定还要根据具体的实验进行具体分析。通过实验，本发明设置T∶t的值为8∶1。在本发明中采用计算机机器学习库pytorch中的torch.io._read_video_from_memory()进行稀疏采样，得到该视频帧序列表示为frames。

(3)对时空特征进行预处理。在本发明中采用卷积层和池化层作为特征采样网络feature_net，具体是在frames上滑动一个卷积核尺寸为1×7

表1是本发明涉及到的feature_net网络结构信息表

(4)对时空特征进行时序信息增强处理。在本发明中采用残差网络(ResNet)中的残差思想来设计时序增强模块Temporal_Block，每个Temporal_Block中包含5层卷积层，共16组Temporal_Block。Temporal_Block的结构如图3所示，用{T×S

最后将步骤(2)中的feature_2传入16组Temporal_Block中进行特征提取激活，得到特征feature_3；在Temporal_Network网络训练过程中，增强了视频帧之间的时序信息，为模型的训练提供了丰富的语义信息，同时也增强了模型的鲁棒性和健壮性。16组Temporal_Network网络结构信息如表2所示。

表2是本发明涉及到的16组Temporal_Block网络结构信息表

(5)对feature_3进行尺寸为{4×7

(6)采取全连接层来构建行为识别分类器，全连接层输出长度为N维，其中N是行为识别的种类个数，将feature_4输入全连接层，得到行为识别预测结果。

本发明整体的网络架构如图4所示，图中的时序增强模块即为本发明的创新，首先从视频片段中进行稀疏采样获取视频序列，接着对视频序列进行特征提取和池化，减少冗余信息的干扰；然后将提取到的特征传入到时序增强模块中进行特征提取和时序信息增强与交互处理；接着将特征再次进行池化处理，减少计算量；最后将特征输入到全连接层得到行为识别结果。和基于双流网络的人体行为识别方法相比，该框架不用预先提取光流图像，特征提取过程相对简单；与基于传统3D网络的人体行为识别方法相比，该框架在网络训练过程中，增强了视频帧之间的时序信息，为模型训练提供了丰富的语义信息，增强了模型的鲁棒性和健壮性。

应当理解的是，对本领域的普通技术人员来说，可以根据上述说明加以改进或变换，而所有的这些改进和变换都应该属于本发明所附权利要求的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于时序增强模块的视频人体行为识别方法 [P] . 中国专利： CN112464835A . 2021-03-09
2. 一种基于空间增强模块的视频行为识别方法及系统 [P] . 中国专利： CN112699786A . 2021-04-23
3. A method for transmitting an area-based 360 degree video, a method for receiving an area-based 360 degree video, a device for sending an area-based 360 degree video, a device for receiving a 360 degree video based on an area [P] . KR102271444B1 . 2021-07-01

机译：一种用于发送基于面积的360度视频的方法，一种用于接收基于面积的360度视频的方法，一种用于发送基于区域的360度视频的设备，一种用于基于区域接收360度视频的设备
4. System and method of video Telecommunication to compress and decompress The Video Data of color digitalThe present Invention relates to a method for compressing a digital color Video Data in a Telecommunication System Video that has a means for generating a video signal that is uN means for generating a video signal to a Plurality of color video framerate,With Every Frame Image consisting of a Plurality of Scanning Lines composed of a Plurality of pixelsAnd each pixel in the image Frame consists of the components of color digitalThe Method comprises the steps of determining a function); Luminance pixel based on at least one of the three components of color digital(b) identify at least one parameter decision for at least a significant portion of pixels in the scanlines of a Table of current image based on the difference ofThe role in Luminance between the pixels at a Predetermined distance from at least one pixel in each Scan line and at least a (c) comparison of decision parameter with [P] . MX166516B . 1993-01-11

机译：用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法，该方法具有用于生成视频信号的装置，该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率，每个帧图像由多个扫描线组成，扫描线由多个像素组成，图像中的每个像素由彩色数字分量组成（该方法包括确定功能的步骤）;基于彩色数字（b）的三个分量中的至少一个的亮度像素，基于两个像素之间的亮度差异，针对当前图像表的扫描线中的至少大部分像素，确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素，以及至少（c）比较决策参数与
5. A METHOD FOR PROVIDING ANALYZING SERVICES OF ENDOSCOPE VIDEO INFORMATION BASED ON LEARNING ALGORITHMS PROCESSING EFFICIENT DATA TAGGING FOR MODEL ENHANCEMENT AND AN APPARATUS USING IT [P] . KR20210109873A . 2021-09-07

机译：一种基于学习算法的内窥镜视频信息分析服务的方法，用于处理模型增强的高效数据标记和使用它的装置