首页> 中国专利> 一种基于动作识别的校园暴力行为视频检测方法

一种基于动作识别的校园暴力行为视频检测方法

摘要

本发明涉及一种基于动作识别的校园暴力行为视频检测方法,该方法基于YOWO框架,对主干网络进行时空解耦来分步提取时空特征,并改进了数据填充方法和损失计算方法,从而对视频中暴力行为进行识别和定位。与现有技术相比,本发明具有保证速度满足实时性的同时尽可能准确等优点。

著录项

  • 公开/公告号CN112926388A

    专利类型发明专利

  • 公开/公告日2021-06-08

    原文格式PDF

  • 申请/专利权人 上海交通大学重庆研究院;

    申请/专利号CN202110094939.9

  • 发明设计人 吴洺;余天;姜飞;卢宏涛;

    申请日2021-01-25

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构31225 上海科盛知识产权代理有限公司;

  • 代理人应小波

  • 地址 400000 重庆市渝北区龙兴镇两江大道618号

  • 入库时间 2023-06-19 11:19:16

说明书

技术领域

本发明涉及图像识别技术,尤其是涉及一种基于动作识别的校园暴力行为视频检测方法。

背景技术

学生的校园安全一直是社会关注的重点之一,许多校园危险行为如打架、摔倒等都会带来安全隐患,威胁到学生在校的安全。而引入校园危险行为实时监控系统,能够及时发现学生的多种危险行为并及时预警,从而避免造成严重的后果,具有较为深远的现实意义和应用价值。此外,对同时依赖于时序和空间信息的视频等数据进行动作识别也是计算机视觉领域的研究重点之一,包含分类和定位两大任务,有利于计算机识别和理解人类的各种行为,具有较高的科研价值。

然而目前动作识别主要使用的数据集为公开数据集,缺乏在真实场景下采集的数据。而公开数据集一般经过裁剪和放缩调整,使得公开数据集与真实数据集差距较大,在公开数据集上训练的模型基本无法直接应用于真实场景之下。另外,现有多种算法虽然能够完成较高精度的检测,但存在各种如计算量大、耗时长、参数量大、内存占用大等问题,从而限制了其落地于真实应用上。

现有的动作识别方法主要可分为三类:基于双流的方法、基于卷积的方法和基于位姿骨骼的方法。

其中,基于双流的代表算法依赖于利用图像的光流信息来表征运动的轨迹。而光流作为像素级的运动向量,其计算量巨大,导致整体模型的速度较慢,无法满足实时性要求。此外,光流信息一般需要单独计算,因此也无法实现端到端系统,用于实时系统的能力较差。

基于卷积的方法能够利用卷积尤其是3D卷积同时获取时间和空间特征,进行端到端的学习和预测。但是3D卷积含有大量的参数,当网络较深时,其所占用的资源开销是巨大的,不利于大范围部署到实际生产环境。

基于位姿骨骼的方法首先使用姿态估计的方法获取人体关节点模型,再做后续处理得出最终的预测结果。这样同样无法端到端地进行预测和分析,同时,动作识别模块的最终结果依赖于姿态估计的结果,容易导致误差累积,影响最终的精度。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于动作识别的校园暴力行为视频检测方法。

本发明的目的可以通过以下技术方案来实现:

根据本发明的一个方面,提供了一种基于动作识别的校园暴力行为视频检测方法,该方法基于YOWO框架,对主干网络进行时空解耦来分步提取时空特征,并改进了数据填充方法和损失计算方法,从而对视频中暴力行为进行识别和定位。

作为优选的技术方案,所述的暴力行为包括打架。

作为优选的技术方案,所述的YOWO框架包括:

数据输入模块,用于直接从学校的实际场景中采集数据传入系统;

ResNext-101模块,为改进过的3D主干网络,用于提取视频的解耦的时空特征;

YOLOv2模块,用于提取该片段关键帧的空间特征;

通道融合注意力机制模块,用于将ResNext-101模块和YOLOv2模块的输出结果进行融合后输出;

识别与定位模块,用于通过边界框回归的方法预测出是否存在打架行为和其发生的位置。

作为优选的技术方案,所述的数据输入模块采用改进的数据填充方法进行视频片段的填充。

作为优选的技术方案,所述的改进的数据填充方法为采用自适应平均池化层来实现,具体过程为:

101)将输入的维度为D×C×H×W的数据转换为C×D×H×W,其中D为帧数,C为通道数,H为高度,W为宽度;

102)利用自适应平均池化层来将帧数D扩充到16帧。

作为优选的技术方案,所述的自适应平均池化层使用已有的部分先序帧来生成的,并且按序插入其中。

作为优选的技术方案,所述的ResNext-101模块使用R2P1D的方法对时空特征进行解耦并分别提取。

作为优选的技术方案,所述的对时空特征进行解耦并分别提取具体过程如下:

201)将3D卷积分支的卷积核由3×3×3的大小修改为两个分别是1×3×3和3×1×1的两个卷积核,其中维度分别对应于时长D,高度H和宽度W,在中间加入ReLU层来提供非线性;

202)将模型从原来的一起提取时空特征变成了先提取空间特征再提取时间特征两步,实现了时序和空间的解耦。

作为优选的技术方案,所述的识别与定位模块包括:

分类单元,采用MSE损失函数来寻找是否存在打架行为;

定位单元,采用平滑的L1损失函数将打架行为在图像中标记出来。

作为优选的技术方案,所述的损失函数采用基于权重的损失函数,给损失更大的数据以更大的权重,从而加强对部分困难样本的学习,具体过程如下:

对于每一批训练数据,根据置信度损失Lc来计算每个样本的权重系数w,再将其应用到对应样本的定位损失。

与现有技术相比,本发明具有以下优点:

1)本发明能够实时分析的校园打架行为,保证速度满足实时性的同时尽可能准确;

2)通过使用自适应平均池化来填充数据来提高对缺乏先序数据的关键帧的预测准确率;

3)通过使用可分离卷积的方法来分别提取打架行为的时序和空间特征,提高打架行为的识别率;

4)通过使用加权的损失函数来强化对困难样本的学习,进一步提高打架行为的精度。

附图说明

图1为本发明的系统框架示意图;

图2为YOWO原生的填充方法示意图;

图3为本发明改进的填充方法示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

本发明一种基于动作识别的实时校园打架行为检测算法。该方法基于YOWO框架,对主干网络进行时空解耦来分步提取时空特征,并改进了数据填充方法和损失计算方法,从而对视频中打架行为进行识别和定位,在保证速度满足实时性的同时尽可能准确。

如图1所示,本发明的主体部分以YOWO框架为主搭建。系统直接从学校的实际场景中采集数据传入系统进行分析。其中ResNext-101为算法改进过的3D主干网络,用来提取视频的解耦的时空特征;YOLOv2则提取该片段关键帧(最后一帧)的空间特征。两者经过融合后送入通道融合注意力机制(CFAM)模块,最后通过边界框回归的方法预测出是否存在打架行为和其发生的位置。

本发明的视频片段填充方法具体为:

系统的输入是以3秒为间隔获取的连续的75帧RGB图像数据为一个片段的。对于其中的每一帧(即关键帧),需要使用其前面的15帧数据来帮助提取时空特征用来对关键帧预测的。当关键帧序号在前15帧时,则会缺失部分先序帧的信息。YOWO使用了循环的方式从片段后部取帧补充进去,然而这样做会引入后序的帧信息,打乱视频信息的有序性,从而影响预测的精度。参见图2,以输入总长8帧,关键帧为第4帧为例,此时还未发生打架行为,但因为使用到了72-75帧的数据,而这几帧包含了打架的行为,因此最终第四帧被预测为打架,给出了边界框。

对此,本发明提出了一种简单而有效的方法来自动填充补足帧数,具体地,本发明使用自适应平均池化层来实现这一目的。首先本发明将输入的维度为D×C×H×W的数据转换为C×D×H×W,其中D为帧数(D<16),C为通道数,H为高度,W为宽度。然后利用自适应平均池化层来将帧数D扩充到16帧。这种方法是使用已有的部分先序帧来生成的,并且按序插入其中,因此不会打乱固有的时序信息,参见图3,本发明用1-4帧的数据进行自适应平均池化,将其扩充到了8帧,其中都没有发生打架行为,所以最终的预测结果也是正确的。

本发明的解耦的时空特征提取具体为:

动作识别依赖于时序信息和空间信息两部分的特征。不同于双流法或基于LSTM的一些方法,3D卷积是同时提取这两部分的特征的,这样就导致了时序信息和空间信息的耦合。然而这两部分特征实际上存在些许不同,3D卷积这种耦合的方法并不能更好的得到鲁棒的时空特征,不利于后续的处理。此外,打架这种行为相对复杂,不同于简单的动作,需要更加健壮的模型才能达到比较好的效果。

因此,本发明使用基于R2P1D的方法,对时空特征进行解耦并分别提取。具体地,本发明将3D卷积分支的卷积核由3×3×3的大小修改为两个分别为1×3×3和3×1×1的两个卷积核,其中维度分别对应于时长D,高度H和宽度W,在在中间加入ReLU层来提供非线性。如此,模型从原来的一起提取时空特征变成了先提取空间特征再提取时间特征两步,实现了时序和空间的解耦,从而能更好地训练模型,获得更加合适的特征来提升本发明对于打架行为的预测和定位。

本发明困难样本的学习具体为:

本发明对于打架的行为主要有两个任务:分类和定位。分类用于寻找是否存在打架行为,是一个二分类问题;定位则是要将打架行为在图像中标记出来,本发明采用边界框回归的方法进行定位。针对分类任务,本发明使用的是MSE损失,而定位任务则采用了平滑的L1损失。YOWO针对类间不平衡问题使用了Focal Loss来帮助提升分类任务的准确性。但是对于本发明的打架行为,本发明观察到在训练时,置信度的损失相对更大,从而最终结果也不尽人意,这是因为打架行为还存在较大的类内不平衡问题。如常见的打架行为包括出拳和踢腿等,但也存在包括束缚、拉扯等不同类型的打架。而这部分出现概率相对较低,所以对其预测准确度不高,并且也会抑制对常见打架行为的预测概率。

为此,本发明提出了基于权重的损失函数,给损失更大的数据以更大的权重,从而加强对这部分困难样本的学习。具体地,对于每一批训练数据,本发明根据置信度损失Lc来计算每个样本的权重系数w,再将其应用到对应样本的定位损失。这样做会导致定位损失成为批样本按照权重的均值,出现和分类损失占比的不同,所以还要乘以批大小来恢复其原本的比例。详细公式参见公式(1)和(2),值得注意的是,其中Lc和w为向量形式,而Lw和Ll为标量形式。

ω=Softmax(L

使用了两个数据集来对本发明的方法进行评价,参考的基线方法为YOWO。参见表1在公开数据集UCF101-24上,以16帧长度的输入做特征提取为例,本发明的方法最终取得了0.7%的提升,同时维持推理速度几乎不变,足以满足本发明实时性的要求。另外,本发明从上海闵行的中小学采集了大量真实场景的数据,制作了校园打架行为的真实数据集,可以看到,YOWO在本发明真实场景下的结果为58.7%,而经过本发明的改进,提升了2.6%的精度。并且本发明还进行了消融实验来分别验证本发明的方法的有效性。

表1

考虑到填充方法针对的部分缺少先序帧的数据占比较低,本发明还提取了数据集中每个视频段的前16帧的预测结果进行比较,如表2所示,本发明的结果在不同的数据集上都有明显的提升。

表2

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号