法律状态公告日
法律状态信息
法律状态
2022-07-22
公开
发明专利申请公布
技术领域
本发明属于深度学习领域,尤其涉及一种监控视频中暴力行为检测系统及方法。
背景技术
随着信息技术的发展,智能监控设备在全国得到广泛应用,暴力场景可以被监控摄像头记录下来,检测这些视频中的暴力事件对公共安全至关重要。然而,在每秒产生大量视频的情况下,依靠工作人员手动检测只能用于有限数量的视频。所以从实际的应用上来说,自动化暴力检测是一项有意义的研究,可以应用于许多领域,例如智能监控、评估上传到移动应用程序的视频以及监狱看守机器人。因此研究一种能够自动监控和检测监控视频中的暴力行为的有效方法具有深远的意义。
随着计算能力的提高和大规模数据集的可用性,计算机视觉一直在不断发展。深度学习是计算机视觉中的一项关键技术,在图像分类和目标检测等许多领域取得了显着的里程碑,因此可以将其引入以解决暴力检测问题。与基于手工特征的方法相比,深度学习方法在鲁棒性和准确性方面产生了巨大的提升。然而,这种方法在应用于视频理解方面存在局限性,因为视频是帧的时间序列,而2DCNN无法编码动态运动信息。为此,有学者用循环神经网络(RNN)将视频序列结合起来。此外,由于3d卷积神经网络(C3D)通过将2D滤波器扩展到时间轴来编码时空信息,因而引入C3D用于处理暴力行为检测问题。通过使用3d过滤器捕获视频中的空间和时间信息,它们成功地应用于视频动作识别任务。
基于循环神经网络(RNN)的暴力行为检测方法,在一定程度上编码了动态运动信息,然而这些方法在性能上存在缺陷,它们没有在网络的早期层中跨多个帧执行卷积。因为传统的2DCNN模型不编码时间信息,因此基于视频的动作识别是一项具有挑战性的任务。
对于上述问题,有人提出用3d卷积神经网络编码时间信息,这样的模型在性能上有显着提高,但它们的计算成本很高,并且需要大量参数。另外3d卷积神经网络提取的特征在对抗由于光照、姿势、尺度等变化引起的多种空间变化方面效果非常好,但对大规模视频理解的性能仍然有限。
发明内容
针对现有技术的不足,本发明提供了一种监控视频中暴力行为检测系统及方法。
一种监控视频中暴力行为检测系统包括:数据抽取模块、数据标注模块、图像增强模块、模型训练模块、暴力行为检测模块以及监控日志模块;
所述数据抽取模块从监控摄像头推送的视频流数据抽取图像帧,输出到数据标注模块;数据标注模块对图像帧标注是否包含暴力行为以及暴力行为发生的区域,并输出到图像增强模块;图像增强模块依据标注后的帧图像的质量对其进行锐化、直方图均衡化、分辨率调整处理,并输出到模型训练模块;模型训练模块对其进行训练,训练结束得到暴力行为检测模块;暴力行为检测模块对新输入的未经标注的图像增强图片进行检测,最后将输出结果存入监控日志模块;
其中,暴力行为检测模块包含暴力行为分类模型、暴力行为目标检测模型;未经标注图片先输入到图像增强模块进行处理,然后送入到暴力行为检测模块;在暴力行为检测模块中,图片先经过暴力行为分类模型输出分类结果,根据分类结果,把包含暴力行为的图片抽取出来,输入到暴力行为目标检测模型中,输出暴力行为发生的位置;
另一方面,一种监控视频中暴力行为检测方法基于一种监控视频中暴力行为检测系统实现;包括下列步骤:
步骤1:获取室内外场所中监控摄像头所拍摄的视频数据,该视频数据以视频流的形式推送到视频抽取模块,视频抽取模块对视频数据进行抽帧处理,抽取一定量的视频数据图像;
步骤2:将抽取到的视频数据图像标注是否包含暴力行为以及暴力行为发生的区域范围;
步骤3:将标注后的视频数据图像,输入到图像增强模块,根据分辨率、光线因素进行图像增强,使用直方图均衡化显著增强图像对比度,并根据需要,适当调整视频数据图像的分辨率;
步骤4:将经过步骤3处理的视频数据图像输入到模型训练模块,得到暴力行为检测模块;
步骤4.1:将标注是否包含暴力行为并进行图像增强的视频数据图像输入到3d卷积神经网络中,将模型训练得到暴力行为分类模型;
所述3d卷积神经网络使用P3D的卷积结构,将3d卷积被分解为2d空间卷积和1d时间卷积;
步骤4.2:将标注暴力区域发生范围并进行图像增强的视频数据图像输入到CenterNet目标检测网络中,将模型训练到到暴力行为目标检测模型;
训练CenterNet需要最小化损失函数,CenterNet的损失函数包含三个各部分:关键点预测损失、离散偏移预测损失以及预测框大小损失;
步骤4.2.1:关键点预测损失公式如下:
其中,L
步骤4.2.2:为了修正预测的关键点,引入了离散偏移预测损失,公式如下:
其中,L
步骤4.2.3:要预测暴力行为发生的区域除了有关键点之外,还要预测标记暴力行为发生区域的边框的长宽,进而引入预测框大小损失,公式如下:
其中,L
步骤4.2.4:最后,将三个损失函数整合成一个总的损失函数,只要最小化该损失函数就使目标检测模型收敛了:
L
其中,L
步骤5:将监控摄像头实时获取的视频图像数据输入暴力行为分类模型得到暴力行为分类结果,得到每一帧送入模型的图像包含暴力行为的评分;
步骤6:依据暴力行为分类模型的结果,选择前k个评分最高的图像,保持其原本在视频流中的顺序,组成一个新的图像序列;
步骤7:将前k个评分最高的图像序列输入暴力行为目标检测模型得到暴力行为目标检测结果,得到每一张送入模型的图像发生暴力行为发生区域的中心点坐标、区域的长宽以及该区域的置信度;
步骤8:最后将暴力行为检测结果发送至运行的用户终端并存入日志模块;
步骤9:定期选择部分监控数据进行重新标注,送入暴力行为检测模块进行测试,计算分类的准确率和目标检测的IOU,得到检测效果不好的图像帧;用检测效果不好的图像帧训练并改善暴力行为分类模型和暴力行为目标检测模型;
通过训练得到监控视频中暴力行为分类模型对视频监控摄像头传回的视频流中抽取的视频图片进行分类,并选出包含暴力行为的图片,监控视频中暴力行为目标检测模型可对这些图片进行进一步的检测,实现高精度的暴力行为区域目标检测。
本发明有益技术效果:
本发明提供一种监控视频中暴力行为检测方法,通过无线监控摄像头采计场景内实时图像,用一种基于深度学习分类模型和一种深度学习目标检测模型训练带标签的包含暴力行为的图像以及正常的图像,做到暴力行为精确识别。
附图说明
图1本发明实施例监控视频中暴力行为检测方法的流程示意图;
图2本发明实施例监控视频中暴力行为检测系统结构示意图;
图3本发明实施例监控视频中暴力行为目标检测算法模型结构示意图。
具体实施方式
下面结合附图和实施例,对本发明做进一步说明:
本发明提供了一种监控视频中暴力行为检测系统及方法。
一种监控视频中暴力行为检测系统包括:数据抽取模块、数据标注模块、图像增强模块、模型训练模块、暴力行为检测模块以及监控日志模块;如附图2所示;
所述数据抽取模块从监控摄像头推送的视频流数据抽取图像帧,输出到数据标注模块;数据标注模块对图像帧标注是否包含暴力行为以及暴力行为发生的区域,并输出到图像增强模块;图像增强模块依据标注后的帧图像的质量对其进行锐化、直方图均衡化、分辨率调整处理,并输出到模型训练模块;模型训练模块对其进行训练,训练结束得到暴力行为检测模块;暴力行为检测模块对新输入的未经标注但经过图像增强处理的图片进行检测,最后将输出结果存入监控日志模块;
其中,暴力行为检测模块包含暴力行为分类模型、暴力行为目标检测模型;未经标注图片先输入到图像增强模块进行处理,然后送入到暴力行为检测模块。在暴力行为检测模块中,图片先经过暴力行为分类模型输出分类结果,根据分类结果,把包含暴力行为的图片抽取出来,输入到暴力行为目标检测模型中,输出暴力行为发生的位置;暴力行为目标检测算法模型结构如附图3所示;
另一方面,一种监控视频中暴力行为检测方法基于一种监控视频中暴力行为检测系统实现;如附图1所示;包括下列步骤:
步骤1:获取室内外场所中监控摄像头所拍摄的视频数据,该视频数据以视频流的形式推送到视频抽取模块,视频抽取模块对视频数据进行抽帧处理,抽取一定量的视频数据图像;
将楼内过道顶端部署的监控摄像头拍摄的视频数据上传到算法所在的主机(也可以说上传至算法服务器)。上传视频流的过程中使用了RTSP协议,保证数据的实时性;
将上传到主机(或者服务器)的视频数据输入至数据抽取模块,随机选择一些过道间监控视频帧计算相似度,确定图像抽取时间间隔;
步骤2:将抽取到的视频数据图像标注是否包含暴力行为以及暴力行为发生的区域范围;
将部分视频图像数据至少标注有是否包含暴力行为以及暴力行为发生的区域范围,要求将标注存储成XML文件格式;
步骤3:将标注后的视频数据图像,输入到图像增强模块,根据分辨率、光线等因素进行图像增强,使用直方图均衡化显著增强图像对比度,并根据需要,适当调整视频数据图像的分辨率;
将标注好的图像送入图像增强模块,进行直方图均衡化调整,然后将图像的分辨率设置为512*512;
步骤4:将经过步骤3处理的视频数据图像输入到模型训练模块,得到暴力行为检测模块;
步骤4.1:将标注是否包含暴力行为并进行图像增强的视频数据图像输入到3d卷积神经网络中,将模型训练得到暴力行为分类模块;
所述3d卷积神经网络使用P3D的卷积结构,将3d卷积被分解为2d空间卷积和1d时间卷积;这样技能考虑时间信息,又能大幅度减少神经网络的参数,提升算法执行的效率;
步骤4.2:将标注暴力区域发生范围并进行图像增强的视频数据图像输入到CenterNet目标检测网络中,将模型训练到到暴力行为目标检测模型;
训练CenterNet需要最小化损失函数,CenterNet的损失函数包含三个各部分:关键点预测损失、离散偏移预测损失以及预测框大小损失;
步骤4.2.1:关键点预测损失公式如下:
其中,L
步骤4.2.2:为了修正预测的关键点,引入了离散偏移预测损失,公式如下:
其中,L
步骤4.2.3:要预测暴力行为发生的区域除了有关键点之外,还要预测标记暴力行为发生区域的边框的长宽,进而引入预测框大小损失,公式如下:
其中,L
步骤4.2.1:最后,将三个损失函数整合成一个总的损失函数,只要最小化该损失函数就使目标检测模型收敛了:
L
其中,L
步骤5:将监控摄像头实时获取的视频图像数据输入暴力行为分类模型得到暴力行为分类结果,得到每一帧送入模型的图像包含暴力行为的评分;
将处理过后的图像送入暴力行为检测模块。图像首先被送入暴力行为分类模型得到暴力行为分类结果,得到每一帧送入模型的图像包含暴力行为的评分,该评分为为一个0到1之间的小数,表示该图像包含暴力行为的概率。
步骤6:依据暴力行为分类模型的结果,选择前k个评分最高的图像,保持其原本在视频流中的顺序,组成一个新的图像序列;
步骤7:将前k个评分最高的图像序列输入暴力行为目标检测模型得到暴力行为目标检测结果,得到每一张送入模型的图像发生暴力行为的区域以及区域的置信度;
将前k个评分最高的图像序列输入暴力行为目标检测模检测暴力行为发生区域的中心点坐标、区域的长宽以及该区域的置信度。
步骤8:最后将暴力行为检测结果发送至运行的用户终端并存入日志模块;
步骤9:定期选择部分监控数据进行重新标注,送入暴力行为检测模块进行测试,计算分类的准确率和目标检测的IOU,得到检测效果不好的图像帧;用检测效果不好的图像帧训练并改善暴力行为分类模型和暴力行为目标检测模型;
通过训练得到监控视频中暴力行为分类模型对视频监控摄像头传回的视频流中抽取的视频图片进行分类,并选出包含暴力行为的图片,监控视频中暴力行为目标检测模型可对这些图片进行进一步的检测,实现高精度的暴力行为区域目标检测;广泛适用于暴力行为检测的应用场景中;
通过训练得到监控视频中暴力行为分类模型可对视频监控摄像头传回的视频流中抽取的视频图片进行分类,并选出包含暴力行为的图片,监控视频中暴力行为目标检测模型可对这些图片进行进一步的检测,最终的平均精度(AP)可达到45.1,实现了可靠的暴力行为检测,广泛适用于暴力行为检测的应用场景中。
机译: 一种在多通道视频监控系统中显示人体检测视频信号的方法。
机译: 一种用于在具有多元振幅分布的元素场中检测振幅阶跃的方法,一种用于执行这种方法的装置以及一种包括这种装置的视频系统
机译: 视频监控系统中采用光流和高斯混合模型的牛群检测系统及方法