公开/公告号CN112257643A
专利类型发明专利
公开/公告日2021-01-22
原文格式PDF
申请/专利权人 天津天地伟业智能安全防范科技有限公司;
申请/专利号CN202011193873.0
申请日2020-10-30
分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);
代理机构12226 天津企兴智财知识产权代理有限公司;
代理人李彦彦
地址 300384 天津市滨海新区高新区华苑产业区(环外)海泰华科二路8号4号楼五层
入库时间 2023-06-19 09:40:06
技术领域
本发明属于视频监控技术领域,尤其是涉及一种基于视频流的抽烟行为和打电话行为识别方法。
背景技术
近年来很对公共场所都张贴了禁烟提醒,工厂和办公场所以及公共交通工具内的禁烟检测需求日益增加。在某些特定场景,比如考试教室、以及一些办公区域、加油站或保密机构则对禁用手机的检测需求也在急剧增加。而人工监视无法起到实时的监督作用,或者事后的监控视频筛查,既需要大量的人力和时间成本,也有着亡羊补牢的功效,不具有主动性。实时对人群聚集密度大的公共场所进行抽烟检测,可以在第一时间发现火灾隐患,防患于未然;对教室、加油站、保密机构进行打电话检测,可以防止信息的泄露,避免造成不必要的损害。而且随着最近两年视频资源数据急剧增长,对视频数据进行直接识别的需求也在与日俱增。
传统的抽烟和打电话的检测方法:一是利用中值背景法、直方图均衡等算法进行背景建模,然后提取目标局部纹理特征的方法,该方法受环境干扰较大,在复杂的大环境下,受光照等条件的影响会造成目标漏检、误检率高;二是使用CNN网络模型对视频中的单帧图像进行识别判断,这种方法一般都是将视频的每一帧图像当做静态图像处理,利用CNN的2D卷积提取单张静态图像的空间特征来进行识别,但2D CNN对视频进行操作的这种方式的识别没有考虑图像之间多个连续帧的时间维度上的编码运动信息,比如光流场或图像中物体的运动信息等,它需要将视频处理成单帧图片后进行识别判断,而不能直接对原始视频做出识别,这样就造成了时间维度信息的丢失。
发明内容
有鉴于此,本发明创提出一种基于视频流的抽烟行为和打电话行为识别方法以解决传统的抽烟和打电话的检测方法在复杂的大环境下,受光照等条件的影响会造成目标漏检、误检率高,不能直接对原始视频做出识别,造成时间维度信息丢失的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于视频流的抽烟行为和打电话行为识别方法,包括以下步骤:
S1:采集模型训练的数据集,从监控设备中获取现场视频数据,然后将获取的数据集进行数据增强处理;
S2:安装编译支持3D卷积的caffe框架;
S3:搭建基于Tiny_darknet-3D深度学习的分类网络架构,将数据集分别送入抽烟分类的3D卷积网络和打电话分类的3D卷积网络;
S4:设置训练网络模型的超参数,利用随机梯度下降算法进行模型的迭代训练;
S5:从待监测场景的监控设备中,直接获取监控视频流,从而获取待检测图像信息;
S6:将步骤S5中获取的视频数据送入步骤S3中预先训练好的模型进行3D卷积处理,并输出分类结果,模型输出的分类结果包括目标所属的类别和对应的置信值;
S7:根据目标的置信值,设置一个阈值,去除置信值较低的目标,排除误检,根据检测出抽烟或打电话的视频流进行随机的图像抓取,然后保存图像。
进一步的,步骤S1中利用的数据增强处理包括镜像处理、高斯模糊、视频旋转;
数据集中训练集和测试集的样本比例为10∶1。
进一步的,步骤S1中利用的卷积网络采用Tiny_darknet-3D网络,网络每次输入大小resize为224*224的8帧视频图片,用(c,l,h,w)大小来表示一个视频片段,c表示每一帧图像的channel,l表示视频的帧数,h,w表示视频的图像宽高,(d,k,k)表示卷积核,d表示的就是时间维度的核大小,k表示空间维度的核大小。
进一步的,卷积网络选取的卷积核为(3,3,3),即将时间维度看成是第三维,3D卷积通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核对8帧图片进行融合卷积,在这个结构中,卷积层中每一个map都会与上一层中多个邻近的连续帧相连,以捕捉物体的运动信息。
进一步的,训练采用随机裁剪的方式,h和w大小不小于160像素,卷积网络包括15个卷积层、6个池化层、1个全连接层、1个softmax损失函数层。
进一步的,每次训练采用32个视频片段,即mini_batch=32。
进一步的,步骤S1中利用的设置训练网络模型的超参数是指设置初始学习率为0.001,每迭代16000次学习率下降0.1,总共降4次,训练的总迭代次数一般设置为每组数据训练4次。
进一步的,步骤S3中利用的Tiny_darknet-3D网络的softmaxWithLoss层中loss值的计算方法如下公式所示:
其中,
相对于现有技术,本发明具有以下优势:
(1)3D卷积网络检测精确,节约人力。3D卷积网络的视频监控速度快,可以达到实时监控的效果,在监控中可以自动的理解识别监控中人的异常行为,相比于传统的人盯监控画面的操作,避免了人为因素(疲劳等)造成漏检的情况发生,使用更加方便,同时也弥补了使用2D卷积网络进行目标检测任务时将视频处理成单帧图片后进行识别判断,而不能直接对原始视频做出识别的不足。
(2)监控面积广泛。可以应用在禁烟的公共场所,和考试等需要一定保密性的场所。
(3)实时视频监控。第一时间发现抽烟或打电话的行为进行报警,防止造成财产或信息损失后再进行弥补过失的事件发生。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的一种基于视频流的抽烟行为和打电话行为识别方法示意图;
图2为本发明实施例所述的一种基于视频流的抽烟行为和打电话行为识别方法应用场景示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
如图1至如2所示,一种基于视频流的抽烟行为和打电话行为识别方法,包括以下步骤:
步骤1:采集模型训练的数据集。从监控设备中获取现场视频数据,然后将获取的数据集进行数据增强处理(镜像处理、高斯模糊、视频旋转等)。数据集中训练集和测试集的样本比例为10∶1。
步骤2:安装编译支持3D卷积的caffe框架:3D-Caffe
步骤3:搭建基于Tiny_darknet-3D深度学习的分类网络架构。
数据集分别送入到两个分支网络,一个抽烟分类的3D卷积网络,一个打电话分类的3D卷积网络。
基础网络采用Tiny_darknet-3D网络,网络每次输入大小resize为224*224的8帧视频图片。用(c,l,h,w)大小来表示一个视频片段,c表示每一帧图像的channel,l表示视频的帧数,h,w表示视频的图像宽高;(d,k,k)表示卷积核,d表示的就是时间维度的核大小,k表示空间维度的核大小,
本发明网络选取的卷积核为(3,3,3),即将时间维度看成是第三维,3D卷积通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核对8帧图片进行融合卷积,
在这个结构中,卷积层中每一个map都会与上一层中多个邻近的连续帧相连,以此捕捉物体的运动信息。
训练采用随机裁剪的方式,h和w大小不小于160像素。网络有15个卷积层和6个池化层,1个全连接层,一个softmax损失函数层。
每次训练采用32个视频片段,即mini_batch=32。
步骤4:配置训练参数,训练模型。设置训练网络模型的超参数,设置初始学习率为0.001,每迭代16000次学习率下降0.1,总共降四次,训练的总迭代次数一般设置为每组数据训练4次,即(样本总数/batch_size)*4次;
模型训练利用SGD(随机梯度下降)算法进行迭代训练,Dropout值设置为0.7,训练过程中打印输出训练日志,根据loss值和accuracy值选取最优模型用于抽烟和打电话分类任务。
步骤5:获取待检测图像信息。从待监测场景的监控设备中,直接获取监控视频流,提取8帧图像(每秒4帧)为一组数据。
步骤6:视频数据分类。将步骤5中获取的视频数据送入步骤3中预先训练好的模型进行3D卷积处理,并输出分类结果。
模型输出的分类结果包括目标所属的类别和对应的置信值。
步骤7:对检测结果进行后处理。
根据目标的置信值,设置一个阈值(默认0.8),去除置信值较低的目标,排除误检;根据检测出抽烟或打电话的视频流进行随机的图像抓取,然后保存图像,方便后期的查询/查证。
所述步骤(iii)中Tiny_darknet-3D网络的softmaxWithLoss层中loss值的计算方法如下公式所示:
其中,
如图2所示,监控设备安装于房屋顶部(不高于3m的位置),向下俯视45°左右的监控区域,避免周围有遮挡物阻碍视线。
本发明基于视频流的人体行为识别系统,利用3D卷积的深度学习技术,分别对禁止抽烟的场景进行实时检测,同时识别手部动作和嘴部香烟,当监控视频中检查到人员抽烟(未遮挡)时进行识别并触发报警;对禁止打电话的场景进行实时检测,当监控视频中检查到人员使用手机打电话时进行识别并触发报警。
本发明可应用于多种公共场所,比如加油站、教室、写字楼、工厂(例如面粉厂)、无烟列车、医院等(禁止出现明火的加油站或者面粉厂需要同时禁止抽烟和打电话)视频监控区域。
本发明支持用户自主设置检测区域,报警记录及抓拍图片同步存储到后台数据库,方便事后查询、查证。
3D卷积网络检测精确,节约人力。3D卷积网络的视频监控速度快,可以达到实时监控的效果,在监控中可以自动的理解识别监控中人的异常行为,相比于传统的人盯监控画面的操作,避免了人为因素(疲劳等)造成漏检的情况发生,使用更加方便,同时也弥补了使用2D卷积网络进行目标检测任务时将视频处理成单帧图片后进行识别判断,而不能直接对原始视频做出识别的不足。监控面积广泛。可以应用在禁烟的公共场所,和考试等需要一定保密性的场所。实时视频监控。第一时间发现抽烟或打电话的行为进行报警,防止造成财产或信息损失后再进行弥补过失的事件发生。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 一种欺诈行为识别装置及其控制程序及欺诈行为识别方法
机译: 一种欺诈行为识别装置及其控制程序及欺诈行为识别方法
机译: 一种行为识别装置及行为识别方法