首页> 中国专利> 一种基于深度学习的监控图像多类物体检测与识别方法

一种基于深度学习的监控图像多类物体检测与识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于深度学习的监控图像多类物体检测与识别方法。本发明通过利用已公开的SSD深度学习检测框架，在此框架上重新设计网络结构及相应的各种参数，使其能够快速地检测到监控视频图像中受关注的物体。相对传统的图像处理方法来说，本发明采用深度学习能够自动学习更有效更丰富的特征，从而具有较高的鲁棒性。相对其他深度学习方法来说，本发明利用采用一些轻量的网络模块，重新设计目标函数，并引入了残差模块及概率热力图，从而保持了速度与性能上的优势。总得说来，本发明的方法能高效快速检测到图像中的感兴趣物体，并且能够被推广到更通用的物体检测领域。

著录项

公开/公告号CN107316007A

专利类型发明专利
公开/公告日2017-11-03

原文格式PDF
申请/专利权人浙江捷尚视觉科技股份有限公司;
展开▼

申请/专利号CN201710424764.7
发明设计人尚凌辉;王弘玥;张兆生;刘小扬;郑永宏;丁连涛;
展开▼

申请日2017-06-07
分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/02(20060101);
代理机构33272 杭州奥创知识产权代理有限公司;
代理人王佳健
地址 311121 浙江省杭州市余杭区五常街道文一西路998号7幢东楼
入库时间 2023-06-19 03:38:37

法律信息

法律状态公告日

法律状态信息

法律状态
2023-06-02

专利权的转移 IPC(主分类):G06K 9/00 专利号:ZL2017104247647 登记生效日:20230519 变更事项:专利权人变更前权利人:浙江捷尚视觉科技股份有限公司变更后权利人:杭州捷尚安全器材有限公司变更事项:地址变更前权利人:311121 浙江省杭州市余杭区五常街道文一西路998号7幢东楼变更后权利人:310012 浙江省杭州市西湖区万塘路262号2幢3层319室-2

专利申请权、专利权的转移
2020-04-03

授权

授权
2017-11-28

实质审查的生效 IPC(主分类):G06K9/00 申请日:20170607

实质审查的生效
2017-11-03

公开

公开

说明书

技术领域

本发明属于视频监控技术领域，涉及一种基于深度学习的监控图像多类物体检测与识别方法。

背景技术

随着中国汽车数量的逐年增加以及国家对道路，小区的监控设备的持续投入，如何有效利用与解析如此大数量监控视频或图像成为目前亟需解决的问题。

对这些图像内容的分析与理解无论是在交通、安防，或是在视频侦查方面都具有重要的应用。图像物体检测作为理解与解析图像的第一个步骤，其性能直接影响了后续步骤的效果。在监控图像中，人，机动车，非机动车这几类作为关注的主要主体，如何更好的检测这类物体是本发明主要解决的问题。

目前已有的技术从路线上讲，主要有基于传统的图像处理方法或机器学习方法，比如《对图像中的车辆的检测-200980137706.X》，《一种基于图像的车辆检测方法-201310259434.9》，《一种基于图像的夜间车辆检测方法-201410104987.1》等，此类方法存在的缺点包括对环境及场景严重依赖，对时间依赖以及只能实现单类检测，检测性能低下等，这严重制约了这些技术的真正实用性。

第二种路线是基于深度学习方法，比如《一种基于快速R-CNN深度神经网络的车型识别方法-201610563184.1》，《一种基于深度学习的交通图像多类型车辆检测方法-201610397819.5》，《一种基于深度学习的多方向车型检测识别系统-201610316159.3》，《基于深度学习SSD框架的道路车辆实时检测方法-201511183427.5》。这类方法无论从性能或者耗时方面都优于前述的传统方法。

发明内容

为了应付目前急剧增长的视频图像内容，提高视频图像分析的效果，本发明通过利用已公开的SSD深度学习检测框架，在此框架上重新设计网络结构及相应的各种参数，使其能够快速地检测到监控视频图像中受关注的物体(人，机动车，非机动车)，为后续的图像理解打下坚实的基础。

本发明解决技术问题所采取的技术手段为：

步骤1、收集不同地方的道路，小区监控视频图像数据，标注感兴趣的物体。

步骤2、把步骤1中标注信息转成SSD支持的xml标注格式并准备训练所需要labelmap.prototxt以及val_name_size.txt，按一定的比例分为训练集与验证集。

步骤3、设计训练网络：

3a).结合VGG，SqueezeNet,ResNet网络重新设计网络。由于SSD原始框架用的是VGG网络，该网络参数比较多，计算量庞大，导致速度较慢。为了克服这一缺点，本发明基于速度与性能方面的考虑，重新设计了网络结构：

第一用SqueezeNet的网络替换了原VGG网络Conv1～Conv5，第二个是用1x3,3x1的网络取代了原始网络3x3的部分。通过这两个改进，能够大大减少网络参数，降低网络计算量。第三个是在Conv6～Conv8中非提取框的卷积层引入ResNet模块，这个能够在不增加很多计算量的前提下，保留更多的上层信息，从而能够提升网络性能。通过这些改进，本发明所采用的方法在性能上基本上与公开的文献中采用VGG持平，但是速度上提高了7-10倍。

3b).统计所有标注的信息，设置不同提取框的特征层的aspect_ratio。

步骤4、根据步骤3b的统计及实际应用需求，按WxH的大小生成leveldb/lmdb的数据库格式用于训练。

步骤5、设计loss函数：

其中，c，l，g，x分别表示属于某个类别的概率，预测框，真实框，以及预测框与真实框匹配的标记(匹配为1，否则为0)；N表示的是与标注框匹配的数量；L_loc(x,l,g)为定位损失函数；L_conf(x,c)表示分类损失函数。

为了消除样本不均衡产生的影响，本发明重新定义分类损失函数L_conf(x,c)如下：

这里w_i表示不同类别的权重，其计算公式为：

表示类别为c_i的数量，M为总的框的数量。

步骤6、利用Caffe-SSD检测框架以上一步提出的函数为优化目标训练检测分类器。

步骤7、利用步骤6训练得到的检测分类器模型，输入测试图片或视频的一帧，再做同类别间的非极大值抑制(Non Maximum Suppression,NMS)，得到每一图像/帧的输出，此输出包括检测到的物体数量，以及每个物体的位置、类别和置信度。

步骤8、统计训练集中每个类别在图像中出现的概率，得到每一类别在缩放图像上的概率热力图。

步骤9、利用步骤8得到的概率热力图重新计算每一类别的置信度的值，然后再利用NMS合并不同类别的框。

步骤10、根据实际情况对不同类别设计不同的置信度阈值，把低于本类置信度阈值的结果过滤掉，从而得到最终的输出结果。

本发明的有益效果：相对传统的图像处理方法来说，本发明采用深度学习能够自动学习更有效更丰富的特征，从而具有较高的鲁棒性。相对其他深度学习方法来说，本发明利用采用一些轻量的网络模块，重新设计目标函数，并引入了残差模块及概率热力图，从而保持了速度与性能上的优势。总得说来，本发明的方法能高效快速检测到图像中的感兴趣物体，并且能够被推广到更通用的物体检测领域。

附图说明

图1为本发明方法流程图。

图2为改进后的网络结构图。

具体实施方式

下面结合附图1对本发明进行详细阐述，本发明的具体步骤如下：

步骤1、收集不同地方的道路，小区监控视频图像数据，并把图像中的人，两轮车，三轮车，车头，车尾标注出来。

步骤2、把步骤1中标注信息转成SSD支持的xml标注格式并准备训练所需要labelmap.prototxt以及val_name_size.txt，并按4:1比例分训练集与验证集。

步骤3、设计训练网络:

3a).结合VGG，SqueezeNet,ResNet网络重新设计网络,如图2所示；

3b).统计所有标注的信息，设置不同提取框的特征层的aspect_ratio，如下表所示。

特征层值SqueezNet_4(0.25,0.5，0.75，1,1.25)SqueezeNet_9(0.5,0.8,1,1.3,1.6)ConvBlock_2(0.4,0.8,1,1.4,1.7)ConvBlock_3(0.4,0.8,1,1.4,1.7)ConvBlock_4(0.5,0.8,1,1.2,1.8)GlobalPooling_1(0.8,1,1.25,1.6,2)

步骤4、根据步骤3b的统计及实际应用需求，按WxH(384x2556)的大小生成leveldb/lmdb的数据库格式用于训练。

步骤5、设计loss函数：

其中L_loc(x,l,g)为定位的损失，具体定义参见SSD论文。

L_conf(x,c)的定义重新设计成如下函数：

这里N表示的是与标注框匹配的数量。w_i表示不同类别的权重，其计算公式为：

表示类别为c_i的数量，M为总的框的数量。

在本例中，类别数量为5类，根据上面的公式w_i的取值按顺序为(0.17,0.22,0.34,0.12,0.15)。

步骤6、利用Caffe-SSD检测框架训练检测分类器，训练所用的solver参数下表所示。

参数值base_lr0.001max_iter400000lr_polcyStepgamma0.8momentum0.95weight_decay0.0005stepsize40000average_loss10typeSGD

6a)先用SqueezeNet1.0的预训练模型进行训练20万次，得到一个模型；

6b)用6a)训练得到的模型重新训练40万次。

步骤7、利用步骤6训练得到的检测分类器模型，输入测试图片或视频的一帧，再做同类别间的非极大值抑制(Non Maximum Suppression,NMS)，得到每一图像/帧的输出，此输出包括检测到的物体数量，以及每个物体的位置，类别，置信度。

步骤8、统计训练集中每个类别在图像中出现的概率，得到每一类别在缩放图像上的概率热力图。

步骤9、利用步骤8得到的概率热力图重新计算每一类别的置信度的值，然后再利用NMS合并不同类别的框。

步骤10、根据实际情况对不同类别设计不同的置信度阈值，五个类别的置信度分别设置为(0.6,0.6,0.4,0.8,0.85)，低于相应类置信度的结果会被丢弃，从而输出该张图像所含有的物体类别以及每个物体所对应的坐标和置信度。

本实施例部分内容参考如下：

SSD:Single Shot MultiBox Detector,ECCV,2016.

SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and<0.5MBmodel size,Arxiv,2016.

Deep Residual Learning for Image Recognition,CVPR,2016

本发明可以同时检测监控图像中所有感兴趣的物体并具性能与速度上都有所提高。同时计算量大幅减少，能够同时检测图像中的人，非机动车及机动车，速度上能够达到在Nvidia M40上面达到85帧/秒，远超最后一个专利25帧/秒。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于深度学习的监控图像多类物体检测与识别方法 [P] . 中国专利： CN107316007B . 2020.04.03
2. 一种基于深度学习的监控图像多类物体检测与识别方法 [P] . 中国专利： CN107316007A . 2017-11-03
3. CCTV A deep learning based image recognition method for CCTV [P] . 韩国专利： KR101850286B1 . 2018-04-19

机译： CCTV一种基于深度学习的CCTV图像识别方法
4. The ‘Property Identification Method’ (“PIM”) is a novel algorithm through which a Real Estate Authority and/or Conveyancing data is created through image-processing a document such as a Council/Shire Rates Notice. This invention establishes a unique algorithm incorporating techniques such deep learning segmentation and computer vision to decode property information. This application utilises computer-implemented technology configured in such manner as to enable conveyancers and real estate agents to automate the creation of client files. [P] . AU2020102233A4 . 2020-10-29

机译： “财产识别方法”（“ PIM”）是一种新颖的算法，通过该算法，可以通过对文件（如市议会/房屋价格通知）进行图像处理来创建房地产管理局和/或产权转让数据。本发明建立了一种独特的算法，该算法结合了诸如深度学习分段和计算机视觉之类的技术来解码属性信息。该应用程序利用以某种方式配置的计算机实现的技术，以使运输商和房地产经纪人能够自动创建客户端文件。
5. DEEP LEARNING MODULARIZATION SYSTEM ON BASIS OF WEB PLUG-IN AND IMAGE RECOGNITION METHOD USING SAME [P] . 世界知识产权组织专利： WO2017039086A1 . 2017-03-09

机译：基于Web Plug-in的深度学习调制系统和基于相同方法的图像识别方法