首页> 中国专利> 一种基于改进Mask R-CNN模型的行人入侵检测方法

一种基于改进Mask R-CNN模型的行人入侵检测方法

摘要

本发明公开了一种基于改进Mask R‑CNN模型的行人入侵检测方法,其方法包括:依据迁移学习策略对主干网络进行参数初始化,以提取图像基本特征;引入特征金字塔网络进行自下而上的特征图提取,完成多尺度特征融合;通过多尺度变换方法对区域推荐网络进行调整,获取锚点进行损失计算完成检测实验,最终对结果进行分析评价。在本发明实施例中,通过利用改进Mask R‑CNN模型的目标检测方法,实现目标检测精度的进一步提高,使目标特征提取方面表达能力更强。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-17

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及电力施工领域,尤其涉及一种基于改进Mask R-CNN模型的行人入侵检测方法。

背景技术

电力设施的周边区域,尤其是无人值守的变电场区域,对于行人而言是及其危险的。电力设施应急事故抢修作业现场,由于工作人员疏忽大意未按照标准安全着装,会引发触电事故而导致不可预料的后果。这是不可忽略的,需要及时检测到并提前预警,避免危险。

传统视频分析方法多依赖手工设计特征,存在大量错检、漏检情况,泛化能力较差。随着卷积神经网络的迅猛发展,基于深度学习的目标检测模型逐渐取代传统手工算法成为图像检测领域的主流趋势。

发明内容

本发明的目的在于克服现有技术的不足,本发明提供了一种基于改进Mask R-CNN模型的行人入侵检测方法。

实现本发明目的采用的技术方案是,一种基于改进Mask R-CNN模型的行人入侵检测方法,其特征是,它包括以下步骤:

步骤1,依据迁移学习策略对主干网络进行参数初始化,以提取图像基本特征;

步骤2,引入特征金字塔网络进行自下而上的特征图提取,完成多尺度特征融合;

步骤3,通过多尺度变换方法对区域推荐网络进行调整,获取锚点进行损失计算完成检测实验,最终对结果进行分析评价。

进一步,迁移学习策略具体步骤为:

步骤201,在COCO数据集上预训练卷积神经网络;

步骤202,在主干网络中导入预训练模型的权值参数从而初始化网络;

步骤203,使用电力施工场景数据集进行微调。

进一步,特征金字塔网络具体为:

特征金字塔网络其基本思想在于结合浅层特征图的细粒度空间信息和深层特征图的语义信息对多尺度的目标进行检测。

特征金字塔网络在区域推荐网络的基础上,额外增加了一条由上至下的侧路:

从最深层特征图开始,经过1*1卷积与上采样之后,与浅层特征层对齐,然后通过对应元素相加的方式融合得到新的特征图;

以此类推,将新得到的特征图再进行1*1卷积与上采样,就能与更加浅层的特征图相融合;

最终,特征金字塔网络内便成功构建了一个每一层都具备多层特征信息的5层特征金字塔。

进一步,多尺度特征融合具体为:

图像中存在不同尺寸的目标,而不同的目标具有不同的特征;

利用浅层的特征就可以将简单的目标的区分开来;

利用深层的特征可以将复杂的目标区分开来;

此时就可以利用特征金字塔网络将浅层特征和深层特征融合在一起,得到具有更多语义信息的特征,改善目标检测的效果。

进一步,区域推荐网络具体为:

区域推荐网络一个轻量的神经网络,它用滑动窗口来扫描图像,并寻找存在目标的区域。滑动窗口是由区域推荐网络的卷积过程实现的,可以使用GPU并行地扫描所有区域。此外,区域推荐网络并不会直接扫描图像,而是扫描主干特征图。这使得区域推荐网络可以有效地复用提取的特征,并避免重复计算。

进一步,锚点主要为:

提前在图像上预设好的不同大小,不同长宽比的框。锚点就是帮助我们定好了常见目标的宽和高,以及大致的位置,在进行预测的时候,我们可以利用这个已经定好的宽和高处理,帮助我们进行预测。我们要遍历图片上每一个可能的目标框,再对这些框进行分类和微调,就可以完成目标检测任务。

进一步,损失计算具体为:

L=L

式(1)中:L

分类损失具体计算公式如下

回归损失具体计算公式如下

在本发明实施例中,针对电力施共现场危险区域行人入侵检测问题,提出了一种基于改进Mask R-CNN模型的目标检测方法。通过迁移学习策略训练数据集获取电场景检测模型,并采用多尺度变换方法优化系统,解决小目标错检和漏检问题,使多日标平均准确率得到提升、结合拉普拉斯算法做锐化预处理,使模型在低质量监控视频下的精准度获得提升,从而为电力施共现场危险区域行人入侵检测问题提供准确的参考意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于改进Mask R-CNN模型的目标检测方法的流程示意图;

图2为本发明一种基于改进Mask R-CNN模型的行人入侵检测方法的实施例提供的ResNet+FPN结构图

图3为本发明一种基于改进Mask R-CNN模型的行人入侵检测方法的实施例提供的RPN网络图

图4为本发明一种基于改进Mask R-CNN模型的行人入侵检测方法的实施例提供的不同网络损失率与迭代次数的关系图

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

实施步骤

请参阅图1,图1示出了本发明实施例中的基于改进Mask R-CNN模型的目标检测方法的流程示意图。

如图1所示,一种基于改进Mask R-CNN模型的目标检测方法,所述方法包括如下:

依据迁移学习策略对Mask R-CNN主干网络进行参数初始化,以提取图像基本特征;

在本发明实施例中,针对电力施工场景下危险区域行人禁入的问题,本文提出基于改进Mask R-CNN模型的目标检测方法。第一阶段通过采集样本建立电力施工场景数据集(person and helmet date,PHDate),结合迁移学习策略调取微软公共对象数据集((common objects in context,COCO)权重训练Mask R-CNN模型;第二阶段针对实际采集的视频数据存在距离远、目标尺寸差异较大情况造成的小目标无法检测问题,调整区域建议网络参数实现多尺度变换操作;第三阶段针对低质量监控视频引入拉普拉斯卷积层做锐化处理,增强图像的边缘对比度,突出目标轮廓,用于改善低质量视频的检测效果。

引入特征金字塔网络进行自下而上的特征图提取,完成多尺度特征融合;

在本发明实施例中,采用残差网络(residual neural networks,ResNet)结合特征金字塔网络(feature pyramid networks,FPN)提取输入图像的深层卷积特征图。然后将特征图送入区域建议网络(region proposal networks,RPN)生成建议窗口,获得高质量的候选框,即预先找出图中目标可能出现的位置进行边框修正,把建议窗口映射到卷积特征图上。接着利用RoiAlign区域对齐层将每个感兴趣区域(region of interest,ROI)生成固定尺寸,通过网络头部扩大输出特征图维度,实现输出和输入的感兴趣区域精准对齐,使目标定位信息更为精确。最后,通过全卷积网络(full convolutional network,FCN)输出高质量二值分割掩膜,全连接层(fully connected layers,FC)输出预测框和类别。

通过多尺度变换方法对区域推荐网络进行调整,获取锚点进行损失计算完成检测实验,最终对结果进行分析评价;

本发明实施过程包括:

(1)采用残差网络ResNet作为特征提取网络,结合FPN算法构建多尺度特征金字塔模型,主要解决多尺度融合问题,如图2所示。输人图片经5层卷积层进行自下而上的特征图提取,再进行1×l的卷积操作改变特征图的维度,通过自上而下的2倍上采样,与前层网络叠加融合,采用3×3的卷积对每个融合结果进行卷积以消除上采样的混叠效应。融合特征层为(P2,P3,P4,P5),与顶层特征图P6组合输入RPN网络提取候选区域。特征金字塔架构使高层特征得到增强,每一层预测所用的特征图都融合了不同分辨率、不同语义强度的特征。

(2)区域建议网络的作用是在FPN输出的多层特征图上提取一定数量的带有目标置信度的建议区域,如图3所示。RPN将卷积特征矩阵作为输入,输出一系列矩形候选框以及概率值。采用了滑动窗口机制,在特征图(P2,P3,P4,P5,P6)每层上增加滑动窗口,每个滑动窗口对应k个初始建议区域,称为anchor,即为锚点。

设n为滑动窗口边长,当n×n大小的滑动窗口在特征金字塔图层上遍历时,滑动的每个位置都在原始图像上对应k个不同的锚点,则一个全连接层输出2×k维向量,对应k个锚点目标的概率值;另一个全连接层输出4×k维向量,表示k个锚点的坐标值。Mask R-CNN算法预设了5种尺度大小(32,64,128,256,512),设置锚点K宽比为(1:1,1:2,2:1),因此每个位置锚点数为15。

由于锚点anchor经常重叠,导致建议框会在同一个目标上重叠多次。为了解决重复建议的问题,对生成的候选框采用非极大值抑制法。(non-maximum suppression,NMS)。NMS算法生成按照概率值排序的建议列表,若概率值小于0.3则判断为背景,大于0.7判断为前景,并对已排序的列表进行迭代,然后以目标窗口和原来标记窗口的交叠率IoU作为衡量,筛选出具有更高交叠率得分的建议框。IoU的计算公式为

IoU=((DR∩GT))/((DR∪GT)) (4)

式中:DR(detection result)为检测结果即最终生成的目标框;GT(groundtruth)为真实值。

实施例

Mask R-CNN原模型使用的COCO数据集约有80000张图片,81个类别,而电力场景PHDate数据集包含5000张图片,两种类别,相对于COCO数据集,PHDate背景较为简洁单一。在特征提取阶段,考虑到不同网络对实验结果的影响较大,选取ResNet50+FPN和ResNet101+FPN特征提取网络进行实验,实验结构参数如表1所示。

表1 ResNet网络参数设置

训练模型过程两种网络收敛曲线如4所示,最终迭代次数为300000次,曲线平滑度设置为0.6,ResNet50+FPN残差提取网络的最终损失率为7.654%,ResNet101+FPN为6.147%,随着网络层数增多,目标检测计算量越大,ResNet50结构更为轻巧简单,占用GPU内存更少,训练时间更短,所以选用ResNet50+FPN为基准网络结构。

为了评估算法检测目标的有效性,采用多目标平均准确率(mean averageprecision,MAP)指标来衡量模型的检测性能。RPN网络训练阶段对其尺度及纵横比做调整,完成多尺度变换。参数设定如表2所示。在相同的环境下对原始Mask R-CNN模型和已经更改锚点尺度后获得的模型在测试集上进行目标检测实验(表3),可看出锚点尺寸缩小一半情况下,即尺寸大小为(16,32,64,128,256)检测效果最为理想。获得最佳尺寸后,调整锚点纵横比,设置多组数据进行实验,结果如表4所示。

目标区域分类置信度代表模型测量的质量,由实验结果可知,本文提出的改进Mask R-CNN模型在保证置信度情况下,多目标平均准确率可以达到最高。

表2 RPN网络参数

表3尺度变换实验对比

表4纵横比实验对比

在本发明实施例中,针对电力施共现场危险区域行人入侵检测问题,提出了一种基于改进Mask R-CNN模型的目标检测方法。通过迁移学习策略训练数据集获取电场景检测模型,并采用多尺度变换方法优化系统,解决小目标错检和漏检问题,使多日标平均准确率得到提升、结合拉普拉斯算法做锐化预处理,使模型在低质量监控视频下的精准度获得提升,从而为电力施共现场危险区域行人入侵检测问题提供准确的参考意义。

可以理解,在一些实施例中,可以包含如上述各实施例中的部分或全部可选实施方式。

需要说明的是,上述各实施例是与在先方法实施例对应的产品实施例,对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明,在此不再赘述。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号