首页> 中国专利> 基于平衡损失的Resnet-3D卷积牛视频目标检测方法

基于平衡损失的Resnet-3D卷积牛视频目标检测方法

摘要

本发明公开了一种基于平衡损失的Resnet‑3D卷积牛视频目标检测方法。本发明步骤如下:1、将输入的原始牛群视频序列切分成帧,获得帧图片数据集并标注;然后对标注好的帧图片数据集进行划分,获得训练集与测试集;2、以滑动窗口的方式选取多个连续帧图片,依次得到连续的帧图片序列,从而对数据集进行扩充增强;3、将得到的帧图片序列通过目标检测网络Faster rcnn进行分类回归和位置回归,获取目标检测模型;4、将测试视频输入训练好的目标检测模型,得到牛的检测框及其置信度。本发明能有效解决高密度牛群因遮挡而检测不到的问题。同时本发明中是使用视频做测试,通过网络模型输出的是视频,可以有效解决图像融合视频时目标短暂丢失的问题。

著录项

  • 公开/公告号CN112613428A

    专利类型发明专利

  • 公开/公告日2021-04-06

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN202011578813.0

  • 发明设计人 李琦;沈雷;何晶;

    申请日2020-12-28

  • 分类号G06K9/00(20060101);G06K9/32(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33240 杭州君度专利代理事务所(特殊普通合伙);

  • 代理人朱月芬

  • 地址 310018 浙江省杭州市下沙高教园区2号大街

  • 入库时间 2023-06-19 10:29:05

说明书

技术领域

本发明属于计算机视觉领域,特别涉及到目标检测,具体提供一种基于平衡损失的Resnet-3D卷积牛视频目标检测方法。

背景技术

畜牧业是我国的传统行业,近年来,随着计算机水平的提高以及计算机视觉技术的快速发展,目标检测技术应用于牲畜养殖方面得到越来越广泛的关注。然而,由于畜牧场的牛群高度密集、牧场环境恶劣,在自然环境下对牛的检测的难度较大。基于深度学习的目标检测算法可以更好的提取牛目标的特征,检测效果会更好。将计算机视觉深度学习算法应用于牛检测方面,有助于推进我国规模化养殖的发展,极大的方便牧民了解牧场实时情况以及提高我国的健康养殖水平。

在2014年,研究人员提出了基于卷积神经网络特征的区域方法(Region with CNNfeatures,R-CNN)是第一个将区域分割算法和深度学习方法结合的目标检测算法,采用了选择性搜索算法选取候选区域,然后使用CNN对候选区域进行分类识别。接着,研究人员在2014年提出了空间金字塔池化网络(SpatialPyramid Pooling NetSPP-Net),SPP-Net以R-CNN方法为研究基础,通过金字塔池化操作对卷积层进行剪切,改进了R-CNN方法。在2015年,Ross提出了Fast R-CNN目标检测模型,在SPP-Net的基础上,对R-CNN进行了改进。FastR-CNN实现对整个图像进行卷积计算,使用感兴趣区域池化(ROIPooling)进行特征归一化,大大减少了卷积计算的次数,大大提高了训练和测试速度。研究人员在2017年进一步提出了Faster R-CNN目标检测模型,基本原理与Fast R-CNN相同,只是Fast R-CNN依赖于外部候选区域方法,检测时间比较长,Faster R-CNN采用候选区域网络(RPN)代替了选择性搜索方法。Faster R-CNN与Fast R-CNN相比,两者检测精度相近,但Faster R-CNN的训练和测试速度明显增加。

但这些目标检测方法基本上是在图片上进行目标检测,要想得到完整的视频,需要将视频进行取帧操作,待检测完成之后再将这些帧融合成视频,在这个过程中,若某些帧没有检测出目标,融合成视频之后就会出现目标短暂丢失现象。对于图像目标检测在检测没有对联系视频上下文之间的关系,帧与帧之间的关系是独立的,不利于对视频中的目标进行检测,3D卷积能够利用帧与帧之间的时序关系来提高对目标的检测能力。但目前3D卷积大多用于分类识别任务,有研究人员用3D卷积对人体动作进行识别,用来做目标检测任务的比较少。

发明内容

本发明的目的在于解决高密度牛群之间的遮挡导致的漏检问题和图像目标检测中由于图像融合视频导致的目标短暂丢失问题。本发明提供一种基于平衡损失的Resnet-3D卷积牛视频目标检测方法。用于提高精细化养殖的牛群数量统计。

本发明采用的技术方案包括以下步骤:

S1、数据集制作:将输入的原始牛群视频序列切分成帧,获得帧图片数据集,使用标注软件对选取的连续帧图片进行标注,得到带标注的帧图片数据集;然后对标注好的帧图片数据集进行划分,获得训练集与测试集。

S2、以滑动窗口的方式选取多个连续帧图片,依次得到连续的帧图片序列,通过此方法获得不同的连续帧图片来对数据集进行扩充增强,同时通过连续帧图片倒序排列的方式进行增强。

S3、将步骤S2得到的帧图片序列通过目标检测网络Faster rcnn进行分类回归和位置回归,获取目标检测模型;具体包括以下子步骤:

S3.1、将训练集与测试集中标注好的帧图片,制成相应的文件格式,然后输入目标检测网络Faster rcnn训练网络参数,得到一个相对较好的牛群目标检测模型。

所述的文件格式为xml格式,包含图片的名称、大小、标注坐标等信息。

S3.2、帧图片序列进入目标检测网络Faster rcnn后会经过残差网络(Resnet)作为主干网络进行特征提取,使用Resnet-101作为特征提取的主干网络,并对主干网络的网络结构进行改进,使用3D卷积。主干网络分为5个卷积结构,分别为conv1、conv2_x、conv3_x、conv4_x、conv5_x。conv1是一个步长为2的3D卷积层,conv2_x、conv3_x、conv4_x、conv5_x是4个残差3D卷积模块,conv2_x是由一个步长为2的最大池化层和3个残差3D卷积层组成,conv3_x是由4个残差3D卷积层组成,conv4_x是由23个残差3D卷积层组成,conv5_x是由3个残差3D卷积层组成。每个卷积模块都由卷积层、BN(尺度归一化层)、ReLU(激活函数)构成,其中ReLU激活函数的表达式如下:

f(x)=max(0,x) (1)

其中,x为神经元的输入。使用ReLU激活函数的目的能够克服梯度消失的问题,并且加快训练速度。

S3.3、帧图片序列经过主干网络特征提取完成之后得到特征图(feature map),特征图输入区域生成网络(RPN)得到分类和候选框。

所述的区域生成网络包括分类网络和回归网络:分类网络通过softmax分类候选框,得到目标和背景分类;回归网络用于计算候选框的bounding box regression(边界框回归)偏移量,获得精确的候选框。

区域生成网络对输入的特征图进行目标候选框选定,然后将目标候选框选定的特征送入分类网络和回归网络,分类网络和回归网络分别输出特征部位类别分类得分和边框坐标。区域生成网络的思想是在特征图设定一个锚点(anchers)机制,对于特征图中每个像素点进行一个3×3窗口的滑动,对于这个窗口的中心点考虑可能的候选窗口,即可能的组合长方形,而这个组合长方形是由三种面积128

S3.4、分类网络通过全连接层和softmax计算候选框中目标的类别。回归网络利用Bounding box regression获得每个候选框的位置偏移量(bbox_pred),用于获得更加精确的目标检测框。

进一步,所述的步骤S3.4中通过Softmax函数将多分类的输出值转换为范围在[0,1]的概率分布,Softmax函数定义如下:

其中i为节点的序号,z

S3.5、Softmax函数的输出值包括概率(表示牛的置信度)和标签值(label)。那么就需要一种更好的方法形容这个分类过程的好坏,在这里我们的分类损失使用交叉熵损失。本发明只对牛进行目标检测,这是个二分类问题,在这里使用了二分类的交叉熵损失并引入权重参数α∈[0,1]来解决类别不平衡的模型优化偏差。二分类的交叉熵损失的优势在于收敛较快,权重矩阵的更新更快,且不存在局部最小值,容易找到全局最小值。在二分类的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们预测到的概率为p和1-p。此时交叉熵损失L的表达式为:

其中:y

S3.6、采用Balanced L1 loss损失函数对候选框进行位置定位。做牛训练集时,由于是抽取视频帧进行标注,可能有些样本出现模糊情况,不利于训练模型,使用BalancedL1 loss损失函数可以解决边界不确定的候选框的回归问题,不让模糊样本对loss造成大的干扰,从而找到更精准的边界框。Balanced L1 loss损失函数定义如下:

表达式(4)中

S4、将测试视频输入训练好的目标检测模型,得到牛的检测框及其置信度。

本发明有益效果如下:

本发明提出一种基于平衡损失的Resnet-3D卷积牛视频目标检测的方法,该方法使用的数据集采用视频的连续帧,这种连续帧的输入具有联系视频上下文的功能,将这种连续帧作为神经卷积网络的输入,并且网络结构上引用3D卷积的方式,将视频上下文之间的联系结合起来,能有效解决高密度牛群因遮挡而检测不到的问题。图像目标检测完成时,当图像融合视频会容易造成目标短暂丢失问题,本发明中是使用视频做测试,通过网络模型输出的是视频,可以有效解决图像融合视频时目标短暂丢失的问题。

附图说明

图1为本发明的视频目标检测流程图

图2为3D卷积残差网络块示意图;

图3为本发明特征提取主干网络结构图;

图4为监控视频下截取的视频截图;

图5为目标检测之后输出的视频截图。

图6为本发明方法和其他方法测试结果对比。

具体实施方式

下面结合附图对本发明的具体实施例作进一步的说明。

本发明能够获取视频帧之间的时序关系提高对高密度牛群的检测能力。由于一些牛的牛背花纹较少,特征信息难以提取,高层数的Resnet可以提取非常细微的细节特征,可以极大提高对牛特征的提取能力。3D卷积可以联系视频上下文的关系,不仅能解决高密度情况下的牛群遮挡问题,还能在一定程度上解决图像融合视频时在连续帧上的目标短暂丢失问题。并且为了解决视频帧提取过程中可能出现的样本模糊现象,引入Balanced L1loss作为回归框的监督函数,不让模糊样本对损失值造成过大的干扰,因此本发明可以极大地提高牛群目标检测性能。

本实施例的一种基于平衡损失的Resnet-3D卷积牛视频目标检测的方法,具体包括以下步骤:

S1、数据集制作。从监控软件上截取牛群视频,如图4。

S2、用标注软件进行标注,在牛场共截取到的100个10秒的视频,帧率为10fps,每个视频有100帧。对每一帧进行位置标注,其中每一帧标注3~5头牛,其中每个视频的前70帧为训练集,后30帧为测试集。

S3、对数据集进行数据增强,提高3D卷积神经网络的检测准确率同时也是为了减少训练过拟合。在提取连续帧后,每个视频包含100帧,然后我们将其裁剪为16帧,具体方式是从第1帧到第16帧,第3帧到第18帧,第5帧到第20帧,以此类推,最后第85帧到第100帧,样本扩充为原来的43倍。将以上的得到的连续帧进行倒序排序将数据集扩充到原来的86倍。

S4、将步骤S3得到的帧图片序列通过目标检测网络Faster rcnn进行分类回归和位置回归,获取目标检测模型;具体包括以下子步骤::

S4.1、将训练集与测试集中标注好的帧图片,制成相应的文件格式,然后输入目标检测网络Faster rcnn训练网络参数,得到一个相对较好的牛群目标检测模型。所述的文件格式为xml格式,包含图片的名称、大小、标注坐标等信息。

S4.2、帧图片序列进入目标检测网络Faster rcnn后会经过残差网络(Resnet)作为主干网络进行特征提取,使用Resnet-101作为特征提取的主干网络,并对主干网络的网络结构进行改进,使用3D卷积。主干网络分为5个卷积结构,分别为conv1、conv2_x、conv3_x、conv4_x、conv5_x。conv1是一个步长为2的3D卷积层,conv2_x、conv3_x、conv4_x、conv5_x是4个残差3D卷积模块,conv2_x是由一个步长为2的最大池化层和3个残差3D卷积层组成,conv3_x是由4个残差3D卷积层组成,conv4_x是由23个残差3D卷积层组成,conv5_x是由3个残差3D卷积层组成。每个卷积模块都由卷积层、BN(尺度归一化层)、ReLU(激活函数)构成。

S4.3、帧图片序列经过主干网络特征提取完成之后得到特征图(feature map),特征图输入区域生成网络(RPN)得到分类和候选框。

所述的区域生成网络包括分类网络和回归网络:分类网络通过softmax分类候选框,得到目标和背景分类;回归网络用于计算候选框的bounding box regression(边界框回归)偏移量,获得精确的候选框。

区域生成网络对输入的特征图进行目标候选框选定,然后将目标候选框选定的特征送入分类网络和回归网络,分类网络和回归网络分别输出特征部位类别分类得分和边框坐标。区域生成网络的思想是在特征图设定一个锚点(anchers)机制,对于特征图中每个像素点进行一个3×3窗口的滑动,对于这个窗口的中心点考虑可能的候选窗口,即可能的组合长方形,而这个组合长方形是由三种面积128

S4.4、分类网络通过全连接层和softmax计算候选框中目标的类别。回归网络利用Bounding box regression获得每个候选框的位置偏移量(bbox_pred),用于获得更加精确的目标检测框。

S4.5、Softmax函数的输出值包括概率(表示牛的置信度)和标签值(label)。那么就需要一种更好的方法形容这个分类过程的好坏,在这里我们的分类损失使用交叉熵损失。本发明只对牛进行目标检测,这是个二分类问题,在这里使用了二分类的交叉熵损失并引入权重参数α∈[0,1]来解决类别不平衡的模型优化偏差。二分类的交叉熵损失的优势在于收敛较快,权重矩阵的更新更快,且不存在局部最小值,容易找到全局最小值。

S4.6、采用Balanced L1 loss损失函数对候选框进行位置定位。做牛训练集时,由于是抽取视频帧进行标注,可能有些样本出现模糊情况,不利于训练模型,使用BalancedL1 loss损失函数可以解决边界不确定的候选框的回归问题,不让模糊样本对loss造成大的干扰,从而找到更精准的边界框。

S5、训练结束,会生成一个检测模型,对视频进行测试,得到检测后的视频,如图5所示。

S6、对100个高密度牛群视频和100个低密度牛群视频进行测试,识别结果如图6,这100个高密度视频中一共有607头牛,识别率为检测出的牛数量除以总数,对于高密度视频,使用经典faster rcnn图像目标检测前,需要对视频提取帧进行测试,得到识别率为90.11%,使用本发明提供的方法进行视频测试,得到识别率为99.01%;对于低密度视频采用同样的测试方法,使用经典faster rcnn,得到识别率为98.81%,使用本发明提供的方法进行视频测试,得到识别率为100%,极大提高了检测识别率。

上面结合附图对本发明的实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出的各种变化,也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号