法律状态公告日
法律状态信息
法律状态
2022-07-29
公开
发明专利申请公布
技术领域
本申请涉及计算机视觉图像识别技术领域,更具体涉及深度学习领域中的基于卷积神经网络的目标检测方法。
背景技术
圣女果作为我国主要的蔬菜作物之一,被广泛种植。成熟圣女果采摘需要消耗大量的人力、财力,而智能采摘机器人是减少生产成本、解放劳动力和提高作业效率的有效途径。果蔬的精准识别及定位是构建智能采摘视觉系统的先决条件之一,故所以圣女果的快速精准识别方法研究具有较大的研究意义和应用价值。
目前基于深度神经网络的圣女果检测识别方法在算法性能及准确度上都优于传统检测方法。按照检测识别的处理过程差异,基于深度神经网络的圣女果检测方法可分为两阶段检测方法和一阶段检测方法。两阶段方法拥有较高的准确度,但检测速度慢、计算成本高,而一阶段方法的优点在于检测速度快,但准确度不如两阶段方法。由于圣女果生长环境复杂,果实易被叶片遮挡,且果实密集粘连程度高、果实小,严重影响目标检测及定位的准确度,因此圣女果检测识别方法研究需重点解决以下问题:1)遮挡目标的特征缺失问题;2)目标检测准确度和模型的鲁棒性问题。
发明内容
针对现有深度神经网络目标检测模型在圣女果检测中存在的问题,如检测准确度低、遮挡情况下产生漏检误检等,本发明提供一种基于特征金字塔的圣女果检测识别方法,可提高圣女果检测准确度的同时可实现实时检测。
本发明一种基于特征金字塔的圣女果检测识别方法,其具体步骤如下:
步骤1、构建主干网络ResNet50,以核大小为1×1卷积、核大小为3×3卷积以及核大小为1×1卷积组成残差块结构为基础,利用残差结构较强的特征提取能力来获取不同尺度的圣女果特征图。主干网络分为5层,第一层C1由核大小为7×7卷积层、BN归一化层和Mish激活函数构成,C2至C5则分别由3、4、6、3个上述残差块组成。
步骤2、构建混合膨胀卷积组件,由主干网络得到的C3、C4、C5特征图经过核大小为1×1卷积操作保留原有特征的同时统一通道数为256,此外C3、C4会分别进行核大小3×1、1×3卷积操作来捕捉图像中横向和纵向的特征,以此来增强模型的推理能力,改善目标遮挡问题。
将上述C3、C4、C5处理后得到统一大小的特征图进行特征融合,并通过由三个膨胀率大小不同的3×3卷积层串联构成的混合膨胀卷积模块,以此增大特征感受野。为避免膨胀卷积出现网格效应,保证了信息的完整性,该组膨胀率的设计满足下式:
M
其中,膨胀率依次为[r
步骤3、构建特征金字塔,特征层C3、C4、C5输入至混合膨胀卷积组件中得到输出特征f为基础。输出特征f经两次核大小为1×1卷积操作得到特征金字塔最顶层P7;输出特征f经一次核大小为3×3卷积操作得到特征金字塔P6;C5经核大小为1×1卷积操作得到的C5’与输出特征f统一通道数后融合得到特征f1,f1再经核大小为3×3卷积操作得到特征金字塔P5;C4经核大小为1×1卷积操作得到的C4’与特征f1两倍上采样结果进行特征融合得到f2,再由f2经核大小为3×3卷积操作得到特征金字塔P4;C3经核大小为1×1卷积操作得到的C3’与特征f2两倍上采样结果进行特征融合得到f3,再由f3经核大小为3×3卷积操作得到特征金字塔P3。
步骤4、构建检测子网络,由目标分类子网络和边界框回归子网络构成,两个子网络都是由3个卷积核大小为3×3的卷积层构成的全连接结构,以特征金字塔的输出作为输入。分类子网络预测先验框和目标类别在每个位置上存在真实目标的概率,边界框回归子网会将每个先验框的4个空间位置的偏移量回归到附近的真实目标上。
步骤5、使用K-means聚类方法,确定合适的检测框尺寸,K-means聚类步骤如下:
S1.设定9个聚类中心点(即9组先验框宽高)。
S2.计算圣女果图像数据集中真实目标的标注框尺寸与每一个聚类中心点的距离d:
d(box,centroid)=1-IoU(box,centroid) (2)
其中,IoU为标注框与聚类中心宽高的交并比。
S3.将标注框分配给距离最近的聚类中心,并对每个簇重新计算聚类中心点,计算方式为:
其中,i∈[1,9]表示簇号,N
S4.重复第S2、S3步,直至聚类中心趋于拟合,得到最终的9组合适检测框尺寸。
步骤6、定义模型训练的损失函数,引入Focal Loss作为本模型的分类损失函数,通过降低易分负样本的损失权重从而聚焦于训练难分负样本,解决训练过程中出现的极大的正负样本不平衡的影响。Focal Loss计算步骤如下:
L
其中,y∈{±1}表示样本对应的真实标签,p∈[0,1]表示模型对y=1分类的概率估计,α
其中,R
L=L
其中,β用于平衡分类损失和边界框回归损失的系数。
步骤7、训练模型,采用迁移学习,加载ResNet50预训练权重,加速模型的收敛速度。模型设定的图像输入大小为640×640,并在输入到网络前进行了归一化处理,网络参数更新采用了随机梯度下降方法(SGD)进行优化。
步骤8、用训练好的模型对圣女果进行检测。
本发明有以下创新体现在:
1、本发明设计了混合膨胀卷积模块,通过多个膨胀卷积块串联的方式有效避免了空洞的产生,利用膨胀卷积增大特征感受野的特点,使得特征图融合了更多的图像全局特征信息,增强模型特征的推理能力和鉴别能力,减小目标信息不完整所带来的影响。
2、本发明将Focal Loss与CIoU Loss相结合,作为本模型训练过程中的损失函数,利用Focal Loss降低易分负样本的损失权重从而聚焦于训练难分负样本,解决训练过程中出现的极大的正负样本不平衡的影响,CIoU Loss将真实目标框与检测框的重叠面积、中心点距离和高宽比三个重要几何因素考虑容纳进来,能有效提高模型边界框回归精度。
本发明的优点是:针对圣女果这类生长环境复杂场景的目标检测任务而设计,通过上述改进策略有效提升目标检测精度的同时,实现实时目标快速检测,为智能采摘技术提供相关基础。
附图说明
图1是本发明方法卷积神经网络模型示意图。
具体实施方式
下面对本发明的实施方式进行更为具体的描述,所述实施方式的流程图在附图1中展示。通过参考附图1描述的实施方案仅用于解释本发明,而不能解释为对本发明的限制。
参照图1,本发明提供一种基于特征金字塔的圣女果检测识别模型,可提高圣女果检测准确度,降低计算成本。
本发明一种基于特征金字塔的圣女果检测识别方法,其具体步骤如下:
步骤1、构建主干网络,以核大小为1×1卷积、核大小为3×3卷积以及核大小为1×1卷积组成残差块结构为基础,利用残差结构较强的特征提取能力来获取不同尺度的圣女果特征图。主干网络分为5层,第一层C1由核大小为7×7卷积层、BN归一化层和Mish激活函数构成,C2至C5则分别由3、4、6、3个上述残差块组成。
步骤2、构建混合膨胀卷积组件,由主干网络得到的C3、C4、C5特征图经过核大小为1×1卷积操作保留原有特征的同时统一通道数为256,此外C3、C4会分别进行核大小3×1、1×3卷积操作来捕捉图像中横向和纵向的特征,以此来增强模型的推理能力,改善目标遮挡问题。
将上述C3、C4、C5处理后得到统一大小的特征图进行特征融合,并通过由三个膨胀率依次为dr=1、2、3的3×3卷积层串联构成的混合膨胀卷积模块,以此增大特征感受野。为避免膨胀卷积出现网格效应,保证了信息的完整性,该组膨胀率的设计满足下式:
M
其中,膨胀率依次为[r
步骤3、构建特征金字塔,特征层C3、C4、C5输入至混合膨胀卷积组件中得到输出特征f为基础。输出特征f经两次核大小为1×1卷积操作得到特征金字塔最顶层P7;输出特征f经一次核大小为3×3卷积操作得到特征金字塔P6;C5经核大小为1×1卷积操作得到的C5’与输出特征f统一通道数后融合得到特征f1,f1再经核大小为3×3卷积操作得到特征金字塔P5;C4经核大小为1×1卷积操作得到的C4’与特征f1两倍上采样结果进行特征融合得到f2,再由f2经核大小为3×3卷积操作得到特征金字塔P4;C3经核大小为1×1卷积操作得到的C3’与特征f2两倍上采样结果进行特征融合得到f3,再由f3经核大小为3×3卷积操作得到特征金字塔P3。
步骤4、构建检测子网络,由目标分类子网络和边界框回归子网络构成,两个子网络都是由3个卷积核大小为3×3的卷积层构成的全连接结构,以特征金字塔的输出作为输入。分类子网络预测先验框和目标类别在每个位置上存在真实目标的概率,边界框回归子网会将每个先验框的4个空间位置的偏移量回归到附近的真实目标上。
步骤5、使用K-means聚类方法,确定合适的检测框尺寸,K-means聚类步骤如下:
1.设定9个聚类中心点(即9组先验框宽高)。
2.计算圣女果图像数据集中真实目标的标注框尺寸与每一个聚类中心点的距离d:
d(box,centroid)=1-IoU(box,centroid) (2)
其中,IoU为标注框与聚类中心宽高的交并比。
3.将标注框分配给距离最近的聚类中心,并对每个簇重新计算聚类中心点,计算方式为:
其中,i∈[1,9]表示簇号,N
4.重复第2、3步,直至聚类中心趋于拟合,得到最终的9组合适检测框尺寸。
步骤6、定义模型训练的损失函数,引入Focal Loss作为本模型的分类损失函数,通过降低易分负样本的损失权重从而聚焦于训练难分负样本,解决训练过程中出现的极大的正负样本不平衡的影响。Focal Loss计算步骤如下:
L
其中,y∈{±1}表示样本对应的真实标签,p∈[0,1]表示模型对y=1分类的概率估计,α
其中,R
L=L
其中,β用于平衡分类损失和边界框回归损失的系数,设置β=2。
步骤7、训练模型,采用迁移学习,加载ResNet50预训练权重,加速模型的收敛速度。模型设定的图像输入大小为640×640,并在输入到网络前进行了归一化处理,网络参数更新采用了随机梯度下降方法(SGD)进行优化,其中动量设定为0.9,权重衰减设定为0.0003,初始学习率为0.03,批处理大小为16,实验表明模型训练迭代50次趋于稳定。
步骤8、用训练好的模型对圣女果进行检测。
同时将本发明所提出的方法与其他几种经典的目标检测方法在同一圣女果数据集上进行准确度对比,结果如下表一所示,本文方法平均精准率均值(meanaverageprecision,mAP)可达90.12%,高于另外几类主流的目标检测方法。
表一本发明方法与其他目标检测方法评价对比
机译: 一种用于检测至少一个运动物体在检测区域内的运动路径的方法,一种使用这种识别方法的手势识别系统的过程以及一种用于执行这种识别方法的设备
机译: 基于特征的交通信号灯检测识别方法
机译: 一种具有压电阵列的柔性传感器,施加基于特征导波的焊接缺陷检测及其测试方法