首页> 中国专利> 基于多尺度双注意力机制和全卷积神经网络的叶分割方法

基于多尺度双注意力机制和全卷积神经网络的叶分割方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于多尺度双注意力机制和全卷积神经网络的分割系统，包括特征提取主干网络，特征金字塔网络,语义分割网络，目标检测器，系数预测器和融合模块，其中语义分割网络包括第一卷积层，注意力模块和第二卷积层，其中：特征提取主干网络是VoVNet57网络，用于提取训练集图像和测试集图像的特征并发送给特征金字塔网络；特征金字塔网络用于进行同级特征图融合以得到P3‑P7特征图；经过特征金字塔融合网络得到的P3‑P7特征图输入到FCOS目标检测器，并由目标检测器逐像素生成建议框类别及其位置，并对所述建议框进行Soft NMS操作以获取最终的检测框；系数预测器对所述检测框进行实例信息的权值预测以生成与检测框相对应的实例比重；语义分割网络用于将经过特征金字塔融合网络得到的P3‑P6特征图处理后产生4个分割图；融合模块处理用于将4个分割图与检测框叠加并与相对应的实例比重输出最终的分割图。

著录项

公开/公告号CN112837330A

专利类型发明专利
公开/公告日2021-05-25

原文格式PDF
申请/专利权人中国农业大学;
展开▼

申请/专利号CN202110230518.4
发明设计人李振波;郭若皓;李晔;杨泳波;瞿李傲;岳峻;
展开▼

申请日2021-03-02
分类号G06T7/11(20170101);G06T5/00(20060101);G06T3/00(20060101);G06K9/62(20060101);
代理机构11512 北京迎硕知识产权代理事务所(普通合伙);
代理人钱扬保;张群峰
地址 100081 北京市海淀区圆明园西路2号
入库时间 2023-06-19 11:05:16

说明书

技术领域

本发明涉及一种图像处理方法，尤其涉及一种基于多尺度双注意力机制和全卷积神经网络的叶分割方法。

背景技术

植物表型在遗传学、植物学和农学中占有重要地位，在大多数植物的器官中，叶片所占比例最大，在植被生长发育中起着至关重要的作用，叶子形态结构和生理参数的估计对植被生长监测具有重要意义，对叶片的观察有助于揭示其生长状态，最终帮助我们辨别遗传贡献能力，改善植物遗传特性，增加作物产量。在高通量表型分析中，植物叶片的自动分割是测量更复杂表型性状的前提。尽管叶子具有明显的外观和形状特征，但是叶子形状和姿势的遮挡和变化以及成像条件使此问题具有挑战性。

自20世纪80年代以来，人们提出了许多有效的方法来处理叶片分割问题，但是现有的叶片分割方法无法适应复杂的背景，并且后处理方法繁琐，但在精度方面仍然有很大的提升空间，并且距离真正实践应用还有一定差距。

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多尺度双注意力机制和全卷积神经网络的叶分割方法，使用训练后的分割模型对得到的植物叶片图像进行实例分割，统计叶面积、叶长、叶宽等表型信息。

发明内容

为实现本发明之目的，采用以下技术方案予以实现：

一种基于多尺度双注意力机制和全卷积神经网络的分割系统，包括特征提取主干网络，特征金字塔网络,语义分割网络，目标检测器，系数预测器和融合模块，其中：特征提取主干网络用于提取训练集图像和测试集图像的特征并发送给特征金字塔网络；特征金字塔网络用于进行同级特征图融合以得到P3-P7特征图；经过特征金字塔融合网络得到的P3-P7特征图输入到目标检测器，并由目标检测器逐像素生成建议框类别及其位置，获得最终的检测框；系数预测器对所述检测框进行实例信息的权值预测以生成与检测框相对应的实例比重；语义分割网络用于将经过特征金字塔融合网络得到的P3-P6特征图处理后产生4个分割图；融合模块处理用于将4个分割图与检测框叠加并与相对应的实例比重相乘，进而输出最终的分割图。

所述的分割系统，其特征在于：特征提取主干网络是VoVNet57网络，VoVNet57网络包括3个卷积层和4个具有前后顺序的OSA模块，OSA模块由5个卷积层组成，具有相同的输入/输出信道，VovNet57网络的输入为RGB原始图片，经过3层卷积层输出一组128通道的特征图，这组特征图输入到第一个OSA模块，其输出作为下一个OSA模块的输入，依次顺序操作，并且保留每个OSA模块的输出，经过VoVNet57输出的特征图共有四层，尺寸大小分别为原图的1/4、1/8、1/16和1/32，而通道数分别为256、512、768和1024。

所述的分割系统，其特征在于：VoVNet57网络的最后一个OSA模块输出的1/32特征图输入到特征金字塔网络，特征金字塔网络对该特征图进行卷积和下采样操作，最终生成尺寸大小是原图1/128的特征图，特征金字塔网络对该特征图进行渐进式上采样，分别生成尺寸大小是原图1/64、1/32、1/16和1/8的特征图，并且将尺寸大小是原图1/32、1/16和1/8的特征图与特征提取主干网络生成的相应尺寸的特征图进行融合，该融合后的特征图与上述1/128和1/64的特征图作为特征金字塔网络最终生成的P3-P7特征图。

所述的分割系统，其特征在于：所述目标检测器是FCOS目标检测器，该目标检测器将经过特征金字塔融合网络得到的P3-P7特征图逐像素通过分类和回归计算获得每个特征图的建议框的类别及位置坐标值。

所述的分割系统，其特征在于：记F

所述的分割系统，其中目标检测器对所述建议框进行Soft NMS操作以获得最终的检测框，包括：

a.首先计算不同建议框之间的交并比；

b.对于交并比大于阈值的建议框，并未将其置信度得分直接设置为0，而是降低该框的得分，具体方法如下式所示：

所述的分割系统，其中所述建议框进行Soft NMS操作还包括：

c.如果当前得分最高的建议框M和剩余建议框d

所述的分割系统，其中：系数预测器用于对目标检测器输出的检测框进行实例信息的权值预测以生成与检测框相对应的实例比重。

所述的分割系统，其中：语义分割网络包括第一卷积层，注意力模块和第二卷积层，第一卷积层对经过特征金字塔融合网络得到的P3-P6特征图进行特征提取，注意力模块进一步提升第一卷积层提取的特征的网络表达并输出给第二卷积层，第二卷卷积层对注意力模块的输出上采样后产生4个全局分割图。

所述的分割系统，其中：特征金字塔网络的特征图

其中M

所述的分割系统，其中：多尺度双注意力模块包括空间注意模块和通道注意力模块，空间注意模块运用全局平均池化和最大池化沿通道生成两个特征描述符：

其中

空间注意力模块使用点卷积作为局部上下文提取器对每个空间位置进行卷积操作，局部上下文

最后，使用广播加法合并输出特征矩阵，空间注意力模块所输出的特征图

其中

通道注意力模块将空间注意力模块输出的特征图放入通道注意力模块的全局空间模块中，生成两组通道描述符：

通道注意力模块平行插入了本地分支，并保持与本地空间关注相同的架构，最后使用广播加法汇总输出多尺度双注意力模块的特征图，

所述的分割系统，其中：融合模块将4个全局分割图与检测框叠加，并与检测框相对应的实例比重相乘，进而输出最终的分割图，包括：

a.利用所有检测框对4个全局分割图进行裁剪，得到所有检测框对应分割图的区域；

b.将裁剪后的区域进行插值操作，使该区域大小调整为与实例比重矩阵一致；

c.将调整后的区域与对应实例比重相乘，得到每个检测框的分割图；

d.将所有检测框的分割图进行相加合并，生成最终分割图。

附图说明

图1为本发明方法的流程示意图；

图2为整体网络结构示意图；

图3为多尺度双注意力模块示意图；

图4为通道注意力模块示意图；

图5为空间注意力模块示意图；

图6为分割分支运算示意图；

图7为分割效果图。

具体实施方式

下面结合附图1-7对本发明的具体实施方式进行详细说明。

如图2所示，本发明提出了一种基于多尺度双注意力机制和全卷积神经网络的分割系统，包括特征提取主干网络，特征金字塔网络,语义分割网络，目标检测器，系数预测器和融合模块，其中语义分割网络包括第一卷积层，注意力模块和第二卷积层。

如图1所示，本发明的基于多尺度双注意力机制和全卷积神经网络的叶分割方法包括以下步骤：

(1)获取叶片分割挑战赛(LSC)提供的数据集，通过解压缩H5文件获得原始可用图片。所述原始可用图片包括原始RGB图、标签图、二值图和叶片中心图。

该数据集的一级目录包括四个文件夹：A1、A2和A4主要用于存储拟南芥俯视图的延时图像，原始RGB图片数量为993，A3主要用于存储烟草俯视图的延时图像，原始RGB图片数量为83。四个文件夹均既包括训练集又包括测试集，其中训练集包括原始RGB图、标签图、二值图和叶片中心图，而测试集只包括原始RGB图和二值图。

(2)将训练集转换为易于操作与处理的COCO_2017数据格式。

COCO_2017格式的数据集的一级目录包括两个文件夹：annotations和train2017，annotations文件夹用于存放标注后的json文件，而train2017则用于保存原图。

(3)对训练集中的样本图片进行图像增强操作，以扩充训练样本。

随机选择训练集中的样本图片进行至少如下之一的操作以增加样本图片数量：1)对图像进行水平翻转和上下翻转；2)对图像进行仿射变换，包括平移、缩放和旋转；3)对图像进行光照调节，使得图像变得更暗。由此，提高了模型的泛化能力，降低了模型的过拟合程度，有效提高了检测与分割精度。

(4)将扩充后的训练集叶片图像和测试集叶片图像输入到特征提取网络中。特征提取网络包括特征提取主干网络和特征金字塔网络。所述特征提取主干网络是VoVNet57网络。

(5)使用预训练的VoVNet57网络提取训练集图像和测试集图像的特征，VoVNet57网络包括3个卷积层和4个具有前后顺序的OSA模块。VovNet57的输入为RGB原始图片，经过3层卷积输出一组128通道的特征图，这组特征图输入到第一个OSA模块，其输出作为下一个OSA模块的输入，依次顺序操作，并且保留每个OSA模块的输出，因此经过VoVNet57输出的特征图共有四层，尺寸大小分别为原图的1/4、1/8、1/16和1/32，而通道数分别为256、512、768和1024。VoVNet57网络的核心模块为OSA模块，每个OSA模块由5个卷积层组成，具有相同的输入/输出信道，并将其特征同时聚合到最后一层，每个卷积层包含双向连接，一个连接到下一层以产生具有更大感受野的特征，而另一个仅聚合到最终输出特征映射中。这样可以有效消除传统特征提取主干网络由于密集连接而造成的信息冗余问题，增强特征提取效果，提升特征提取速度和GPU计算效率，通过预训练的VoVNet57网络能够加快模型收敛，改善模型表现。

(6)将经过VoVNet57特征提取主干网络得到的特征图输入到特征金字塔网络中，特征金字塔网络利用卷积网络本身带有的层次性语义特征，来构建特征金字塔。将VoVNet57网络的最后一个OSA模块输出的1/32特征图输入到特征金字塔网络，特征金字塔网络对该特征图进行卷积和下采样操作，最终生成尺寸大小是原图1/128的特征图，对该特征图进行渐进式上采样，分别生成尺寸大小是原图1/64、1/32、1/16和1/8的特征图，并且将尺寸大小是原图1/32、1/16和1/8的特征图与特征提取主干网络生成的相应尺寸的特征图进行融合，该融合后的特征图与上述1/128和1/64的特征图作为最终生成的各层特征图。特征金字塔网络的上述处理中包含自顶向下和侧向连接的融合过程，通过上采样的方式将顶层的小特征图放大到与上一个阶段的特征图一样的大小，这样的好处是既利用了顶层较强的语义特征(利于分类)，又利用了底层的高分辨率信息(利于定位)，上采样的方法通过最近邻插值实现。为了将高层语义特征和底层的精确定位能力结合，采用类似于残差网络的侧向连接结构，侧向连接将上一层经过上采样后和当前层分辨率一致的特征，通过相加的方法进行融合，最终得到P3-P7特征图(即尺寸大小分别是原图1/8/、1/16、1/32、1/64和1/128的特征图)。因此特征金字塔网络能够通过上下文信息进一步提升语义表达，而且增加了特征映射分辨率，以便更好地保留小目标物体的信息，输出表达能力更强的特征。

(7)将经过特征金字塔融合网络得到的P3-P7特征图(即尺寸大小是原图1/8/、1/16、1/32、1/64和1/128的特征图)输入FCOS目标检测器，并由目标检测器逐像素通过分类和回归计算获得每个特征图的建议框的类别及位置坐标值。记F

(8)目标检测器对所述建议框进行Soft NMS操作以获得最终的检测框。传统目标检测方法为了保证物体检测的召回率，通常都会用到NMS进行处理，主要做法是将生成的建议框，按照置信度得分进行排序，保留得分最高的框，同时删除与该框重叠面积大于一定比例的其它框；但是NMS处理方法虽然简单有效，但也存在一定的问题，其中最大问题就是它将相邻建议框的分数均强制归零，如果一个真实物体在重叠区域出现，将导致对该物体的检测失败。

a.首先按照置信度得分对所有建议框进行排序；

b.选择置信度得分最高的建议框，计算该建议框与剩余建议框的交并比；

c.通过上述交并比重新计算该剩余建议框的置信度得分，具体方法如下式所示：

d.当交并比小于阈值时，该剩余建议框的置信度得分不变；

e.当交并比大于阈值时，并未将该剩余建议框的置信度得分直接设置为0，而是降低该框的得分,具体如下：如果当前建议框M和剩余建议框d

f.依次计算该建议框与剩余建议框的置信度得分；

g.对剩余建议框进行置信度得分排序，继续循环上述步骤，直至所有建议框全部计算完毕。

Soft NMS的计算复杂度与NMS相同，采用得分衰减的方式，可以有效地提高模型的召回率，改善检测结果。

(9)将上述检测框发送给系数预测器，系数预测器对所述检测框进行实例信息的权值预测以生成与检测框相对应的实例比重。系数预测器就是一个卷积层，其输出是一个3D结构的张量，可以编码实例级信息，例如物体的粗略形状和姿态。

(10)将经过特征金字塔融合网络得到的P3-P6特征图经过语义分割网络的第一卷积层提取特征，通过注意力模块进一步提升第一卷积层提取的特征，注意力模块输出调整后的特征图给第二卷积层，第二卷积层对注意力模块的输出上采样后产生4个全局分割图。为了更好地提升分割网络的表达能力并正确关注目标对象，本发明提出了一种新的具有空间和通道描述子的多尺度双注意力模块，如图3所示，第一卷积层输出的特征图依次经过空间注意力模块和通道注意力模块生成注意力权重图，该权重图与输入特征图进行矩阵乘法，生成最终调整后的特征图。该模块汇总了全局和局部特征(如图2所示)。将特征金字塔网络的特征图

其中M

如图4所示，空间注意模块主要关注卷积特征在空间上的依赖关系，并生成空间注意矩阵突出显示信息丰富的区域。在计算空间注意图时，空间注意模块运用全局平均池化和最大池化沿通道生成两个特征描述符：

其中

空间注意力模块内添加了平行的局部分支模块以丰富要素上下文并改善多尺度信息表达。在这个分支中，间注意力模块使用点卷积(卷积核大小为1)作为局部上下文提取器对每个空间位置进行卷积操作。因此，局部上下文

其中B为批归一化，PW

其中

如图所示5所示，与空间注意力模块不同，通道注意力模块能够捕获通道之间的相互依赖关系并学习特征的通道间关系，目标是使用更多信息为通道分配更高的权重。为了有效地计算通道注意力图，将空间注意力模块输出的特征图放入通道注意力模块的全局空间模块中，生成两组通道描述符：

其中MLConv为多层卷积，MaxPool为最大池化，AvgPool为平均池化，M

其中M

(11)融合模块将4个全局分割图与检测框叠加，并与检测框相对应的实例比重相乘，进而输出最终的分割图，如图6所示。

a.利用所有检测框对4个全局分割图进行裁剪，得到所有检测框对应分割图的区域；

b.将裁剪后的区域进行插值操作，使该区域大小调整为与实例比重矩阵一致；

c.将调整后的区域与对应实例比重相乘，得到每个检测框的分割图；

d.将所有检测框的分割图进行相加合并，生成最终分割图。

融合模块本身具有平移可变性，它使网络能够使用不同的激活来完成如何区分和定位叶子的功能上述步骤a-d的整个过程可通过下面计算：

其中，proposals为检测框，bases为检测框对应分割图的区域，coefficients为检测框的置信度得分，I为线性插值操作，ROIAlign为固定检测框尺寸的操作。

(12)训练该实例分割模型，并保存训练好的模型；以及使用训练好的模型对测试数据集进行测试，实现对叶片图像的实时分割；基于定义好的损失函数，迭代优化模型参数，直至模型收敛；图7是训练好的模型对测试集中图片进行分割的效果图。

通过本发明，能够得到以下的有益效果：

(1)本发明采用一阶段目标检测分支，提高了检测速度；

(2)本发明利用包括翻转、仿射变换、光照调节、明暗对比度变换等操作的数据增强技术对训练样本进行数据增强，丰富了图像数据，扩充了数据集的规模，解决了样本匮乏问题，同时也增强了模型的鲁棒性和泛化能力；

(3)本发明采用FPN进行特征提取，打破了传统的基于边缘、轮廓、纹理等手工提取特征的检测方法参数设置的困扰；

(4)本发明利用计算机视觉技术实现了对叶片的自动分割，相比于人工检测，节省了人力成本，提高了生产效率，真正意义上实现了农业无人化管理；

(5)本发明提出了一种新的多尺度双注意力机制，可以在局部和全局维度上提升分割网络的表达能力；

(6)本发明有效地将注意力模块嵌入分割网络中，并生成相应位置敏感分割图，有利于叶片间的区分。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 [P] . 中国专利： CN112837330A . 2021-05-25
2. 基于注意力机制和全卷积神经网络的冠状血管分割方法 [P] . 中国专利： CN110288611A . 2019-09-27
3. APPARATUS AND METHOD FOR SEGMENTING OF SEMANTIC IMAGE USING FULLY CONVOLUTIONAL NEURAL NETWORK BASED ON MULTI SCALE IMAGE AND MULTI SCALE DILATED CONVOLUTION [P] . 韩国专利： KR102109372B1 . 2020-05-12

机译：基于多尺度图像和多尺度膨胀卷积的全卷积神经网络分割语义图像的装置和方法
4. APPARATUS AND METHOD FOR SEGMENTING OF SEMANTIC IMAGE USING FULLY CONVOLUTIONAL NEURAL NETWORK BASED ON MULTI SCALE IMAGE AND MULTI SCALE DILATED CONVOLUTION [P] . 韩国专利： KR20190119261A . 2019-10-22

机译：基于多尺度图像和多尺度膨胀卷积的全卷积神经网络分割语义图像的装置和方法
5. CNN LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR TO BE USED FOR SURVEILLANCE BASED ON CONVOLUTIONAL NEURAL NETWORK CAPABLE OF CONVERTING MODES ACCORDING TO SCALES OF OBJECTS AND TESTING METHOD AND TESTING DEVICE USING THE SAME [P] . KR102320995B1 . 2021-11-03

机译：基于卷积神经网络的对象检测器的CNN学习方法和学习装置，其能够根据对象的尺度转换模式和使用相同的测试方法和测试装置的卷积神经网络