首页> 中国专利> 基于注意力和多重知识迁移的植物表型检测系统及其方法

基于注意力和多重知识迁移的植物表型检测系统及其方法

摘要

本发明公开了一种基于注意力和多重知识迁移的植物表型检测系统及其方法,涉及植物表型智能识别领域。本系统包括依次连通的工业相机(10)、服务器(20)和嵌入式设备(30);服务器(20)内嵌有依次交互的数据集制作模块(21)、教师目标检测模型(22)和学生目标检测模型(23);嵌入式设备(30)内嵌有依次交互的实时采集模块(31)、最终模型(32)和输出模块(33)。本发明改进了混合域注意力模块和相应的注意力损失函数;设计了特征融合模块和相应的特征融合层知识迁移损失函;提出了基于多重损失的知识迁移训练方法;实现了对自然环境下植物表型的实时检测,可适用于植物表型学研究,具有广阔的前景。

著录项

  • 公开/公告号CN112464959A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 中南民族大学;

    申请/专利号CN202011464613.2

  • 申请日2020-12-12

  • 分类号G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构42001 武汉宇晨专利事务所;

  • 代理人黄瑞棠

  • 地址 430074 湖北省武汉市洪山区民院路708号

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及植物表型智能识别领域,尤其涉及一种基于注意力和多重知识迁移的植物表型检测系统及其方法。

背景技术

针对植物表型的研究,不仅可以为作物育种、栽培和农业生产提供理论基础和技术手段,还有助于农业生产的精准化和可持续发展。传统的植物表型研究主要依靠人工观察和测量得到植物外部物理性的描述,这种方法往往依赖于从小样本植物中手动检测个别性状,因此能够得到的数据量非常有限,效率非常低。

目前,大多数植物表型数据以图像数据为主,因此借助深度学习在特征提取上的优势,实现了对植物表型的鉴别,尤其是基于深度学习的目标检测算法在对自然环境下的植物表型进行检测时体现出了较之传统研究有着更高精度和稳定性的优势。如Baweja等人在Field and Service Robotics2018:271-284发表的论文“StalkNet:A deep learningpipeline for high-throughput measurement of plant stalk count and stalkwidth”使用配备高分辨率立体成像仪的地面机器人来捕获高粱植物实验地块的密集图像数据,通过快速的区域卷积神经网络(Faster-Regions with CNN Features,Faster-RCNN)构建了茎杆数和茎宽的测量算法,该方法算法准确度较高,但检测速度明显慢于单阶段目标检测算法;Sarker和Kim在electronic bulletin board online2019-06-05上发表论文“Farm land weed detection with region-based deep convolutional neuralnetworks”提出了一种基于区域的全卷积网络,实现了对于田间复杂环境下的杂草识别,尽管实际测试中表现出较高的杂草识别准确率,但仍有很大的上升空间。上述相关的方法在特征提取上较前人的特征提取方法取得了相对领先的优势,但是在面对复杂背景下的植物表型检测时往往很难兼顾准确性与实时性,而农业生产中对于准确率和实时性的要求不可忽视。

发明内容

本发明的目的就在于克服现有技术存在的缺点和不足,提供一种基于注意力和多重知识迁移的植物表型检测系统及其方法,提高目标检测算法在自然背景下对植物表型识别准确性,加快识别速度。

为实现上述目的,本发明的技术方案为:

一、基于注意力和多重知识迁移的植物表型检测系统(简称系统)

本系统包括依次连通的工业相机10、服务器20和嵌入式设备30;

服务器20内嵌有依次交互的数据集制作模块21、教师目标检测模型22和学生目标检测模型23;

嵌入式设备30内嵌有依次交互的实时采集模块31、最终模型32和输出模块33。

二、基于注意力和多重知识迁移的植物表型检测方法(简称方法)

见具体实施方式。

与现有技术相比,本发明具有下列优点和积极效果:

1、改进了混合域注意力模块和相应的注意力损失函数

本发明将点卷积融入并行的通道注意力模块与空间注意力模块,通过点卷积实现跨通道的信息整合;通道域注意力模块由最大池化层、平均池化层和共享的点卷积层组成,空间域注意力模块由多个卷积核组成,用于强化输入的植物表型图像空间与通道信息的关键特征,加强主干网络在面对自然环境下的植物表型图像时对前景的各类植物和背景的区分能力;根据改进后的混合域注意力模块,设计了符合本网络模型的注意力损失函数,实现了注意力迁移;

2、设计了特征融合模块和相应的特征融合层知识迁移损失函数

本发明通过大小不同的池化核来提取目标植物尺度大小的信息,通过点卷积来控制通道信息,最后进行通道融合,实现特征融合模块;同时分别在教师模型与学生模型检测头部网络前添加不同数量的特征融合模块,实现局部特征和全局特征相融合,有利于应对自然背景中植物表型目标大小不一的情况;针对自然环境下植物表型目标通常尺度较大的特殊性,分别抽取教师模型和学生模型第一个特征融合模块后的卷积层,通过平滑L1损失来衡量教师模型与学生模型在特征融合后的距离,弥补学生模型对目标尺度信息的缺失;

3、提出了基于多重损失的知识迁移训练方法:基于注意力损失,特征融合层损失、分类损失以及回归损失对学生模型进行多分辨率输入训练,教师模型通过知识迁移,提高学生模型的识别准确率,多分辨率输入训练,用于提高模型的泛化能力,保持高识别准确率的同时,大幅度降低了最终模型的复杂度,提高了检测速度。

4、实现了对自然环境下植物表型的实时检测,可适用于植物表型学研究,具有广阔的前景。

附图说明

图1是本系统的结构方框图,图中:

10—工业相机;

20—服务器,

21—数据集制作模块,

22—教师目标检测模型,

23—学生目标检测模型;

30—嵌入式设备,

31—实时采集模块,

32—最终模型,

33—输出模块。

图2是教师目标检测模型22的结构方框图,图中:

22A—教师模型特征提取主干模块,

22A0—输入,

22A1—1个卷积残差模块,

22A2—2个卷积残差模块,

22A4—4个卷积残差模块,

22A8—8个卷积残差模块,

22A5—第1混合域注意力模块;

22A6—第2混合域注意力模块;

22A7—第3混合域注意力模块;

22B—教师模型特征融合颈部模块,

22B1—第1特征融合模块,

22B2—第2特征融合模块,

22B3—第3特征融合模块;

22C—教师模型目标检测头部模块,

22C1—第1卷积模块,

22C2—第1输出,

22C3—第1通道融合,

22C4—第2通道融合,

22C5—第2卷积模块,

22C6—第2输出,

22C7—第3卷积模块,

22C8—第3输出。

图3是学生目标检测模型23的结构方框图,图中:

23A—学生模型特征提取主干模块,

23A0—输入,

23A1—3个3*3卷积池化模块,

23A2—第4卷积模块,

23A3—第1池化模块,

23A4—第5卷积模块,

23A5—第2池化模块,

23A6—2个深度可分离卷积,

23A7—混合域注意力模块,

23B—特征融合模块,

23C—学生模型目标检测头部模块,

23C1—第4通道融合,

23C2—第6卷积模块,

23C3—第4输出,

23C4—第5通道融合,

23C5—第7卷积模块,

23C6—第5输出,

23C7—第8卷积模块,

23C8—第6输出。

图4是混合域注意模块23A7的结构方框图,图中:

23A70—第一1*1卷积模块,

23A71—最大池化层,

23A72—平均池化层,

23A73—2个1*1卷积,

23A74—第二1*1卷积模块,

23A75—2个3*3卷积模块,

23A76—第三1*1卷积模块,

23A77—激活,

23A78—第四1*1卷积模块。

图5是特征融合模块23B的结构方框图,图中:

23B0—输入特征图,

23B1—第1最大池化层,

23B2—第2最大池化层,

23B3—第3最大池化层,

23B4—第4最大池化层,

23B5—第1点卷积,

23B6—第2点卷积,

23B7—第3点卷积,

23B8—第4点卷积,

23B9—通道融合模块。

图6是教师模型与学生模型数据对比图。

具体实施方式

为使本发明的技术方案更加清楚,下面结合附图和实施例详细说明:

一、系统

1、总体

如图1,本系统包括依次连通的工业相机10、服务器20和嵌入式设备30;

服务器20内嵌有依次交互的数据集制作模块21、教师目标检测模型22和学生目标检测模型23;

嵌入式设备30内嵌有依次交互的实时采集模块31、最终模型32和输出模块33。

其工作机理是:

工业相机10采集自然环境下植物表型原始图像,并将数据导入服务器20中,服务器20中的数据集制作模块21将对图像数据进行预处理及标注,形成训练样本集,然后将训练样本集导入教师目标检测模型22进行模型训练,得到教师模型最佳权重,并将该权重导入学生目标检测模型23中进行学生模型知识迁移训练,并保存最佳模型权重文件,最后将最终模型导入嵌入式设备30中,实时采集模块31进行实时的数据采集,通过最终模型32和输出模块33实现自然环境下植物表型的高效识别。

2、功能部件

1)工业相机10

工业相机10是一种常用的功能部件,如选用MV-EM120M/C;

其功能是采集自然环境下植物表型图像数据。

2)服务器20

服务器20选用配置好深度学习开发环境的计算机,具体为:Ubuntu16.04操作系统、CUDA10.1、深度学习框架pytorch、CPU为IntelXenoE5、GPU为NVIDIA TitanX;

内嵌有依次交互的数据集制作模块21、教师目标检测模型22和学生目标检测模型23;

(1)数据集制作模块21

数据集制作模块21采用LabelImg数据标注软件进行数据标注。

(2)教师目标检测模型22

如图2,教师目标检测模型22包括依次连通的教师模型特征提取主干模块22A、教师模型特征融合颈部模块22B和教师模型目标检测头部模块22C;

教师目标检测模型22功能是对标注好的数据进行模型训练,得到最佳模型权重文件;

教师模型特征提取主干模块22A包括依次交互的输入22A0、1个卷积残差模块22A1、2个卷积残差模块22A2、8个卷积残差模块22A8、第1混合域注意力模块22A5、8个卷积残差模块22A8、第2混合域注意力模块22A6、4个卷积残差模块22A4和第3混合域注意力模块22A7;其中卷积残差模块由通用的3*3卷积层和1*1卷积层跳连组成,其功能是将浅层网络提取的信息引入深层网络,解决深度神经网络的退化问题;第1混合域注意力模块22A5、第2混合域注意力模块22A6和第3混合域注意力模块22A7结构和功能同混合域注意力模块23A7一致;

教师模型特征提取主干模块22A的功能是对输入植物表型图像进行特征提取;

教师模型特征融合颈部模块22B包括第1特征融合模块22B1、第2特征融合模块22B2和第3特征融合模块22B3,其结构和功能同特征融合模块23B一致;

特征融合颈部模块22B的功能是提取目标尺度不一的信息,实现特征融合,丰富特征图表达能力;

教师模型目标检测头部模块22C包括第1卷积模块22C1、第1输出22C2、第1通道融合22C3、第2通道融合22C4、第2卷积模块22C5、第2输出22C6、第3卷积模块22C7、第3输出22C8;其中第1卷积模块22C1、第2卷积模块22C5和第3卷积模块22C7为通用的3*3卷积层,第1通道融合22C3和第2通道融合22C4用于实现多个输入通道信息的叠加;

教师模型目标检测头部模块22C的功能是针对三个不同尺度大小的预测图进行输出。

其交互关系是:

第1混合域注意力模块22A5、第1特征融合模块22B1、第1通道融合22C3、第1卷积模块22C1和第1输出22C2依次交互,第2混合域注意力模块22A6、第2特征融合模块22B2、第2通道融合22C4、第2卷积模块22C5和第2输出22C6依次交互,第3混合域注意力模块22A7、第3特征融合模块22B3、第3卷积模块22C7和第3输出22C8依次交互,第3卷积模块22C7和第2通道融合22C4前后交互,第2卷积模块22C5和第1通道融合22C3前后交互。

(3)学生目标检测模型23

如图3,学生目标检测模型23包括学生模型特征提取主干模块23A、特征融合模块23B和学生模型目标检测头部模块23C;

学生目标检测模型23的功能是在教师目标检测模型22监督下对标注好的数据进行模型训练,得到最佳权重模型文件。

如图3,学生模型特征提取主干模块23A包括依次交互的输入23A0、3个3*3卷积池化模块23A1、第4卷积模块23A2、第1池化模块23A3、第5卷积模块23A4、第2池化模块23A5、2个深度可分离卷积23A6、混合域注意力模块23A7;其中3个3*3卷积池化模块23A1由通用的3*3卷积层和最大池化层构成;第4卷积模块23A2和第5卷积模块23A4由通用的3*3卷积层构成;第1池化模块23A3和第2池化模块23A5由通用的最大池化层组成;2个深度可分离卷积23A6由通用的深卷积和点卷积构成,其功能是用于降低网络计算复杂度;

学生模型特征提取主干模块23A的功能是对输入图像进行特征提取。

如图3,学生模型目标检测头部模块23C包括第4通道融合23C1、第6卷积模块23C2、第4输出23C3、第5通道融合23C4、第7卷积模块23C5、第5输出23C6、第8卷积模块23C7和第6输出23C8;其中第6卷积模块23C2和第7卷积模块23C5由通用的3*3卷积层组成;第4通道融合23C1和第5通道融合23C4用于实现多个输入通道信息的叠加;

其交互关系是:

第4卷积模块23A2、第4通道融合23C1、第6卷积模块23C2和第4输出23C3依次交互,

第5卷积模块23A4、第5通道融合23C4、第7卷积模块23C5、第5输出23C6依次交互,

混合域注意力模块23A7、特征融合模块23B、第8卷积模块23C7和第6输出23C8依次交互,

第8卷积模块23C7和第5通道融合23C4前后交互,

第7卷积模块23C5和第4通道融合23C1前后交互。

学生模型目标检测头部模块23C的功能是针对三个不同尺度大小的预测图进行输出。

如图5,所述的特征融合模块23B包括输入特征图23B0、第1最大池化层23B1、第2最大池化层23B2、第3最大池化层23B3、第4最大池化层23B4、第1点卷积23B5、第2点卷积23B6、第3点卷积23B7、第4点卷积23B8、通道融合模块23B9;

其交互关系是:

输入特征图23B0、第1最大池化层23B1、第1点卷积23B5和通道融合模块23B9依次交互,

输入特征图23B0、第2最大池化层23B2、第2点卷积23B6和通道融合模块23B9依次交互,

输入特征图23B0、第3最大池化层23B3、第3点卷积23B7和通道融合模块23B9依次交互,

输入特征图23B0、第4最大池化层23B4、第4点卷积23B8和通道融合模块23B9依次交互,

输入特征图23B0和通道融合模块23B9前后交互。

特征融合模块23B的功能是针对自然环境下植物表型目标通常尺度较大的特殊性对特征图进行特征融合。

如图4,所述的混合域注意力模块23A7包括第一1*1卷积模块23A70、最大池化层23A71、平均池化层23A72、2个1*1卷积23A73、第二1*1卷积模块23A74、2个3*3卷积模块23A75、第三1*1卷积模块23A76、激活23A77和第四1*1卷积模块23A78;

其交互关系是:

第一1*1卷积模块23A70分别与最大池化层23A71和平均池化层23A72交互,最大池化层23A71和平均池化层23A72分别与2个1*1卷积23A73交互,

第一1*1卷积模块23A70、第二1*1卷积模块23A74、2个3*3卷积模块23A75和第三1*1卷积模块23A76依次交互,

2个1*1卷积23A73和第三1*1卷积模块23A76相加后和激活23A77交互,激活23A77和第四1*1卷积模块23A78交互。

混合域注意力模块23A7的功能是强化输入植物表型图像的空间与通道信息的关键特征,加强主干网络在面对自然环境下植物表型图像时对前景目标和背景的区分能力。

3)嵌入式设备30

如图1,嵌入式设备30一种常用的功能部件,如选用Nvidia TX2嵌入式开发板;内嵌有依次交互的实时采集模块31、最终模型32和输出模块33。

(1)实时采集模块31

实时采集模块31包括一款常用的摄像头,其功能是进行自然环境的植物表型图像或视频的实时采集;

(2)最终模型32

最终模型32包括训练好的学生目标检测模型,其功能是对实时采集的图像或视频数据进行检测;

(3)输出模块33

输出模块33包括一块能清晰显示的屏幕,其功能是输出并显示最终模型32的检测结果。

二、方法

本方法包括以下步骤:

①通过工业相机10采集自然环境下植物表型原始图像数据,并通过服务器20中数据集制作模块21依据植物表型学知识对原始图像数据进行严格的数据标注,形成训练数据集;

②采用多分辨输入,输入图像分辨率区间为[416,800],确保每次输入分辨率为32的倍数,对教师目标检测模型22进行训练,并保存最佳模型权重文件;

③分别基于注意力损失、特征融和层损失、分类损失和回归损失对学生目标检测模型23进行知识迁移,损失函数为:

L=L

其中注意力损失L

上式中L

A

其中

C(a

S(a

上式中C(a

其中特征融合层损失L

上式中L

其中分类损失L

L

上式中

其中回归损失L

L

上式中L

最后采用马赛克数据增强,将四张植物表型图像随机拼成一张,用于提升自然背景的复杂程度,并基于注意力损失L

④将最终模型导入嵌入式设备30中,实时采集模块31将进行照片或视频的实时采集,通过最终模型32实现对自然环境下植物表型高效的目标检测,输出模块33将检测结果输出。

三、实施例

本发明实施例中需配置深度学习开发环境,具体为:Ubuntu16.04操作系统、CUDA10.1、深度学习框架pytorch、CPU为IntelXenoE5、GPU为NVIDIA TitanX、Nvidia TX2嵌入式开发板;

步骤1:本实施例中,原始植物表型图像数据来自Plant Pathology 2020-FGVC7,下载好数据集后,根据植物表型学中的知识,使用LabelImg软件严格按照PASCAL VOC2007进行严格的数据标注,并生成相应的xml以及txt文件,并按照8:1:1的比例划分训练集,验证集和测试集;

步骤2:按照图2构建好教师目标检测模型22,然后采用马赛克数据增强并进行多分辨输入训练,具体包括:

1)在训练集上用K-Means算法聚类出9个anchorbox,并添加至相应的cfg配置文件中;

2)设置初始超参数:训练集batchsize设置为16,subdivision设置为4,epoch设置为550;采用steps学习率调整策略,初始学习率为0.01,steps值为109200和145600,scale值为0.1;输入分辨率范围为[416,800],确保每次输入分辨率为32的倍数;

3)多次训练模型,根据模型的性能指标变化,动态调整超参数,并保存性能指标最好时的模型参数;

步骤3:按照图3构建好学生目标检测模型23,然后基于多重知识迁移进行多分辨输入训练,具体包括:

1)设置初始超参数:分类损失中超参数α设为0.65,β设为0.35,T设为3,注意力损失超参数ρ设为0.5,回归损失中超参数λ设为0.5,训练集batchsize设置为16,subdivision设置为4,epoch设置为550;采用steps学习率调整策略,初始学习率为0.01,steps值为109200和145600,scale值为0.1;输入分辨率范围为[416,800],确保每次输入分辨率为32的倍数;

2)多次训练模型,根据模型的性能指标变化,动态调整各超参数,并保存性能指标最好时的模型参数;

步骤4:将最终模型导入Nvidia TX2嵌入式开发板中,实时采集模块31将进行照片或视频的实时采集,通过最终模型32实现对自然环境下植物表型高效的目标检测,输出模块33将检测结果输出。

四、检测结果

图5给出了本发明方法模型相关数据,使用方法,准确度损失少于1%,模型大小约为原来的0.22倍,参数量约为原来的0.2倍,前向推断耗时约为原来的0.5倍,由此可见,本发明在面对自然环境下植物表型的目标检测时,能保持高识别准确率,同时大幅度降低了模型复杂度,提升了推理速度。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号