首页> 中国专利> 一种黄河冰凌无人机航拍图像实时语义分割方法

一种黄河冰凌无人机航拍图像实时语义分割方法

摘要

本发明公开了一种基黄河冰凌无人机航拍图像实时语义分割方法,根据收集的无人机航拍冰凌图像构造黄河冰凌语义分割数据集,数据集包含黄河无人机航拍冰凌图像以及标签数据;再利用构建的黄河冰凌语义分割数据集对分割网络FastICENet进行训练,得到最终的语义分割模型。即使图像中冰凌大小形态各异,本发明的检测结果依然精确;本发明的语义分割网络在精度与其他网络相近时,分割速度远胜于其他语义分割网络。

著录项

  • 公开/公告号CN114943835A

    专利类型发明专利

  • 公开/公告日2022-08-26

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN202210415977.4

  • 申请日2022-04-20

  • 分类号G06V10/26(2022.01);G06V20/17(2022.01);G06V10/82(2022.01);G06V10/80(2022.01);

  • 代理机构西安凯多思知识产权代理事务所(普通合伙) 61290;

  • 代理人赵革革

  • 地址 710072 陕西省西安市友谊西路127号

  • 入库时间 2023-06-19 16:31:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-13

    实质审查的生效 IPC(主分类):G06V10/26 专利申请号:2022104159774 申请日:20220420

    实质审查的生效

说明书

技术领域

本发明属于模式识别技术领域,具体涉及一种航拍图像实时语义分割方法。

背景技术

语义分割是计算机视觉中十分重要的领域,它是指像素级别的识别图像,即标注出图像中每个像素所属的对象类别,其目标是预测出图像中每一个像素的类标签。河流冰情监测对航运业的河流管理具有重要意义。精确的冰分割是冰情监测研究中最重要的技术之一。这其中轻量化语义分割在冰情监测中尤为重要。需要快速的解析输入图像,辅助系统和外界环境进行及时的交互。具体来说,就是将输入的黄河冰凌图像进行快速准确的分割,实时监测河流中冰凌情况并及时做出预警。因此设计一个实时准确的轻量化语义分割网络是非常必要的。

早期的冰凌语义分割方法,多用于解决现有冰凌检测方法准确度差的技术问题。比如构建分割网络结构,网络包含浅层分支和深层分支,在深层分支加入通道注意力模块;在浅层分支加入位置注意力模块;融合模块用于浅层分支和深层分支的融合。将训练集中数据分批次放入网络中,并采用交叉熵损失和RMSprop优化器对构建的神经网络进行训练。最后输入待测试的图像,使用训练好的模型进行测试。这种方法能够有选择得进行多层级和多尺度的特征融合,并且基于注意力机制捕捉上下文信息,获得更高分辨率的特征图,得到了较好的分割效果。但存在分割速度较慢的问题,不能够在低功耗的设备上实时运行分割网络,难以满足黄河冰凌分割实际的落地需求。

发明内容

为了克服现有技术的不足,本发明提供了一种基黄河冰凌无人机航拍图像实时语义分割方法,根据收集的无人机航拍冰凌图像构造黄河冰凌语义分割数据集,数据集包含黄河无人机航拍冰凌图像以及标签数据;再利用构建的黄河冰凌语义分割数据集对分割网络FastICENet进行训练,得到最终的语义分割模型。即使图像中冰凌大小形态各异,本发明的检测结果依然精确;本发明的语义分割网络在精度与其他网络相近时,分割速度远胜于其他语义分割网络。

本发明解决其技术问题所采用的技术方案包括如下步骤:

步骤1:根据收集的无人机航拍冰凌图像构造黄河冰凌语义分割数据集,所述数据集包含黄河无人机航拍冰凌图像以及标签数据;将数据集划分为训练集、验证集和测试集;

步骤2:构建语义分割模型FastICENet;

所述语义分割模型FastICENet包括浅层细节分支、深层语义分支和融合上采样模块;所述浅层细节分支用于提取冰凌图像的低层次细节信息,深层语义分支用于提取冰凌图像深层语义信息,最后通过融合上采样模块将深层语义分支和浅层细节分支融合并上采样,得到与原始图像大小相同的语义分割结果;

步骤2-1:所述浅层细节分支具体为:将大小为h×w的输入图像,h和w分别为图像高度和宽度,依次通过卷积模块一、卷积模块二和卷积模块二,经过三个卷积模块之后,特征图的分辨率为h/8×w/8;

步骤2-2:所述深层语义分支具体为:

步骤2-2-1:将大小为h×w的输入图像依次通过下采样模块一、下采样模块二和下采样模块三,经过三个下采样模块之后,得到特征图,分辨率为h/8×w/8;

步骤2-2-2:将步骤2-2-1得到的特征图输入基于幻影特征图的密集连接模块一,输出的特征图分辨率仍为h/8×w/8;

步骤2-2-3:将步骤2-2-2得到的特征图输入到下采样模块四,输出的特征图的分辨率为h/16×w/16;

步骤2-2-4:将步骤2-2-3得到的特征图输入基于幻影特征图的密集连接模块二,输出的特征图分别输入到注意力细化模块一和平均池化模块;再将注意力细化模块一的输出和平均池化模块的输出结果按通道堆叠,得到的特征图作为步骤2-2-4的输出;

步骤2-2-5:将步骤2-2-4中得到的特征图通过上采样模块一,输出的特征图大小为h/8×w/8;

步骤2-2-6:将步骤2-2-2和步骤2-2-5的输出联合输入到注意力模块二中,输出特征图的分辨率为h/8×w/8;

步骤2-3:融合上采样模块具体为:将浅层细节分支和深层语义分支的输出联合输入特征融合模块,输出特征图大小为h/8×w/8;将特征融合模块的输出经过上采样模块二恢复到原来的大小h×w,预测分割结果;

步骤3:利用训练集和验证集,训练语义分割模型FastICENet,得到最终的语义分割模型,再通过测试集测试最终的语义分割模型的性能。

优选地,所述步骤1具体为:

步骤1-1:收集多时段多地域的无人机航拍黄河冰凌图像;

步骤1-2:将收集的图像裁剪成1600×640大小的图像,每张图像通过人工逐像素标记出三个分类标签:冰、水和河岸;

步骤1-3:通过步骤1-2得到黄河冰凌图像及其分类标签,并按3∶1∶1的比例划分为训练集、验证集和测试集。

优选地,所述卷积模块一的卷积核大小7×7,步长为2,填充大小为3;卷积核之后连接批处理正则化以及ReLU的组合;卷积模块二和卷积模块三的卷积核大小3×3,步长为2,填充大小为1,后面连接批处理正则化以及ReLU的组合。

优选地,所述下采样模块一、下采样模块二、下采样模块三和下采样模块四均采用如下结构:

假设下采样模块中特征图的输入通道数、输出通道数和卷积层输出通道数分别为Win、Wout和Wconv;

在下采样模块中,当Wout>Win时,输入特征图首先并行经过卷积核大小为3×3的卷积层和2×2最大池化层,卷积层和最大池化层两层的步长均为2,卷积层输出特征图的通道数Wconv=Wout-Win,最大池化层的输出特征图的通道数为Win;然后,卷积层和最大池化层的输出被通道堆叠、批处理正则化,并由Relu激活,实现特征图的2倍下采样;

在下采样模块中,当Wout<Win时,输入特征图仅经过卷积核大小为3×3,步长为2的卷积层,然后进行批处理正则化和Relu激活,通过卷积的方式实现特征图的2倍下采样;

其中下采样模块一的输入特征图通道数为3,输出特征图的通道数为15;下采样模块二的输入特征图通道数为15,输出特征图的通道数为30;下采样模块三的输入特征图通道数为30,输出特征图的通道数为60;下采样模块四的输入特征图通道数为160,输出特征图的通道数为160。

优选地,所述基于幻影特征图的密集连接模块一和基于幻影特征图的密集连接模块二的结构相同,定义如下:

定义幻影模块:使用以下公式一次卷积生成m个原始特征图Y′∈R

Y′=X*f′

其中,Y′是卷积层输出的特征图,X是卷积层的输入,*是卷积操作,f′∈R

对Y′中的每个原始特征图应用一系列线性运算,以生成s个幻影特征图:

其中y′

通过使用线性操作,获得n=m·s个特征图Y=[y

将多个幻影模块使用密集连接模式,即每一个幻影模块的输入是第一个初密集连接模块输入特征图和之前所有幻影模块的输出的特征图的通道叠加;

基于幻影特征图的密集连接模块一输入特征图通道数为60,输出特征图通道数为160,使用了5个幻影模块进行密集连接;

基于幻影特征图的密集连接模块二输入特征图通道数为160,输出特征图通道数为320,使用了8个幻影模块进行密集连接;

上述13个幻影模块,每一个均是通过卷积层增加10个通道,通过线性操作增加10个通道,因此每个幻影模块的输出通道数相对其输入均增加20个通道。

优选地,所述注意力模块一和注意力模块二的实现方式如下:将输入的特征图依次经过全局平均池化,1×1的卷积,批处理正则化,最后通过sigmoid,得到通道注意力向量,然后将通道注意力向量和输入特征图的对应位相乘,并将相乘结果与输入的特征图相加得到通道加权特征图。

优选地,所述上采样模块一和上采样模块二的结构相同,实现方式如下:假设输入特征图的大小为

优选地,所述特征融合模块的结构如下:①、特征融合模块将浅层细节分支和深层语义分支输出的特征图通道堆叠,经过一个步长为1,大小为1×1的卷积核,再经过批处理正则化和relu激活函数;②、将①中的输出经过全局池化,接着通过一个步长为1,大小为1×1的卷积,然后通过relu激活函数,再通过一个步长为1,大小为1×1的卷积,最后通过sigmoid激活函数,再将此输出与①中的输出对应位相乘;③、将②中相乘结果与①中的输出相加并输出,作为特征融合模块的输出。

本发明的有益效果如下:

1)本发明提出了一个双分支轻量级语义分割网络,用于黄河冰凌实时语义分割;

2)待分割的图像中冰凌大小形态各异,本发明的检测结果依然精确;

3)本发明的语义分割网络在精度与其他网络相近时,分割速度远胜于其他语义分割网络。

附图说明

图1是本发明语义分割模型结构图。

图2是本发明下采样模块结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明的目的在于提供一种黄河冰凌实时语义分割方法,通过双分支结构提高分割模型的精确度,同时采用轻量级的模块,以解决所述分割速度较慢的问题。

一种基黄河冰凌无人机航拍图像实时语义分割方法,包括如下步骤:

步骤1:根据收集的无人机航拍冰凌图像构造黄河冰凌语义分割数据集,所述数据集包含黄河无人机航拍冰凌图像以及标签数据;

步骤1-1:收集多时段多地域的无人机航拍黄河冰凌图像,从这些图像中选取光照充足,清晰地图像;

步骤1-2:将收集的图像裁剪成1600×640大小的图像,每张图像通过人工逐像素标记出三个分类标签:冰、水和河岸;

步骤1-3:通过步骤1-2得到黄河冰凌图像及其分类标签,并按3:1:1的比例划分为训练集、验证集和测试集。

步骤2:构建语义分割模型FastICENet;

所述语义分割模型FastICENet包括浅层细节分支、深层语义分支和融合上采样模块;所述浅层细节分支用于提取冰凌图像的低层次细节信息和纹理信息,深层语义分支用于提取冰凌图像深层语义信息,最后通过融合上采样模块将深层语义分支和浅层细节分支融合并上采样,得到与原始图像大小相同的语义分割结果;

步骤2-1:所述浅层细节分支具体为:将大小为h×w的输入图像,h和w分别为图像高度和宽度,依次通过卷积模块一、卷积模块二和卷积模块二,经过三个卷积模块之后,特征图的分辨率为h/8×w/8;

步骤2-2:所述深层语义分支具体为:

步骤2-2-1:将大小为h×w的输入图像依次通过下采样模块一、下采样模块二和下采样模块三,经过三个下采样模块之后,得到特征图,分辨率为h/8×w/8;

步骤2-2-2:将步骤2-2-1得到的特征图输入基于幻影特征图的密集连接模块一,输出的特征图分辨率仍为h/8×w/8;

步骤2-2-3:将步骤2-2-2得到的特征图输入到下采样模块四,输出的特征图的分辨率为h/16×w/16;

步骤2-2-4:将步骤2-2-3得到的特征图输入基于幻影特征图的密集连接模块二,输出的特征图分别输入到注意力细化模块一和平均池化模块;再将注意力细化模块一的输出和平均池化模块的输出结果按通道堆叠,得到的特征图作为步骤2-2-4的输出;

步骤2-2-5:将步骤2-2-4中得到的特征图通过上采样模块一,输出的特征图大小为h/8×w/8;

步骤2-2-6:将步骤2-2-2和步骤2-2-5的输出联合输入到注意力模块二中,输出特征图的分辨率为h/8×w/8;

步骤2-3:融合上采样模块具体为:将浅层细节分支和深层语义分支的输出联合输入特征融合模块,输出特征图大小为h/8×w/8;将特征融合模块的输出经过上采样模块二恢复到原来的大小h×w,预测分割结果;

步骤3:利用训练集和验证集,训练语义分割模型FastICENet,得到最终的语义分割模型,再通过测试集测试最终的语义分割模型的性能。

优选地,所述卷积模块一的卷积核大小7×7,步长为2,填充大小为3;卷积核之后连接批处理正则化以及ReLU的组合;卷积模块二和卷积模块三的卷积核大小3×3,步长为2,填充大小为1,后面连接批处理正则化以及ReLU的组合。

优选地,所述下采样模块一、下采样模块二、下采样模块三和下采样模块四均采用如下结构:

假设下采样模块中特征图的输入通道数、输出通道数和卷积层输出通道数分别为Win、Wout和Wconv;

在下采样模块中,当Wout>Win时,输入特征图首先并行经过卷积核大小为3×3的卷积层和2×2最大池化层,卷积层和最大池化层两层的步长均为2,卷积层输出特征图的通道数Wconv=Wout-Win,最大池化层的输出特征图的通道数为Win;然后,卷积层和最大池化层的输出被通道堆叠、批处理正则化,并由Relu激活,实现特征图的2倍下采样;

在下采样模块中,当Wout<Win时,输入特征图仅经过卷积核大小为3×3,步长为2的卷积层,然后进行批处理正则化和Relu激活,通过卷积的方式实现特征图的2倍下采样;

其中下采样模块一的输入特征图通道数为3,输出特征图的通道数为15;下采样模块二的输入特征图通道数为15,输出特征图的通道数为30;下采样模块三的输入特征图通道数为30,输出特征图的通道数为60;下采样模块四的输入特征图通道数为160,输出特征图的通道数为160。

优选地,所述基于幻影特征图的密集连接模块一和基于幻影特征图的密集连接模块二的结构相同,定义如下:

定义幻影模块:使用以下公式一次卷积生成m个原始特征图Y′∈R

Y′=X*f′

其中,Y′是卷积层输出的特征图,X是卷积层的输入,*是卷积操作,f′∈R

对Y′中的每个原始特征图应用一系列线性运算,以生成s个幻影特征图:

其中y′

通过使用线性操作,获得n=m·s个特征图Y=[y

将多个幻影模块使用密集连接模式,即每一个幻影模块的输入是第一个初密集连接模块输入特征图和之前所有幻影模块的输出的特征图的通道叠加;

基于幻影特征图的密集连接模块一输入特征图通道数为60,输出特征图通道数为160,使用了5个幻影模块进行密集连接;

基于幻影特征图的密集连接模块二输入特征图通道数为160,输出特征图通道数为320,使用了8个幻影模块进行密集连接;

上述13个幻影模块,每一个均是通过卷积层增加10个通道,通过线性操作增加10个通道,因此每个幻影模块的输出通道数相对其输入均增加20个通道。

优选地,所述注意力模块一和注意力模块二的实现方式如下:将输入的特征图依次经过全局平均池化,1×1的卷积,批处理正则化,最后通过sigmoid,得到通道注意力向量,然后将通道注意力向量和输入特征图的对应位相乘,并将相乘结果与输入的特征图相加得到通道加权特征图。

优选地,所述上采样模块一和上采样模块二的结构相同,实现方式如下:假设输入特征图的大小为

优选地,所述特征融合模块的结构如下:①、特征融合模块将浅层细节分支和深层语义分支输出的特征图通道堆叠,经过一个步长为1,大小为1×1的卷积核,再经过批处理正则化和relu激活函数;②、将①中的输出经过全局池化,接着通过一个步长为1,大小为1×1的卷积,然后通过relu激活函数,再通过一个步长为1,大小为1×1的卷积,最后通过sigmoid激活函数,再将此输出与①中的输出对应位相乘;③、将②中相乘结果与①中的输出相加并输出,作为特征融合模块的输出。

具体实施例:

为了验证和说明本方法的有效性,通过与现有四种中深度学习方法进行了对比,表1为本发明方法与其他基于深度学习方法的性能(精度和速度)比较。

表1本发明方法与另外四种深度学习方法的对比

从表1可以看出,本发明方法在精度mIoU与其他四种方法相近时,速度FPS大幅领先其他方法达到了94.840FPS。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号