首页> 中国专利> 一种网络构建方法及城市场景实时语义分割方法

一种网络构建方法及城市场景实时语义分割方法

摘要

本发明公开了一种网络构建方法,利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块;利用6个上下文指导模块CGM,构建解码器模块;将编码器模块的输出端与解码器模块的输入端连接,将解码器模块的输出端与拼接运算层的输入端连接,将拼接运算层的输出端与卷积层的输入端连接,将卷积层的输出端与上采样层的输入端连接,构成初始语义分割模型;利用样本数据训练初始语义分割模型,得到目标语义分割模型。本发明利用目标语义分割模型实现了对城市场景常见物体的语义分割,充分利用多尺度的全局以及局部信息和大感受野中更多的远程上下文信息,有效提高语义分割的精度。

著录项

  • 公开/公告号CN115995002A

    专利类型发明专利

  • 公开/公告日2023-04-21

    原文格式PDF

  • 申请/专利权人 南京信息工程大学;

    申请/专利号CN202310293401.X

  • 发明设计人 李振生;刘茜;

    申请日2023-03-24

  • 分类号G06V10/26;G06V10/30;G06V10/774;G06V10/80;G06V10/82;G06N3/048;G06N3/08;

  • 代理机构南京经纬专利商标代理有限公司;

  • 代理人朱小兵

  • 地址 210044 江苏省南京市江北新区宁六路219号

  • 入库时间 2023-06-19 19:30:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-09

    实质审查的生效 IPC(主分类):G06V10/26 专利申请号:202310293401X 申请日:20230324

    实质审查的生效

说明书

技术领域

本发明涉及图像语义分割领域,特别涉及一种网络构建方法及城市场景实时语义分割方法。

背景技术

随着计算机视觉技术的发展,图像语义分割在无人驾驶、医学影像诊断和机器人等领域的应用也越来越深入和广泛。图像语义分割是一项基本的视觉任务,旨在正确分类图片中的每个像素。在语义分割领域发展的进程中,每年都会出现很多表现优秀的模型达到更高的精度。近几年语义分割模型在精度的提高方面越来越缓慢,并且高精度模型往往伴随巨大的计算开销,进而严重影响模型的推理速度。在一些需要实时分割的场景中,例如无人驾驶汽车领域,受限于算力因素而难以在实际应用中部署现有的高精度模型,语义分割模型的应用受到相当程度的限制,实时性成为语义分割领域新的需求。

要减少语义分割模型的计算开销实现模型的实时性,目前常见的方案有以下两种:(1)减小输入图片尺寸:通过随机缩放和裁剪等方式减小输入图片尺寸,这可以从根本上降低模型计算量,但是图片尺寸减小太多会严重破坏图片中的空间细节信息,尤其是各类物体的边界信息,导致分割的精度大大降低。(2)降低分割模型的复杂度:通过更换或者重新设计骨干网络来减少模型各个阶段中特征的通道数、使用到的卷积核数目和大小等方式降低整体模型的复杂度,进而达到减少计算开销的目的,但是这个方式会降低骨干网络的特征提取能力、丢失一部分空间信息并且减小感受野,间接影响最终精度。

用于语义分割的现有网络存在以下缺陷:网络DFANet利用轻量级骨干网络来加速其网络,并通过跨层特征聚合来提高精度,但是跨层特征直接聚合会将噪声引入模型,导致模型精度降低;DeepLab系列、DenseASPP和PSPNet通过使用膨胀卷积证明了大感受野中的上下文信息对于语义分割非常重要,但是膨胀卷积会加大计算开销,进而降低推理速度;网络SFNet使用主流的编码器-解码器结构,解码器中接收来自PPM的特征并使用光流对齐模块直接和同阶段特征进行上采样融合,但是PPM获得的上下文信息少、上采样时不引入其他阶段的信息,严重影响最终的分割精度。

发明内容

发明目的:针对以上问题,本发明目的是提供一种网络构建方法及城市场景实时语义分割方法,将城市场景图进行实时语义分割。

技术方案:本发明的第一方面公开一种网络构建方法,所述方法包括:

利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块;

利用6个上下文指导模块CGM,构建解码器模块;

将编码器模块的输出端与解码器模块的输入端连接,将解码器模块的输出端与拼接运算层的输入端连接,将拼接运算层的输出端与卷积层的输入端连接,将卷积层的输出端与上采样层的输入端连接,构成初始语义分割模型;

利用样本数据训练初始语义分割模型,得到目标语义分割模型。

进一步,利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块,包括:

骨干网络包括四个阶段,第一阶段输出端与第一门控融合模块GFM

进一步,利用6个上下文指导模块CGM,构建解码器模块,包括:

第一上下文指导模块CGM

进一步,将解码器模块的输出端与拼接运算层的输入端连接,包括:

将CGM

进一步,条形池化语义增强模块SPSEM包含五个并行分支,第一分支由

门控融合模块GFM由信息发送端和信息接收端构成,信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层,信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,将信息发送端的输出端连接信息接收端的输入端;

上下文指导模块CGM包含两个并行分支,第一分支由

进一步,信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层,包括:

第一特征连接第一门控模块Gate

信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,包括:

第四特征连接第四门控模块Gate

本发明的第二方面提供一种城市场景实时语义分割方法,应用于本发明第一方面公开的网络构建方法所构建的目标语义分割模型,所述城市场景实时语义分割方法包括:

获取城市场景数据集并进行数据预处理,将预处理后的图像数据输入至目标语义分割模型,获取目标语义分割模型的输出,得到城市场景语义分割结果。

进一步,将城市场景数据集进行数据预处理,包括:

将数据集中的图片以及其对应标签进行缩放、左右反转、随机裁剪和随机旋转,得到第一图像。

进一步,将预处理后的图像数据输入至目标语义分割模型,包括:

将第一图像输入至骨干网络,利用骨干网络的第一阶段得到特征X

将特征X

将特征X

将特征X

将特征X

进一步,将预处理后的图像数据输入至目标语义分割模型,还包括:

利用CGM

利用CGM

利用CGM

利用CGM

利用CGM

利用CGM

将特征C

利用卷积层将特征C

有益效果:本发明与现有技术相比,其显著优点是:

1、本发明提出条形池化语义增强模块SPSEM,使用先卷积再膨胀卷积的方式结合条形池化,有效避免卷积神经网络难以获得大感受野中更多远程上下文信息的缺陷,同时使用卷积核分解策略减少了计算成本;

2、提出门控融合模块GFM,使用门控的思想去除噪声,将骨干网络中各阶段的强语义和更细节信息传输到当前阶段特征,实现多尺度选择性特征融合,进而使各类物体轮廓更明确;

3、提出上下文指导模块CGM,以简易的方式整合门控融合模块GFM、条形池化语义增强模块SPSEM输出特征的局部以及远程上下文信息进行上采样逐步恢复图像尺寸,有效提高了模型对远处小物体的分割效果,进而提高整体分割精度;

4、本发明提出的目标语义分割网络在预测精度和推理速度两方面取得了良好的权衡,在提高模型分割精度的同时,减少整个分割过程耗费的时间。

附图说明

图1为实施例一网络构建方法流程图;

图2为目标语义分割模型结构示意图;

图3为骨干网络结构示意图;

图4为条形池化语义增强模块SPSEM结构示意图;

图5为门控融合模块GFM结构示意图;

图6为门控模块Gate示意图;

图7为上下文指导模块CGM示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。

实施例一

现有技术中SFNet是目前实时语义分割中精度和速度权衡较好的模型之一,其使用主流的编码器-解码器结构,在编码器中,使用ResNet18作为模型的骨干网络,将输入图片下采样到原始尺寸的1/32,相比以往采用ResNet101作为骨干网络,将输入图片下采样到原来尺寸1/8的绝大部分模型,大大降低了整体模型的复杂度减少了计算开销。而解码器中接收来自PPM的特征并使用光流对齐模块直接和同阶段特征进行上采样融合获得更快的速度,但是PPM获得的上下文信息少、上采样时不引入其他阶段的信息,严重影响最终的分割精度。

如图1所示为本实施例所述的一种网络构建方法流程图,本实施例中在SFNet模型的基础上对其进行改进,通过对ResNet18进行改进作为骨干网络,通过条形池化语义增强模块(SPSEM)避免卷积神经网络难以获得大感受野中更多远程上下文信息的缺陷,同时使用卷积核分解策略减少了计算成本;利用门控融合模块(GFM),通过门控的方式去除噪声并融合多尺度特征中的有效信息;使用上下文指导模块(CGM)提高了模型对远处小物体的分割效果;在提高模型分割精度的同时,减少整个分割过程耗费的时间。本实施例中所述的网络构建方法包括以下步骤:

步骤1,利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块。

上述骨干网络以ResNet18为基础,结构如图3所示,将原本ResNet18尾部的全局平均池化层和全连接层去除后,使用剩余部分Conv1~5作为骨干网络,对输入图片进行低级特征和高级特征的提取。

具体地,本实施例的骨干网络中,Conv1包含一个

可以理解的是,本示例中的低级特征是指分辨率低于第一预设分辨率的图像,高级特征是指分辨率高于第一预设分辨率的图像,具体对于低级特征和高级特征的定义,在此不做具体限定。输入图像输入至骨干网络后,Conv2~5将输出四个阶段特征,依据特征尺寸大小,依次为原输入图像的1/4,1/8,1/16以及1/32。骨干网络前三个阶段输出特征为低级特征,第四阶段输出为高级特征。

骨干网络提取高级特征后,采用条形池化语义增强模块SPSEM(Strip PoolingSemantic Enhancement Module)对骨干网络输出的高级特征进一步语义增强,进而获取大感受野中更多的远程上下文信息。

采用门控融合模块GFM(Gated Fusion Module)对骨干网络的四个阶段特征信息进行选择性的融合。具体而言,每个阶段的特征都会获得从更高级和更低级的特征中的强语义和更细节的信息,通过门控的方式来去除噪声。

具体地,利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块,包括:

骨干网络包括四个阶段,第一阶段输出端与第一门控融合模块GFM

在本实施例中使用三个结构相同的门控融合模块,分别为第一门控融合模块GFM

如图5所示,门控融合模块GFM由信息发送端和信息接收端构成,其中图5中的(a)为信息发送端,图5中的(b)为信息发送端,信息发送端的输出特征作为信息接收端的输入特征。其中信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层。信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,将信息发送端的输出端连接信息接收端的输入端。

具体地,信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层,包括:

第一特征连接第一门控模块Gate

信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,包括:

第四特征连接第四门控模块Gate

上述第一特征、第二特征、第三特征以及第四特征是指骨干网络四个阶段输出特征,将骨干网络在第一阶段输出特征记为X

上述信息发送端和信息接收端中均包含门控模块Gate,结构如图6所示,包括

具体地,如图4所示,条形池化语义增强模块SPSEM包含五个并行分支,第一分支由

骨干网络前三个阶段输出特征为低级特征,故GFM

步骤2,利用6个上下文指导模块CGM,构建解码器模块。

将对应阶段的门控融合模块输出特征与条形池化语义增强模块的输出特征输入至上下文指导模块CGM(Context Guide Module)中,通过上采样逐渐恢复空间信息来捕获更清晰的对象边界。通过3个相同结构的上下文指导模块,将第一阶段的特征图上采样到原始输入图像尺寸的1/4。再利用其它三个相同结构的上下文指导模块,将第二、三、四阶段的特征,上采用至原始输入图像尺寸的1/4。

具体地,利用6个上下文指导模块CGM,构建解码器模块,包括:

第一上下文指导模块CGM

如图7所示为上下文指导模块CGM结构示意图,上下文指导模块CGM包含两个并行分支,第一分支由

步骤3,将编码器模块的输出端与解码器模块的输入端连接,将解码器模块的输出端与拼接运算层的输入端连接,将拼接运算层的输出端与卷积层的输入端连接,将卷积层的输出端与上采样层的输入端连接,构成初始语义分割模型。

进一步,将解码器模块的输出端与拼接运算层的输入端连接,包括:

将CGM

步骤4,利用样本数据训练初始语义分割模型,得到目标语义分割模型,结构如图2所示。

进一步,上述样本数据集可以是从Cityscapes官网下载Cityscapes的数据集。Cityscapes数据集是由不同的城市道路场景的图片组成,包含5000张精细标注的标签以及20000张粗标签,本实施例仅使用5000张精细标注的图片和19个分割类别,5000张精细标注图片包含2975张训练集图片、500张验证集图片、1525张测试集图片。利用训练集图片、验证集图片及其对应的分割类别对初始语义分割模型进行训练,得到目标语义分割模型。

可选的,训练过程包括以下步骤:

步骤S4.1:设定训练模型初始参数如下:

初始学习率(learning rate):0.01;

优化器(optimization):SGD优化器;

学习率衰减(learning rate decay):poly策略;

权重衰减(weight decay):0.0005;

动量(momentum):0.9;

批大小(batch size):16;

训练轮数(epoch):300;

步骤S4.2:在训练过程中使用Dropout进行正则化,采用交叉熵损失函数(CrossEntropy loss)计算loss,计算公式如下:

式中,

步骤S4.3:根据将步骤S4.2得到的损失函数计算梯度,采用SGD优化器更新神经网络权重以及偏置;

步骤S4.4:采用poly策略进行学习率衰减,衰减公式如下:

式中,

步骤S4.5:使用平均交并比

式中,

步骤S4.6:重复步骤S4.2至S4.5训练过程,每训练完一轮使用验证数据集对网络模型进行评估,按照最优

步骤S4.7:将测试集数据输入到步骤S4.6得到目标语义分割网络,得到城市道路场景图像语义分割结果:

导入步骤S4.6中获得的最优模型参数,读入测试集图片以及标签,计算

实施例二

与上述本发明实施例提供的一种网络构建方法相对应,本发明实施例提供的一种城市场景实时语义分割方法,该城市场景实时语义分割方法应用于上述网络构建方法所构建的目标语义分割模型,该城市场景实时语义分割方法包括:

获取城市场景数据集并进行数据预处理,将预处理后的图像数据输入至目标语义分割模型,获取目标语义分割模型的输出,得到城市场景语义分割结果。

进一步,将城市场景数据集进行数据预处理,包括:

将数据集中的图片以及其对应标签进行缩放、左右反转、随机裁剪和随机旋转,得到第一图像。

进一步,将预处理后的图像数据输入至目标语义分割模型,包括:

将第一图像输入至骨干网络,利用骨干网络的第一阶段得到特征X

将特征X

将特征X

将特征X

将特征X

在本实施例中共使用3个结构相同的GFM模块,本示例中以第三门控融合模块GFM

进一步,将预处理后的图像数据输入至目标语义分割模型,还包括:

利用CGM

利用CGM

利用CGM

利用CGM

利用CGM

利用CGM

将特征C

利用卷积层将特征C

具体地,利用CGM

利用CGM

利用CGM

利用CGM

利用CGM

利用CGM

将特征C

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号