首页> 中国专利> 基于卷积神经网络跨模态融合的道路场景语义分割方法

基于卷积神经网络跨模态融合的道路场景语义分割方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于卷积神经网络跨模态融合的道路场景语义分割方法，涉及深度学习的技术领域。本发明在训练阶段，构建卷积神经网络，其隐层包括两个初始神经网络块、八个残差神经网络块、两个融合块、三个解码块；使用原始的道路场景图像输入到卷积神经网络中进行训练，得到对应的三组预测图，分别为9幅语义分割预测图、两幅前景背景预测图、两幅边界预原测图；再分别计算这三组预测图构成的集合与对应的语义分割标签图集之间的损失函数值，将三个损失函数值相加得到最终的损失函数，通过训练获得卷积神经网络分类训练模型的最优权值矢量和偏置项。本发明提高了道路场景图像的语义分割效率，并且提升了准确度。

著录项

公开/公告号CN112991364A

专利类型发明专利
公开/公告日2021-06-18

原文格式PDF
申请/专利权人浙江科技学院;
展开▼

申请/专利号CN202110308057.8
发明设计人周武杰;刘劲夫;叶宁;雷景生;万健;钱小鸿;甘兴利;
展开▼

申请日2021-03-23
分类号G06T7/11(20170101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11732 北京睿智保诚专利代理事务所(普通合伙);
代理人韩迎之
地址 310023 浙江省杭州市西湖区留和路318号
入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及深度学习领域，更具体的说是涉及一种基于卷积神经网络跨模态融合的道路场景语义分割方法。

背景技术

智能交通行业的兴起，使得语义分割在智能交通系统中有着越来越多的应用，从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前，最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上，用于检测和识别特定物体，如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现，而使用深度学习来对交通场景进行语义分割简单方便，更重要的是，深度学习的应用极大地提高了图像像素级分类任务的精度。

采用深度学习的语义分割方法，直接进行像素级别端到端(end-to-end)的语义分割，其只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征。目前，基于深度学习语义分割的方法分为两种，第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征；译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions)，抛弃了池化层，通过带孔卷积的方式扩大感知域，较小值的带孔卷积感知域较小，学习到一些部分具体的特征；较大值的带孔卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。

现有的道路场景语义分割方法大多采用深度学习的方法，利用卷积层与池化层相结合的模型较多，然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性，从而会导致得到的图像的特征信息减少，最终导致还原的效果信息比较粗糙，分割精度低。

发明内容

有鉴于此，本发明提供了提供一种基于卷积神经网络的道路场景语义分割方法，其分割效率高，且分割准确度高。

为了实现上述目的，本发明采用如下技术方案：

一种基于卷积神经网络跨模态融合的道路场景语义分割方法，包含以下步骤：

选取多幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像，由所述多幅原始的道路场景图像和所述每幅原始的道路场景图像对应的标签图构成训练集；

构建带有跨模态融合和注意力机制优化、恢复分辨率和增强语义信息的卷积神经网络；

将所述训练集输入到所述卷积神经网络中进行训练，得到所述训练集中的每幅原始的道路场景图对应的预测图；

获取所述预测图的加和损失函数值；

多次对神经网络进行训练得到卷积神经网络分类训练模型。

优选的，所述标签图包括热力图、彩色热力图像、语义分割标签图、前景标签图和边界标签图。

优选的，所述预测图包括语义分割预测图、前景背景预测图和边界预测图。

优选的，所述加和损失函数值的获取如下：

利用Lovász-Softmax损失函数计算分割标签图的损失函数值，利用分类交叉熵计算前景背景标签图的损失函数值和边界标签图的损失函数值，分割标签图的损失函数值，前景背景标签图的损失函数值和边界标签图的损失函数值相加获得加和损失函数值。

优选的，构建带有跨模态融合和注意力机制优化、恢复分辨率和增强语义信息的卷积神经网络的具体过程如下：

第一输入层、第一初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块和第四神经网络块依次连接，第二输入层、第二初始神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块和第八残差神经网络块依次连接，第一初始神经网络块与第二初始神经网络块的输出共同作为第一融合块的输入，第一融合块的输出记为第一侧边输出，第一残差神经网络块与第五残差神经网络块的输出作为第二融合块的输入，第二融合块的输出记为第二侧边输出，将第二残差神经网络块和第六残差神经网络块的输出做元素的加和，记为第三侧边输出，将第三残差神经网络块输出与第七残差神经网络块输出的加和记为第四侧边输出，将第四残差神经网络块输出与第八残差神经网络块输出的加和记为第五侧边输出；

将经过第三过渡层的所述第五侧边输出作为第一解码块的输入，所述第一解码块的输出与经过第二过渡层的所述第四侧边输出的元素加和作为第二解码块的输入，所述第二解码块的输出与经过第一过渡层的所述第三侧边输出的元素加和作为第三解码块的输入，将所述第三解码块的输出记为指导特征，将所述指导特征进行二倍双线性插值作为第一输出层的输入；

将经过第一过渡层的所述第三侧边输出进行双线性插值，分辨率变为两倍后与所述第二侧边输出元素相加，将所得加和与所述指导特征进行元素相乘，将所得乘积经过二倍双线性插值，将经过插值后的特征作为第二输出层的输入；

将所述第一侧边输出与经过二倍双线性插值处理过的所述指导特征进行元素相乘，将所得乘积作为第三输出层的输入；

所述第一输入层中输入训练集中的原始的道路场景图像，所述第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量，第二输入层中输入原始的道路场景图像对应的热力图，第二输入层输出原始的道路场景图像对应的热力图像。

优选的，跨模态融合和注意力机制优化通过融合块实现，所述融合块具体连接关系如下：

第一输入端后依次连接最大值选择层和第一卷积层，记输出为A，第二输入端与A进行像素加和，记输出为a，第二输入端与a做像素乘积，记输出为B，A与B做像素加和得到C，C输入第二卷积层得到D，所述第二卷积层后依次连接最大值池化层和第三卷积层，所述第三卷积层的输出与D做像素乘积得到输出。

优选的，恢复分辨率和增强语义信息通过解码块实现，所述解码块的具有连接关系如下：

输入像素经过三个卷积层后与所述输入像素做像素加和并输入到上采样层中，得到输出。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于卷积神经网络跨模态融合的道路场景语义分割方法，具有以下有益效果：

1)发明方法构建了卷积神经网络，采用了彩色图，热力图双流输入的结构，利用了热力图在极端光照条件下对彩色图的补充，增强了提取特征的鲁棒性。同时本发明方法采用优化策略，利用具有丰富语义信息的高级特征来优化指导低级特征。双流的编码结构和优化策略显著提高了语义分割的准确率。

2)本发明方法采用合理设计的融合模块，充分利用了RGB彩色信息与热力信息的优势互补性，不仅充分地融合了跨模态的特征，而且通过注意力机制优化和增强了融合特征。

3)本发明方法设计简单有效的解码块，在恢复分辨率的同时，保留并增强了高级语义信息。

4)本发明方法采用语义分割、前景背景分割、边界分割三种标签同时监督和优化我们所提出的神经网络，进而在训练集与测试集上都能得到较好效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的整体结构示意图；

图2附图为本发明的融合块结构示意图；

图3附图为本发明的解码块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于卷积神经网络跨模态融合的道路场景语义分割方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的步骤1_1具体为：

选取Q幅最初的道路场景图像以及每幅原始的道路场景图像对应的真实语义分割图像，其中第q幅最初的道路场景图像记为

将第q幅原始的道路场景图像对应的真实语义分割图像

步骤1_2：构建卷积神经网络：

卷积神经网络包括两个输入层、隐层和三个输出层；隐层包括第一初始神经网络块、第二初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块、第四残差神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块、第八残差神经网络块、第一融合块、第二融合块、第一过渡块、第二过渡块、第三过渡块、第一解码块、第二解码块、第三解码块；第一输入层、第一初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块和第四神经网络块依次连接，第二输入层、第二初始神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块和第八残差神经网络块依次连接，第一初始神经网络块与第二初始神经网络块的输出共同作为第一融合块的输入，第一融合块的输出记为第一侧边输出，第一残差神经网络块与第五残差神经网络块的输出作为第二融合块的输入，第二融合块的输出记为第二侧边输出，将第二残差神经网络块和第六残差神经网络块的输出做元素的加和，记为第三侧边输出，将第三残差神经网络块输出与第七残差神经网络块输出的加和记为第四侧边输出，将第四残差神经网络块输出与第八残差神经网络块输出的加和记为第五侧边输出；

将所述第一侧边输出与经过二倍双线性插值处理过的所述指导特征进行元素相乘，将所得乘积作为第三输出层的输入；

所述第一输入层中输入训练集中的原始的道路场景图像，所述第一输出层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量，第二输入层中输入原始的道路场景图像对应的热力图。

第一输入层中输入训练集中的原始的道路场景图像，第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量，第二输入层中输入原始的道路场景图像对应的热力图，第二输入层输出原始的道路场景图像对应的热力图像。其中要求输入层的输入端接收的原始的道路场景图像的宽度为W、高度为H。

对于隐层，第一初始神经网络块主要由第一卷积层(Convolution，Conv)和第一激活层(Activation，Act)相连接构成；第一初始神经网络块的输入端接收R通道、G通道、B通道三个通道分量，第一初始神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为I

对于第一残差神经网络块，其主要由第一最大池化层(Maxpooling，Pool)、ResNet50第一残差层相连接组成；第一残差神经网络块的输入端接收I

对于第二残差神经网络块，其主要由ResNet50第二残差层组成；第二残差神经网络块的输入端接收R

对于第三残差神经网络块，其主要由ResNet50第三残差层组成；第三残差神经网络块的输入端接收R

对于第四残差神经网络块，其主要由ResNet50第四残差层组成；第四残差神经网络块的输入端接收R

对于第二初始神经网络块，其主要由第二卷积层(Convolution，Conv)和第二激活层(Activation，Act)相连接构成；第二初始神经网络块的输入端接收三通道热力图(Thermal)，第二初始神经网络块的输出端输出64幅特征图，将64幅特征图构成的集合记为I

对于第五残差神经网络块，其主要由第二最大池化层(Maxpooling，Pool)、ResNet50第一残差层相连接组成；第五残差神经网络块的输入端接收I

对于第六残差神经网络块，其主要由ResNet50第二残差层组成；第六残差神经网络块的输入端接收T

对于第七残差神经网络块，其主要由ResNet50第三残差层组成；第七残差神经网络块的输入端接收T

对于第八残差神经网络块，其主要由ResNet50第四残差层组成；第八残差神经网络块的输入端接收T

对于第一融合块，其由第一最大值选择层、第三卷积层、第四卷积层、第一自适应最大池化层、第五卷积层按照图2所示结构连接起来组成。第一融合块的输入分别为第一初始神经网络块的输出I

对于第二融合块，其结构与第一融合块相似。由第二最大值选择层、第六卷积层、第七卷积层、第二自适应最大池化层、第八卷积层按照图2所示结构连接起来组成。第二融合块的输入分别为第一残差神经网络块的输出R

对于第一过渡块，其由第九卷积层组成。第一过渡块接收第二残差神经网络块与第六残差神经网络块的输出元素的加和，输出为64幅特征图，将它们的集合记为第三侧边输出S

对于第二过渡块，其由第十卷积层组成。第二过渡块接收第三残差神经网络块与第七残差神经网络块的输出元素的加和，输出为64幅特征图，将它们的集合记为第四侧边输出S

对于第三过渡块，其由第十一卷积层组成。第三过渡块接收第四残差神经网络块与第八残差神经网络块的输出元素的加和，输出为64幅特征图，将它们的集合记为第五侧边输出S

对于第一解码块，如图3所示，其主要由第十二卷积层、第三激活层、第十三卷积层、第四激活层、第十四卷积层、第五激活层依次连接组成，其输入端接收第五侧边输出S

对于第二解码块，如图3所示其主要由第十五卷积层、第六激活层、第十六卷积层、第七激活层、第十七卷积层、第八激活层依次连接组成，其输入端接收第四侧边输出S

对于第三解码块，如图3所示，其主要由第十八卷积层、第九激活层、第十九卷积层、第十激活层、第二十卷积层、第十一激活层依次连接组成，其输入端接收第三侧边输出S

将D

将第三侧边输出S

将第三解码块的输出D

步骤1_3：将训练集中原始的道路场景图像和对应的热力图输入到卷积神经网络的输入层中进行训练：由第一输出层得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图，将与原始的道路场景图像对应的9幅语义分割预测图构成的语义分割预测图集合记为

步骤1_4：计算训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图构成的集合

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W

所述的测试阶段过程的具体步骤为：

步骤2_1：待语义分割的道路场景图像记为

步骤2_2：将待语义分割的道路场景图像和待语义分割热力图分别输入到卷积神经网络训练模型的第一输入层和第二输入层中，并利用最优权值矢量和最优偏置项进行预测，通过第一输出层得到待语义分割的道路场景图像对应的语义分割预测图像，记为

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Pytorch搭建多尺度带孔卷积神经网络的架构。采用道路场景图像数据库InfRec500测试集来分析利用本发明方法预测得到的道路场景图像(取393幅道路场景图像)的分割效果如何。这里，利用评估语义分割方法的3个常用客观参量作为评价指标，即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy，MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union，MIoU)来评价预测语义分割图像的分割性能。

利用本发明方法使用的是Ha Qishen等人在MFNet中发布的公共数据集。由InfReCR500相机拍摄的图像分辨率为480×640，可以同时提供RGB和热成像，反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知，按本发明方法得到的道路场景图像的分割结果是较好的，表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。

表1利用本发明方法在测试集上的评测结果

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于卷积神经网络跨模态融合的道路场景语义分割方法 [P] . 中国专利： CN112991364A . 2021-06-18
2. 基于GAN和跨模态特征融合的道路场景语义分割方法 [P] . 中国专利： CN113378795A . 2021-09-10
3. DE-CONVOLUTIONAL NEURAL NETWORK-BASED SCENE SEMANTIC SEGMENTATION METHOD [P] . 世界知识产权组织专利： WO2018076212A1 . 2018-05-03

机译：基于反卷积神经网络的场景语义分割方法
4. Systems and methods for road scene change detection using semantic segmentation [P] . 美国专利： US10203210B1 . 2019-02-12

机译：使用语义分割的道路场景变化检测系统和方法
5. STRUCTURAL DAMAGE IDENTIFICATION METHOD BASED ON ENSEMBLE EMPIRICAL MODE DECOMPOSITION AND CONVOLUTION NEURAL NETWORK [P] . 世界知识产权组织专利： WO2020156348A1 . 2020-08-06

机译：基于包络经验模态分解和卷积神经网络的结构损伤识别方法