首页> 中国专利> 一种无监督领域自适应语义分割方法

一种无监督领域自适应语义分割方法

摘要

本发明公开了一种无监督领域自适应语义分割方法,基于源域图像训练神经网络;利用已训练网络计算目标域图像伪标签;利用源域图像和有伪标签的目标域图像重训练网络,进一步提高伪标签准确性,优化网络的泛化能力。本方法通过利用自训练方法,利用已训练网络提取高置信度的目标域伪标签,弥补了目标域缺少监督信息的缺点,与其他方法相比,丰富了目标域数据的信息,提升网络对目标域数据的学习能力;本方法着重考虑了基于类别的域间差异,针对源域和目标域的预测进行类相关性度量,约束两个域的类相关性一致,减小了两个域类级别的域间差异,提高了网络的泛化能力,本发明的性能优于其他无监督领域自适应语义分割方法。

著录项

  • 公开/公告号CN112699892A

    专利类型发明专利

  • 公开/公告日2021-04-23

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202110026447.6

  • 申请日2021-01-08

  • 分类号G06K9/34(20060101);G06K9/62(20060101);G06N3/08(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人沈波

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 10:43:23

说明书

技术领域

本发明属于模式识别与计算机视觉领域,可应用于自动驾驶、机器人视觉导航。

背景技术

语义分割即对图像中每一个像素点进行分类,确定每个点的类别,从而进行区域划分。随着机器学习算法的发展,语义分割模型已有了较好的分割效果。但是,传统的机器学习算法都假设训练数据和测试数据遵循相同的分布,而在现实应用中,这种假设往往是不成立的。如果不满足该假设,则需要使用新的训练数据来重建大多数统计模型。但是,为每个新任务或新领域收集和标注数据集是一个非常昂贵且耗时的过程,并且满足训练要求的数据不一定充足。如果训练数据和测试数据的分布差异很大,传统机器学习算法训练出来的分类器性能就将大大降低,尤其是依赖于大规模标注数据集的深度网络方法的优势也将消失。无监督领域自适应语义分割基于有标签源域数据和无标签目标域数据训练模型,学习一个能够适应目标域数据分布的有较好语义分割效果的模型。自动驾驶、机器人导航和视频监控等应用场景难以获得大规模高质量标注数据,对于性能良好的无监督领域自适应语义分割模型有着较为强烈的需求。

如何学习领域之间的共性,减小目标域(无标签数据集)和源域(有标签数据集)之间的差异,使分类器从源域适配到目标域,是无监督领域自适应要解决的主要问题。其通常采用的策略包括:图像级别的自适应、特征级别的自适应和输出级别的自适应。图像级别的自适应通过对输入图像的风格转换,使得源域和目标域在输入空间的分布更近,但这种风格转换的判断条件过于主观,且风格迁移过程中对样本也会产生一些例如形状偏移的不利影响,从而影响自适应效果;特征级别的自适应,考虑特征的相互融合,典型方法是利用域判别器进行对抗训练,以期使特征提取器获得具有域不变性质的特征,通常利用分类网络判断域不变性,不能保证其迁移的有效性;输出级别的自适应针对模型输出的预测结果,减小两域的域间差异,但是这种策略通常依赖像素级或区域级的域对齐,局部对齐有可能将原本较为匹配类别的分布距离拉大,产生“负迁移”。

半监督学习使用大量未标注数据的同时使用一些标注数据进行模式识别工作,这与无监督领域自适应中利用有标签源域学习模型再对无标签目标域进行高精度标注的任务有相似之处,所以半监督学习中的一些成熟方法例如自训练方法可借鉴,应用于解决无监督领域自适应。自训练方法利用伪标签进行监督训练,能够有效缓解数据无标签的问题,但是这种方法应用于无监督领域自适应也存在明显弊端,即伪标签的设定太过依赖源域数据和人为阈值限定。

发明内容

针对无监督领域自适应任务中减小源域和目标域域间差异的问题,本发明提出在输出空间中约束源域和目标域的类别相关性一致,减小源域和目标域在输出空间的域间差异。

本发明提出一种新的无监督领域自适应语义分割方法,一方面利用自训练提升模型对目标域数据的学习能力;另一方面,约束源域预测和目标域预测的类别相关性一致,减小源域和目标域的域间差异,从而提高目标域的语义分割准确率。具体包含以下三个步骤:

步骤1,基于源域图像训练神经网络;

步骤1.1,随机初始化网络参数;

步骤1.2,将源域图像与其对应标签输入网络,利用源域标签进行监督训练,计算交叉熵损失,通过反向传播优化网络参数,使网络对于源域图像具有较高的语义分割能力;

步骤1.3,保存经过训练的网络参数。

步骤2,利用已训练网络计算目标域图像伪标签

步骤2.1,加载已训练网络参数

步骤2.2,将目标域图像输入网络,输出目标域预测图,统计所有目标域预测图的各类别预测概率值。

步骤2.3,对各类别预测概率值进行由大及小排序,取各类别前20%的值作为伪标签阈值。

步骤2.4,利用伪标签阈值,限定目标域预测图,对于最大预测类别概率值高于阈值的像素进行标注,保存并作为目标域图像伪标签。

步骤3,利用源域图像和有伪标签的目标域图像重训练网络

步骤3.1,加载已训练网络参数;

步骤3.2,将带标签或伪标签的源域图像和目标域图像进行随机匹配,成对输入网络,得到两域特征及预测图;

步骤3.3,利用两域预测图和各自标签或伪标签,分别计算两域交叉熵损失;

步骤3.4,将两域特征与其各自标签或伪标签输入类别级相关性度量模块;

步骤3.5,统计输入的标签和伪标签的公共类别,对于公共类别,分别计算两域类别级独热掩膜;

步骤3.6,将两域特征与其对应的类别级独热掩膜进行维度变换,统一维度后相乘,得到两域类表示矩阵;

步骤3.7,计算两域类表示矩阵的类相关矩阵,并将两域类相关矩阵对应元素相减,求绝对值之和,以此作为类相关损失;

步骤3.8,将步骤3.3与步骤3.7损失合并,作为总损失,进行反向传播,期望网络总损失最小,优化网络对目标域图像的语义分割能力;

步骤3.9,保存重训练后的网络参数;

步骤4,重复步骤2、3,进一步提高伪标签准确性,优化网络的泛化能力。

与现有技术相比,本发明具有以下优点:

1)本方法通过利用自训练方法,利用已训练网络提取高置信度的目标域伪标签,弥补了目标域缺少监督信息的缺点,与其他方法相比,丰富了目标域数据的信息,提升网络对目标域数据的学习能力;

2)本方法相比于其他传统方法,着重考虑了基于类别的域间差异,针对源域和目标域的预测进行类相关性度量,约束两个域的类相关性一致,减小了两个域类级别的域间差异,提高了网络的泛化能力。

3)通过实验证明,本发明的性能优于其他无监督领域自适应语义分割方法。

附图说明

图1为无监督领域自适应语义分割方法的网络结构。

图2为分类器σ的结构

图3为源域图像和目标域图像的类别级相关性损失L

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

1、网络结构:

本发明提出的无监督领域自适应语义分割方法的总体网络结构如图1所示,其中主体网络采用基于ResNet101的Deeplab-V2框架,ResNet101作为基础网络的部分是特征提取器G,ASPP模块是分类器σ。特征提取器的结构参数如表1所示,其中卷积层Conv_1包含64个stride=2且padding=3的7×7滤波器;Conv_2、Conv_3、Conv_4、Conv_5为四个block,各block分别包括3、4、23、3个残差模块,使用ReLU作为激活函数。

将Conv_5输出的特征传入分类器σ,σ的输出最终特征图是原图的1/8,用双线性插值将σ输出的特征图恢复到原图大小,使用softmax计算各类的预测概率值进而得到最终语义分割结果。分类器σ的结构如图2所示,其详细参数如表2所示。

2、网络训练过程

1)利用源域图像训练网络。

网络输入为源域图像及其标签(I

其中,N=H×W,θ表示网络参数,n表示像素点索引,K表示类别的数量,

2)利用网络计算目标域图像的伪标签。

网络输入为目标域图像,输出为目标域图像的预测标签。对于任意的目标域图像

依据网络输出的目标域图像I

其中,α

α

3)利用源域图像和有伪标签的目标域图像训练网络。

网络输入为随机匹配的一对源域图像I

公式(3)定义了目标域图像I

其中

图3示意了源域图像和目标域图像的类别级相关性损失L

源域图像I

然后,利用特征F

利用独热掩膜M

对源域和目标域分别计算类相关矩阵A

其中1≤i≤K

4)重复步骤2)至步骤3)直到网络最大训练轮次。

实验详细设置

1、实验数据集

本发明提出的方法在常用的无监督自适应数据集GTA5-Cityscapes上进行了实验,其中合成数据集GTA5作为源域,真实数据集Cityscapes为目标域。模型在Cityscapes验证集上进行评价。

·GTA5:合成数据集GTA5包含24966幅分辨率为1914×1052的合成图像和相应的ground-truth。这些合成图像是从一个基于洛杉矶市的城市风光视频游戏收集的。自动生成的ground-truth包含33个类别。在GTA5-Cityscapes上进行实验的方法一般只考虑与Cityscapes数据集兼容的19个类别,本发明也不例外。

·Cityscapes:作为从现实世界收集的数据集,Cityscapes提供了3975幅具有精细分割标注的图像。训练集包含2975张图像,验证集包含500幅图像。

2、实验评价指标

本发明使用交并比(Intersection-over-Union,IoU)评估语义分割的性能。IoU值在[0,1]之间取值,值越大分割效果越好,IoU定义如下:

IoU=TP/(TP+FP+FN)

其中TP、FP和FN分别是真阳性(true positive)、假阳性(false positive)和假阴性(false negative)像素的数目。表3中的mIoU是19类的平均IoU。

3、网络训练参数

本发明设置batch_size=2,源域和目标域输入图像分辨率均为512*1024,测试分辨率为1024*2048,采用随机梯度下降进行优化,设置学习率为5*10

4、实验结果

本发明、AdaptSegNet[1]、AdvEnt+MinEnt[2]在常用的无监督自适应数据集GTA5-Cityscapes上的实验结果,本发明的实验结果明显优于对比方法。当λ

表1:特征生成器结构参数

表2:ASPP结构参数

[1]Yi-Hsuan Tsai,Wei-Chih Hung,Samuel Schulter,Kihyuk Sohn,Ming-HsuanYang,and Manmohan Chandraker.Learning to adapt structured output space forsemantic segmentation.In CVPR,2018.

[2]Tuan-Hung Vu,Himalaya Jain,Maxime Bucher,MatthieuCord,and PatrickPérez.ADVENT:adversarial entropy minimization for domain adaptation insemantic segmentation.CoRR,abs/1811.12833,2018.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号