首页> 中国专利> 用于图像分割的生成对抗网络

用于图像分割的生成对抗网络

摘要

提供一种训练生成对抗网络以用于执行图像的语义分割的方法。所述生成对抗网络包含生成器神经网络及鉴别器神经网络。所述方法包含:提供图像作为到所述生成器神经网络的输入;从所述生成器神经网络接收针对所述图像的预测分割图;提供i)所述图像,ii)所述预测分割图,及iii)对应于所述图像的地面实况标签数据,作为到所述鉴别器神经网络的相异训练输入;响应于所述训练输入;确定来自所述鉴别器神经网络的一组一或多个输出;及使用损失函数训练所述生成器神经网络,所述损失函数是来自所述鉴别器神经网络的所述一组输出的函数。

著录项

  • 公开/公告号CN112384948A

    专利类型发明专利

  • 公开/公告日2021-02-19

    原文格式PDF

  • 申请/专利权人 通腾全球信息公司;

    申请/专利号CN201980046342.8

  • 申请日2019-06-07

  • 分类号G06T7/11(20060101);

  • 代理机构11287 北京律盟知识产权代理有限责任公司;

  • 代理人蒋林清

  • 地址 荷兰阿姆斯特丹

  • 入库时间 2023-06-19 09:54:18

说明书

背景技术

本发明涉及用于图像分割的神经网络,特定来说,涉及生成对抗网络。

某些卷积神经网络(CNN)已通过将这些问题视为图像分割问题而成功地应用于各种计算机视觉问题。实例包含用于自主驾驶的道路场景理解及解释医疗成像。针对此类应用,通常用多类每像素标签训练网络,所述多类每像素标签一起形成图像大小的分割图。此网络的输出又是图像大小的图,其表示每像素类别概率。

然而,此后可能需要额外后处理步骤,这是因为语义分割网络的输出不一定保持质量。输出分割图是概率性的并且与对应标签相比具有不同分布。这背后的根本原因是公式化训练损失的方式(例如,每像素交叉熵),使得分割图中的每一输出像素被认为独立于所有其它像素,即不强制执行明确的像素间一致性。

后处理步骤的实例包含应用条件随机场(CRF),应用第二个单独训练网络或非学习问题特定算法。此类方法的缺点是其需要努力构造、可能具有许多超参数、特定于问题并且可能仍无法捕获最终目标。举例来说,CRF仅捕获局部一致性,或为确保长距离依赖性而强加高昂的计算成本,并且需要单独训练。

用以确保某些预测质量的另一方法是添加额外的损失项,其表示质量保持的程度。然而,为每一目标质量提出有效且可区分的损失项通常是挑战性的。解决语义分割问题中缺乏质量保持的一种潜在解决方案是使用生成对抗网络(GAN)来‘学习’所需的损失函数。GAN通过在极小极大游戏中以交替方式训练两个网络来工作:生成器经训练以产生结果,而鉴别器经训练以将生成(预测)分割图数据(‘假’)与地面实况标签(‘真’)区分开。

GAN已应用于语义分割问题以尝试解决每像素损失的上述问题。在训练期间,生成器生成语义分割图,而鉴别器交替观察地面实况标签及预测分割图。

薛(Xue)等人在电子预印本文献库(ArXiv e-prints)(2017年6月)发表的论文“SegAN:用于医疗图像分割的具有多尺度L

然而,申请人已认识到,GAN(例如SegAN论文中揭示的GAN)可能对分割大型球状结构(例如脑瘤)有效,但并不总是对其它类型的图像数据有效。特定来说,GAN很难准确识别薄结构,例如道路分隔栏标记。

本发明寻求提供一种用于训练生成对抗网络的新颖方法,其至少对于某些类型的输入可导致更好的图像分割性能。

发明内容

从第一方面,本发明提供一种训练生成对抗网络以用于执行图像的语义分割的方法,其中所述生成对抗网络包括:

生成器神经网络;及

鉴别器神经网络,

所述方法包括:

提供图像作为到所述生成器神经网络的输入;

从所述生成器神经网络接收针对所述图像的预测分割图;

提供i)所述图像,ii)所述预测分割图,及iii)对应于所述图像的地面实况标签数据,作为到所述鉴别器神经网络的相异训练输入;

响应于所述训练输入,确定来自所述鉴别器神经网络的一组一或多个输出;及

使用损失函数训练所述生成器神经网络,所述损失函数是来自所述鉴别器神经网络的所述一组输出的函数。

从第二方面,本发明提供一种实施生成对抗网络以用于执行图像的语义分割的计算机处理系统,其中所述生成对抗网络包括:

生成器神经网络;

鉴别器神经网络;及

训练逻辑,

且其中所述训练逻辑经配置以:

提供图像作为到所述生成器神经网络的输入;

从所述生成器神经网络接收针对所述图像的预测分割图;

提供i)所述图像,ii)所述预测分割图,及iii)对应于所述图像的地面实况标签数据,作为到所述鉴别器神经网络的相异训练输入;

响应于所述训练输入,确定来自所述鉴别器神经网络的一组一或多个输出;及

使用损失函数训练所述生成器神经网络,所述损失函数是来自所述鉴别器神经网络的所述一组输出的函数。

从第三方面,本发明提供一种包括指令的计算机软件,所述指令在计算机处理系统上执行时致使所述计算机处理系统训练生成对抗网络以用于执行图像的语义分割,其中所述生成对抗网络包括:

生成器神经网络;及

鉴别器神经网络,

且其中所述指令致使所述计算机处理系统:

提供图像作为到所述生成器神经网络的输入;

从所述生成器神经网络接收针对所述图像的预测分割图;

提供(i)所述图像,(ii)所述预测分割图,及(iii)对应于所述图像的地面实况标签数据,作为到所述鉴别器神经网络的相异训练输入;

响应于所述训练输入,确定来自所述鉴别器神经网络的一组一或多个输出;及

使用损失函数训练所述生成器神经网络,所述损失函数是来自所述鉴别器神经网络的所述一组输出的函数。

所述图像可为包括一或多个车道标记的道路的摄影图像。所述方法可包含训练所述生成对抗网络以识别图像中的车道标记。

所述计算机处理系统可包含存储器,其存储所述图像并且存储对应于所述图像的所述地面实况标签数据,其中所述图像是包括一或多个车道标记的道路的摄影图像,且其中所述地面实况标签数据包括表示所述一或多个车道标记的数据。

所述计算机软件可进一步包括实施生成器神经网络及/或实施鉴别器神经网络的指令。计算机软件可存储在非瞬态存储媒体(例如磁性或固态存储器)上,或可携载在瞬态信号(例如电或电磁信号)上。

因此,将看到,根据本发明,通过向鉴别器提供三个单独输入来训练生成器神经网络,所述三个输入为:图像、针对图像生成器的预测分割图及针对图像的地面实况标签。

这与现有方法形成对比,在现有方法中,鉴别器接收图像及其对应分割图或图像及其相应地面实况标签作为输入向量,而不是同时接收图像、其对应分割图及其对应地面实况标签作为输入向量。在本发明的实施例中,通过向鉴别器馈送包括用于共同图像的预测及标签的输入向量,鉴别器有可能获得更有用的反馈,以引导对抗分割网络在更实际标签的方向上的训练。

此方法还与上文提及的SegAN网络形成对比,其中通过为鉴别器提供图像的逐像素乘积及预测分割图来训练生成器,并且所述生成器不接收与预测分割图分离的完整输入图像。申请人已意识到,提供完整图像、分割图及标签数据作为到鉴别器的单独输入,使鉴别器具有更大的灵活性来决定如何融合输入图像及预测的表示,而不是获得固定多路混合。这使得体现本发明的网络能够至少在一些数据类型上提供更好性能—特别是(但非排他地)在语义上分割含有例如道路车道标记的薄结构的图像时。

来自鉴别器神经网络的所述一组一或多个输出不一定是鉴别器网络的最终输出(例如,0与1之间的概率)。而是,其可包括从鉴别器神经网络内的一或多个预定层获取的一或多个特征图(即,嵌入)输出。

损失函数可包括嵌入项,其表示以下两者之间的差:i)当所述预测分割图输入到所述鉴别器神经网络时,在所述鉴别器神经网络的预定层处的嵌入(即,特征图);及ii)当所述地面实况标签数据输入到所述鉴别器神经网络时,在所述鉴别器神经网络的所述预定层处的嵌入。所述差可为根据适当规范的距离。虽然其可为L

预定层可在第一稠密块之后(例如,紧接在其之后),所述第一稠密块含有具有图像及预测分割图(或地面实况标签数据)两者的一或多个共享卷积层。其可在网络的分类器之前在最终稠密块之后(例如,紧接在其之后)。替代地,其可为这两层之间的层。

生成器神经网络可经训练以最小化损失函数。训练可包括将梯度下降方法应用于网络。

损失函数除嵌入项外还可包括适应度项。适应度项可为像素级损失项。其可表示预测/标签的相对较低级适应度。嵌入损失项可表示相对较高级一致性。损失函数可包括加权参数λ,其用于相对于适应度项对嵌入项进行加权。所述系统可包括用于例如从用户接收用于加权参数的值的输入。这有利地允许针对期望的像素级损失重要性配置本发明的实施例。

鉴别器神经网络也可经训练。其可经训练以最小化关于其在预测分割图与地面实况标签数据之间的区分的损失。

训练逻辑可经配置以与鉴别器交替地训练生成器。

可在多个图像上训练生成对抗网络,所述图像可包括一百、一千、一万或更多图像。

在一些实施例中,图像可为来自照相机的摄影图像。其可为道路(例如,多车道道路或行车道)的图像,所述图像可含有一或多个车道标记。地面实况标签数据可包括表示图像中的一或多个车道标记的数据(例如,包括坐标、向量及/或折线)。生成对抗网络可经训练以识别图像中的线性结构。其可经训练以识别道路标记,例如车道标记。

生成对抗网络可经配置以具有训练模式及运行模式。训练可在训练阶段期间进行。在训练阶段之后,网络可经配置以接收输入图像并分割输入图像。其可经配置以输出针对图像的预测分割图。

所述计算机处理系统可包括用于从照相机接收图像数据的输入。其可为车载计算机处理系统。其可经配置以向例如自主驾驶系统输出分割数据。

生成器神经网络及/或鉴别器神经网络可包括任何数目个卷积层、稠密块及其它常规层。生成器神经网络及/或鉴别器神经网络及/或训练逻辑可包括用于处理器的软件指令,或可包括专用硬件逻辑,或可包括两者的组合。所述计算机处理系统可包括以下中的一或多者:CPU、DSP、GPU、FPGA、ASIC、易失性存储器、非易失性存储器、输入、输出、显示器、网络连接、电力供应器、无线电、时钟及任何其它适当组件。其可经配置以存储或显示或输出预测分割图或其它分割数据。

一些实施例可实现充分类似于训练标签的分割预测,从而不需要额外问题特定损失项及/或后处理步骤。

在适当的情况下,本文描述的任何方面或实施例的特征可应用于本文描述的任何其它方面或实施例。在参考不同实施例或实施例组的情况下,应理解这些特征不一定是相异的,而是可重叠。

附图说明

现在将参考附图仅通过实例的方式描述本发明的某些优选实施例,其中:

图1是常规生成对抗网络的示意图;

图2是体现本发明的对抗网络的示意图;

图3是经训练用于车道标记分割的生成对抗网络的示意图;

图4是覆盖在对应摄影图像上的用于车道标记分割的实例地面实况标记;

图5是来自覆盖在摄影图像上的常规分割网络的对应原始预测;

图6是来自覆盖在摄影图像上的体现本发明的生成对抗网络的对应原始预测;

图7是表,其具有对应于六个不同实例摄影图像的六个行,及展示地面实况标签的列,来自体现本发明的生成对抗网络的输出以及来自常规分割网络的输出;

图8是对针对不同对抗损失项的验证f得分相对于训练迭代的曲线图;

图9是表,其具有对应于三个不同实例摄影图像的三个行,及展示地面实况标签的列,及在网络内的不同相应稠密块之后的来自体现本发明的生成对抗网络的输出;及

图10是表,其展示:第一是输入图像的特写部分;第二是常规分割网络的分割输出;且第三是体现本发明的三个不同生成对抗网络的重叠分割输出。

具体实施方式

下面描述的是体现本发明的一组神经网络。此类新型人工神经网络将在本文中称为“El-GAN”—是“嵌入损失生成对抗网络”的缩写。其使用具有嵌入损失的对抗训练进行语义分割。所述方法可应用于许多不同分割问题。然而,其已在由汽车上的照相机获取的图像内的车道分割上进行大量测试,并且已发现其在此任务上特别有效。其将参考此应用领域来示范,但应理解,其也可应用于其它图像分割问题。

作为背景,首先将描述用生成对抗网络(GAN)进行语义分割的典型当前方法。

对抗训练可用以确保更高水平的类似标签质量,例如平滑度、保持邻域一致性等。这通常通过使用鉴别器网络来完成,所述鉴别器网络随着时间的流逝学习这些所需属性的损失函数,而不是明确地用公式表示这些属性。

受益于用于语义分割的对抗训练的一种典型方法涉及为分割网络(生成器)构造损失函数,所述损失函数由两个项组成:一个项涉及低级逐像素预测/标签适应度

其中x及y分别是输入图像及相应标签图(即,地面实况标签数据),θ

图1说明针对传统GAN的典型训练设置。其展示使用上面的等式(1)的损失函数训练的生成器G及鉴别器D。

损失项

其中

w及h是图像的宽度及高度,且c是每一像素可归属的类别的数目。

对抗损失项

其中

在生成器经训练以使其对抗损失项最小化时,鉴别器通过使其损失最小化来尝试使其最大化,其损失定义为:

通过首先训练鉴别器,且接着训练生成器,且接着进一步训练鉴别器,以交替模式依此类推,鉴别器学习标签及预测分布之间的差异,而生成器尝试改变其预测的质量,类似于标签的预测,使得两个分布是不可区分的。在实践中,经常观察到与训练正常网络相比,训练对抗网络往往更加棘手且不稳定。这可归因于在极小极大游戏中涉及的两个网络的相互训练,使得每一者影响另一者的训练。鉴别器基于生成器图像的合理性将反馈给予生成器。

此传统对抗训练及其在语义分割中的应用存在两个重要问题,所述问题在本发明的实施例中减轻:

1.这些预测图的合理性及虚假性的理念来自于鉴别器对这些概念的想象以及其权重如何编码这些质量。此编码可能远非完美,从而导致方向上的可能无法改进生成器的梯度。

2.对抗损失项计算并未利用关于图像/标签配对的有价值的信息,所述信息通常可用于许多受监督的语义分割任务。

与常规方法相对比,当前El-GAN实施例利用图像标签配对来使合理性/虚假性决策不仅基于鉴别器对这些理念的理解,而且还基于真实的合理标签图。

利用此想法的一种方法是使用鉴别器将预测/标签图纳入更高级描述中,并将对抗损失定义为其在嵌入空间上的差异:

其中

设置为等于嵌入损失

定义为嵌入上的L

其中

f

表示从以θ参数化的网络中给定层提取的嵌入,给定p及x作为其输入。在此上下文中的“嵌入”是指在鉴别器中某一层处获取的一组特征图。

图2说明生成器G及鉴别器D的此训练。与图1的常规方法相对照,鉴别器D不仅从生成器G接收图像x及其相应生成分割图f(x;θ),而且还在对应于图像x的地面实况标签数据y上进行训练。为清楚起见,鉴别器D在图2中展示为具有共享权重的两个单独鉴别器例子,以突出输入及输出的相异组:[图像,假标签]及[图像,真标签]。两个例子共享相同的权重,因此从概念上可视为单一鉴别器网络D。

因此,El-GAN架构基于标签及预测的高级描述(嵌入)中的差异来计算对抗损失及对应梯度。当鉴别器学习最小化关于其在真分布与假分布之间的区别的损失并可能学习一组鉴别性嵌入时,生成器试图将此类嵌入差异最小化。

在一些实施例中,针对鉴别器更新的等式2可任选地重写为:

然而,在实证研究中,申请人已发现,使用交叉熵损失来更新鉴别器参数至少在某些情况下会给出更好结果。

现在将描述对El-GAN方法的评估,然后描述网络架构及训练方法的细节。下文中的词语“我们”及“我们的”是指本申请人。

El-GAN方法已在自主驾驶的应用域内进行评估。特定来说,使用来自车道标记检测数据的数据评估El-GAN方法,所述数据可从TuSimple

这些实施例的动机中的一者是能够产生尽可能类似于地面实况标签的预测。这对于具有薄结构的TuSimple

图4展示此标签的实例。为清楚起见,标签在此处展示为覆盖在原始图像上,但将理解,标签数据与图像数据不同。

以与标签相同的格式(即多个折线)关于结果评估数据集。针对我们的评估,我们使用挑战中定义的官方指标,即准确度、假阳性率及假阴性率。我们报告官方测试集以及验证集的结果,验证集是具有409个图像(‘0601’)的标记序列中的一者。我们注意到,由于其小大小,此验证集上的性能可能无法完全表示。不同验证序列也有其缺点,因为其它三个要大得多,并且将显著减小已很小的数据集的大小。由于我们的网络仍输出分割图而不是所需折线,因此我们确实应用后处理,但要使其尽可能简单:在二值化之后,我们通过获取在每一y索引处的非零值序列的平均x索引将每一连接的组件变换成单独折线。我们将此方法称为‘基本’。我们还评估“basic++”版本,如果“basic++”版本检测到在一个采样位置处出现多个非零值序列,其还拆分连接的组件。

在此章节中,我们论述用于我们的实验的网络及训练设置。

图3展示具有实例数据的高级网络架构的概览。这展示用于生成器训练或鉴别器训练或两者的不同损失项。

针对生成器,我们使用具有向下及向上路径以及跳过连接的全卷积U-Net样式网络。特定来说,我们使用Tiramisu DenseNet架构进行车道标记检测,配置有用于总共六十四个3×3卷积层的七个向上/向下级。参见耶古(Jégou)等人的“一百层Tiramisu:用于语义分割的完全卷积DenseNets(The One Hundred Layers Tiramisu:Fully ConvolutionalDenseNets for Semantic Segmentation)”,CVPRW(2017年7月),1175到1183。

针对鉴别器,我们使用具有七个块及总共三十二个3×3卷积层的DenseNet架构(参阅黄(Huang)等人的“紧密连接的卷积网络(Densely Connected ConvolutionalNetworks)”,随后是完全卷积图块GAN分类器(参见李(Li)及万德(Wand)的“使用马尔可夫生成对抗网络的预计算实时纹理合成(Precomputed Real-Time Texture Synthesis withMarkovian Generative Adversarial Networks)”,ECCV(2016),702到716)。

针对头两个稠密块,我们使用两头网络来单独处理来自标签或预测的输入图像,然后我们将特征图串联。我们在最终卷积层之后采取嵌入。然而,其它选项也是可能的,如下面的消融研究中所描述。

我们首先对生成器模型进行预训练,直到收敛为止,在下面的结果章节中,我们还将生成器模型用作我们的基线非GAN模型。使用八个的批量大小,我们接着对鉴别器进行10,000次迭代的预训练,此后,分别对生成器及鉴别器训练进行300到200次之间的迭代。用亚当优化器对生成器进行训练(参见金马(Kingma)及巴(Ba)的“亚当:一种用于随机优化的方法(Adam:A method for Stochastic Optimization),ICLR(2014)”,同时发现在使用SGD的情况下鉴别器训练更加稳定。我们使用规则交叉熵损失(等式2)训练鉴别器,同时我们训练具有λ=1的对抗嵌入损失的生成器(等式3及4)。我们没有进行任何数据扩充,也没有针对其它数据对模型进行预训练。

用于我们的实验的特定网络架构设置的细节如下。

生成器特征是:

架构=Tiramisu DenseNet;

向下/向上采样路径中的稠密块的数目=7;

每一稠密块中3×3转换层的数目=[1、2、3、4、6、8、8];

增长率=18;

非线性=ReLU;

初始化=He[参见何(He)等人的“深入研究整流器:在ImageNet分类上超越人类水平的表现(Delving Deep into Rectifiers:Surpassing Human-Level Performance onImageNet Classification)”,ICCV(2015),1026到1034];及

丢弃率=0.1。

鉴别器特征是:

架构=两头DenseNet;

接合两个头=在第二稠密块之后串联;

稠密块的数目=7;

每一稠密块中3×3转换层的数目=[1、2、3、4、6、8、8];

增长率=8;

非线性=ELU[参见克莱尔特(Clevert)等人的“通过指数线性单元的快速及准确深度网络学习(Fast and Accurate Deep Network Learning by Exponential LinearUnits(ELU))”,ICLR(2015)];

无丢弃;及

取自层的嵌入=在第七个稠密块之后。

一般训练超参数是:

迭代的数目=150K;

批量大小=8;及

训练进度表=(300:disc,200:gen)。

生成器训练超参数是:

优化器=(亚当,动量:0.9);

学习率=(指数,初始值:5e-4,衰减能力:0.99,衰减率:200)

L2正则化比例=1e-4;及

预训练=100K次迭代。

鉴别器训练超参数是:

优化器=香草SGD;

学习率=(指数,初始值:1e-5,衰减能力:0.99,衰减率:800);

预训练=10K次迭代;

L2正则化比例=1e-5;及

对抗损失λ=1。

在此章节中,我们使用上文描述的实验设置报告TuSimple

在此章节中,我们报告TuSimple

如已经提及,图4展示实例地面实况标签。图5展示通过常规分割网络针对相同图像的对应原始预测。图6展示通过El-GAN的对应原始预测。可看出,与图5的常规输出相比,图6中的预测在宽度、确定性及连接性方面与图4的标签的线更准确地匹配。在所有三种情况下,出于方便,数据覆盖在输入图像上。

我们首先使用两种后处理方法在验证集上评估El-GAN及我们的基线。表1中的结果展示,基本后处理方法不适用于基线模型,而改进基本++(basic++)方法的表现要好得多。El-GAN的表现仍比基线好,特别是在使用最基本后处理方法时。

表1.TuSimple车道标记验证集上的结果

图7展示验证集上的一些结果。其使用基本++方法在原始预测图及后处理结果方面比较这两种方法。与常规基线方法相比,可看到El-GAN产生相当更细且更像标签的输出,并且噪声更少,这使得后处理通常更容易。

此外,我们在整个标记数据集上训练El-GAN及基线,并在TuSimple

表2.截止到2018年3月14日的TuSimple车道标记挑战排行榜(测试集)

表3比较使用嵌入/交叉熵作为对抗损失项的不同选择以用于训练生成器及鉴别器网络。为比较训练的稳定性,报告关于验证准确度的统计。

表3.关于不同训练迭代(每10K)的TuSimple验证集准确度统计,比较针对对抗损失的不同选择的稳定性

图8展示说明训练期间的验证F得分的曲线图。这些结果展示将嵌入损失用于生成器使GAN训练稳定。当用其它超参数进行训练时,我们观察到类似行为。

可在鉴别器中的不同位置采用用于嵌入损失的特征。在此章节中,我们探讨三个选项:采用第3、第5或第7稠密块之后的特征。我们注意到,第3块含有具有图像输入及预测或标签的第一个共享卷积层,且第7块含有网络的分类器之前的最后一组卷积。表4及图9中给出针对TuSimple

表4.选择嵌入损失层

在此章节中,我们评估所描述实施例及结果。

在表2中,我们展示TuSimple

这两项工作都使用多类方法进行车道标记检测,其中每一车道标记是一个单独类。尽管这简化了后处理,但它需要更多的标签创建复杂性,并使网络任务更加困难:现在还应学习哪个车道是哪个车道,需要更大的视野并在车道改变时产生模糊性。相比之下,使用我们的GAN方法,我们可学习更简单的单类问题,而无需进行复杂的后处理来分离个别标记。

内文等人在其工作中还认为例如曲线拟合的后处理技术优选地不在网络的输出上进行,而是从鸟瞰角度进行。在此程度上,其训练单独网络来学习单应性,以找到更容易进行曲线拟合的透视变换。

在我们的工作中,我们展示有可能实现可比较的准确度结果,而完全不必执行曲线拟合,因此无需出于此目的来训练及评估单独网络。

潘等人认为,在做出最终预测之前,例如车道标记检测等问题可受益于空间一致性及消息传递。由于这个原因,他们建议将规则分割网络的输出馈入消息在不同方向上传递卷积的问题特定的‘空间CNN’。与El-GAN相比,这确实导致TuSimple

正如我们在比较表3及图8中所呈现的不同对抗损失项时所观察到的那样,将嵌入损失用于生成器使训练更加稳定并防止崩溃。与使用交叉熵损失的通常公式化相比,嵌入损失提供更强的信号,因为其利用现有地面实况而不是仅仅使其基于鉴别器对虚假性及合理性的内部表示。

因此,使用正常交叉熵损失可能导致崩溃,其中生成器开始在特征空间中探索样本,在所述特征空间中,鉴别器的假/真理解未很好地形成。相比之下,使用嵌入损失,此类噪声产生导致嵌入空间的高度差异,并且受到嵌入损失的严格惩罚。此外,具有能够完美地区分假及真分布的压倒性鉴别器导致训练崩溃及不稳定。因此,使用具有流回生成器的更好梯度的嵌入损失可以产生更具能力的生成器。类似地,不足为其的是,将嵌入损失用于鉴别器而不用于生成器会导致有严重分歧的行为,这是由于鉴别器的支配性要强得多,并且产生器未因产生噪声受到过多惩罚。

在第二消融研究中,如表4及图9中所呈现,我们观察到使用更深表示来提取嵌入导致更好的性能。这可能是归因于嵌入的更大接收域,其更好地使生成器能够改进更高级质量及一致性。

更仔细观察规则CNN与El-GAN之间的比较(参见图7),我们看到其输出性质有明显的不同。非GAN网络会产生概率性输出,每像素每类都有一个概率,而El-GAN的输出类似于可能标签,而不表达任何不确定性。缺乏表达不确定性的能力可能被简单地视为阻碍进一步后处理。然而,通常应用的后处理方案的第一步是通过阈值化或应用argmax来消除概率。另外,规则CNN的独立每像素概率性输出可能会隐藏正确的后处理所需的像素间相关性。交叉熵损失推动网络输出不位于可能标签的流形上的分割分布。

在用于语义分割的El-GAN及其它GAN中,网络经训练以输出以输入图像为条件的可能标签的分布的样本。

图10展示说明一旦车道标记被遮挡并且网络变得更加不确定时的样本选择的实例。左视图是输入数据的特写。中央视图是常规语义分割输出。右视图展示用相同设置训练的三种不同El-GAN模型的叠加输出。尽管此牺牲了表达不确定性的可能性,但其位于或接近可能标签的流形的事实可使后处理更容易且更准确。针对车道标记检测的任务,我们确实已展示语义分割不需要输出概率。然而,针对其它应用情况可能并非如此。通过GAN重新引入表达不确定性的一种直接方法是:以额外的随机输入为条件简单地多次运行GAN,或使用El-GAN的集成。然后,在可能标签的流形上对概率进行建模的所得样本将作为到后处理的输入。

在上文中,我们已揭示、研究并比较El-GAN作为一种在网络预测中保留类似标签的质量的方法。我们展示使用El-GAN导致更稳定对抗训练过程。此外,与其它竞争方法相比,我们在TuSimple

所属领域的技术人员将认识到,已通过描述本发明的一或多个特定实施例说明本发明,但本发明不限于这些实施例;在所附权利要求书的范围内,许多变化及修改是可能的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号