首页> 中国专利> 基于双编码器生成式对抗网络的协同视觉显著性检测方法

基于双编码器生成式对抗网络的协同视觉显著性检测方法

摘要

本发明提出了一种基于双编码器生成式对抗网络的协同视觉显著性检测方法,其步骤为:构建双编码器生成式对抗网络模型并进行预训练;预训练的参数用于生成式对抗网络模型;将协同显著性数据以一组图像输入到分类网络模块,提取多尺度组级图像语义类别特征,多尺度语义融合模块融合多尺度组级图像语义类别特征为组间显著性特征;将成组输入的图像以单张依次输入到显著性编码器得到单幅显著性特征;将单幅显著性特征分别与组间显著性特征进行像素级相加得到协同显著性特征,将协同显著性特征输入到解码器解码得到检测图像;利用协同显著性数据集检测训练后的生成式对抗网络模型。本发明模型参数较小,训练和检测操作简单,检测精度较高,提高了效率。

著录项

说明书

技术领域

本发明涉及协同显著性检测的技术领域,尤其涉及一种基于双编码器生成式对抗网络的协同视觉显著性检测方法。

背景技术

随着互联网和多媒体不断的发展,大量的图像以及视频数据伴随我们的日常生活中,如何使用现有的多媒体技术去快速有效地获取有用的信息变得十分重要。现在流行的一种协同显著性检测技术,是一种模仿人类的视觉注意机制的计算机视觉的技术,它可以从一组有相似显著目标而且图像间存在相关联的图像中,找到每幅图像中公共显著的目标。这样的方法可以有效地获取人们想要的信息同时过滤图像中冗余的信息,从而达到了减少计算机存储和提高计算的效率。

协同显著性方法存在两个关键性的环节,提取较好的单幅显著性的特征和挖掘多幅图像间的相似性。现在存在的协同显著性的方法可以分为两类:传统的手工的方法和深度学习的方法。传统的手工的方法通过手工的特征去获取组间图像的相似性,这种手工的特征主观性较强不能较好的捕获显著性的目标;现在流行的深度学习的方法利用神经网络的模型去获取深度的特征很好地描述图像,同时利用一种端到端的模型的方式更好地挖掘图像间的相似性,这种方式很好地提高了协同显著性检测的精度。但是这种端到端的模型需要一组输入图像去挖掘组间图像的相似性,使得模型需要大量的数据去实现,数据集标签限制了协同显著性的检测效果。

现在流行的端到端的神经网络模型提取的特征是整个图像而不是公共显著目标区域,从而不能很好地挖掘组间图像的语义一致性(即组间图像的显著性特征)。

发明内容

针对传统的协同显著性检测方法的样本标签不足和组间显著性特征不够好,不能很好地挖掘组间图像的语义一致性的技术问题,本发明提出一种基于双编码器生成式对抗网络的协同视觉显著性检测方法,将组间显著特征和单幅显著特征进行联合训练,通用型强,且模型参数少,检测精度高,解决了组间图像语义一致的问题,缓解了协同显著性标签样本不足的问题。

为了达到上述目的,本发明的技术方案是这样实现的:一种基于双编码器生成式对抗网络的协同视觉显著性检测方法,其步骤如下:

步骤一:构建双编码器生成式对抗网络模型:双编码器生成式对抗网络模型包含生成器和判别器,其中生成器包括两个编码器和一个解码器,两个编码器包括显著性编码器和组间语义编码器,其中,显著性编码器、解码器和判别器构成显著性生成式对抗网络;

步骤二:预训练:一方面,用现在已有的单幅显著性的数据集对显著性生成式对抗网络模块预训练;另一方面,将协同显著数据集分为两个部分:训练集和测试集,利用训练集的类别标签去预训练组间语义编码器的分类网络模块,得到显著性生成式对抗网络模块和分类网络模块的预训练的参数。

步骤三:使用协同显著性数据集的训练集对双编码器生成式对抗网络模型进行协同显著性训练:利用步骤二中的预训练的参数作为双编码器生成式对抗网络模型初始化的参数设置;将协同显著性数据集中的一组图像输入到分类网络模块,分类网络模块提取多尺度组级图像语义类别特征,多尺度语义融合模块融合多尺度组级图像语义类别特征为组间显著性特征;将成组输入图像的每张图像依次输入到显著性编码器得到单幅显著性特征,单幅显著性特征分别与组间显著性特征进行像素级的相加得到每张图像的协同显著性特征,将协同显著性特征输入到解码器解码后生成每一张的检测图像,判别器进行判断,从而形成对抗式训练;

步骤四:利用协同显著性数据集的测试集检测步骤三训练后得到的生成式对抗网络模型,实现协同显著性检测。

所述步骤一中生成式对抗网络模型是基于全卷积网络组成,整个显著性生成式对抗网络采用U-Net的结构;显著性生成式对抗网络的显著性编码器和解码器构成U-Net结构,通过短连接方式获取更多的图像信息,生成器一共有17层全卷积,显著性编码器包含8层全卷积,判别器包含9层全卷积;判别器采用的是patch级判别结构,一共有5个全卷积层,将整个图像转化成大小为28×28,再和28×28的标签矩阵上的每一个元素进行对比做loss;生成器用到的是F-loss和l

所述组间语义编码器是由分类模块和多尺度语义融合模块组成,其中分类网络模块采用的是在ImageNet中训练过的Resnet50模型,在预训练中,将最后一层全连接层改成预训练数据集的类别的种类数,用BCE-loss去优化;多尺度语义融合模块的结构组成为:

所述步骤二中的预训练,一方面对于显著性生成式对抗网络模块,训练数据集是公开流行显著性的数据集;在显著性生成式对抗网络模块的对抗训练过程中,先固定生成器,对判别器进行训练,从而判别器的参数得以更新;然后固定判别器,对生成器进行训练,从而生成器的参数得以更新,重复这个过程,不断循环优化生成器和判别器,最终确定显著性生成式对抗网络的模型参数;另一方面对于分类网络模块,预训练的标签是训练集的类别标签,预训练后确定分类网络模块的模型参数。

所述显著性生成式对抗网络模块的损失函数为:

其中,G

所述步骤中的生成式对抗网络模型继承步骤二的预训练的所有参数和损失函数的设置,然后利用双编码器的生成式对抗网络模型进行协同显著性的联合对抗式训练:首先输入一组5张图像到预训练的分类网络模块中得到4种不同尺度大小的组级别的区分类别语义特征,然后将4个组级别的区分类别语义特征拼接为4个特征,其尺寸分别为56×56×256、28×28×512、14×14×1024、7×7×204,再输入到多尺度语义融合模块,通过多尺度语义融合模块中的上采样、下采样、卷积及像素级的相加得到一个统一尺寸的特征,其大小为28×28×512,该特征具有稳健的类别语义一致性作为组间显著性特征,具体操作如下公式:

其中,X={x

所述步骤三中将5张为一组中的每张图像依次输入到已预训练的显著性编码器,从而可以获取每一张图像的显著性特征,这样可以和上述5张图像的组间显著性特征进行像素级的相加得到每一张图像的协同显著性特征,输入到解码器进行双编码器生成式对抗网络模型的联合对抗式训练,双编码器生成式对抗网络的损失函数为:

其中,G

所述步骤四中利用步骤三训练后最终得到的显著性编码器和组级语义编码器对协同显著性数据集中类别标签步骤二中训练分类网络模块余下50%的协同显著性数据集进行检测,公式为:

M

其中,M

与现有技术相比,本发明的有益效果:本发明首先,构建一个双编码器的生成式对抗网络模型,然后,对双编码器的生成式对抗网络模型进行两个阶段的递进式的训练,第一阶段,对网络的部分模块进行预训练,其中包括显著性生成式对抗网络模块和分类网络模块,使显著性生编码器和分类网络模块分别获得学习单幅显著性和类别语义识别的能力;第二阶段,继承第一阶段训练后的参数,一方面,利用分类网络模块获取多尺度组级的类别语义特征,将多尺度组级的类别语义特征输入到多尺度语义融合模块得到较好的组间显著性特征,另一方面,利用显著性生成式对抗网络模块的显著性编码器获取单幅显著性特征,再将组间和单幅显著性特征融合送入解码器中,从而进行联合对抗式训练。最后,利用训练后的两个编码器进行协同显著性检测。本发明的模型参数较小,训练和检测操作简单,通用性较好,检测精度较高,提高了效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图。

图2为本发明与现有算法在CoSal2015数据库上的主观结果对比图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种基于双编码器生成式对抗网络的协同视觉显著性检测方法,其步骤如下:

步骤一:构建基于双编码器的生成式对抗网络模型:双编码器的生成式对抗网络模型包含生成器和判别器,其中生成器包括两个编码器和解码器,两个编码器包括显著性编码器和组间语义编码器,且显著性编码器、解码器和判别器构成显著性生成式对抗网络。

根据协同显著性的检测的任务的特征和现在流行的对抗式生成网络的模型的特征,对已有对抗式生成网络的基本框架进行改进和创新,搭建了一个符合协同显著性检测任务的模型,基于双编码器的递进式训练的生成式对抗网络模型。

本发明构建的生成式对抗网络模型包括两个部分:生成器和判别器,其中,生成器包括显著性编码器、组间语义编码器两个编码器和解码器,整个网络是基于全卷积网络组成。此外,生成器部分构建U-Net的结构。对于损失函数,生成器用到的是F-loss和l

显著性编码器和解码器构成U-Net结构,其设计的思想参考文献O.Ronneberger,P.Fischer,and T.Brox,“U-Net:Convolutional Networks for Biomedical ImageSegmentation,”in Proc.Medical Image Computing and Computer-AssistedIntervention,Dec.2015.pp.234-241。通过短连接方式去获取更多的图像信息,从而可以提取图像中更加细节的特征,此外,显著性编码器和解码器有几层在训练的过程采用dropout,而且它的值设置为0.5,使模型具有更好的泛化能力,具体的设置如表1所示。显著性生成式对抗网络模块的生成器(显著性生成式对抗网络(17)包括显著性编码器(8)和判别器(9))一共有17层全卷积

表1 显著性编码器和解码器的结构组成:

判别器采用的是一种patch级判别结构,一共有5个全卷积层,这个patch的尺寸大小为28×28,将整个图像转化该尺寸,再和28×28的标签矩阵上的每一个元素进行对比做loss,这个patch级判别结构的设计思想参考文献P.Isola,J.-Y.Zhu,T.Zhou et al.,“Image-to-Image Translation with Conditional Adversarial Networks,”inProc.IEEE Conf.Comput.Vis.Pattern Recognit,Jul.2017.pp.5967-5976,其具体的结构如表2所示。

表2 判别器的结构组成

对于组间语义编码器的构建,它是由分类模块和多尺度语义融合模块组成的,其中分类网络模块采用的是在ImageNet中训练过的Resnet50模型,在网络的预训练过程中,将最后一层全连接层改成预训练数据集的类别的种类数。此外,用BCE-loss去优化模型。多尺度语义融合模块具体操作如表3所示。

表3 多尺度语义融合模块的结构组成

步骤二:预训练:一方面,用现在已有的单幅显著性的数据集对显著性生成式对抗网络模块预训练;另一方面,我们将协同显著数据集分为两个部分:训练集和测试集,利用训练集的类别标签去预训练分类网络模块;得到两个网络模块预训练的参数。

对于显著性生成式对抗网络模块,用现在已有的单幅显著性的数据集进行预训练,其数据集是公开流行显著性的数据集HKU-IS和PASCAL1500,使显著性生成式对抗网络模块中显著性编码器具有提取单幅显著性检测的能力,在这个对抗训练过程中,先固定生成器,对判别器进行训练,从而判别器的参数得以更新;然后固定判别器,对生成器进行训练,从而生成器参数得以更新,不断重复这两个的操作,不断地优化生成器(显著性编码器和解码器)和判别器。通过不断的参数的调试,得到学习率、训练次数和批量大小的设置为0.0002、300和1,检测效果较好。且显著性生成式对抗网络模块的损失函数可以表示为:

其中,G

为了更好的解决后续训练中提取组间图像特征的一致性(组间图像显著性特征)的问题,充分利用协同显著数据集的图像的实质:每一组协同显著性图像都具有同一类别的特点。对于分类网络模块,使用的分类网络是在ImageNet中训练过的Resnet-50模型。对于数据,用50%只包含类别标签的协同显著性训练集(iCoseg和Cosal2015)进行预训练,在预训练前,将最后一层修改为训练集的类别数,进行协同显著性类别训练的分类网络模块对数据集的类别具有识别能力,可以使分类网络模块具有较好的类别语义区分的能力,此外,对下一训练阶段获取好的语义一致性做准备。后来,通过调试,当分类网络模块的学习率、训练的次数和批量大小分别设置为0.0002、1000和8,分类精度较好。

步骤三:使用协同显著性训练集对整个双编码器的生成式对抗网络模型进行协同显著性训练:利用步骤二中的预训练后的参数用于双编码器的生成式对抗网络模型;将训练集中的一组(5张)图像输入到分类网络模块,分类网络模块提取多尺度组级图像语义类别特征,多尺度语义融合模块融合了多尺度组级图像语义类别特征成为组间显著性特征;将一组图像的每张图像依次输入到显著性编码器得到单幅显著性特征,单幅显著性特征分别与组间显著性特征进行像素级的相加得到每张图像的协同显著性特征,将协同显著性特征输入到解码器解码后得到生成每一张的检测图像,判别器进行判断。

调参:对于双编码器的生成式对抗网络的调参,开始训练参数的设置,除了对多尺度融合模型的参数进行随机初始化处理,其他部分模块使用第一阶段训练后的参数。开始训练,首先,将包含两个编码器的生成器的参数固定,优化更新判别器的参数;然后,固定判别器的参数,优化更新包含两个编码器的生成器的参数。不断重复上述两个过程,得到最终双编码器的生成式对抗网络的参数。注意的是,步骤二中用协同显著性训练集的类别标签去训练分类网络;步骤三中用协同显著性训练集的真值标签。用的是同一个数据集的两种不同类型的标签。

本发明中的生成式对抗网络模型继承上述的步骤二的预训练的所有参数和损失函数的设置(上述的L1-loss、F-loss),然后利用双编码器生成式对抗网络进行协同显著性的联合对抗式训练。首先输入一组图像(张数为5)到预训练后的分类网络模块中得到4种不同尺度大小的组级别的区分类别语义特征,然后将4个组级别的区分类别语义特征拼接为4个特征,其尺寸分别为56×56×256、28×28×512、14×14×1024、7×7×204,再输入到多尺度语义融合模块,通过多尺度语义融合模块中的上采样、下采样、卷积以及像素级的相加得到一个统一尺寸的特征,其大小为28×28×512,该特征具有稳健的类别语义一致性作为组间显著性特征,其具体操作如下公式:

其中,X={x

本发明利用组间语义编码器提取较好的组间图像语义一致性的特征(即组间图像的显著性特征),采用成组协同显著性图像(5张为一组相关图像的图像)输入到预训练后的分类网络模块得到多尺度组级图像语义类别特征,多尺度语义融合模块融合多尺度组级图像语义类别特征产生一个具有组间图像语义一致性的特征。采用每组协同显著性图像轮流单幅输入显著性编码器,其中的显著性编码器继承预训练显著性生成式对抗网络模块的编码器所有的参数,这样可以使网络更好地提取每幅协同显著性图像的单幅显著性特征。

同时,将5张为一组中的每张图像依次单张输入到已预训练的显著性编码器,从而可以获取每一张图像的显著性特征,这样可以和上述5张图像的组间显著性特征进行像素级的相加得到每一张图像的协同显著性特征,输入到解码器进行双编码器生成式对抗网络进行协同显著性的联合对抗式训练,有效进行联合对抗式协同显著性训练。双编码器生成式对抗网络的损失函数和步骤二的显著性生成式对抗网络模块的损失函数比较相似,其损失函数可以表示为:

式子中的G

步骤四:利用协同显著性数据集的另一部分检测步骤三训练后得到的生成式对抗网络模型,实现协同显著性检测。

利用步骤三训练后最终得到的显著性编码器和组级语义编码器对协同显著性数据集中类别标签步骤二训练分类网络模块余下50%的协同显著性数据集(iCoseg和Cosal2015)进行检测,其公式可表示为:

M

其中,M

本发明的实现的硬件配置:Intel(R)XeonE5-2650 v4@2.2Hz×12 cores×2CPU,NVIDIA TITAN RTX@24G×8GPU,512G内存的工作站进行实验,其软件的平台配置:Ubuntu16.04、python3.65、pytorch0.41。

此外,为了更好的证明本发明的性能和效率,本发明在现已有的流行的公开数据集Cosal2015进行主观对比和每一幅检测的时间对比。对比的算法一种有8种,分别是ESMG、CBCS、AUW、SACS、SACS-R、LDAW、GW、RCAN,其中有4种算法公开了代码,分别是ESMG、CBCS、SACS、SACS,其中,ESMG来自于Image and Video Co-localization with Frank-WolfeAlgorithm,CBCS来自于Cluster-Based Co-saliency Detection,AUW来自于A UnifiedMetric Learning-Based Framework for Co-saliency Detection,SACS来自于Self-Adaptively Weighted Co-Saliency Detection via Rank Constraint,SACS-R来自于Self-Adaptively Weighted Co-Saliency Detection via Rank Constraint,LDAW来自于Co-saliency detection via Looking Deep and Wide,GW来自于Deep Group-Wise FullyConvolutional Network for Co-Saliency Detection With Graph Propagation,RCAN来自于Detecting Robust Co-Saliency with Recurrent Co-Attention Neural Network。本发明在同一硬件配置下,对上述的4种公开的算法进行检测时间的对比实验,其结果如表4所示。

表4 与4种流行算法在Cosal2015数据集的检测时间的对比

根据图2和表4的实验对比结果来看,图2中本发明的协同显著性预测图的效果和对应的真值图的效果比较接近,同时明显高于其它算法的预测图的效果;此外,表4中与公开代码的算法的每张图像检测时间的对比,本发明的检测时间所需最短。由此可以证明和其他流行算法,本发明的性能和效果更好。

本发明采用了一种基于递进式训练方式的两支流编码器的对抗式生成网络,在第一阶段的预训练中,充分利用单幅显著性数据的标签和协同显著性的类别标签,缓解端到端模型的数据标签不足的问题;一方面充分使用已有的单幅显著的数据集去预训练显著性生成式对抗网络模块,这样不仅为显著性生成式对抗网路模块提供较好的初始化的参数,而且使显著性编码器具有较好的提取单幅显著性特征的能力;另一方面同时充分利用协同显著性数据集的类别标签去训练网络中的分类网络模块,使分类网络模块具有较好的类别语义识别的特征。在第二阶段的协同显著性训练中,本发明继承上一阶段学习的所有参数,提出了一个多尺度语义融合模块去整合分类网络模块的多尺度组级语义特征得到一个具有稳健的类别语义一致性的组间显著性特征,利用显著性编码器得到每幅图像的单幅显著性特征,然后把组间显著性特征和单幅显著性特征输入到编码器进行联合对抗式训练,本发明具有一定的通用性和模型的参数较少。同时,本发明的训练和检测操作简单,模型参数较小,通用性较好,而且检测精度和效率较高。

本发明包含分类网络模块和多尺度语义融合模块的组间语义编码器进行渐进式训练,第一阶段,利用只包含类别标签的协同显著性数据集对分类网络模块进行预训练,类别训练使得分类网络模块具有能够识别协同显著性数据集类别(即公共目标的类别语义特征);第二阶段,首先采用成组协同显著性图像输入到预训练后的分类模块,得到多尺度组级图像类别语义特征,然后利用多尺度语义融合模块对多尺度组级图像类别语义特征进行融合,最后产生一个具有较好的组间图像语义一致性的特征,从而进行协同显著性训练。

缓解协同显著性标签样本不足的问题包含两个方面,两个方面是根据协同显著性两个关键特征决定的:一个是单幅显著性特征,另一个是组间图像的显著性特征。所以,一方面,利用现在已有的单幅显著性数据集对显著性生成式对抗网络模块进行预训练,使显著性编码器能够提取较好的显著性的特征;另一方面,利用协同显著数据集的图像的实质:每一组协同显著性图像都具有同一类别的特点,利用只包含类别标签的协同显著性数据集对分类网络模块进行预训练,这样操作目的是进行协同显著性类别训练的分类网络模块对数据集的类别具有识别能力,为了下一阶段的提取组间图像的语义一致性奠定基础,第二阶段协同显著性训练中,利用分类网络模块预训练数据中的真值图标签输入到组间语义编码器,从而提取较好的组间图像语义一致性的特征(组间图像的显著性特征)。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号