首页> 中国专利> 一种基于生成式鉴别性对比优化的零样本分类方法

一种基于生成式鉴别性对比优化的零样本分类方法

摘要

本发明公开了一种基于生成式鉴别性对比优化的零样本分类方法,包括以下步骤:利用重构损失及对比损失控制生成特征具有关联性与鉴别性的生成式网络,所述生成式网络包括特征编码器E、特征生成器G、真伪判别器D及分类器C;构建重构损失函数及对比损失函数;利用重构损失函数、对比损失函数并联合真伪判别器对生成式网络进行对抗训练;通过训练后的特征生成器G为各不可见类别生成相应的不可见类别的视觉特征,然后将生成样本与对应语义组成对,再与训练数据集中的样本组合,以形成新的训练数据集,再利用新的训练数据集对分类器进行训练,最后利用训练后的分类器进行零样本分类,该方法的分类精度较高。

著录项

  • 公开/公告号CN113222002A

    专利类型发明专利

  • 公开/公告日2021-08-06

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN202110496189.8

  • 发明设计人 张琳;庞善民;

    申请日2021-05-07

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人张海平

  • 地址 710049 陕西省西安市咸宁西路28号

  • 入库时间 2023-06-19 12:07:15

说明书

技术领域

本发明属于计算机视觉技术领域,涉及基于生成式的鉴别性对比优化的零样本分类方法。

背景技术

随着移动互联网络的日益增长,硬件设备不断迭代和更新,计算机性能不断提升,大规模数据表现出爆发式增长,在这些增长的数据里蕴藏着诸多可以被用来服务人类生活和预测未来世界的基础性信息。本文重点关注图像视觉特征数据的处理与应用。

随着深度学习技术的发展和大量有标签的训练数据的出现,监督学习的性能出现了巨大的提升。然而,有监督学习通常需要为每个目标类搜集数百个甚至上千个有标签的训练样本,需要大量带标签的数据。然而在许多实际场景中缺乏这些数据。目前机器学习领域存在一些以有标签训练数据少为主要特征的解决方法,更加符合人类的学习机制,也使得检测识别更具有智能。

为了解决对缺少或完全缺少有标签的训练数据的学习,提出了小样本学习(one/few shot learning)与零样本学习任务。该任务在使得机器学习系统具备不断学习的能力以及利用已知数据推断未知数据中起了重要作用,基于零样本学习将成为未来多个研究领域的热点问题。在没有任何观测数据的情况下进行分类识别任务被称为零样本学习(zeroshot learning ZSL),其关键思想在于探索和利用未知类与已知类在语义或其他高层特征间的相关知识,从而达到知识迁移的目的。一般经典的零样本学习在测试阶段只有不可见类不含可见类别。这显然与实际情况不符,现实生活中我们需要对见过或未见过都需要识别出来,所以推广零样本学习任务。当模型接收到一个新的图像时,并不知道它是来自于可见类还是不可见类,因此它需要能够从可见类和不可见类的组合中对图像进行分类,称为广义零样本学习(generalized zero shot learning GZSL)。

现有零样本学习方法大致分为三大类,一是嵌入式方法,二是生成式方法,三是图卷积方法。本发明是基于生成式方法进行改进优化。由于零样本学习面临着域漂移问题。产生域漂移问题,本文认为存在两个方面的原因。一方面,是因为当同一种属性在不同的类别中,视觉特征表达可能差别很大。复杂的视觉特征很难和语义信息一一对应,使得分类困难。另一方面,是因为零样本学习设置中可见类别和不可见类别之间互不相交,对于一些类来说,它们的数据样本互不相关,它们的数据分布不尽相同,这样就导致了它们之间数据域存在着很大的差距。因此,仅仅使用来自可见类的数据样本学习不同空间的映射函数而不对不可见类做出任何调整,必将导致数据存在严重的域漂移问题。生成式零样本学习方法利用对抗生成网络(GAN)来处理零样本学习任务。零样本学习的主要挑战来自于在训练阶段没有可见的视觉样本。通过利用GAN,人们可以从噪音中合成看不见的视觉特征。

虽然生成式方法可以在零样本学习中作为基线应用,但在之前的生成式方法中仍然存在两方面的问题。一是生成的特征过于随意,完全远离真实的特征分布。二是合成的不可见特征容易被混淆,因为GAN主要针对可见的样本进行训练。我们将此问题命名为特征功能性混淆问题。在传统的零样本学习中,特征功能性混淆问题并不一定很严重,因为只有不可见的样本测试才会涉及到。然而,在GZSL中,特性混淆是一个致命的问题,因为测试数据由可见和不可见的样本组成。如果合成的不可见特征容易产生可见特征,则不可见样本会被误分类为可见类别,导致不可见类分类准确率非常低,总体模型分类精度不可避免的变低。

发明内容

本发明的目的在于克服上述现有技术的缺点,提供了一种基于生成式鉴别性对比优化的零样本分类方法,该方法的分类精度较高。

为达到上述目的,本发明所述的基于生成式鉴别性对比优化的零样本分类方法包括以下步骤:

利用重构损失及对比损失控制生成特征具有关联性与鉴别性的生成式网络,所述生成式网络包括特征编码器E、特征生成器G、真伪判别器D及分类器C;

构建重构损失函数及对比损失函数;

利用重构损失函数及对比损失函数并联合真伪判别器对生成式网络进行对抗训练;

通过训练后的特征生成器G为各不可见类别生成相应的不可见类别的视觉特征,然后将生成样本与对应语义组成对,再与训练数据集中的样本组合,以形成新的训练数据集,再利用新的训练数据集对分类器进行训练,最后利用训练后的分类器进行零样本分类。

重构损失函数为:

其中,P(z):N(0,1),x:P(x)和a:P(a),P(x)和P(a)分别为真实特征及语义嵌入的先验分布,D

对比损失函数为:

其中,a'为特征生成器G的输入语义符号。

当a'=a时,则采用重构损失函数训练优化生成式网络。

当a'≠a时,则采用对比损失函数训练优化生成式网络。

在对生成时网络进行训练时,真伪判别器D根据式(3)判断训练数据(x,a)的真实性,其中,

对于特征生成器G与真伪判别器D的对抗性损失函数为:

基于式(5)利用新的训练数据集对分类器C进行训练,其中,

其中,y为样本真实标签,

本发明具有以下有益效果:

本发明所述的基于生成式鉴别性对比优化的零样本分类方法在具体操作时,构建特征编码器及特征生成器,为保证生成特征的质量稳定性,构建重构损失函数及对比损失函数,以保证生成特征与原数据域的关联性及鉴别性,再通过真伪判别器判断是否为原数据,再进行对抗性训练,以提升判别器判别真伪的能力,同时提升特征生成器生成特征靠近真实的能力,使得模型充分学习现有数据分布,以挖掘出接近于真实的隐藏规则,并作为权重信息保留到模型中,从而达到优化网络正确分类可见类及不可见类数据的目的,继而提高分类精度。

附图说明

图1为本发明中零样本学习和广义零样本学习示意图;

图2为鉴别性对比特征网络DCF-Net示意图;

图3为在AwA2数据集上原图特征与生成鉴别性特征对比示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,不是全部的实施例,而并非要限制本发明公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要的混淆本发明公开的概念。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明构建利用重构损失和对比损失控制生成特征具有关联性与鉴别性的生成式网络,参考图1,所述生成式网络包括以下几个神经网络模块:

1)特征编码器E,特征编码器E通过映射数据点编码的方式E(x,a):x×a→z,将一对图像的视觉特征x及类别语义嵌入a作为特征编码器P

2)特征生成器G采用特征编码器P

3)真伪判别器D以视觉语义特征对(x,a)作为输入并输出一个数值,指示x在多大程度上属于以属性a为特征的类。真伪判别器评估图像特征与类的关联紧密度,通过特征生成器中生成的假特征(G(a,z),a)希望分数趋近0越好,当训练数据(x,a)是真数据,希望训练数据(x,a)的分数越趋近1越好。

4)分类器C:y=softmax(x,a),a表示类别标签,x是视觉特征,该模块将两者结合起来投影到各类上,通过softmax进行归一化,损失函数采用交叉熵损失函数计算。

构建重构损失和对比损失

对于生成特征与原特征的关联性,编码器E及生成器G采用公式(1)重构损失函数。

其中,P(z):N(0,1);x:P(x)和a:P(a),其中,P(x)和P(a)分别表示真实特征及语义嵌入的先验分布;D

剥离隐层特征与输入特征生成器E的关联程度,使得输入特征生成器E生成的特征更具鉴别性。为此,将生成器G的输入语义符号表示为a',从生成器输入的语义信息a'分为两种情况讨论:a'=a代表从生成器输入的语义属性向量a'与编码器输入的语义属性向量a为同一类别的语义属性。a'=a

当a'=a时,则采用上述的重构损失约束一致性,a'≠a时,加重a

对于编码器E和生成器G,构建下述损失函数约束生成的特征。当a'≠a时,控制x与特征生成器E生成的

DCF-Net方法的具体过程为:

1)将原始图片利用ResNet-101在ImageNet上预训练的模型,提取最后一层2048维度的视觉特征作为原始图片的特征;

2)对于a'=a时,DCF-Net中的特征编码器E、特征生成器G根据式(1)所示的重构损失函数来优化生成模型;当a'≠a时,DCF-Net中特征编码器E、特征生成器G根据式(2)所示的对比损失函数来优化生成模型。

3)将训练数据(x,a)及网络模型生成的数据对

其中,特征生成器G试图将其合成样本G(a,z)的分数推向1,此外,对于特征生成器G希望骗过真伪判别器E,对于特征生成器G与真伪判别器E的对抗性损失为:

通过步骤2)和步骤3)联合对抗训练生成模型;

4)通过训练后的生成器G为每个不可见类别生成相应的不可见类别的视觉特征,然后将生成样本与对应语义组成对,再与训练数据的其他样本结合起来,基于新的训练数据集训练分类器,通过式(5)交叉熵损失函数训练分类器。

其中,y为样本真实标签,

本发明中利用重构损失和对比损失约束生成数据的鉴别性,保证生成视觉特征与原数据特征的关联性和区分性。本发明中的每个模块都是全连接层神经网络的简单组合,具有便捷的可扩展性。在三个广泛使用的数据集上进行ZSL和GZSL实验,结果表明在各个数据集上均有增益效果,特别是细粒度类别间距差距小的数据集上增益效果更加显著。在实验中利用T-SNE可视化了生成的视觉特征,有助于增强分析模型的可解释性。本发明能为计算机视觉开放集识别、自然语言处理等领域提供研究思路。

实验设置与结果分析

评价标准

图像分类精度的衡量标准Top-1精度,即当预测类别正确时,就判定预测是准确的,通过公式(6)测量每个类的平均精度。

其中,acc

在广义零样本学习设置中,评价时的搜索空间不仅限于测试类别的精度,也包括训练类别的准确度。在计算训练类别和测试类别的平均每类准确度之后,计算训练和测试准确度的调和平均值公式(7)作为评价标准。

其中,acc

零样本学习设置下的结果

表1

传统零样本实验设置下的结果如表1所示,视觉特征使用ImageNet上预训练的ResNet-101网络的最后一层2048维度的视觉特征,且不对图像进行任何预处理微调。传统零样本学习方法DeVISE[55]、ALE[54]和ESZSL[19]使用线性兼容函数或其他相似度指标来比较嵌入的视觉和语义特征。;CMT[52]和LATEM[53]利用多个神经网络学习非线性嵌入。我们的方法普遍都好于线性兼容性方法,在三个数据集上都取得了最好的结果,特别是在细粒度数据集上SUN和CUB上,与先前的方法相比性能显著提升,验证了鉴别性对比特征网络产生的鉴别性特征对识别精度的增益效果。

广义零样本学习设置下的结果

表2

广义零样本学习设置下的实验结果如表2所示,用调和均值进行度量,SE-GZSL[58]方法使用自编码器和对抗生成网络和回归器作为对生成特征的反馈,以改进特征的生成,但是它没有考虑到生成特征的区分性信息度量,所以效果没本方法好。与现有生成式方法相比,本发明在SUN、CUB等细粒度数据集上性能显著。AWA2也与现阶段结果相近,在AWA2上效果不明显的原因在于AWA2数据集的类间差异大,不易通过一个类推广到另一个类的视觉特征。本发明在细粒度及类间差距小的数据集上效果显著,在SUN和CUB数据集上不可见类别的识别精度大幅提升。该表结果表明本发明在细粒度类间距离较近的数据集上远超现有其他方法。

消融实验结果

在SUN和CUB数据集上,对模型进行消融实验,如表3所示。为了验证各个模块的作用,设计进行基础模块生成和判别模块对抗性训练、加入了源域先验信息对抗性训练以及去掉对比损失无法生成鉴别性特征优化的实验,并使用相同的标准进行评估。仅有对抗性训练生成的样本质量不足以让不可见类别生成真实的样本,所以性能较差。当增加了源域的一些信息,从特征编码模块中获得了一些真实特征的先验分布,有利于生成接近真实实例的样本,性能有所提高。从表中观察到,当删掉对比损失,不分离生成的特征与源特征的情况下,模型的性能显著提升程度较小。联合两者一起训练,会使得模型增益效果达到最高水平,足以证明本发明的有效性。

表3

可视化生成特征结果

从图3a中可以看到有一些类别存在一定程度的重叠,海狸与马、灰熊、波斯猫都有皮毛,存在一定的交叠也是正常的。本发明选择灰熊、波斯猫、马、羚羊、虎鲸通过模型生成样本。从图3b可以看出生成特征的分布与其他类别更有间距性,具有鉴别性,这样生成的特征不易与其他类别特征相混淆,有利于模型分类。也证实了本发明可以生成有鉴别性的特征以帮助模型分类。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号