首页> 中国专利> 一种基于流形正则化转移矩阵的标签噪声估计方法

一种基于流形正则化转移矩阵的标签噪声估计方法

摘要

本发明提供的一种基于流形正则化转移矩阵的标签噪声估计方法,通过预训练第二网络中第一网络,并对数据集蒸馏后,将获得的子数据集输入至第二网络中,得到子数据集内的数据实例所属类别的概率以及获得与数据实例相关的转移矩阵;进一步根据数据实例标签计算得到第二网络的交叉熵损失,并结合已构建的表述数据实例属于相同流形的一致性的关联矩阵、数据实例属于不同流形的惩罚矩阵,计算第二网络的损失函数;通过调整损失函数减小训练第二网络得到训练好的第二网络,从而完成数据实例所属类别的预估。本发明可以在不影响转移矩阵逼近误差的情况下,减小估计误差,实验证明本发明在标签噪声学习中可以取得优异的性能。

著录项

  • 公开/公告号CN114881098A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN202210192794.0

  • 发明设计人 程德;宁艺雄;王楠楠;高新波;

    申请日2022-02-28

  • 分类号G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构西安嘉思特知识产权代理事务所(普通合伙) 61230;

  • 代理人王萌

  • 地址 710000 陕西省西安市雁塔区太白南路2号

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:2022101927940 申请日:20220228

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明属于人工智能技术领域,具体涉及一种基于流形正则化转移矩阵的标签噪声估计方法。

背景技术

噪声标签学习在深度学习领域越来越受关注,主要原因是对大规模数据集进行精确的标注是非常昂贵,在许多情况下不可实现的。一种有效的方法是从众多平台或者通过网络爬虫收集这种大规模的数据集,这不可避免地会产生低质量和带噪声的数据。因此,减轻噪声标签的副作用成为一个非常热门的话题。

处理噪声标签的方法可以分为两类:具有统计上不一致和一致的分类器算法。在第一类方法中并没有显式地对标签噪声分布进行建模,该方法通常采用一些启发式方法来减少标签噪声的副作用。虽然这些方法在通常效果很好,但从噪声数据中学习到的分类器在统计上并不一致,其可靠性无法得到保证。而统计上一致的分类器可以解决这个问题,然后在统计一致的分类器算法中,学习转移矩阵在为噪声标签学习构建统计上一致分类器方面发挥着重要作用,利用学习转移矩阵可以显式地建模噪声标签的生成过程。

然而,利用学习专转移矩阵显示地建模噪声标签的过程中,现有技术仅利用噪声数据学习的分类器获取实例相关的学习转移矩阵(IDTM)T(x)作为实例x的函数,在这个过程中学习转移矩阵在没有任何约束的情况下,在实例依赖噪声(IDN)下是无法识别的,因此对于有噪声的标签来说,得到学习转移矩阵IDTM,从而去完成识别分类是一个非常具有挑战性的问题。

发明内容

为了解决现有技术中存在的上述问题,本发明提供了一种基于流形正则化转移矩阵的标签噪声估计方法。本发明要解决的技术问题通过以下技术方案实现:

本发明提供的一种基于流形正则化转移矩阵的标签噪声估计方法包括:

获取携带标签的数据集;

其中,所述数据集中包括携带噪声标签的数据实例以及未携带噪声标签的数据实例;

将所述数据集中的数据实例输入至第一网络中,以使所述第一网络依次对所述数据实例进行特征提取以及数据实例分类,得到数据实例所属类别的概率;

根据数据实例所属类别的概率,计算所述第一网络的损失函数,并向损失函数减少的方向预训练所述第一网络,得到预训练好的第一网络;

将所述数据集中的数据实例使用蒸馏法进行蒸馏,以蒸馏出干净类的数据实例组成子数据集;

将所述子数据集输入至第二网络中,得到子数据集内的数据实例所属类别的概率以及获得与数据实例相关的转移矩阵;

基于将子数据集中数据实例所属类别的概率、转移矩阵以及子数据集中的数据实例标签,得到第二网络的交叉熵损失;

基于所述转移矩阵、已构建的表述数据实例属于相同流形的一致性的关联矩阵、数据实例属于不同流形的惩罚矩阵以及所述交叉熵损失,计算第二网络的损失函数;

通过调整损失函数减小训练第二网络得到训练好的第二网络;

使用第二网络预估数据实例所属的类别。

其中,所述第一网络为所述第二网络的部分网络,所述第一网络包括主干神经网络以及分类器,所述第二网络包括:主干神经网络、转移神经网络以及分类器,所述主干神经网络的输出分别连接分类器以及转移神经网络的输入。

可选的,所述将所述数据集中的数据实例输入至第一网络中,以使所述第一网络依次对所述数据实例进行特征提取以及数据实例分类,得到数据实例所属类别的概率包括:

将所述数据集中的数据实例输入至所述主干神经网络中,以使所述主干神经网络对所述数据集中的数据实例进行特征提取,获得特征向量,并将特征向量输入至分类器中,得到数据实例所属类别的概率。

可选的,所述将所述子数据集输入至第二网络中,得到子数据集内的数据实例所属类别的概率以及获得与数据实例相关的转移矩阵包括:

将所述子数据集输入至主干神经网络中,以使主干神经网络对所述子数据集中的数据实例进行特征提取,得到维度与数据实例所属类别数量相同的特征向量;

将所述特征向量分别输入分类器以及转移网络中,得到分类器输出的子数据集中每个数据实例所属的类别概率,以及所述转移网络输出的与数据实例相关的转移矩阵。

可选的,所述将所述数据集中的数据实例使用蒸馏法进行蒸馏,以蒸馏出干净类的数据实例组成子数据集包括:

将所述数据集中的每个数据实例依次输入预训练好的第一网络中,估计每个数据实例所属类别的概率;

判断每个数据实例所属类别的概率与概率阈值的大小,如果大于,则确定该数据实例为不含噪声标签的干净类数据实例;

将干净类的数据实例组成子数据集。

可选的,所述基于将子数据集中数据实例所属类别的概率、转移矩阵以及子数据集中的数据实例标签,得到第二网络的交叉熵损失包括:

将子数据集中数据实例所属类别的概率与转移矩阵相乘,将相乘结果与子数据集中的数据实例标签进行交叉熵,得到第二网络的交叉熵损失。

可选的,所述基于所述转移矩阵、已构建的表述数据实例属于相同流形的一致性的关联矩阵、数据实例属于不同流形的惩罚矩阵以及所述交叉熵损失,计算第二网络的损失函数包括:

基于所述转移矩阵以及已构建的表述数据实例属于相同流形的一致性的关联矩阵,构建第一流形损失;

基于所述转移矩阵以及已构建的表述数据实例属于不同流形的分散性的惩罚矩阵,构建第二流形损失;

将第一流形损失和第二流形损失作差,得到流形损失;

将流形损失与所述交叉熵损失求和,作为第二网络的损失函数。

其中,所述数据实例数据所属类别的概率表示为:

其中,f(a

其中,所述第一网络的损失函数表示为:

其中,N是携带噪声标签的数据实例数量,

其中,第一流形损失表示为:

第二流形损失表示为:

其中,

其中,

流形损失表示为:

L(θ)=L

第二网络的损失函数表示为:

L

本发明提供的一种基于流形正则化转移矩阵的标签噪声估计方法,通过预训练第二网络中第一网络,并对数据集蒸馏后,将获得的子数据集输入至第二网络中,得到子数据集内的数据实例所属类别的概率以及获得与数据实例相关的转移矩阵;进一步根据数据实例标签计算得到第二网络的交叉熵损失,并结合已构建的表述数据实例属于相同流形的一致性的关联矩阵、数据实例属于不同流形的惩罚矩阵,计算第二网络的损失函数;通过调整损失函数减小训练第二网络得到训练好的第二网络,从而完成数据实例所属类别的预估。本发明可以在不影响转移矩阵逼近误差的情况下,减小估计误差,实验证明本发明在标签噪声学习中可以取得优异的性能。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于流形正则化转移矩阵的标签噪声估计方法的流程示意图;

图2是本发明实施例提供的网络模型框架图示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。

如图1所示,本发明提供的一种基于流形正则化转移矩阵的标签噪声估计方法包括:

S1,获取携带标签的数据集;

其中,数据集中包括携带噪声标签的数据实例以及未携带噪声标签的数据实例;

S2,将数据集中的数据实例输入至第一网络中,以使第一网络依次对数据实例进行特征提取以及数据实例分类,得到数据实例所属类别的概率;

参见图2所示,第一网络为第二网络的部分网络,第一网络包括主干神经网络以及分类器,第二网络包括:主干神经网络、转移神经网络以及分类器,主干神经网络的输出分别连接分类器以及转移神经网络的输入。

作为本发明一种可选的实施方式,步骤S2包括:将数据集中的数据实例输入至主干神经网络中,以使主干神经网络对数据集中的数据实例进行特征提取,获得特征向量,并将特征向量输入至分类器中,得到数据实例所属类别的概率。

给定带噪声标签的数据

其中,f(a

S3,根据数据实例所属类别的概率,计算第一网络的损失函数,并向损失函数减少的方向预训练第一网络,得到预训练好的第一网络;

通过最小化经验风险L,即损失函数来预训练第一网络,如下式所示:

其中w是主干神经网络的参数,f(x

S4,将数据集中的数据实例使用蒸馏法进行蒸馏,以蒸馏出干净类的数据实例组成子数据集;

作为本发明一种可选的实施方式,本发明步骤S4包括:

S41:将数据集中的每个数据实例依次输入预训练好的第一网络中,估计每个数据实例所属类别的概率;

S42:判断每个数据实例所属类别的概率与概率阈值的大小,如果大于,则确定该数据实例为不含噪声标签的干净类数据实例;

S43:将干净类的数据实例组成子数据集。

本发明中可以采用Shuo Yang,Erkun Yang,Bo Han,Yang Liu,Min Xu,Gang Niu,and Tongliang Liu.Estimating instance-dependent label-noise transition matrixusing dnns.arXiv preprint arX-iv:2105.13001,2021.中实例蒸馏法来提取可靠的干净实例

S5,将子数据集输入至第二网络中,得到子数据集内的数据实例所属类别的概率以及获得与数据实例相关的转移矩阵;

作为本发明一种可选的实施方式,本发明步骤S5包括:

S51:将子数据集输入至主干神经网络中,以使主干神经网络对子数据集中的数据实例进行特征提取,得到维度与数据实例所属类别数量相同的特征向量;

S52:将特征向量分别输入分类器以及转移网络中,得到分类器输出的子数据集中每个数据实例所属的类别概率,以及转移网络输出的与数据实例相关的转移矩阵。

本发明的第二网络对给定输入实例x及其相应的估计潜在干净标签

将主干神经网络得到的1xC向量输入得到转移神经网络中得到了CxC的转移矩阵T(a),然后主干神经网络通过分类器得到的分类概率p和T(a)相乘,得到了p’用p’和真实噪声标签构建损失函数,通过最小化损失函数进行训练。p是网络得到的标签(本发明认为是正确的),p’是p通过转移矩阵得到的概率标签(本发明认为是有噪声的),有噪声的概率标签和真实噪声标签构造损失函数)

S6,基于将子数据集中数据实例所属类别的概率、转移矩阵以及子数据集中的数据实例标签,得到第二网络的交叉熵损失;

本步骤可以将子数据集中数据实例所属类别的概率与转移矩阵相乘,将相乘结果与子数据集中的数据实例标签进行交叉熵,得到第二网络的交叉熵损失。

S7,基于转移矩阵、已构建的表述数据实例属于相同流形的一致性的关联矩阵、数据实例属于不同流形的惩罚矩阵以及交叉熵损失,计算第二网络的损失函数;

值得说明的是:流形学习通常旨在在潜在的低维特征空间中保留内在的邻近结构。经典的流形学习技术,如Sam T Roweis and Lawrence K Saul.Nonlinear dimensionality reduction by locally linear embedding.science,290(5500):2323–2326,2000,通过合理的假设来估计局部流形。在本专利中,我们采用流形嵌入技术来实现我们提出的实际假设,“同类中的两个实例越近,它们对应的转移矩阵就越相似”,以使IDTM T(x)实际上可学习。通过引入流形正则化,虽然我们没有直接降低T(a)的复杂性,因为我们没有进一步建模,我们仍然有效地降低了线性系统

作为本发明一种可选的实施方式,本发明步骤S7包括:

S71:基于转移矩阵以及已构建的表述数据实例属于相同流形的一致性的关联矩阵,构建第一流形损失;

S72:基于转移矩阵以及已构建的表述数据实例属于不同流形的分散性的惩罚矩阵,构建第二流形损失;

S73:将第一流形损失和第二流形损失作差,得到流形损失;

其中,第一流形损失表示为:

第二流形损失表示为:

其中,

其中,

基于上述,IDTM T(a

L(θ)=L

S74:将流形损失与交叉熵损失求和,作为第二网络的损失函数。

第二网络的损失函数表示为:

L

S8,通过调整损失函数减小训练第二网络得到训练好的第二网络;

S9,使用第二网络预估数据实例所属的类别。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件

本发明是在中央处理器为Inter(R)Core(TM)i7-4790 3.60GHz CPU、NVIDIAGeforce RTX 3090 GPU、Ubuntu 18.04操作系统上,运用美国Facebook公司开源的pytorch1.6进行仿真。数据库使用了四个图像分类数据库F-MNIST,SVHN,CIFAR-10,CIFAR-100。

2.实验中所对比的方法如下:

一是基于高噪声标签对深度神经网络进行稳健训练,实验中记为co-teaching,参考文献:Bo Han,Quanming Yao,Xingrui Yu,Gang Niu,Miao Xu,Weihua Hu,Ivor Tsang,and Masashi Sugiyama.Co-teaching:Robust training of deep neural networks withextremely noisy labels.arXiv preprint arXiv:1804.06872,2018二是基于协议对抗噪声标签的联合训练方法,实验中记为Jocor,参考文献:Hongxin Wei,Lei Feng,XiangyuChen,and Bo An.Combating noisy labels by agreement:A joint training methodwith co-regularization.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition,pages 13726–13735,2020三是基于DNNS的实例相关标签噪声转移矩阵估计,实验中记为TMDNN,参考文献:Shuo Yang,Erkun Yang,Bo Han,YangLiu,Min Xu,Gang Niu,and Tongliang Liu.Estimating instance-dependent label-noise transition matrix using dnns.arXiv preprint arXiv:2105.13001,2021.

3.结果展示

本发明和上述三种方法对比结果,如下表所示:

表1 F-MNIST数据集上实验结果

表2 CIFAR10数据集上实验结果

表3 SVHN数据集上实验结果

表4 CIFAR100数据集上实验结果

本发明基于提出假设:两个实例越接近,它们对应的转移矩阵就越相似,构建了流形正则化从而有效降低T(x)的自由度并使其稳定可估计。大量的实验结果表明,本方法在处理IDN方面优于现有的方法,尤其是在高噪声率下。此外,本方法是一个即插即用模块,有助于改进其他的方法。以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号