首页> 中国专利> 一种基于批处理知识集成(BAKE)的数据自蒸馏方法

一种基于批处理知识集成(BAKE)的数据自蒸馏方法

摘要

本发明公开了目标检测技术领域,具体的说是一种基于批处理知识集成(BAKE)的数据自蒸馏方法,该数据自蒸馏方法包括以下步骤:S1:给定样本的小批量和训练中的网络,对相似性样本进行储存;S2:避免自我认知强化,对亲和矩阵A进行规范化;S3:对一个批次内的样本进行预测,然后得到产生软学习目标;S4:实现知识的完全融合;与现有的知识集成方法相比,解决了传统知识集成需通过额外的网络或分支进行处理,节省了所需要的计算量和内存开销,将BAKE运用于网络架构中,能够提高它们的分类性能,避免了在处理过程中导致错误的监督。

著录项

说明书

技术领域

本发明涉及目标检测技术领域,具体为一种基于批处理知识集成(BAKE)的数据自蒸馏方法。

背景技术

在目标检测中,有更好的目标生成将会使网络有更好的检测准确性和分类性能,其中知识的集成被证实能够生成更好的软目标,但多个网络的知识集成会带来大的计算量和内存开销,在没有知识集成的情况下,由于网络携带的信息量有限,也就不能生成好的目标,从而限制网络的性能,因此需要开发出一种好的知识集成的数据自蒸馏方法。

而现在的大多数技术人员由于技术的原因,知识集成方法一般是采用多个网络或者多个分支的集成方法,而这些集成的方法还是存在一些问题,第一个问题是技术人员依赖于额外的网络或分支,增加了计算和内存的成本;第二个问题是有些方法只考虑成对的样本和单个样本,因此携带的信息量少,从而可能会导致错误的监督。

针对以上的不足,本发明提供了一种基于批处理知识集成(BAKE)的数据自蒸馏方法,该方法能够在生成更好的软目标的同时,也能节省计算量和内存成本,同时提高了网络的分类性能。

发明内容

本发明的目的在于提供一种基于批处理知识集成(BAKE)的数据自蒸馏方法,以解决上述背景技术中提出的由于技术人员依赖于额外的网络或分支,不能全面的考虑不同类型的样本,从而增加计算和内存的成本以及导致错误的监督。

为实现上述目的,本发明提供如下技术方案一种基于批处理知识集成(BAKE)的数据自蒸馏方法,该数据自蒸馏方法包括以下步骤:

S1:给定样本的小批量和训练中的网络,对相似性样本进行储存;

S2:避免自我认知强化,对亲和矩阵A进行规范化;

S3:对一个批次内的样本进行预测,然后得到产生软学习目标;

S4:实现知识的完全融合,将软目标作为精细化的学习目标。

优选的,所述S1中,所述根据样本的特征相似性在样本之间动态传播和集成知识,给定N个样本的小批量和训练中的网络F。C。

优选的,所述S1中,首先通过样本的编码表示与当前网络的点积来估计样本的成对相似性,这种相似性可以存储在亲和矩阵A∈R

优选的,所述S2中,所述通过A=A*(1-I)丢弃A中的对角线的数值,其中I是一个单位矩阵,*表示按元素的乘法;所述对亲和矩阵A的每一行进行规范化,使得对于所有的i都有

优选的,所述S3中,所述一个批次内的样本的预测概率为P

优选的,所述S3中,所述第i个样本和第j个样本相似且具有较高的亲和度

优选的,所述S4中,所述知识的传播和集成可以进行多次,知道收敛,从实现完全融合,以便于得到更精准的信息。

优选的,所述S4中,对于每一个训练样本,通过集成同一批样本中其他样本的知识来估计其软目标

与现有技术相比,本发明的有益效果是:

1.本发明提供的一种基于批处理知识集成(BAKE)的数据自蒸馏方法,首先通过对样本的特征相似性在样本之间动态传播和集成知识,然后给定N个样本的小批量和训练中的网络F℃,再通过样本的编码表示与当前网络的点积来估计样本的成对相似性,然后对信合矩阵A进行规范化,从而实现了对这种相似性样本进行规范储存,降低了计算和内存的成本,解决了传统知识集成需通过额外的网络或分支进行处理。

2.本发明提供的一种基于批处理知识集成(BAKE)的数据自蒸馏方法,通过对加权传播和集成其他样本的预测,得到一个更精细的软目标,若样本之间的相似具有较高的相似性,可对知识的传播和集成进行多次,直到收敛,从而实现了知识的完全融合,避免了在处理过程中导致错误的监督,解决了传统知识集成在处理时只考虑的成对的样本和单个样本,其分类性能单一,从而导致携带的信息量少。

附图说明

图1为本发明的批处理知识集成(BAKE)的数据自蒸馏方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种基于批处理知识集成(BAKE)的数据自蒸馏方法,该数据自蒸馏方法包括以下步骤:

S1:给定样本的小批量和训练中的网络,对相似性样本进行储存;

S2:避免自我认知强化,对亲和矩阵A进行规范化;

S3:对一个批次内的样本进行预测,然后得到产生软学习目标;

S4:实现知识的完全融合,将软目标作为精细化的学习目标。

所述S1中,所述根据样本的特征相似性在样本之间动态传播和集成知识,给定N个样本的小批量和训练中的网络F。C,通过确定样本的储存位置,以便于下一步操作。

所述S1中,首先通过样本的编码表示与当前网络的点积来估计样本的成对相似性,这种相似性可以存储在亲和矩阵A∈R

所述S2中,所述通过A=A*(1-I)丢弃A中的对角线的数值,其中I是一个单位矩阵,*表示按元素的乘法;所述对亲和矩阵A的每一行进行规范化,使得对于所有的i都有

所述S3中,所述一个批次内的样本的预测概率为P

所述S3中,所述第i个样本和第j个样本相似且具有较高的亲和度

所述S4中,所述知识的传播和集成可以进行多次,知道收敛,从实现完全融合,可通过

所述S4中,对于所有i,

进一步,训练时的细节的设定,进一步地具体的步骤为:

A1:主要在大规模ImageNet-1K上研究BAKE的有效性,BAKE的训练需要三个超参数;在损失函数L

A2:开源代码库的基础上实现我们的BAKE,遵循的大部分训练设置;具体来说,使用SGD作为动量为0.9的优化器,使用标准的增强技术,包括随机裁剪、翻转和光照噪声等;所有图像都被调整到224x224用于训练,256x256用于验证,批次大小设置为512;MobileNet的基础学习率设置为0.05,ResNets系列设置为0.2,EfficientNet设置为0.4;初始学习率通过lr=基础的lr×批次大小/256计算;我们使用余弦时间表和5阶段预热作为学习速率策略,所有实验都在8个GPU上训练100个周期,在训练时采用交叉熵损失训练。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号