首页> 中国专利> 基于多教师的知识蒸馏方法、装置、设备及存储介质

基于多教师的知识蒸馏方法、装置、设备及存储介质

摘要

本申请公开基于多教师的知识蒸馏方法、装置、设备及存储介质,涉及知识蒸馏领域,包括基于目标任务训练目标数量个候选教师模型;基于学生模型的模型精度或模型特征从候选教师模型中选定目标教师模型,并将用于训练的标签数据分别输入到候选教师模型和学生模型,提取教师标签特征和学生标签特征;基于教师标签特征和学生标签特征构建模型损失函数,并通过损失函数对学生模型的梯度参数进行更新,直至满足模型条件时停止知识蒸馏获得目标学生模型。该方案可以融合多教师模型提取特征的能力,得到更全面和准确的学生模型,同时可以大幅缩短模型训练周期和标签数据,提高学生模型的训练效率。

著录项

  • 公开/公告号CN116644798A

    专利类型发明专利

  • 公开/公告日2023-08-25

    原文格式PDF

  • 申请/专利权人 深存科技(无锡)有限公司;

    申请/专利号CN202310783353.2

  • 发明设计人 请求不公布姓名;

    申请日2023-06-29

  • 分类号G06N3/084(2023.01);G06N3/09(2023.01);G06N5/02(2023.01);

  • 代理机构无锡市汇诚永信专利代理事务所(普通合伙) 32260;

  • 代理人曹慧萍

  • 地址 214000 江苏省无锡市新吴区弘毅路10号金乾座401、402室

  • 入库时间 2024-01-17 01:24:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-12

    实质审查的生效 IPC(主分类):G06N 3/084 专利申请号:2023107833532 申请日:20230629

    实质审查的生效

说明书

技术领域

本申请实施例涉及知识蒸馏领域,特别涉及一种基于多教师的知识蒸馏方法、装置、设备及存储介质。

背景技术

知识蒸馏技术是一种用于将大型神经网络的知识压缩到小型网络中的方法,以减少计算和存储资源的需求,同时保持模型性能的方法。这种技术可以通过两个步骤来完成。首先,利用一个大型的神经网络(通常称为“teacher教师网络”)对数据进行训练,然后,将其知识转移到一个较小的神经网络(通常称为“student学生网络”)中,使其能够获得与教师网络相同或相似的性能。知识蒸馏技术的优点是可以显著减少模型的大小和计算资源的需求,同时还可以提高模型的鲁棒性和泛化能力。

然而,现阶段的知识蒸馏方法,蒸馏技术的效果高度依赖于教师网络的性能,如果教师网络的性能较差,那么学生网络可能无法获得良好的性能。而且,对于大型和复杂的教师模型,学生模型要获得相对较高的性能需要进行大量的模型迭代训练次数,且训练后学生模型的稳定性和鲁棒性能都相对较差。

发明内容

本申请实施例提供一种基于多教师的知识蒸馏方法、装置、设备及存储介质,解决单教师知识蒸馏训练周期过长、学生模型稳定性和鲁棒性较差的问题。

一方面,本申请提供一种基于多教师的知识蒸馏方法,包括:

S1,基于目标任务训练目标数量个候选教师模型,且不同的所述候选教师模型分别根据设定的模型精度和模型特征训练生成;

S2,基于所述学生模型的模型精度或模型特征从所述候选教师模型中选定目标教师模型,并将用于训练的标签数据分别输入到所述候选教师模型和所述学生模型,提取教师标签特征和学生标签特征;

S3,基于所述教师标签特征和所述学生标签特征构建模型损失函数,并通过所述损失函数对所述学生模型的梯度参数进行更新,直至满足模型条件时停止知识蒸馏获得目标学生模型。

具体的,当所述候选教师模型基于模型精度训练生成时,根据所述候选教师模型的精度大小将模型分类为第一教师模型至第n教师模型;其中,n为候选教师模型的模型数量;

当所述候选教师模型基于模型特征训练生成时,将所述候选教师模型根据模型特征分类为第一教师模型至第m教师模型;其中,m为执行目标任务时所需提取的特征类型数目,且m个教师模型分别用于提取不同类型的标签特征。

具体的,当所述候选教师模型基于模型精度训练生成时,S2包括:

获取所述学生模型当前的学生模型精度,并基于所述学生模型精度将第i教师模型确定为所述目标教师模型;i是1至n之间的正整数;

将标签数据分别输入到所述目标教师模型和所述学生模型中,通过所述第i教师模型提取获得第i教师标签特征,以及通过所述学生模型提取获得第i学生标签特征。

具体的,当所述候选教师模型基于模型特征训练生成时,S2包括:

将标签数据分别输入所述学生模型和m个所述候选教师模型,并分别以第j类特征作为第j教师模型和所述学生模型的目标特征,提取获得m个教师标签特征和m个学生标签特征;j是1至m之间的正整数,对应第j类标签特征。

具体的,当所述候选教师模型基于模型精度训练生成时,S3包括:

基于所述第i教师标签特征和第i学生标签特征构建第一目标损失函数L

其中,n是特征类别数量,p

基于所述第一目标损失函数更新所述学生模型的梯度参数,并进行模型迭代训练;

当所述第一目标损失函数的损失值达到所述第i教师模型损失值的设定范围时,将第i+1教师模型确定为所述目标教师模型,并继续执行数据标签数据提取第i+1教师标签特征和第i+1学生标签特征的步骤,直至满足模型条件时停止知识蒸馏,获得所述目标学生模型。

具体的,当所述候选教师模型基于模型精度训练生成时,S3包括:

基于所述学生模型的m类标签特征和m个所述候选教师模型对应的m类教师标签特征,构建出所述学生模型的第二目标损失函数L

其中,其中,

基于所述第二目标损失函数更新所述学生模型的梯度参数,并进行模型迭代训练;

当所述第二目标损失函数的损失值达到损失阈值,或达到设定迭代次数时停止知识蒸馏,获得所述目标学生模型。

具体的,梯度参数θ的更新过程包括:

其中,其中,θ

另一方面,本申请提供一种基于多教师的知识蒸馏装置,所述装置包括:

教师模型训练模块,用于基于目标任务训练目标数量个候选教师模型,且不同的所述候选教师模型分别根据设定的模型精度和模型特征训练生成;

特征提取模块,用于基于所述学生模型的模型精度或模型特征从所述候选教师模型中选定目标教师模型,并将用于训练的标签数据分别输入到所述候选教师模型和所述学生模型,提取教师标签特征和学生标签特征;

模型训练模块,用于基于所述教师标签特征和所述学生标签特征构建模型损失函数,并通过所述损失函数对所述学生模型的梯度参数进行更新,直至满足模型条件时停止知识蒸馏获得目标学生模型。

又一方面,本申请提供一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一方面所述的基于多教师的知识蒸馏方法。

又一方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一方面所述的基于多教师的知识蒸馏方法。

另一方面,本申请提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得所述计算机设备执行上述任一方面所述的基于多教师的知识蒸馏方法。

本申请实施例提供的技术方案带来的有益效果至少包括:将多个教师网络的知识进行融合,获取不同教师网络捕捉不同特征的特点,得到更全面和准确的学生模型;在学生模型遇到不同的数据时能够更好地适应和处理,更好地避免过拟合现象,所以相对单教师知识蒸馏而言可以提高鲁棒性和模型泛化能力,减少单个教师网络的偏差和错误概率。此外,将教师模型按照精度梯度进行分类并进行知识蒸馏,可以大幅缩短模型训练周期和标签数据,提高学生模型的训练效率。

附图说明

图1是本申请实施例提供的基于多教师的知识蒸馏方法的流程图;

图2是以模型精度分类的多教师知识蒸馏的结构示意图;

图3基于模型精度的多教师知识蒸馏训的流程示意图;

图4是以模型特征分类的多教师知识蒸馏的结构示意图;

图5是基于模型特征的多教师知识蒸馏训的流程示意图;

图6是本申请实施例提供的基于多教师的知识蒸馏装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

图1是本申请实施例提供的基于多教师的知识蒸馏方法的流程图,包括如下步骤:

S1,基于目标任务训练目标数量个候选教师模型,且不同的候选教师模型分别根据设定的模型精度和模型特征训练生成。

因为大型神经网络模型所占用的存储空间较大,不利于一些轻便型和嵌入式设备使用,所以就需要通过知识蒸馏的方式将teacher教师模型精简化成为student学生模型。本申请实施例中的候选教师模型的目标数量是根据选定的目标任务而设定,且蒸馏模型采用离线模型进行,所为离线模型是指在特定的数据集上已经提前训练好了多个阶段的高精度模型。单教师知识蒸馏相比多教师蒸馏在训练过程虽然存着实现简单和计算效率,显存占用率低等资源优势,但也存在着视角单一、过拟合风险、模型性能限制等缺点。因为多教师模型的目的是为了更好的训练学生模型进行知识蒸馏,从而克服单教师知识蒸馏的缺点,即仅仅依赖单个模型的学习视角和特征表示能力,无法获得更广泛的知识和特征表达,同时多个教师模型的输出概率分布、标签可以从多视觉验证学生和老师们的一致性,减少模型之间的差异和过拟合的风险。此外,如果单个教师模型本身的性能不高,那么学生模型的性能也可能受到限制,相比之下,多个教师模型蒸馏可以通过融合多个教师模型的知识来提高模型的性能和泛化能力。虽然多教师模型蒸馏可以提供更丰富的知识和改善的性能,但训练过程需要更多的计算和存储资源,在资源不受限的情况下是一个很好的选择。而教师模型的选取需要结合学生模型具体实现的功能(即目标任务)决定,所以不同候选教师模型之间可以根据模型精度分类,或针对模型提取的特征分类。

多教师模型方法在理论上类似深度学习优化策略中的指数移动平均方法EMA,EMA方法在梯度计算的过程中选取某一个时段前几轮epoch的模型来平滑当前的参数的变化,来提高模型的稳定性,缺点在于非常依赖前面几次的结果,如果前面训练存在问题,会导致模型朝着不理想的趋势发展,会影响后面的结果,而这些离线教师模型本身存在着参数量大,学习能力强等优点,且都是提前训练好的,已经经过人工挑选最优的模型。相比EMA方法在多个阶段可以得到精度更高和稳定性更好的老师进行指导,同时也可以选择相似的网络结构进行蒸馏,教师模型和学生模型在结构上相似时,可以提供更有效的知识传递、增强模型的泛化能力、减少过拟合、减少调参工作量等优势。

根据目标任务可以将神经网络模型划分为分类模型和检测模型,分类模型可以是多分类模型,例如单分类、二分类及多分类检测模型等,其专注于对输入数据进行分类输出,此类模型需要根据输入的数据提取特征信息进行分类。而检测模型根据输入图像提取特征进行分类后还需要进行回归,获得坐标信息,例如人脸检测、物体检测等模型,此类模型训练过程中,分类根据预测框和真实框IOU交并比进行分类。

S2,基于学生模型的模型精度或模型特征从候选教师模型中选定目标教师模型,并将用于训练的标签数据分别输入到候选教师模型和学生模型,提取教师标签特征和学生标签特征。

学生模型使用教师模型生成的标签或概率分布作为学生模型的目标,使用蒸馏损失函数,如KL散度损失,比较学生模型和教师模型输出概率分布的相似性,计算误差。获得误差后,学生模型的参数通过反向传播算法进行训练和优化以最小化监督学习损失和蒸馏损失函数,常用的优化算法如随机梯度下降SGD或者自适应优化算法如Adam。

在根据目标任务选定若干个候选教师模型后,具体根据模型精度或模型特征从候选教师模型中选定目标教师模型。针对不同的目标任务,所选定目标教师模型的数量也各不相同。

对于以模型精度作为评价指标而选取目标教师模型的数量是唯一的,基于该唯一选定的目标教师模型,分别将用于模型训练的标签数据输入到目标教师模型和学生模型中,提取教师标签特征和学生标签特征。

以提取的模型特征作为评价指标而选取目标教师模型的数量是不唯一的,也就是一次至少选取两个候选教师模型作为目标教师模型进行模型训练。将标签数据分别输入到各个教师模型和学生模型中,提取教师标签特征和学生标签特征。

S3,基于教师标签特征和学生标签特征构建模型损失函数,并通过损失函数对学生模型的梯度参数进行更新,直至满足模型条件时停止知识蒸馏获得目标学生模型。

基于选定的目标教师模型提取到教师标签特征和学生标签特征后,既可构建和计算对应的目标损失函数,并根据损失值对学生模型的梯度参数进行迭代更新。迭代更新过程需要所有候选教师模型对学生模型进行知识蒸馏,直至学生模型满足模型条件时停止,获得目标学生模型。

经过上述的多教师网络模型进行的知识蒸馏,可以将多个教师网络的知识进行融合,获取不同教师网络捕捉不同特征的特点,得到更全面和准确的学生模型;在学生模型遇到不同的数据时能够更好地适应和处理,更好地避免过拟合现象,所以相对单教师知识蒸馏而言可以提高鲁棒性和模型泛化能力,减少单个教师网络的偏差和错误概率。此外,将教师模型按照精度梯度进行分类并进行知识蒸馏,可以大幅缩短模型训练周期和标签数据,提高学生模型的训练效率和泛化能力。

以下分别以模型精度和模型特征两个方面对方案进行详述。

图2是以模型精度分类的多教师知识蒸馏的结构示意图,和学生模型连接的n个候选教师模型对应不同的模型精度。当目标数量的候选教师模型基于模型精度训练生成时,参考图3示出的基于模型精度的多教师知识蒸馏训的流程示意图,具体包括如下步骤:

步骤301,当候选教师模型基于模型精度训练生成时,根据候选教师模型的精度大小将模型分类为第一教师模型至第n教师模型。

如图2内容所示,n个候选教师模型是针对同一(非分类检测)训练目标训练获得的,且具有不同模型精度,且这n个候选教师模型按照根据精度从小到大分为第一教师模型、第二教师模型至第n教师模型。

步骤302,获取学生模型当前的学生模型精度,并基于学生模型精度将第i教师模型确定为目标教师模型。

因为候选教师模型的精度是升序排列的,所以在对学生模型进行知识蒸馏时,按照精度大小依次进行训练。在执行的任意周期,都需要获取学生模型当前的精度,基于精度大小选取最接近的第i教师模型,将其确定为目标教师模型。本方案中,模型精度大小和模型损失函数的损失值呈正相关,也即根据损失值大小选取目标教师模型。其中的i是1至n之间的正整数。

步骤303,将标签数据分别输入到目标教师模型和学生模型中,通过第i教师模型提取获得第i教师标签特征,以及通过学生模型提取获得第i学生标签特征。

以精度作为评价指标的检测模型不需要考虑多个特征或单个特征的问题,所以所有候选教师针对的是同一特征模型,选取的目标教师模型也是唯一的。训练过程分别将标签数据输入到教师和学生模型中,分别提取获得第i教师模型的第i教师标签特征,以及学生模型的第i学生标签特征。此处的第i学生/教师标签特征是对应模型根据神经网络结构能够提取到的所有特征。例如,行人检测模型,只要输入人体图像后提取人体特征,对其进行加框处理。

步骤304,基于第i教师标签特征和第i学生标签特征构建第一目标损失函数L

在多教师知识蒸馏模型中,学生模型的损失函数通常由两部分组成,第一目标损失和第二目标损失。而针对模型精度分类的知识蒸馏模型中,选用第一目标损失函数作为学生模型的损失函数,其代表的是学生模型与单个目标教师模型之间的交叉熵损失。第一目标损失函数用于训练学生模型,使其与单个教师网络具有相似的预测结果。

在一种可能的实施方式中,学生模型和目标教师模型根据标签数据的预测值和真实值确定出损失函数L

其中的n是特征类别数量,p

步骤305,基于第一目标损失函数更新学生模型的梯度参数,并进行模型迭代训练。

对于未训练完成的学生模型,其第一目标损失函数L

在一种可能的实施方式中,梯度参数θ的更新过程包括如下:

其中,θ

步骤306,当第一目标损失函数的损失值达到第i教师模型损失值的设定范围时,将第i+1教师模型确定为目标教师模型,并继续执行数据标签数据提取第i+1教师标签特征和第i+1学生标签特征的步骤,直至满足模型条件时停止知识蒸馏,获得目标学生模型。

参考图2所示,当学生模型进行若干次迭代训练后,其梯度逐渐下降,第一目标损失函数的损失值达到目标师模型损失值的预设范围,例如精度第i教师模型精度的80%以上,则切换下一教师模型,也就是将第i+1教师模型作为目标教师模型,继续进行知识蒸馏。

当切换到最后一个精度最高的第n教师模型后,且将学生模型的精度训练到规定的预设范围后,停止知识蒸馏。或者在学生模型在最基于高模型精度的教师模型迭代训练次数达到设定值后,停止知识蒸馏,得到目标学生模型。

这种基于根据模型精度逐级切换目标教师模型的方式,学生模型知识蒸馏的精度差相差较小,更容易获取到教师模型的能力,且学习率也相对更高,最终通过跳跃式知识蒸馏的方法可以将学生模型精度训练到目标任务的设定范围,相对单教师的训练周期更短,效率也更高。

图4是以模型特征分类的多教师知识蒸馏的结构示意图,和学生模型连接的m个候选教师模型对应不同的模型特征。当目标数量的候选教师模型基于模型特征训练生成时,参考图5示出的基于模型特征的多教师知识蒸馏训的流程示意图,具体包括如下步骤:

步骤501,当候选教师模型基于模型特征训练生成时,将候选教师模型根据模型特征分类为第一教师模型至第m教师模型。

此处的m个教师模型是根据目标任务所需执行的任务决定,二分类模型就需要2个教师模型,m分类模型对应需要m教师模型,且每个教师模型分别用于提取和识别该类型的特征。其中,m为执行目标任务时所需提取的特征类型数目,且m个教师模型分别用于提取不同类型的标签特征。

例如物体识别模型,第一教师模型专门用于识别小狗,第二教师模型专门用于识别人类,第三教师模型专门用于识别车辆。对于输入的一张图像,三个教师模型分别根据自身的网络结构提取其中的“小狗”标签特征,“人类”标签特征和“车辆”标签特征。此处需要注意的是,这种以特征分类的多教师模型多发生于多个单目标或多目标网络模型融合的场景。

步骤502,将标签数据分别输入学生模型和m个候选教师模型,并分别以第j类特征作为第j教师模型和学生模型的目标特征,提取获得m个教师标签特征和m个学生标签特征。

以特征分类的多教师知识蒸馏,目的是获取不同教师模型“最擅长”的能力,因而选定的目标教师往往是多个。本申请以m个教师模型中都具有一个“最擅长”的能力供学生模型学习进行说明,这样学生模型每次都会选定所有的(m个)候选教师模型作为目标教师模型。

m个教师模型都输入对应的标签数据,且输入教师模型的标签数据中必须包含有该教师模型所能识别的特征数据,而不同教师模型可以输入不同的标签数据。例如在第一教师模型中输入包含小狗的图片,同理在学生模型中必须输入同样的图像,以实现反向传播;第二教师模型输入包含人类的图像,学生模型中则输入同样图像,依次类推。这种以特征分类的学习过程不区分先后,也就是同时进行蒸馏学习。对于一个训练周期来说,每个教师模型都基于各自的特征提取能力从标签数据中获取到对应的教师标签特征;而学生模型则共计提取了m次,分别是以m个模型特征提的m个不同的学生标签特征,根据特征完成该分类下的模型预测。

需要说明的是,还可能存在一个教师模型同时具有两个不同模型特征提取能力,这样学生模型就需要提取两种特征,本申请不对具体特征提取数量进行限定,其余形式均在本申请的限定范围内,不进行过多赘述。

步骤503,基于学生模型的m类标签特征和m个候选教师模型对应的m类教师标签特征,构建出学生模型的第二目标损失函数L

与精度分类预测不同的是,由于是多个教师模型同时参数知识蒸馏,所以学生模型有多个head与多个教师模型之间同时计算第二目标损失函数L

其中,

特别的,对于目标检测网络,还存在目标框损失,则第二目标损失函数还可以进一步表示如下:

其中,reg代表目标框损失,

步骤504,基于第二目标损失函数更新学生模型的梯度参数,并进行模型迭代训练。

此步骤主要基于模型学习率,第二目标损失函数和前一周期梯度参数在时间上的微分值,更新下一周期的梯度参数,公式可参考步骤306,此处不再赘述。

步骤505,当第二目标损失函数的损失值达到损失阈值,或达到设定迭代次数时停止知识蒸馏,获得目标学生模型。

与精度切换不同的是,此处的软目标函数损失值是学生模型基于所有模型特征预测的累加和,在累加和的损失值降低到设定的损失阈值后,或者是达到设定的迭代次数时停止知识蒸馏,获得目标学生模型。

这种以模型特征进行的多教师知识蒸馏,可以有针对的将不同教师模型最擅长的数据提取分析能力最大限度的蒸馏到学生模型上,实现多特征融合。而无需单独进行多次单教师知识蒸馏,其训练次数大幅减少,且融合了多个教师模型的能力。

在另一种可能的实施方式中,还可以根据多特征之间的预测效果,为组成知识蒸馏的每个独立子损失设置损失权重,表示如下:

其中的α

在另一些实施例中,步骤304中,还可以根据第i教师标签特征和第i学生标签特征构建两个模型散度损失函数L

表示如下:

其中,p和q是概率分布函数,p代表教师模型预测结果概率分布,q代表学生模型预测结果概率分布。

在后续步骤中,使用该散度损失函数更新学生模型的梯度参数,并进行模型迭代训练,在梯度参数θ的更新过程中L表示为此处的散度损失值L

基于散度的设计方案,在步骤503中,基于学生模型的m类标签特征和m个候选教师模型对应的m类教师标签特征,构建出学生模型的损失函数L

与精度分类预测不同的是,由于是多个教师模型同时参数知识蒸馏,所以学生模型有多个head与多个教师模型之间同时计算KL散度损失,公式可参考步骤304,用于训练学生模型主干网络,使其能够从多个教师模型中学习更全面和准确的知识。

与精度分类预测不同的是,由于是多个教师模型同时参数知识蒸馏,所以学生模型有多个head与多个教师模型之间同时计算KL散度损失,公式可参考步骤304,用于训练学生模型主干网络,使其能够从多个教师模型中学习更全面和准确的知识。之后再根据其散度损失函数更新学生模型的梯度参数,并进行模型迭代训练。

图6是本申请实施例提供的基于多教师的知识蒸馏装置的结构示意图,所述装置包括:

教师模型训练模块601,用于基于目标任务训练目标数量个候选教师模型,且不同的所述候选教师模型分别根据设定的模型精度和模型特征训练生成;

特征提取模块602,用于基于所述学生模型的模型精度或模型特征从所述候选教师模型中选定目标教师模型,并将用于训练的标签数据分别输入到所述候选教师模型和所述学生模型,提取教师标签特征和学生标签特征;

模型训练模块603,用于基于所述教师标签特征和所述学生标签特征构建模型损失函数,并通过所述损失函数对所述学生模型的梯度参数进行更新,直至满足模型条件时停止知识蒸馏获得目标学生模型。

本申请还提供一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述各方面所述的基于多教师的知识蒸馏方法。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述各方面所述的基于多教师的知识蒸馏方法。

本申请还提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得所述计算机设备执行上述各方面所述的基于多教师的知识蒸馏方法。

以上对本发明的较佳实施例进行了描述;需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容;因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号