法律状态公告日
法律状态信息
法律状态
2023-02-14
实质审查的生效 IPC(主分类):G06V10/80 专利申请号:2022111891517 申请日:20220928
实质审查的生效
2023-01-20
公开
发明专利申请公布
技术领域
本发明属于图像处理技术领域,特别是涉及基于特征金字塔与知识引导的知识蒸馏的图像处理方法。
背景技术
知识蒸馏是当前人工智能在计算机视觉领域最为重要的模型压缩技术攻关之一。相比于低秩分解,权值量化,剪枝等模型压缩方法,知识蒸馏更为简易以及通用,在不改变模型结构的条件下以完成高质量的图像合成效果。近几年人工智能的快速发展使得知识蒸馏技术取得了重大突破,目前通过知识蒸馏的轻量模型已经能够在各个通用数据集上拥有逼近庞大模型的准确度和表现能力,在各个领域都有很好的表现(如分类、目标检测、语义分割等)。随着人工智能2.0时代的到来,计算机视觉被赋予了更多的使命,其中最关键的是让计算机视觉能够更准确的理解人类的主观思想从而更好的服务于人类。在这种环境下,大型计算机视觉任务目前正朝着不断优化的方向去发展,即拥有高计算能力的大型计算机视觉模型能够按照人的意图去实现对应的视觉任务和实际应用。但是在边缘计算,移动计算等方面,无法拥有高计算能力以及无法部署大型计算机视觉的模型,所以知识蒸馏技术对于提高计算机视觉技术的实用性以及推广计算机视觉的应用软件均具有良好的促进作用。此外,知识蒸馏技术也会让计算机视觉领域变得更智慧从而进一步推动了人工智能的发展。
现有的知识蒸馏技术在实际的表现是差强人意的。大多数的知识蒸馏技术还是通过最初的Logits层知识蒸馏技术,通过引入“温度”控制因素,再加上对模型中间层进行蒸馏,即在进行分类任务时,使用交叉熵函数计算模型损失时,在SoftMax函数中加入“温度”控制因素使得模型能够保留更多知识;在模型处理整个图像的过程,通过得到不同阶段的特征图,通过对不同阶段的特征图进行蒸馏;将上述两者合二为一,同时对模型进行蒸馏,使得轻量模型达到更高的准确度。另外有一些知识蒸馏技术在引入了对比学习的技术,如定义锚点,正样本,负样本;通过知识蒸馏的过程,对比锚点与正样本的相似性,对比正样本和负样本的差异性,得到不同的损失函数,将二者合二为一提出噪声对比估计损失函数。但是在以上的方法中,单纯的使用模型处理图像过程中的特征图,会因为轻量模型与重量模型的架构差异与模型能力差异,导致在蒸馏的过程中效果并不良好。另外,通过使用对比学习的蒸馏方法,可以使得模型学习到样本之间的相似性与差异性,但是在小型数据集上,对比学习的方法由于样本数量的不足,无法充分学习,以至于蒸馏的结果很差,在现实生活中的某些特定领域,如医疗,军事,工业等,无法获得大量的学习数据时,对比学习蒸馏方法就不再适用。
发明内容
为了解决上述问题,本发明提出了基于特征金字塔与知识引导的知识蒸馏的图像处理方法,缩小了轻量模型与重量模型的架构差异与模型能力差异,以达到优良的蒸馏结果,增加了模型的鲁棒性,以适用于各种数据集;同时也解决了小样本数据集表现差的问题。
为达到上述目的,本发明采用的技术方案是:基于特征金字塔与知识引导的知识蒸馏的图像处理方法,其特征在于,包括步骤:
S10,将图像分别输入至相互并列的轻量模型和重量模型,分别进行处理得到两个对应的图像处理结果;
S20,将两个图像处理结果通过基于特征金字塔与知识引导的知识蒸馏方法,将不同层次的特征图结合到一起去融合成新的图像;包括步骤:
S201,特征融合蒸馏阶段,基于不同阶段生成的特征图信息构成特征金字塔,并利用知识蒸馏去融合对应的特征图结果;
S202,知识引导修正阶段,使用引导知识技术来纠正特征金字塔融合过程知识的错误差异;
S203,自适应调整阶段,将融合后的特征图进行多维度损失计算,并且在计算损失时,使用自适应匹配的方式设定损失函数的系数。
进一步的是,所述重量模型采用ResNet152模型,所述轻量模型采用Resnet50模型。
进一步的是,在所述步骤S201中,特征融合蒸馏阶段,基于不同阶段生成的特征图信息去融合对应的特征图结果;将轻量模型和重量模型输出的低层纹理信息和高层语义信息融合到一起,同时结合知识蒸馏,将原本直接进行蒸馏的特征图进行特征融合蒸馏。
进一步的是,在轻量模型和重量模型输出融合过程中:使用均方误差MSE作为损失函数,对特征金字塔融合后每对轻量模型和重量模型输出的特征图之间差异进行计算,将所有对的损失函数值,使用SoftMax函数计算相应对的权重Weight[i],并将损失值乘以相应的权重以获得总损失,称为FPLoss;
将特征金字塔后的每一对的特征图放入特征注意力模块中,以获得AT_Weight[i],并使用与FPLoss相同的方法计算权重,获得特征注意力处理后的损失,称为SELoss;
根据FPLoss和SELoss,从而获得特征金字塔蒸馏损失;利用特征金字塔蒸馏损失进行特征融合蒸馏。
进一步的是,所述FPLoss的计算方法:
其中
进一步的是,所述Weight[i]的计算方法为:
进一步的是,所述SELoss的计算方法:
其中
进一步的是,在所述步骤S203中,自适应损失计算阶段,计算融合后的特征图的普通损失、空间和通道维度损失,采用SoftMax函数计算相应对的权重,并将损失值乘以相应的权重以获得总损失,在反向传播的过程中,自动调节损失权重,优化模型学习。
采用本技术方案的有益效果:
本发明利用特征金字塔融合技术去融合模型处理图像的各个阶段对应的特征图,利用知识引导技术用于控制特征金字塔融合图像的错误,空间与通道维度的注意力注意力机制用于控制融合图像的多样性。本发明通过特征金字塔融合技术与知识引导技术,缩小了轻量模型与重量模型的架构差异与模型能力差异,以达到优良的蒸馏结果;通过空间与通道维度的注意力注意力机制,增加了模型的鲁棒性,以适用于各种数据集;同时也解决了同过对比学习方法的知识蒸馏在小样本数据集表现差的问题。因此本发明将实现一种高效,简易且通用的知识蒸馏技术。该技术能够在完全符合各种数据集的情况下知识蒸馏的结果,这对于促进知识蒸馏技术的发展,促进计算机视觉更加智能具有重大作用。
本发明将特征金字塔和知识蒸馏技术相融合,提升知识蒸馏过程中特征图的鲁棒性和普适性;本发明将特征金字塔后特征图,将通道注意力,空间注意力与知识蒸馏融合;本发明使用知识引导技术减小特征金字塔和知识蒸馏融合过程中所产生的错误差异;本发明使用融合特征计算,不同以往的计算logits层与计算特征图层的线性相加;本发明使用混合计算,混合计算通道,空间维度的注意力Loss损失值;本发明使用自适应损失计算,使用自动匹配方式,不用手动设定Loss损失对应系数。
本发明技能够提高图像识别,图像分类的准确度,因为使用特征金字塔技术将知识蒸馏有效的融合参与整个模型处理过程且起到关键的作用,另外知识引导技术减小特征融合过程中所产生的错误差异,这使得图像识别,图像分类的结果能够达到基本预期。如此一来可以提高图像识别,图像分类的实用性以及更好的推广图像识别,图像分类软件。
附图说明
图1为本发明的基于特征金字塔与知识引导的知识蒸馏的图像处理方法流程示意图;
图2为本发明实施例中基于特征金字塔与知识引导的知识蒸馏的图像处理方法的模型原理图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1所示,本发明提出了基于特征金字塔与知识引导的知识蒸馏的图像处理方法,包括步骤:
S10,将图像分别输入至相互并列的轻量模型和重量模型,分别进行处理得到两个对应的图像处理结果;
S20,将两个图像处理结果通过基于特征金字塔与知识引导的知识蒸馏方法,将不同层次的特征图结合到一起去融合成新的图像;包括步骤:
S201,特征融合蒸馏阶段,基于不同阶段生成的特征图信息构成特征金字塔,并利用知识蒸馏去融合对应的特征图结果;
S202,知识引导修正阶段,使用引导知识技术来纠正特征金字塔融合过程知识的错误差异;
S203,自适应调整阶段,将融合后的特征图进行多维度损失计算,并且在计算损失时,使用自适应匹配的方式设定损失函数的系数。
作为上述实施例的优化方案,所述重量模型采用ResNet152模型,所述轻量模型采用Resnet50模型。
作为上述实施例的优化方案,在所述步骤S201中,特征融合蒸馏阶段,基于不同阶段生成的特征图信息去融合对应的特征图结果;将轻量模型和重量模型输出的低层纹理信息和高层语义信息融合到一起,同时结合知识蒸馏,将原本直接进行蒸馏的特征图进行特征融合蒸馏。
如图2所示,在轻量模型和重量模型输出融合过程中:使用均方误差MSE作为损失函数,对特征金字塔融合后每对轻量模型和重量模型输出的特征图之间差异进行计算,将所有对的损失函数值,使用SoftMax函数计算相应对的权重Weight[i],并将损失值乘以相应的权重以获得总损失,称为FPLoss。
其中,FPLoss的计算方法:
其中
Weight[i]的计算方法为:
将特征金字塔后的每一对的特征图放入特征注意力模块中,以获得AT_Weight[i],并使用与FPLoss相同的方法计算权重,获得特征注意力处理后的损失,称为SELoss。
其中,SELoss的计算方法:
其中
根据FPLoss和SELoss,可利用权重系数相加FPLoss和SELoss,从而获得特征金字塔蒸馏损失;利用特征金字塔蒸馏损失进行特征融合蒸馏。
作为上述实施例的优化方案,在所述步骤S203中,自适应损失计算阶段,计算融合后的特征图的普通损失、空间和通道维度损失,采用SoftMax函数计算相应对的权重,并将损失值乘以相应的权重以获得总损失,在反向传播的过程中,自动调节损失权重,优化模型学习。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
机译: 为图像到图像转换保留知识蒸馏的语义关系
机译: 为图像到图像转换保留知识蒸馏的语义关系
机译: 使用图像处理器的知识处理方法