法律状态公告日
法律状态信息
法律状态
2023-01-31
公开
发明专利申请公布
技术领域
本发明涉及计算机图像分类方法,具体的说是一种基于歧视增强的开集增量 图像分类方法。
背景技术
通过一系列复杂的神经认知机制调节,人类和动物有能力随着时间的推移不 断的学习新的知识和技能。近年来,深度神经网络在计算机视觉应用中取得了显 著的成就。然而在现实视觉图像分类应用问题中,由于任务的复杂性限制,深度 神经网络往往需要从流数据中不断地学习新的类别,并且尽量不遗忘旧的类别, 这被称之为多类别增量学习。
为了实现这一目标,标准的深度学习方法是通过修改模型中全连接层输出节 点的数量,并利用微调的方式修改新数据上的旧模型。由于我们只在新增的数据 上重新训练模型,这种天真的方法会使新模型遭受几乎完全忘记旧类别知识的严 重问题,我们称之为灾难性遗忘。从理论上,深度增量学习的灾难性遗忘问题几 乎不可能被完全解决。目前灾难性遗忘的主要原因包含权重漂移,为了减轻灾难 性遗忘问题,学者们已经做了许多研究。知识蒸馏的方法已被广泛用于解决灾难 性遗忘。参数控制策略也试图解决这一问题,并获得了一定的成效。最新的研究 结果表明,遵循排练策略的增量学习,即在增量训练的过程中使用少量的真实或 生成的旧数据,效果往往比非排练策略的增量学习更佳。然而,在现实涉密的应 用环境中,存储旧类别的数据是一项十分复杂且内存昂贵的任务,在将分类对象 模型交付给最终用户时,由于某些特殊的原因,训练数据往往被保密,在没有旧 类别训练数据的情况下,最终用户无法通过更新训练模型以合并新增的目标类别。
为什么在没有旧数据的时候多类别增量学习会更有挑战性?我们认为这是 由于两个因素的耦合。首先是训练数据不平衡,其次是没有旧样例集的加入,增 量后模型缺少恢复记忆的过程,导致模型会遗忘的更多!同时,由于某些特殊的 限制,例如设备内存大小,涉密数据集等,无需旧类别的增量学习算法往往更加 实用。因此,亟需一种能够提高无任何旧数据加入的增量学习分类准确率的方法, 来处理现阶段增量学习识别准确率低的问题。
发明内容
本发明所要解决的技术问题是:提供一种基于歧视增强的开集增量图像分类 方法。
解决上述技术问题,本发明所采用的技术方案如下:
一种基于歧视增强的开集增量图像分类方法,其特征在于,包括:在每次进 行图像分类类别的增量时,按照包含步骤S1和步骤S2的训练阶段进行模型训 练,以及,在第i次增量之后至第i+1次增量之前的期间,按照包含步骤S3至 步骤S5的应用阶段对目标图像数据x进行分类;
步骤S1、获取能够对归类于原始类别的图像数据进行正确分类的原始图像 分类模型Model’,其中,该原始图像分类模型Model'通过用归类于所述原始类 别的原始类别训练数据对神经网络模型Model进行训练得到,所述原始类别属 于所述图像数据的图像分类类别,所述原始类别的数量不限;
步骤S2、当所述图像数据的图像分类类别进行第i次增量时,进行重新训练, 以得到能够对归类于第i次新增类别的图像数据进行正确分类的第i次新增类别 图像分类模型ModelA_i,并且,进行增量学习,以得到能够对归类于旧类别和 第i次新增类别的图像数据进行分类的第i次增量学习图像分类模型ModelB_i; 其中,所述第i次新增类别为所述第i次增量所新增的图像分类类别,当i=1也 即第1次增量时,所述旧类别即为所述原始类别,当i≥2时,所述旧类别为所 述原始类别和第1次增量至第i-1次增量所新增的图像分类类别的合集;
举例来说:假设步骤S1所述原始图像分类模型Model'能够对200类图像数 据进行正确分类,步骤S2先后对图像分类类别进行了5次增量,每次增量所新 增的图像分类类别均为20类,则:在第1次增量时,所述旧类别的数量m为200 类,第1次新增类别的数量n为20类;在第2次增量时,所述旧类别的数量m 为220类,第2次新增类别的数量n为20类;在第3次增量时,所述旧类别的 数量m为240类,第3次新增类别的数量n为20类。
步骤S3、利用开集识别算法,判断目标图像数据x归类于所述旧类别,还 是归类于所述第i次新增类别;
步骤S4、利用歧视增强方法对所述第i次增量学习图像分类模型ModelB_i 的全连接层参数进行修改,以将所述第i次增量学习图像分类模型ModelB_i的 输出逻辑分别修改为:用于旧类别图像数据的旧类别输出逻辑
步骤S5、当所述步骤S3判断目标图像数据x归类于所述旧类别时,采用步 骤S4所述旧类别输出逻辑
当所述步骤S3判断目标图像数据x归类于所述第i次新增类别时,采用步 骤S4所述新增类别输出逻辑
其中,所述步骤S2中,按步骤S2A进行所述重新训练,按步骤S2B进行所 述增量学习:
步骤S2A、用归类于所述第i次新增类别的第i次新增类别训练数据对所述 神经网络模型Model进行训练,得到所述第i次新增类别图像分类模型ModelA_i;
步骤S2B、基于基准增量学习算法,用归类于所述第i次新增类别的第i次 新增类别训练数据以及总损失函数Loss对第i-1次增量学习图像分类模型 ModelB_i-1进行训练,得到所述第i次增量学习图像分类模型ModelB_i;其中, 当i=1时,所述第i-1次增量学习图像分类模型ModelB_i-1为步骤S1所述原始 图像分类模型Model’;所述总损失函数Loss=αLoss_D+βLoss_CE,Loss_D表 示蒸馏损失函数,Loss_CE表示交叉熵损失函数,a和β为预设的变量参数,通 常情况下α=β=1。
其中,所述蒸馏损失函数Loss_D用于使增量后得模型尽可能保存旧类别的 知识,所述交叉熵损失函数Loss_CE作为分类损失。
上述蒸馏损失函数Loss_D表示如下:
式中,
上述交叉熵损失函数Loss_CE表示如下:
式中,δ
其中,所述步骤S3的具体步骤包括:
步骤S3-1、用所述第i次新增类别图像分类模型ModelA_i对目标图像数据 x进行处理,得到所述第i次新增类别图像分类模型ModelA_i的输出逻辑
步骤S3-2、用开集识别算法对步骤S3-1所述输出逻辑
步骤S3-3、如果满足max(soft max(o
其中,所述步骤S4的具体步骤包括:
步骤S4-1、将步骤S2所述第i次增量学习图像分类模型ModelB_i的输出逻 辑o
式中,o
Model
W
w
步骤S4-2、用旧类别全连接层权重Model
式中,μ为预设的取值范围在0.85至0.95之间的正数系数,以μ=0.9的实 验效果最佳。
也即:
Model
从而,本发明在每次进行图像分类类别的增量时,仅使用最新的新增类别图 像数据(也即归类于所述第i次新增类别的第i次新增类别训练数据),而无需使 用旧类别图像数据(也即原始类别和第1次增量至第i-1次增量所新增的图像分 类类别),进行模型训练得到能够对归类于第i次新增类别的图像数据进行正确 分类的第i次新增类别图像分类模型ModelA_i,以及能够对归类于旧类别和第i 次新增类别的图像数据进行分类的第i次增量学习图像分类模型ModelB_i;并在 对目标图像数据x进行分类时,结合开集识别算法和歧视增强方法,采用旧类别 输出逻辑
由此可知,本发明特别适用于无法获得步骤S1所述原始类别训练数据的现 实涉密应用场景
优选的:所述步骤S1中,所述原始图像分类模型Model’的训练采用交叉熵 损失函数;所述步骤S2中,所述第i次新增类别图像分类模型ModelA_i的训练 采用交叉熵损失函数。
优选的:所述步骤S1中,使用32层的ResNet模型作为所述神经网络模型 Model,设置超参数批大小设为128;学习速率从0.1开始,分别在第70、140、 210次迭代时按照0.1的速率进行衰减,即在第70、140、210次迭代时时学习速 率分别为0.01,0.001,0.0001。
与现有技术相比,本发明具有以下有益效果:
本发明在每次进行图像分类类别的增量时,仅使用最新的新增类别图像数据 (也即归类于所述第i次新增类别的第i次新增类别训练数据),而无需使用旧类 别图像数据(也即原始类别和第1次增量至第i-1次增量所新增的图像分类类别), 进行模型训练得到能够对归类于第i次新增类别的图像数据进行正确分类的第i 次新增类别图像分类模型ModelA_i,以及能够对归类于旧类别和第i次新增类 别的图像数据进行分类的第i次增量学习图像分类模型ModelB_i;并在对目标图 像数据x进行分类时,结合开集识别算法和歧视增强方法,采用旧类别输出逻辑
由此可知,本发明特别适用于无法获得步骤S1所述原始类别训练数据的现 实涉密应用场景
附图说明
下面结合附图和具体实施例对本发明作进一步的详细说明:
图1为本发明的开集增量图像分类方法的流程框图。
具体实施方式
下面结合实施例及其附图对本发明进行详细说明,以帮助本领域的技术人员 更好的理解本发明的发明构思,但本发明权利要求的保护范围不限于下述实施例, 对本领域的技术人员来说,在不脱离本发明之发明构思的前提下,没有做出创造 性劳动所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明公开的是一种基于歧视增强的开集增量图像分类方法, 包括:在每次进行图像分类类别的增量时,按照包含步骤S1和步骤S2的训练 阶段进行模型训练,以及,在第i次增量之后至第i+1次增量之前的期间,按照 包含步骤S3至步骤S5的应用阶段对目标图像数据x进行分类;
步骤S1、获取能够对归类于原始类别的图像数据进行正确分类的原始图像 分类模型Model’,其中,该原始图像分类模型Model'通过用归类于所述原始类 别的原始类别训练数据对神经网络模型Model进行训练得到,所述原始类别属 于所述图像数据的图像分类类别,所述原始类别的数量不限;
步骤S2、当所述图像数据的图像分类类别进行第i次增量时,进行重新训练, 以得到能够对归类于第i次新增类别的图像数据进行正确分类的第i次新增类别 图像分类模型ModelA_i,并且,进行增量学习,以得到能够对归类于旧类别和 第i次新增类别的图像数据进行分类的第i次增量学习图像分类模型ModelB_i; 其中,所述第i次新增类别为所述第i次增量所新增的图像分类类别,当i=1也 即第1次增量时,所述旧类别即为所述原始类别,当i≥2时,所述旧类别为所 述原始类别和第1次增量至第i-1次增量所新增的图像分类类别的合集;
举例来说:假设步骤S1所述原始图像分类模型Model'能够对200类图像数 据进行正确分类,步骤S2先后对图像分类类别进行了5次增量,每次增量所新 增的图像分类类别均为20类,则:在第1次增量时,所述旧类别的数量m为200 类,第1次新增类别的数量n为20类;在第2次增量时,所述旧类别的数量m 为220类,第2次新增类别的数量n为20类;在第3次增量时,所述旧类别的 数量m为240类,第3次新增类别的数量n为20类。
其中,所述步骤S2中,按步骤S2A进行所述重新训练,按步骤S2B进行所 述增量学习:
步骤S2A、用归类于所述第i次新增类别的第i次新增类别训练数据对所述 神经网络模型Model进行训练,得到所述第i次新增类别图像分类模型ModelA_i;
步骤S2B、基于基准增量学习算法,用归类于所述第i次新增类别的第i次 新增类别训练数据以及总损失函数Loss对第i-1次增量学习图像分类模型 ModelB_i-1进行训练,得到所述第i次增量学习图像分类模型ModelB_i;其中, 当i=1时,所述第i-1次增量学习图像分类模型ModelB_i-1为步骤S1所述原始 图像分类模型Model’;所述总损失函数Loss=αLoss_D+βLoss_CE,Loss_D表 示蒸馏损失函数,Loss_CE表示交叉熵损失函数,α和β为预设的变量参数,通 常情况下α=β=1。
其中,所述蒸馏损失函数Loss_D用于使增量后得模型尽可能保存旧类别的 知识,所述交叉熵损失函数Loss_CE作为分类损失。
上述蒸馏损失函数Loss_D表示如下:
式中,
上述交叉熵损失函数Loss_CE表示如下:
式中,δ
步骤S3、利用开集识别算法,判断目标图像数据x归类于所述旧类别,还 是归类于所述第i次新增类别;
其中,所述步骤S3的具体步骤包括:
步骤S3-1、用所述第i次新增类别图像分类模型ModelA_i对目标图像数据 x进行处理,得到所述第i次新增类别图像分类模型ModelA_i的输出逻辑
步骤S3-2、用开集识别算法对步骤S3-l所述输出逻辑
步骤S3-3、如果满足max(soft max(o
步骤S4、利用歧视增强方法对所述第i次增量学习图像分类模型ModelB_i 的全连接层参数进行修改,以将所述第i次增量学习图像分类模型ModelB_i的 输出逻辑分别修改为:用于旧类别图像数据的旧类别输出逻辑
其中,所述步骤S4的具体步骤包括:
步骤S4-1、将步骤S2所述第i次增量学习图像分类模型ModelB_i的输出逻 辑o
式中,o
Model
W
w
步骤S4-2、用旧类别全连接层权重Model
式中,μ为预设的取值范围在0.85至0.95之间的正数系数,以μ=0.9的实 验效果最佳。
也即:
Model
步骤S5、当所述步骤S3判断目标图像数据x归类于所述旧类别时,采用步 骤S4所述旧类别输出逻辑
当所述步骤S3判断目标图像数据x归类于所述第i次新增类别时,采用步 骤S4所述新增类别输出逻辑
从而,本发明在每次进行图像分类类别的增量时,仅使用最新的新增类别图 像数据(也即归类于所述第i次新增类别的第i次新增类别训练数据),而无需使 用旧类别图像数据(也即原始类别和第1次增量至第i-1次增量所新增的图像分 类类别),进行模型训练得到能够对归类于第i次新增类别的图像数据进行正确 分类的第i次新增类别图像分类模型ModelA_i,以及能够对归类于旧类别和第i 次新增类别的图像数据进行分类的第i次增量学习图像分类模型ModelB_i;并在 对目标图像数据x进行分类时,结合开集识别算法和歧视增强方法,采用旧类别 输出逻辑
由此可知,本发明特别适用于无法获得步骤S1所述原始类别训练数据的现 实涉密应用场景
以上为本实施例一的基本实施方式,可以在该基本实施方式的基础上做进一 步的优化、改进和限定:
优选的:所述步骤S1中,所述原始图像分类模型Model’的训练采用交叉熵 损失函数;所述步骤S2中,所述第i次新增类别图像分类模型ModelA_i的训练 采用交叉熵损失函数。
优选的:所述步骤S1中,使用32层的ResNet模型作为所述神经网络模型 Model,设置超参数批大小设为128;学习速率从0.1开始,分别在第70、140、 210次迭代时按照0.1的速率进行衰减,即在第70、140、210次迭代时时学习速 率分别为0.01,0.001,0.0001。
本发明不局限于上述具体实施方式,根据上述内容,按照本领域的普通技术 知识和惯用手段,在不脱离本发明上述基本技术思想前提下,本发明还可以做出 其它多种形式的等效修改、替换或变更,均落在本发明的保护范围之中。
机译: 提供一种与眼科设备佩戴者有关的数据集的方法以及一种基于该数据集确定眼科设备的方法
机译: 一种基于可选项目符号和字符串项的分层菜单来操作音频/视频集的方法,以及一种用于实施该方法的音频/视频集
机译: 一种无线通信方法,其中通过将数据集许可时间表设置为可以传输数据集的最大值来选择增强的下行链路传输格式的组合