首页> 中国专利> 一种基于歧视增强的开集增量图像分类方法

一种基于歧视增强的开集增量图像分类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于歧视增强的开集增量图像分类方法，在每次进行图像分类类别的增量时，仅使用最新的新增类别图像数据，而无需使用旧类别图像数据，进行模型训练得到第i次新增类别图像分类模型ModelA_i和第i次增量学习图像分类模型ModelB_i；并在对目标图像数据x进行分类时，结合开集识别算法和歧视增强方法，采用旧类别输出逻辑作为判定归类于旧类别的目标图像数据x的分类结果，采用新增类别输出逻辑作为判定归类于第i次新增类别的目标图像数据x的分类结果；因此，本发明能够在不占用内存来保存旧类别训练数据的情况下，解决深度增量学习的灾难性遗忘问题，确保对目标图像数据x进行包含旧类别和历次新增类别的新旧类别分类的准确性。

著录项

公开/公告号CN115661503A

专利类型发明专利
公开/公告日2023-01-31

原文格式PDF
申请/专利权人丁杰轩;贾立锋;
展开▼

申请/专利号CN202210807070.2
发明设计人贾潇宇;丁杰轩;贾立锋;
展开▼

申请日2022-07-08
分类号G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08;
代理机构广州知友专利商标代理有限公司;
代理人刘小敏;尤健雄
地址 510305 广东省广州市海珠区广州大道南森语星园C1-502
入库时间 2023-06-19 18:27:32

法律信息

法律状态公告日

法律状态信息

法律状态
2023-01-31

公开

发明专利申请公布

说明书

技术领域

本发明涉及计算机图像分类方法，具体的说是一种基于歧视增强的开集增量图像分类方法。

背景技术

通过一系列复杂的神经认知机制调节，人类和动物有能力随着时间的推移不断的学习新的知识和技能。近年来，深度神经网络在计算机视觉应用中取得了显著的成就。然而在现实视觉图像分类应用问题中，由于任务的复杂性限制，深度神经网络往往需要从流数据中不断地学习新的类别，并且尽量不遗忘旧的类别，这被称之为多类别增量学习。

为了实现这一目标，标准的深度学习方法是通过修改模型中全连接层输出节点的数量，并利用微调的方式修改新数据上的旧模型。由于我们只在新增的数据上重新训练模型，这种天真的方法会使新模型遭受几乎完全忘记旧类别知识的严重问题，我们称之为灾难性遗忘。从理论上，深度增量学习的灾难性遗忘问题几乎不可能被完全解决。目前灾难性遗忘的主要原因包含权重漂移，为了减轻灾难性遗忘问题，学者们已经做了许多研究。知识蒸馏的方法已被广泛用于解决灾难性遗忘。参数控制策略也试图解决这一问题，并获得了一定的成效。最新的研究结果表明，遵循排练策略的增量学习，即在增量训练的过程中使用少量的真实或生成的旧数据，效果往往比非排练策略的增量学习更佳。然而，在现实涉密的应用环境中，存储旧类别的数据是一项十分复杂且内存昂贵的任务，在将分类对象模型交付给最终用户时，由于某些特殊的原因，训练数据往往被保密，在没有旧类别训练数据的情况下，最终用户无法通过更新训练模型以合并新增的目标类别。

为什么在没有旧数据的时候多类别增量学习会更有挑战性？我们认为这是由于两个因素的耦合。首先是训练数据不平衡，其次是没有旧样例集的加入，增量后模型缺少恢复记忆的过程，导致模型会遗忘的更多！同时，由于某些特殊的限制，例如设备内存大小，涉密数据集等，无需旧类别的增量学习算法往往更加实用。因此，亟需一种能够提高无任何旧数据加入的增量学习分类准确率的方法，来处理现阶段增量学习识别准确率低的问题。

发明内容

本发明所要解决的技术问题是：提供一种基于歧视增强的开集增量图像分类方法。

解决上述技术问题，本发明所采用的技术方案如下：

一种基于歧视增强的开集增量图像分类方法，其特征在于，包括：在每次进行图像分类类别的增量时，按照包含步骤S1和步骤S2的训练阶段进行模型训练，以及，在第i次增量之后至第i+1次增量之前的期间，按照包含步骤S3至步骤S5的应用阶段对目标图像数据x进行分类；

步骤S1、获取能够对归类于原始类别的图像数据进行正确分类的原始图像分类模型Model’，其中，该原始图像分类模型Model'通过用归类于所述原始类别的原始类别训练数据对神经网络模型Model进行训练得到，所述原始类别属于所述图像数据的图像分类类别，所述原始类别的数量不限；

步骤S2、当所述图像数据的图像分类类别进行第i次增量时，进行重新训练，以得到能够对归类于第i次新增类别的图像数据进行正确分类的第i次新增类别图像分类模型ModelA_i，并且，进行增量学习，以得到能够对归类于旧类别和第i次新增类别的图像数据进行分类的第i次增量学习图像分类模型ModelB_i；其中，所述第i次新增类别为所述第i次增量所新增的图像分类类别，当i＝1也即第1次增量时，所述旧类别即为所述原始类别，当i≥2时，所述旧类别为所述原始类别和第1次增量至第i-1次增量所新增的图像分类类别的合集；

举例来说：假设步骤S1所述原始图像分类模型Model'能够对200类图像数据进行正确分类，步骤S2先后对图像分类类别进行了5次增量，每次增量所新增的图像分类类别均为20类，则：在第1次增量时，所述旧类别的数量m为200 类，第1次新增类别的数量n为20类；在第2次增量时，所述旧类别的数量m 为220类，第2次新增类别的数量n为20类；在第3次增量时，所述旧类别的数量m为240类，第3次新增类别的数量n为20类。

步骤S3、利用开集识别算法，判断目标图像数据x归类于所述旧类别，还是归类于所述第i次新增类别；

步骤S4、利用歧视增强方法对所述第i次增量学习图像分类模型ModelB_i 的全连接层参数进行修改，以将所述第i次增量学习图像分类模型ModelB_i的输出逻辑分别修改为：用于旧类别图像数据的旧类别输出逻辑

步骤S5、当所述步骤S3判断目标图像数据x归类于所述旧类别时，采用步骤S4所述旧类别输出逻辑

当所述步骤S3判断目标图像数据x归类于所述第i次新增类别时，采用步骤S4所述新增类别输出逻辑

其中，所述步骤S2中，按步骤S2A进行所述重新训练，按步骤S2B进行所述增量学习：

步骤S2A、用归类于所述第i次新增类别的第i次新增类别训练数据对所述神经网络模型Model进行训练，得到所述第i次新增类别图像分类模型ModelA_i；

步骤S2B、基于基准增量学习算法，用归类于所述第i次新增类别的第i次新增类别训练数据以及总损失函数Loss对第i-1次增量学习图像分类模型 ModelB_i-1进行训练，得到所述第i次增量学习图像分类模型ModelB_i；其中，当i＝1时，所述第i-1次增量学习图像分类模型ModelB_i-1为步骤S1所述原始图像分类模型Model’；所述总损失函数Loss＝αLoss_D+βLoss_CE，Loss_D表示蒸馏损失函数，Loss_CE表示交叉熵损失函数，a和β为预设的变量参数，通常情况下α＝β＝1。

其中，所述蒸馏损失函数Loss_D用于使增量后得模型尽可能保存旧类别的知识，所述交叉熵损失函数Loss_CE作为分类损失。

上述蒸馏损失函数Loss_D表示如下：

式中，

上述交叉熵损失函数Loss_CE表示如下：

式中，δ

其中，所述步骤S3的具体步骤包括：

步骤S3-1、用所述第i次新增类别图像分类模型ModelA_i对目标图像数据 x进行处理，得到所述第i次新增类别图像分类模型ModelA_i的输出逻辑

步骤S3-2、用开集识别算法对步骤S3-1所述输出逻辑

步骤S3-3、如果满足max(soft max(o

其中，所述步骤S4的具体步骤包括：

步骤S4-1、将步骤S2所述第i次增量学习图像分类模型ModelB_i的输出逻辑o

式中，o

Model

步骤S4-2、用旧类别全连接层权重Model

式中，μ为预设的取值范围在0.85至0.95之间的正数系数，以μ＝0.9的实验效果最佳。

也即：

Model

从而，本发明在每次进行图像分类类别的增量时，仅使用最新的新增类别图像数据(也即归类于所述第i次新增类别的第i次新增类别训练数据)，而无需使用旧类别图像数据(也即原始类别和第1次增量至第i-1次增量所新增的图像分类类别)，进行模型训练得到能够对归类于第i次新增类别的图像数据进行正确分类的第i次新增类别图像分类模型ModelA_i，以及能够对归类于旧类别和第i 次新增类别的图像数据进行分类的第i次增量学习图像分类模型ModelB_i；并在对目标图像数据x进行分类时，结合开集识别算法和歧视增强方法，采用旧类别输出逻辑

由此可知，本发明特别适用于无法获得步骤S1所述原始类别训练数据的现实涉密应用场景

优选的：所述步骤S1中，所述原始图像分类模型Model’的训练采用交叉熵损失函数；所述步骤S2中，所述第i次新增类别图像分类模型ModelA_i的训练采用交叉熵损失函数。

优选的：所述步骤S1中，使用32层的ResNet模型作为所述神经网络模型 Model，设置超参数批大小设为128；学习速率从0.1开始，分别在第70、140、 210次迭代时按照0.1的速率进行衰减，即在第70、140、210次迭代时时学习速率分别为0.01，0.001，0.0001。

与现有技术相比，本发明具有以下有益效果：

本发明在每次进行图像分类类别的增量时，仅使用最新的新增类别图像数据 (也即归类于所述第i次新增类别的第i次新增类别训练数据)，而无需使用旧类别图像数据(也即原始类别和第1次增量至第i-1次增量所新增的图像分类类别)，进行模型训练得到能够对归类于第i次新增类别的图像数据进行正确分类的第i 次新增类别图像分类模型ModelA_i，以及能够对归类于旧类别和第i次新增类别的图像数据进行分类的第i次增量学习图像分类模型ModelB_i；并在对目标图像数据x进行分类时，结合开集识别算法和歧视增强方法，采用旧类别输出逻辑

由此可知，本发明特别适用于无法获得步骤S1所述原始类别训练数据的现实涉密应用场景

附图说明

下面结合附图和具体实施例对本发明作进一步的详细说明：

图1为本发明的开集增量图像分类方法的流程框图。

具体实施方式

下面结合实施例及其附图对本发明进行详细说明，以帮助本领域的技术人员更好的理解本发明的发明构思，但本发明权利要求的保护范围不限于下述实施例，对本领域的技术人员来说，在不脱离本发明之发明构思的前提下，没有做出创造性劳动所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明公开的是一种基于歧视增强的开集增量图像分类方法，包括：在每次进行图像分类类别的增量时，按照包含步骤S1和步骤S2的训练阶段进行模型训练，以及，在第i次增量之后至第i+1次增量之前的期间，按照包含步骤S3至步骤S5的应用阶段对目标图像数据x进行分类；

其中，所述步骤S2中，按步骤S2A进行所述重新训练，按步骤S2B进行所述增量学习：

步骤S2A、用归类于所述第i次新增类别的第i次新增类别训练数据对所述神经网络模型Model进行训练，得到所述第i次新增类别图像分类模型ModelA_i；

步骤S2B、基于基准增量学习算法，用归类于所述第i次新增类别的第i次新增类别训练数据以及总损失函数Loss对第i-1次增量学习图像分类模型 ModelB_i-1进行训练，得到所述第i次增量学习图像分类模型ModelB_i；其中，当i＝1时，所述第i-1次增量学习图像分类模型ModelB_i-1为步骤S1所述原始图像分类模型Model’；所述总损失函数Loss＝αLoss_D+βLoss_CE，Loss_D表示蒸馏损失函数，Loss_CE表示交叉熵损失函数，α和β为预设的变量参数，通常情况下α＝β＝1。

其中，所述蒸馏损失函数Loss_D用于使增量后得模型尽可能保存旧类别的知识，所述交叉熵损失函数Loss_CE作为分类损失。

上述蒸馏损失函数Loss_D表示如下：

式中，

上述交叉熵损失函数Loss_CE表示如下：

式中，δ

步骤S3、利用开集识别算法，判断目标图像数据x归类于所述旧类别，还是归类于所述第i次新增类别；

其中，所述步骤S3的具体步骤包括：

步骤S3-1、用所述第i次新增类别图像分类模型ModelA_i对目标图像数据 x进行处理，得到所述第i次新增类别图像分类模型ModelA_i的输出逻辑

步骤S3-2、用开集识别算法对步骤S3-l所述输出逻辑

步骤S3-3、如果满足max(soft max(o

其中，所述步骤S4的具体步骤包括：

步骤S4-1、将步骤S2所述第i次增量学习图像分类模型ModelB_i的输出逻辑o

式中，o

Model

步骤S4-2、用旧类别全连接层权重Model

式中，μ为预设的取值范围在0.85至0.95之间的正数系数，以μ＝0.9的实验效果最佳。

也即：

Model

步骤S5、当所述步骤S3判断目标图像数据x归类于所述旧类别时，采用步骤S4所述旧类别输出逻辑

当所述步骤S3判断目标图像数据x归类于所述第i次新增类别时，采用步骤S4所述新增类别输出逻辑

由此可知，本发明特别适用于无法获得步骤S1所述原始类别训练数据的现实涉密应用场景

以上为本实施例一的基本实施方式，可以在该基本实施方式的基础上做进一步的优化、改进和限定：

本发明不局限于上述具体实施方式，根据上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，本发明还可以做出其它多种形式的等效修改、替换或变更，均落在本发明的保护范围之中。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于聚类分析的开集图像分类方法 [P] . 中国专利： CN115601648A . 2023-01-13
2. 基于极值理论的SAR目标开集与增量识别方法及装置 [P] . 中国专利： CN115512183A . 2022-12-23
3. METHOD FOR PROVIDING A SET OF DATA RELATIVE TO A WEARER OF AN OPHTHALMIC EQUIPMENT AND METHOD FOR DETERMINING THE OPHTHALMIC EQUIPMENT BASED ON THE SET OF DATA [P] . 欧洲知识产权局专利： EP3208737A1 . 2017-08-23

机译：提供一种与眼科设备佩戴者有关的数据集的方法以及一种基于该数据集确定眼科设备的方法
4. A method for operating an audio/video set as based on hierarchical menuing of selectable bulletized and stringed items and an audio/video set arranged for practicing the method [P] . 韩国专利： KR100702345B1 . 2007-04-05

机译：一种基于可选项目符号和字符串项的分层菜单来操作音频/视频集的方法，以及一种用于实施该方法的音频/视频集
5. method for wireless communication in which a combination of enhanced downlink transport formats is selected by setting a data set permission schedule to the maximum that a data set can be transmitted [P] . BRPI0713224A2 . 2012-04-10

机译：一种无线通信方法，其中通过将数据集许可时间表设置为可以传输数据集的最大值来选择增强的下行链路传输格式的组合