首页> 中国专利> 一种可连续学习的快速图像数据分类方法

一种可连续学习的快速图像数据分类方法

摘要

本发明公开一种可连续学习的快速图像数据分类方法,包括:针对需要分类的图像数据,通过深度神经网络习得样本二值化特征;依据类别数量动态确定新增类别的二值编码信息;建立特征向量和类别之间的分类神经网络,动态调整连接权重,在尽量不影响已有的分类神经网络前提下,实现新增类别的模式分类。根据本发明的类增量学习方法,可以实现机器人系统在动态环境下对增量式图像数据的快速连续学习以及分类,避免了增量学习过程中出现的灾难性遗忘,并且大大缩短了训练增量式分类器的时间。

著录项

  • 公开/公告号CN113239974A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 中国传媒大学;

    申请/专利号CN202110427115.9

  • 发明设计人 曹立宏;陈雯婕;杜凤桐;

    申请日2021-04-21

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人刘萍

  • 地址 100024 北京市朝阳区定福庄东街1号

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本发明实施例涉及机器人技术领域,具体涉及一种在开放环境中可连续学习的快速图像数据分类方法。

背景技术

基于反向传播算法的深度学习技术在封闭场景下的感知分类任务上已经达到了与人类媲美的识别水平,但它在动态环境下的连续学习性能却远远不及人类。在动态环境下进行连续学习,甚至是终身学习,是发展机器人技术的关键。

连续学习是一种特殊的机器学习范式,它的特殊之处体现在:它并不满足机器学习中对训练数据与测试数据的独立同分布假设。连续学习的目的是让系统进行更为灵活的在线学习,并且避免对已学知识的灾难性遗忘。

神经网络的灾难性遗忘问题可以追溯到上个世纪80年代末,具体是指:网络以序列化的方式学习新知识时会对旧知识发生严重干扰,从而对旧知识发生灾难性遗忘。灾难性遗忘问题的本质是神经网络的突触可塑性(权重学习/更新)问题。当今深度学习普遍使用的反向传播算法是一种全局的权重更新策略,它会导致网络权重在学习新知识时过于可塑,从而带来了对旧知识的灾难性遗忘。如何避免反向传播算法的全局更新在神经网络的学习过程中带来的灾难性遗忘,是连续学习范式面临的一大挑战。

为了解决神经网络的灾难性遗忘问题,更好的实现系统的连续学习,业内研究人员从诸多方面(诸如:网络正则化、动态网络结构、基于记忆的回放、仿脑互补学习理论等)提出了解决方案。但上述的解决方案在更具有实际应用价值的大规模类别增量学习任务上,仍存在精度不高、训练速度过慢等问题。

在连续学习的模式下,如何让机器人系统高效快速的学习新数据完成分类决策并且对旧数据不发生灾难性遗忘,是一个亟待解决的问题。

发明内容

针对现有技术存的问题,本发明实施例提供了一种可连续学习的快速图像数据分类处理方法,来解决机器人系统在连续学习模式下的快速图像数据分类问题。相比于经典的反向传播算法,本发明并不依赖于对数据的独立同分布假设,也并不需要以迭代的方式更新计算权重,因而本发明在训练速度上具有巨大优势。

本发明提供了一种可连续学习的快速图像数据分类方法,所述方法包括:

1、采用在Imagenet数据集上预训练的Resnet152网络抽取待分类数据在分类层之前的自适应平均池化层输出的特征向量(Feature Vector,简称FV),记做FV∈R

针对待分类图像数据,获得图像的FV的过程如下:首先将输入图像转换为具有RGB3个通道的图像,将范围在[0,255]的像素值进行线性归一化转换到[0,1]的区间;分别对图像的三个通道进行标准化,具体为:先减去各自通道的均值,再除以各自通道的均方差;针对以上所述处理获得的自然图像I,将I输入Resnet152网络中进行前向传播计算,获取该网络的最后一个自适应平均池化层的输出向量,作为图像I的FV。

2、对1中图像I的FV内的元素进行非线性变换获得新的编码,记做SFV∈R

这里所述的非线性变换包括:对FV∈R

3、去掉Resnet152自带的端到端的分类器,构建增量式分类器。

分类器的结构为具有两层全连层的人工神经网络,其中:第一层为输入层,第二层为分类层,输入层和分类层之间采用全连接。

增量式分类器是指:能够根据新学习的类别个数,在原有分类器结构的基础上自动的新增输出神经元的分类器,即:增量式分类器的结构具有动态可扩展性。

4、在学习新类别数据时,动态更新分类器的结构。

动态是指:针对每一个新类别数据,新增一个该类别对应的输出神经元;

5、当出现新类别的训练数据时(记为类别C),通过上述的1和2获得类C所有训练数据的二值化编码BFV,更新二值化编码层每个神经元的多样性以及每个神经元的特异性,二值化编码层里所有神经元的多样性组成的向量记做:DV∈R

在这里,神经元多样性是指该神经元参与编码的不同类别的个数,在这里“参与编码”具体是指:若在类别C训练集中存在一个样本I’的BFV(i)=1,则该神经元i参与编码了类C。神经元的特异性为神经元多样性的倒数,满足:

6、通过上述的1和2获得类别C所有训练数据的二值化编码BFV,并计算类别C的所有二值化编码的平均编码向量,记做:ACV

记ACV

7、完成对增量式分类器上所有神经元的权重的在线更新,包括正感受野的权重和负感受野的权重。

在这里,记类别C的正感受野为

上述方法可以实现系统对增量式图像数据的快速学习以及分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的快速图像数据分类方法中增量式分类器权重更新的示意图。

图2大规模数据集上本发明方法(NAL)与基于反向传播算法的OWM方法的连续学习最终正确率汇总图

图3大规模数据集上本发明方法(NAL)与基于反向传播算法的OWM方法的连续学习耗时统计

图4是本发明流程简要示意图

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提出的可连续学习的快速图像数据分类方法,该方法包括以下步骤:

S1:读取待学习图像新类的所有训练样本,通过深度神经网络获得待分类样本的高层编码

具体的,采用在大规模图像数据集ImageNet上预训练的深度神经网络模型(例如:Resnet152)作为样本的特征提取器,取深度神经网络模型分类层的输入向量记做样本的高层编码,高层编码记做FV∈R

S2:对高层编码进行非线性变换转换为二值化编码

由于S1获得的FV内的元素FV

1、对FV左乘一个矩阵W∈R

2、对NFV中每个元素进行非线性变换,获得新的编码SFV∈R

3、对NFV中的元素进行二值化,获得BFV∈R

S3:增量式分类器的结构更新

具体的:在学习新一类图像样本时,更新分类器的结构,体现在针对每一个新类,新增一个该类对应的输出神经元。

S3:增量式分类器的权重更新

为了更好的描述下述增量式分类器的权重更新方法,如下给出了该方法中涉及的基本概念的定义:

定义1:二值化编码层里神经元的多样性为它参与编码的不同类的个数。二值化编码层神经元的多样性所组成的向量称为多样性向量,记做DV∈R

定义2:二值化编码层里神经元的特异性为神经元多样性的倒数。二值化编码层神经元的特异性所组成的向量称为特异性向量,记做SP∈R

易知,二值化编码层里,神经元的多样性越大,则它的特异性越小。定义3:类C的特异性权重为该类内所有样本的平均编码向量ACV

定义4:类C的标签神经元的正感受野

增量式分类器的快速权重更新算法的步骤如下:

1、获取类K所有的训练样本,按照定义4计算类别K的正感受野

2、按照定义3计算类K的平均编码向量ACV

3、按照定义2更新

4、根据3的SP值,依次计算/更新类L=1,2,…K的正感受野权重。

5、更新和计算类L(L=1,2,…,K-1)的负感受野

6、更新和计算类K的负感受野

7、更新完毕

在上述方法中,增量式分类器可以根据新类数据新增输出单元并且快速微调分类层的权重,实现对新类的快速学习以及判决,并且不会对旧类的判决发生灾难性遗忘。

本发明实施例提供了一种可连续学习的快速图像数据分类方法,方法包括:针对需要分类的图像数据,通过深度神经网络习得样本二值化特征;依据类别数量动态确定新增类别的二值编码信息;建立特征向量和类别之间的分类神经网络,动态调整连接权重,在尽量不影响已有的分类神经网络前提下,实现新增类别的模式分类;装置执行上述方法。根据本发明的类增量学习方法以及装置,可以实现对动态环境下类别增量式数据的快速连续学习,避免了类增量学习过程中的灾难性遗忘瓶颈,并且大大缩短了训练增量式分类器的时间。

进一步,本发明还可应用于以下几个方面:

(1)需要实施人脸快速识别的门禁,例如:在采用人类识别技术的相关门禁上,系统需要在线实时的学习大量新人的人脸特征,并完成对新人人脸的验证,这时可以使用本发明的快速模式分类算法以及装置,线上实现这一功能,而无需汇总所有人脸数据的样本后再采用传统的反向传播算法来优化特定的代价函数以获得分类器权重,大大节省了训练时间。

(2)需要对新加入的商品进行快速识别和分类的电商应用,这个时候可以使用本发明在线的对新加入商品进行在线学习,而无需汇总所有商品的样本后再采用传统的反向传播算法来优化特定的代价函数以获得分类器权重,大大节省了训练时间。

(3)需要实施在线快速分类的多媒体数据,这些多媒体数据包括:图像数据、语音数据以及视频数据等。采用本发明提出的可连续学习的快速数据分类方法,可以对增量式的多媒体数据进行快速学习以及分类,而无需汇总所有待分类的多媒体数据样本后再采用传统的反向传播算法来优化特定的代价函数以获得分类器权重,大大节省了训练时间。

图2显示了:本发明提出的方法(NAL;橙色柱)分别在大规模自然图像数据集ImageNet1000和大规模中文手写汉字数据集CASIA3755上连续学习完所有类别的样本之后,网络对数据测试集的分类识别正确率(正确率越接近1则意味着算法性能越好)。另一个方法OWM方法为基于反向传播算法的连续学习方法。

图3显示了:本发明提出的方法与OWM方法在大规模自然图像数据集ImageNet1000上和大规模中文手写汉字数据集CASIA3755上连续学习的训练耗时比较,从图中可以看出:本发明提出的方法相比于OWM方法的学习速率具有明显的优势。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号