首页> 中国专利> 基于在线持续学习的机器人目标识别方法、系统及设备

基于在线持续学习的机器人目标识别方法、系统及设备

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种基于在线持续学习的机器人目标识别方法、系统及设备，方法通过获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值和协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型，有效提高了机器人在线获取数据并进行持续目标识别的效率。

著录项

公开/公告号CN113837220A

专利类型发明专利
公开/公告日2021-12-24

原文格式PDF
申请/专利权人中国科学院自动化研究所;
展开▼

申请/专利号CN202110949246.3
发明设计人聂祥丽;邓致光;乔红;
展开▼

申请日2021-08-18
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11002 北京路浩知识产权代理有限公司;
代理人李文丽
地址 100190 北京市海淀区中关村东路95号
入库时间 2023-06-19 13:49:36

法律信息

法律状态公告日

法律状态信息

法律状态
2022-01-18

实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:2021109492463 申请日:20210818

实质审查的生效

说明书

技术领域

本发明涉及机器学习与机器人智能感知技术领域，尤其涉及一种基于在线持续学习的机器人目标识别方法、系统及设备。

背景技术

随着机器智能技术的不断发展和进步，机器人的应用越来越广泛。在实际应用中，机器人所处的环境是开放且动态变化的，机器人视觉感知系统会随着时间变化不断获取新的数据，这些新数据中可能包含一些新目标，这要求系统具备终身目标识别的能力，即能在线持续学习新目标且不遗忘已学目标以适应动态变化环境。

目前，机器人目标识别技术大多是离线学习方法，其假定环境是静态的，且其模型不能随数据流动态实时更新，面对不断输入的新数据，模型需要使用所有数据重新离线训练，计算成本巨大。而持续学习技术能从数据流中不断学习新知识、增量更新模型且在只保留小部分历史数据时不会遗忘已学知识。持续学习能有效降低对计算资源的消耗，吸引了越来越多的研究者的关注并提出了多种方法，主要包括基于样本重放的方法、基于正则化的方法和基于参数隔离的方法。

但是，在线持续学习方法都是有监督被动学习模型，即要求学习过程中所有样本的标签已知，然而人工标注大量样本代价高昂，导致机器人在线获取数据并进行持续目标识别的效率相对较低。

发明内容

本发明提供一种基于在线持续学习的机器人目标识别方法、系统及设备，用以解决现有技术中机器人在线获取数据并进行持续目标识别的效率相对较低的缺陷，实现高效地完成在线获取数据并进行持续目标识别的功能。

本发明提供一种基于在线持续学习的机器人目标识别方法，包括：

获取预设数量的未标注的图像样本数据；

基于历史深度神经网络模型，计算所述未标注的图像样本数据的伪损失值；

根据所述伪损失值得到查询概率，基于所述查询概率在所述未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；

计算所述人工标注样本中各类样本在深度特征空间的均值，根据所述均值计算所述人工标注样本中各类样本的协方差；

在回放缓冲集中选择该轮迭代未出现的类别样本，根据所述协方差在所述类别样本中进行采样，得到采样样本；

以所述回放缓冲集中的历史样本、所述人工标注样本和所述采样样本作为更新训练集，对所述历史深度神经网络模型进行训练，得到更新深度神经网络模型。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述基于历史深度神经网络模型，计算所述未标注的图像样本数据的伪损失值，包括：

基于历史深度神经网络模型，预测所述未标注的图像样本数据中每一张图像样本的类别标签和次大得分对应的标签；

根据所述类别标签和所述次大得分对应的标签，通过预设关系计算所述未标注的图像样本数据的伪损失值。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述根据所述伪损失值得到查询概率，包括：

基于预设方式，在所述未标注的图像样本数据中选择目标数量的查询样本数据；

根据所述伪损失值，计算所述查询样本数据的查询概率。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述基于所述查询概率在所述未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本，包括：

根据所述查询概率，生成服从伯努利分布的随机变量；

对所述随机变量的数值为1的查询样本数据进行标注，得到人工标注样本。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述在回放缓冲集中选择该轮迭代未出现的类别样本，根据所述协方差在所述类别样本中进行采样，得到采样样本，包括：

在回放缓冲集中选择该轮迭代未出现的类别样本；

以所述类别样本为特征提取函数的中心，根据所述特征提取函数的中心和所述协方差构建多元高斯分布；

通过重参数化方式从所述多元高斯分布中采样，得到采样样本。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述以所述回放缓冲集中的历史样本、所述人工标注样本和所述采样样本作为更新训练集，对所述历史深度神经网络模型进行训练，得到更新深度神经网络模型，包括:

将所述回放缓冲集中的历史样本、所述人工标注样本和所述采样样本进行合并，组成更新训练集；

当所述人工标注样本中包含新类别数据时，则对所述历史深度神经网络模型的最后一层增加与所述新数据中的新类别相同数量的神经元，得到待更新深度神经网络模型；

基于最小化损失函数，通过所述更新训练集对所述待更新深度神经网络模型进行训练，得到更新深度神经网络模型。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述得到更新深度神经网络模型之后，还包括：

通过所述人工标注样本更新所述回放缓冲集中的历史样本。

根据本发明提供的一种基于在线持续学习的机器人目标识别方法，所述通过所述人工标注样本更新所述回放缓冲集中的历史样本，包括：

将所述人工标注样本与所述回放缓冲集中的历史样本进行合并，得到候选集；

初始化所述回放缓冲集，并计算所述回放缓冲集的样本容量；

在所述候选集中选取为所述样本容量预设倍数的更新样本；

计算每一类所述更新样本的损失值；

基于预设规则，根据所述损失值在所述更新样本中选取与所述样本容量相同的更新样本存储于回放缓冲集中，以更新所述回放缓冲集。

本发明还提供一种基于在线持续学习的机器人目标识别系统，包括：

数据获取模块，用于获取预设数量的未标注的图像样本数据；

标签预测模块，用于基于历史深度神经网络模型，计算所述未标注的图像样本数据的伪损失值；

人工标注模块，用于根据所述伪损失值得到查询概率，基于所述查询概率在所述未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；

特征采样模块，用于计算所述人工标注样本中各类样本在深度特征空间的均值，根据所述均值计算所述人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据所述协方差在所述类别样本中进行采样，得到采样样本；

模型更新模块，用于以所述回放缓冲集中的历史样本、所述人工标注样本和所述采样样本作为更新训练集，对所述历史深度神经网络模型进行训练，得到更新深度神经网络模型。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于在线持续学习的机器人目标识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于在线持续学习的机器人目标识别方法的步骤。

本发明提供的基于在线持续学习的机器人目标识别方法、系统及设备，方法通过获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型，通过选取兼顾多样性和丰富性的样本进行人工标注，解决了人工标注大量样本代价高昂的问题，且由于通过对任务边界未知的实时数据流进行持续学习，实时的对深度网络模型进行更新，能减小新旧类样本间的数据不平衡，有效克服对已学目标的遗忘，最终实现少量样本标注下的高精度终身目标识别，有效地提高了机器人在线获取数据并进行持续目标识别的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于在线持续学习的机器人目标识别方法的流程示意图之一；

图2是本发明实施例提供的基于在线持续学习的机器人目标识别方法的流程示意图之二；

图3是本发明实施例提供的基于在线持续学习的机器人目标识别系统的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图；

图5是本发明实施例提供的基于在线持续学习的机器人目标识别方法的原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明的基于在线持续学习的机器人目标识别方法、系统及设备。

图1是本发明实施例提供的基于在线持续学习的机器人目标识别方法的流程示意图之一。

如图1所示，本发明实施例提供的一种基于在线持续学习的机器人目标识别方法，包括以下步骤：

101、获取预设数量的未标注的图像样本数据。

具体的，机器人视觉系统在t时刻获取一批未标注的图像样本数据记为：

102、基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值。

具体的，历史深度神经网络模型f

类别标签：

次大得分对应的标签：

然后根据类别标签

伪损失值：

其中，x

103、根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本。

具体的，根据伪损失值q

其中，δ为非负实数，

然后，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本，其中人工样本数据为兼顾信息量和多样性的样本数据，具体包括：根据查询概率p

104、计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差。

具体的，首先计算当前时刻的人工标注样本中属于各个类别的样本的均值

其中，

然后，使用在人工标注样本上计算的均值

其中，N

105、在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本。

具体为，为保证采样的语义特征的意义，在回放缓冲集中选择该轮迭代未出现的类别样本x

106、以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

具体为，将回放缓冲集B

在对历史深度神经网络模型f

第一部分是交叉熵损失函数L

其中，C

第二部分是基于分类间隔的铰链损失函数，定义为(10)：

其中，y′＝argmax

而具体的损失函数的计算公式则为(11)：

L＝L

本发明实施例提供的基于在线持续学习的机器人目标识别方法，通过获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型，通过选取兼顾多样性和丰富性的样本进行人工标注，解决了人工标注大量样本代价高昂的问题，且由于通过对任务边界未知的实时数据流进行持续学习，实时的对深度网络模型进行更新，能减小新旧类样本间的数据不平衡，有效克服对已学目标的遗忘，最终实现少量样本标注下的高精度终身目标识别，有效地提高了机器人在线获取数据并进行持续目标识别的效率。

图2是本发明实施例提供的基于在线持续学习的机器人目标识别方法的流程示意图之二。

如图2所示，本实施例提供的一种基于在线持续学习的机器人目标识别方法，包括以下步骤：

201、获取预设数量的未标注的图像样本数据。

202、基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值。

203、根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本。

204、计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差。

205、在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本。

206、以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

其中，关于步骤201-206在上述实施例中的101-106中已经做了详细的说明，因此，在本实施例中不再进行具体阐述。

207、通过人工标注样本更新回放缓冲集中的历史样本。

具体为，将人工标注样本与回放缓冲集B

进一步的，本发明还包括了在学习过程中通过各个阶段训练集上学得的模型在测试集上计算各类的分类精度，最后用四个度量指标：准确率、前向迁移值、后向迁移值和整体准确率评估算法的有效性。具体来讲，学习过程中的训练-测试精度矩阵如表1所示：

表1

其中，A

其中，准确率计算为在线学习过程中学得的模型在所有学过类别上的准确率的均值，后向迁移值为模型在不包括当前学习类别的所有学过类别上的准确率的均值，前向迁移值为模型在所有未学过类别上的准确率的均值，整体准确率为模型在所有类别上的准确率的均值。

例如，使用机器人拍摄的真实视觉图像做测试实验，是由D435i传感器获取的可见光RGB-D图像集OpenLORIS-IROS2019。选用该数据集中的不同水平的光照数据集和遮挡数据集，其中光照数据集包括高光、正常光和低光条件下获取的目标图像，遮挡数据集包括对目标无遮挡、25％遮挡和50％遮挡下获取的目标图像，选取其中的36类目标。为评估提出的方法在动态变化环境下的类增量学习能力，将数据集划分为9个任务，任务1-3、4-6、7-9分别对应了高光、正常光和低光或无遮挡、25％遮挡和50％遮挡条件下的目标图像，任务1、4、7属于第1-12类，任务2、5、8属于第13-24类，任务3、6、9属于第25-36类。训练集和测试集样本大约分别为22000和2600。实验中使用的软件：PyTorch 1.7.0，处理器：E5-2698 v4，内存：30.0GB，操作系统：64位Ubuntu 16.04。

实验内容及结果分析：

为评估本发明提出的方法的效果，进行实验对比的方法包括：微调(fine-tuning)方法、iCaRL算法。实验时所有方法使用相同的骨干模型EfficientNet-B0，回放缓冲集容量为1500，每批数据训练5轮，初始化学习率为0.01。对于本方法，参数设置如下：在样本查询比例小于50％时，r等于50％，否则r设置为预期查询比例+10％；数据查询概率的参数γ＝0.01；协方差尺度参数λ＝t/T,t表示当前epoch数，T表示总的epoch数；回放缓冲集中的样本保存数量M＝1500；比例参数v＝0.25。

表1：不同样本查询率下的终身目标识别性能对比结果

表1给出了fine-tuning、iCaRL和本方法在四个指标下的准确率对比结果：本发明提出的方法的终身目标识别结果在大部分指标上要明显好于fine-tuning和iCaRL的结果。另外，根据表1可知，本方法只查询25％的样本标签时学习的模型的结果与查询100％的样本标签的结果相近，本方法在样本查询率为25％时的学习结果对应的准确率、后向迁移和整体准确率都超过了iCaRL查询100％样本标签的学习结果，且两者的前向迁移指标差别不大。从表1可以得出结论，本发明提出的方法可以使用少量标注样本在线持续更新模型以达到较高精度的终身目标识别性能。

本发明可选择少量兼顾多样性和信息丰富性的样本进行人工标注，解决现有技术需标注大量样本代价高昂的问题。可以针对机器人视觉系统实时获取的无标签目标图像，通过深度神经网络预测图像的标签并计算伪损失值，进一步根据伪损失值生成伯努利分布的概率，并基于该概率选择样本进行人工标注，克服了现有技术需标注大量样本做监督学习带来的代价高昂问题，实现了少量样本标注时的高精度目标识别。可以对任务边界未知的实时数据流进行持续学习并且能有效克服对已学目标的遗忘。可对任务边界模糊且未知的实时数据流进行持续学习，解决了现有技术需要明确的任务边界的问题；另外，通过将代表性数据存入缓冲集和对已学目标的特征的统计建模和采样能减小新旧类样本间的数据不平衡，有效克服对已学目标的遗忘。

基于同一总的发明构思，本申请还保护一种基于在线持续学习的机器人目标识别系统。下面对本发明提供的基于在线持续学习的机器人目标识别系统进行描述，下文描述的基于在线持续学习的机器人目标识别系统与上文描述的基于在线持续学习的机器人目标识别方法可相互对应参照。

图3是本发明实施例提供的基于在线持续学习的机器人目标识别系统的结构示意图。

如图3所示，本实施例提供的一种基于在线持续学习的机器人目标识别系统，包括：

数据获取模块31，用于获取预设数量的未标注的图像样本数据；

标签预测模块32，用于基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；

人工标注模块33，用于根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；

特征采样模块34，用于计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；

模型更新模块35，用于以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

本发明实施例提供的基于在线持续学习的机器人目标识别系统，通过获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型，通过选取兼顾多样性和丰富性的样本进行人工标注，解决了人工标注大量样本代价高昂的问题，且由于通过对任务边界未知的实时数据流进行持续学习，实时的对深度网络模型进行更新，能减小新旧类样本间的数据不平衡，有效克服对已学目标的遗忘，最终实现少量样本标注下的高精度终身目标识别，有效地提高了机器人在线获取数据并进行持续目标识别的效率。

进一步的，本实施例中的标签预测模块32，具体用于：

基于历史深度神经网络模型，预测未标注的图像样本数据中每一张图像样本的类别标签和次大得分对应的标签；

根据类别标签和次大得分对应的标签，通过预设关系计算未标注的图像样本数据的伪损失值。

进一步的，本实施例中的人工标注模块33，具体用于：

基于预设方式，在未标注的图像样本数据中选择目标数量的查询样本数据；

根据伪损失值，计算查询样本数据的查询概率。

进一步的，本实施例中的人工标注模块33，具体还用于：

根据查询概率，生成服从伯努利分布的随机变量；

对随机变量的数值为1的查询样本数据进行标注，得到人工标注样本。

进一步的，本实施例中的特征采样模块34，具体用于：

在回放缓冲集中选择该轮迭代未出现的类别样本；

以类别样本为特征提取函数的中心，根据特征提取函数的中心和协方差构建多元高斯分布；

通过重参数化方式从多元高斯分布中采样，得到采样样本。

进一步的，本实施例中的模型更新模块35，具体用于：

将回放缓冲集中的历史样本、人工标注样本和采样样本进行合并，组成更新训练集；

当人工标注样本中包含新类别数据时，则对历史深度神经网络模型的最后一层增加与新数据中的新类别相同数量的神经元，得到待更新深度神经网络模型；

基于最小化损失函数，通过更新训练集对待更新深度神经网络模型进行训练，得到更新深度神经网络模型。

进一步的，本实施例中还包括缓冲集更新模块，用于：

通过人工标注样本更新回放缓冲集中的历史样本。

进一步的，本实施例中还包括缓冲集更新模块，具体用于：

将人工标注样本与回放缓冲集中的历史样本进行合并，得到候选集；

初始化回放缓冲集，并计算回放缓冲集的样本容量；

在候选集中选取为样本容量预设倍数的更新样本；

计算每一类更新样本的损失值；

基于预设规则，根据损失值在更新样本中选取与样本容量相同的更新样本存储于回放缓冲集中，以更新回放缓冲集。

图4是本发明实施例提供的电子设备的结构示意图。

如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行基于在线持续学习的机器人目标识别方法，该方法包括：获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

图5是本发明实施例提供的基于在线持续学习的机器人目标识别方法的原理示意图。

如图5所示，从获取未标注数据开始到最终的回放缓冲集的更新流程，按照图5所示的箭头指向完成，图5的原理图与图2的流程图相对应，更加清晰、直观地表明基于在线持续学习的机器人目标识别的详细过程。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于在线持续学习的机器人目标识别方法，该方法包括：获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于在线持续学习的机器人目标识别方法，该方法包括：获取预设数量的未标注的图像样本数据；基于历史深度神经网络模型，计算未标注的图像样本数据的伪损失值；根据伪损失值得到查询概率，基于查询概率在未标注的图像样本数据中选择信息量大且保持多样性的样本数据进行标注，得到人工标注样本；计算人工标注样本中各类样本在深度特征空间的均值，根据均值计算人工标注样本中各类样本的协方差；在回放缓冲集中选择该轮迭代未出现的类别样本，根据协方差在类别样本中进行采样，得到采样样本；以回放缓冲集中的历史样本、人工标注样本和采样样本作为更新训练集，对历史深度神经网络模型进行训练，得到更新深度神经网络模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于在线持续学习的机器人目标识别方法、系统及设备 [P] . 中国专利： CN113837220A . 2021-12-24
2. 一种基于水上机器人的搜救目标识别方法、系统及设备 [P] . 中国专利： CN111982120A . 2020-11-24
3. IOT - METHOD AND DEVICE FOR ONLINE BATCH NORMALIZATION ON-DEVICE LEARNING AND CONTINUAL LEARNING APPLICABLE TO MOBILE DEVICES OR IOT DEVICES ADDITIONALLY REFERRING TO ONE OR MORE PREVIOUS BATCHES TO BE USED FOR MILITARY PURPOSE DRONE OR ROBOT AND TESTING METHOD AND TESTING DEVICE USING THE SAME [P] . 韩国专利： KR20200091782A . 2020-07-31

机译：物联网在线标准化的方法和设备，适用于移动设备或物联网设备的在线学习和持续学习，另外还涉及一个或多个用于军事用途的无人机或机器人的批量生产，以及测试方法和测试设备
4. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same [P] . 美国专利： US10325185B1 . 2019-06-18

机译：适用于移动设备或物联网设备的在线批次归一化，设备上学习和持续学习的方法和设备，另外还涉及一个或多个用于军事目的的先前批次，无人机或机器人，以及使用该设备的测试方法和测试设备相同
5. METHOD AND DEVICE FOR ONLINE BATCH NORMALIZATION, ON-DEVICE LEARNING, AND CONTINUAL LEARNING APPLICABLE TO MOBILE DEVICES OR IOT DEVICES ADDITIONALLY REFERRING TO ONE OR MORE PREVIOUS BATCHES TO BE USED FOR MILITARY PURPOSE, DRONE OR ROBOT, AND TESTING METHOD AND TESTING DEVICE USING THE SAME [P] . KR102316593B1 . 2021-10-25

机译：用于在线批量标准化，设备学习和适用于移动设备或IOT设备的持续学习的方法和设备，以及另外参考用于军用，无人机或机器人的一个或多个先前批次，以及使用该方法的测试方法和测试设备相同的