首页> 中国专利> 一种摄像器材记录的视频图像数据的高维模仿学习方法

一种摄像器材记录的视频图像数据的高维模仿学习方法

摘要

本发明公开一种摄像器材记录的视频图像数据的高维模仿学习方法,首先利用高效卷积神经网络的自动编码器作为特征抽取器将智能体采集的图像数据压缩成编码,之后对编码进行二值化处理;获得智能体的图像数据的二值编码后,使用全连接神经网络输出奖赏信号;最后将奖赏信号输入给现有的智能体进行学习,从而获得能够很好地模仿专家行为的智能体。在实用阶段,只需给模型输入专家示范的数据和智能体与环境交互采集到的图像数据,就能获得高效的奖赏信号,该信号可直接用于智能体进行强化学习训练。由于该方法可处理高维视频图像数据,因此模型可运行在搭载有摄像器材的设备上。

著录项

  • 公开/公告号CN112529160A

    专利类型发明专利

  • 公开/公告日2021-03-19

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN202011450396.1

  • 发明设计人 周志华;姜远;蔡欣强;丁尧相;

    申请日2020-12-09

  • 分类号G06N3/04(20060101);G06N3/08(20060101);G06N20/00(20190101);G06T7/207(20170101);G06T9/00(20060101);

  • 代理机构32326 南京乐羽知行专利代理事务所(普通合伙);

  • 代理人李玉平

  • 地址 210023 江苏省南京市栖霞区仙林大道163号

  • 入库时间 2023-06-19 10:19:37

说明书

技术领域

本发明涉及深度学习、强化学习、模仿学习、应用技术,特别涉及深度卷积神经网络、自动编码器、对抗生成网络技术,具体是一种针对搭载有摄像器材的高维图像输入的智能体模仿学习方法。

背景技术

强化学习是机器学习中的一个重要领域,强调智能体如何基于环境而行动,以取得最大化的预期利益。从2015年AlphaGo使用强化学习方法在围棋领域击败人类顶级专家开始,强化学习技术便逐渐在科技、生活等各个领域崭露头角。传统强化学习任务的流程为:1)智能体接收到环境env的状态信号s

早期的模仿学习比较主流的方法基于监督学习方法,即将专家范例中的“动作”作为数据的“标签”对智能体进行监督学习。由于智能体接触的环境分布在时刻变化,学习效果有很大局限性。随着逆强化学习的提出和强化学习的发展,如今模仿学习这一研究得到了快速进步。当前的主流逆强化学习算法主要考虑从专家数据中学习出奖赏函数

现有的图像数据模仿学习方法着重处理相对低维的场景,但是在实际应用中,复杂的现实环境往往伴随更高的输入维度,例如机器人或车辆搭载的摄像设备捕捉到的场景是维度很高的图像数据,因此需要提出高效的、可以适用于高维图像输入的模仿学习方法。

发明内容

发明目的:目前的图像数据模仿学习方法主要集中于解决低维度的控制任务,而无法完成高维度环境的学习。由于很多应用场景都要求输入数据为更高维度的视频图片数据,这就要求模型具有能从图像数据中抽取有效的奖赏信号的能力。针对上述问题,本发明提供一种摄像器材记录的视频图像数据的高维模仿学习方法。该方法利用高效卷积自动编码器进行哈希编码,并通过哈希编码输出奖赏信号。在这个基础上,将模型输出的奖赏信号输入给智能体运用现有成熟的强化学习算法进行学习。具体来说,先对原始图像进行三次卷积操作,对得到的特征图并进行平展化,继而连接两层全连接网络获得原始编码;之后对原始编码连接一层全连接网络,并重塑出与全连接层前的特征图相同大小的特征图,对该特征图通过三次反卷积操作获得与原始输入图像大小相同的重构特征图。重构特征图用于与原始图进行比对来更新模型,使模型获得原始图像的无监督信息。对于每一维为实数的原始编码,对其进行二值化,即将大于0的值令为1,小于0的值令为-1,从而获得哈希编码。接着在编码上接上动作信号,并连接一个全连接网络,输出一个实值,即奖赏信号。获得奖赏信号后,将信号输入给智能体,使用现有强化学习算法对智能体进行更新,使其学习出专家的策略。整个流程涉及的数据为图像数据,因此该方法可支持在拥有摄像器材的设备上。

技术方案:一种摄像器材记录的视频图像数据的高维模仿学习方法,利用自动编码器对图像数据进行哈希编码,并通过哈希编码输出奖赏信号;将模型输出的奖赏信号输入给智能体;使用强化学习算法对智能体进行更新,使其学习出专家的策略;包括奖赏信号模型结构和训练步骤以及整体模仿学习的训练步骤;

所述奖赏信号模型结构和训练步骤具体为:

步骤1.1,将智能体采集到的图像数据

步骤1.2,将智能体的动作信号

步骤1.3,使用专家数据轨迹

整体模仿学习的训练步骤具体为:

步骤2.1,载有摄像器材的设备获得图像数据

步骤2.2,智能体根据当前图像数据

步骤2.3,将

步骤2.4,将

步骤2.5,将搜集到的数据组

使用所述基于卷积神经网络的自动编码器获取哈希编码,使用有监督的哈希算法。令专家数据

反向传播算法训练奖赏信号和智能体模型,通过小批量梯度下降算法优化模型参数,具体为:

对于数据组

对于专家数据

所述预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。

有益效果:与现有技术相比,本发明所提供的摄像器材记录的视频图像数据的高维模仿学习方法,能够有效解决之前算法无法处理高维图像数据的模仿学习问题,在实际应用中该方法能有效从专家提供的视频图像范例中挖掘出专家策略。

附图说明

图1为本发明实施例的奖赏信号模型网络结构示意图;

图2为本发明实施例的训练工作流程图;

图3为本发明实施例的学习工作流程图。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-3所示,摄像器材记录的视频图像数据的高维模仿学习方法,包括奖赏信号模型网络结构和智能体模仿学习的整体训练步骤以及智能体工作步骤;

如图1所示,所述奖赏信号模型网络结构,其中黑色长方体代表原始图像或特征图,黑色长方体内的小长方体代表卷积核,实心长方体代表全连接网络。注意哈希编码仅在连接下一层全连接网络输出奖赏信号时进行二值化,在自动编码器过程中保持原始实值编码。

如图2所示,所述智能体模仿学习的整体训练步骤具体为:

步骤1.1,载有摄像器材的设备获取当前智能体所处的图像数据

步骤1.2,智能体根据当前的图像数据

步骤1.3,将

步骤1.4,将动作信号

步骤1.5,若缓存区储存的数据量达到预先设定的大小要求,则使用这些数据对智能体和奖赏信号模型进行训练,并释放缓存区的数据;

可指定缓存区大小一定,若当前储存数据使缓存区满溢,则使用缓存区内数据进行模型训练,训练完成后释放缓存区数据。使用反向传播算法训练奖赏信号和智能体模型,通过小批量梯度下降算法优化模型参数,具体为:

对于采样数据

对于专家数据

步骤1.6,判断模型是否已经满足条件,若满足结束训练,否则重复步骤1.1。

满足条件可设定为训练步数是否达到预先给定的上限,或智能体、奖赏信号模型是否已经收敛。

智能体工作步骤具体为:

步骤2.1,载有摄像器材的设备获得图像后,预处理至指定规格大小,获得图像状态数据

预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。

步骤2.2,智能体根据当前图像状态数据

步骤2.3,将动作

步骤2.4,判断环境是否达到最终状态,若达到最终状态则结束,否则转到步骤2.1。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号