首页> 中文学位 >聚焦对象的Q值学习算法改进研究
【6h】

聚焦对象的Q值学习算法改进研究

代理获取

目录

第一个书签之前

展开▼

摘要

本论文主要研究聚焦对象的Q值学习算法改进。强化学习是机器学习中一大分支,其中Q值学习算法是一个经典的算法。Q值学习算法缺点之一是无法应用于状态较多的场景。聚焦对象的Q值学习算法是Q值学习算法的一种改进算法,可以应用于特定的状态更多的场景。通过人为分类场景中的对象,分解场景的状态空间,指数级减少了该场景的状态空间的规模,使算法可以在一定时间内训练出结果。本论文将从稳定性、收敛速度等角度研究改进聚焦对象的Q值学习算法。 论文主要内容如下: 首先将传统的聚焦对象的Q值学习算法与基于模型的学习算法相结合,在原算法的流程中结合了Prioritized Sweeping算法。算法在训练的同时增加了对模型采样学习的步骤。通过实验验证该改进加快收敛速度。 第二,尝试改变聚焦对象的Q值学习算法使用的控制策略,通过场景测试不同控制策略对收敛的影响。原算法改进了控制策略,再结合基于模型的学习算法后,减少了原算法的参数数量,内存开销更低,收敛更加稳定。 第三,论文尝试从提高计算资源利用的角度改进聚焦对象的Q值学习算法。将传统的结合基于模型学习的算法步骤中,模型学习的部分通过异步方式实现。本论文参考已有的Actor-Critic结构以及分布式优先经验回放技术,设计了一个简单的异步模型学习系统框架。该系统框架应用于传统的结合模型学习的算法,算法可以将模型学习的步骤利用处理器多核使用多进程或多线程等异步方式实现。在相同的训练周期内可以获取更多的环境的模型信息用于模型学习,从而提升训练效率。在只有一个节点进行模型学习的情况下,该系统和传统的Prioritized Sweeping算法流程一样,在多于一个节点进行模型学习的情况下,训练性能有稳定提升,提升效果和应用场景以及节点数量有关。 最后,论文中将聚焦对象的Q值学习算法与异步模型学习框架结合,得到最终的改进算法,在不同规模的场景下通过实验测试,收敛速度都比原算法有所提升。

著录项

  • 作者

    陈钟汇;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 信息与通信工程
  • 授予学位 硕士
  • 导师姓名 王桥;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 I20;
  • 关键词

    聚焦对象; 学习算法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号