首页> 中文期刊> 《计算机仿真》 >分阶Dyna强化学习算法

分阶Dyna强化学习算法

         

摘要

针对现有Dyna强化学习体系结构下,"规划"和"学习"在计算资源分配上的不合理问题,提出了一种分阶Dyna体系结构,随着经验知识的不断积累,将学习过程划分为探索阶段、变比重学习阶段和优化阶段,分别进行"规划"和"学习"的协调控制,大大减少了计算资源的浪费.结合传统的Q-学习算法,设计了分阶Dyna-Q强化学习算法,以适应动态不确定环境下的任务.在一个标准强化学习问题中,验证了所设计的分阶Dyna强化学习算法比基本Dyna强化学习算法具有更好的学习性能.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号