首页> 中文期刊>现代电子技术 >连续空间中的随机技能发现算法

连续空间中的随机技能发现算法

     

摘要

针对大规模、连续空问随着状态维度指数级增加造成的“维数灾”问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法.通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合.将任务目标分成子目标,通过学习低阶Option策略,减少因智能体增大而引起学习参数的指数增大.以二维有障碍栅格连续空间内两点间最短路径规划为任务,进行仿真实验和分析,实验结果表明:由于Option被随机定义,因此算法在初始性能上具有间歇的不稳定性,但是随着随机技能树集合的增加,能较快地收敛到近似最优解,能有效克服因为维数灾引起的难以求取最优策略或收敛速度过慢的问题.

著录项

  • 来源
    《现代电子技术》|2016年第10期|14-1720|共5页
  • 作者

    栾咏红; 刘全; 章鹏;

  • 作者单位

    苏州工业职业技术学院,江苏 苏州 215104;

    苏州大学 计算机科学与技术学院,江苏 苏州 215006;

    苏州大学 计算机科学与技术学院,江苏 苏州 215006;

    吉林大学 符号计算与知识工程教育部重点实验室,吉林 长春 130012;

    苏州大学 计算机科学与技术学院,江苏 苏州 215006;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 人工智能理论;
  • 关键词

    强化学习; Option; 连续空间; 随机技能发现;

  • 入库时间 2023-07-24 18:34:23

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号