首页> 中文期刊> 《苏州大学学报:自然科学版》 >一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

一种改进的平均奖赏强化学习方法在RoboCup训练中的应用

         

摘要

强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性或者不具有终结状态的问题,然而平均奖赏强化学习存在收敛速度慢、对参数和环境敏感等问题.针对平均奖赏强化学习收敛速度缓慢这一问题,提出了一种改进的平均奖赏强化学习方法.同时,为了处理大状态空间、提高泛化能力,算法采用神经网络作为近似函数.算法在RoboCup中实验的训练表明该算法具有较快的收敛速度和较强的泛化能力.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号