首页> 外文期刊>電子情報通信学会技術研究報告 >グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習
【24h】

グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習

机译:基于网格图错误的基于好奇心的强化学习

获取原文
获取原文并翻译 | 示例
       

摘要

The present paper proposes to make reinforcement learning efficient by using internal rewards based on curiosity in addition to external rewards at goal in a goal reaching task. Here, curiosity is defined by the decrease in prediction error, which is defined by the difference between grid-based map and the sensory information at each grid. Simulation experiments indicate that the performance of the proposed method is superior to the conventional reinforcement learning in terms of the number of goals reached and the number of actions needed to reach the goal in a transient state. How parameter values affect the performance and learning of the environment is also analyzed.%ゴールまでの最適行動を強化学習によって求めるという課題に対し,ゴール到達時の環境からの外部報酬に加えて,好奇心を内部報酬とすることにより,強化学習を効率化することを目的とする.ここで予測誤差の減少により好奇心を定義し、センサー情報から推定したグリッドベース地図と、各グリッドでのセンサー情報との差を予測誤差と定義する.シミュレーション実験の結果,強化学習と比較して過渡状態におけるゴール回数や行動回数に関して性能の向上が見られた.併せて、提案手法で用いた各パラメータ値が行動獲得や環境学習に与える影響についても検討した.
机译:本文提出在目标达成任务中,除了基于目标的外部奖励外,还使用基于好奇心的内部奖励来提高强化学习的效率。在这里,好奇心是由预测误差的减少来定义的,预测误差的减少是由网格之间的差异定义的。仿真实验表明,该方法的性能在过渡状态下达到的目标数量和达到目标所需的动作数量方面优于传统的强化学习。达到目标时,除了来自环境的外部奖励外,好奇心还被视为通过强化学习来寻求达到目标的最佳行为的任务的内部奖励。这样做的目的是使强化学习更加有效。在此,好奇心通过减少预测误差来定义,并且将从传感器信息估计的基于网格的地图与每个网格中的传感器信息之间的差异定义为预测误差。在过渡状态下的目标数量和操作数量上,性能得到了改善。同时,我们还研究了所提出的方法中使用的每个参数值对动作获取和环境学习的影响。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号