グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習

田中　芳典; 石川　眞澄

首页> 外文期刊>電子情報通信学会技術研究報告 >グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習

【24h】

グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習

机译：基于网格图错误的基于好奇心的强化学习

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

The present paper proposes to make reinforcement learning efficient by using internal rewards based on curiosity in addition to external rewards at goal in a goal reaching task. Here, curiosity is defined by the decrease in prediction error, which is defined by the difference between grid-based map and the sensory information at each grid. Simulation experiments indicate that the performance of the proposed method is superior to the conventional reinforcement learning in terms of the number of goals reached and the number of actions needed to reach the goal in a transient state. How parameter values affect the performance and learning of the environment is also analyzed.%ゴールまでの最適行動を強化学習によって求めるという課題に対し，ゴール到達時の環境からの外部報酬に加えて，好奇心を内部報酬とすることにより，強化学習を効率化することを目的とする．ここで予測誤差の減少により好奇心を定義し、センサー情報から推定したグリッドベース地図と、各グリッドでのセンサー情報との差を予測誤差と定義する.シミュレーション実験の結果，強化学習と比較して過渡状態におけるゴール回数や行動回数に関して性能の向上が見られた．併せて、提案手法で用いた各パラメータ値が行動獲得や環境学習に与える影響についても検討した．

机译：本文提出在目标达成任务中，除了基于目标的外部奖励外，还使用基于好奇心的内部奖励来提高强化学习的效率。在这里，好奇心是由预测误差的减少来定义的，预测误差的减少是由网格之间的差异定义的。仿真实验表明，该方法的性能在过渡状态下达到的目标数量和达到目标所需的动作数量方面优于传统的强化学习。达到目标时，除了来自环境的外部奖励外，好奇心还被视为通过强化学习来寻求达到目标的最佳行为的任务的内部奖励。这样做的目的是使强化学习更加有效。在此，好奇心通过减少预测误差来定义，并且将从传感器信息估计的基于网格的地图与每个网格中的传感器信息之间的差异定义为预测误差。在过渡状态下的目标数量和操作数量上，性能得到了改善。同时，我们还研究了所提出的方法中使用的每个参数值对动作获取和环境学习的影响。

著录项

来源
《電子情報通信学会技術研究報告》 |2009年第480期|p.285-290|共6页
作者
田中　芳典; 石川　眞澄;
展开▼
作者单位

九州工業大学大学院生命体工学研究科　〒808-0196 福岡県北九州市若松区ひびきの 2-4;

九州工業大学大学院生命体工学研究科　〒808-0196 福岡県北九州市若松区ひびきの 2-4;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
強化学習; グリッドベース地図; 好奇心; 内部報酬;

机译：强化学习;基于网格的地图;好奇心;内部奖励;
入库时间 2022-08-18 00:35:24

相似文献

外文文献
中文文献
专利

1. グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習 [J] . 田中芳典, 石川眞澄電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2008,第480期

机译：基于网格的地图通过基于错误作为内部奖励的好奇心加强学习
2. グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習 [J] . 田中芳典, 石川眞澄電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2008,第480期

机译：加固学习基于基于网格的地图错误进行好奇心
3. 自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法 [J] . 森村哲郎, 内部英治, 桐谷賢治, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2005,第759期

机译：自然TD学习：基于自然政策梯度的增强型学习方法，利用折扣折扣中的TD错误
4. 多リンクロボットの経路決定を行う強化学習に関する研究―ユーザの意図を表す複数報酬に基づく強化学習 [C] . 布引雅之, 奥田孝一, 小谷直樹精密工学会大会学術講演会 . 2007

机译：基于多重奖励确定多链接机器人加固学习的加固学习研究代表了用户的意图
5. 相関係数に基づく乱流スカラ-フラックスのモデリングに関する基礎研究利用統計を見る [D] . 鹿園直毅 1994

机译：基于相关系数的湍流标量通量建模基础研究视图使用统计
6. 直接経験の省察に基づくリーダーシップ開発のための実践知 : 職業人を学習者とするアクティブラーニングの視点を踏まえて〈特集 : 筑波大学大学研究センター共同研究プロジェクト研究成果報告〉 [O] . 佐野享子, サノタカコ, SANO Takako 2017

机译：基于直接经验反映的领导力发展实践知识：从以专业人士为学习者的主动学习角度

グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習

摘要

著录项

相似文献

相关主题

期刊订阅