首页> 外文期刊>人工知能学会論文誌 >重み付けされた複数の正規分布を用いた政策表現最適行動変化に追従できる実時間強化学習と環状ロボットへの適用
【24h】

重み付けされた複数の正規分布を用いた政策表現最適行動変化に追従できる実時間強化学習と環状ロボットへの適用

机译:使用多个加权正常分布的策略表示实时增强学习,可以遵循最佳行为改变和应用于环形机器人

获取原文
获取原文并翻译 | 示例
           

摘要

本論文では,5リンク環状ロボットの移動動作獲得問題を取り上げ,実機による試行錯誤が許容できる実時間で強化学習することを目指す.本学習問題では,1)学習の実時間性,2)状態観測にノイズが存在する環境の扱い,3)最適な行動が学習の進行に伴って変化していく環境の扱い,以上の3点をクリアすることが求められる.そこで本論文では,前述のように連続状態-行動空間を持ち,状態観測にノイズが存在する問題に対し有望な接近法であるactor-critic 法を適用する.しかし,従来のactor-critic による実装では,上記の3つの問題点を同時にクリアすることが困難だった.そこでactor の政策表現を工夫し,上位が離散的,下位が連続的行動選択を行う階層的な構造とする方法を提案する.正規分布をactor の確率的政策とする先行研究のactor-criticでは,有望と思われる探索領域を絞り込hでいくまでの過程に時間がかかり過ぎる.別の先行研究で提案された確率的2 分木による階層的なactor-critic 法では,階層化によって有望と思われる探索領域をすみやかに絞り込hで効率的な学習が行えるが,学習が進むにつれて最適と見積もられる政策や行動が変化する場合には,問題が生じる.本論文の提案手法は,行動空間中で有望と思われる領域を上位層の行動選択で大まかに探索し,さらにその行動を下位層で微調整していくことにより,効率的な学習を行えると同時に動的な環境の変化にも追従することが期待できる.
机译:在本文中,我们的目标是占用5连杆环形机器人的运动运行采集问题,旨在增强试图增强实际设备的试验和误差。在这个学习问题中,1)学习实时,2)处理状态观察中存在噪声的环境,3)处理环境的环境随着学习的进展而变化,以上三点需要清除。因此,在本文中,我们具有如上所述的连续状态 - 动作空间,并应用演员 - 批评方法,这是一个有希望的方法对于状态观察中存在噪声的问题。然而,传统的演员 - 评论家的实施难以同时清除上述三个问题。因此,我们将制定演员的策略表示,并提出一种具有分层结构的方法,即上级离散并随后执行连续行为选择。在演员 - 评论家中,演员的概率政策的先例政策,提交似乎有前途的搜索区域需要太长。在另一个先前研究中提出的概率二分钟树的分层演员 - 评论家方法中,可以通过分层和高效的学习,通过搜索区域进行高效学习,但是如果估计的策略和动作,学习会发生问题是最佳的,估计。本文的提议方法大致通过上层的动作选择来搜索,甚至通过用下层微调动作,可以同时遵循动态环境的变化。

著录项

相似文献

  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号