首页> 外文期刊>人工知能学会志 >Efficient Task -independent Reinforcement Learring Metthods based on Policy Gradient(方策勾配に基づく効率の良い課題非依存な強イヒ学習法)
【24h】

Efficient Task -independent Reinforcement Learring Metthods based on Policy Gradient(方策勾配に基づく効率の良い課題非依存な強イヒ学習法)

机译:基于策略梯度的独立于任务的高效强化学习方法(基于策略梯度的独立于任务的高效Ihi学习方法)

获取原文
获取原文并翻译 | 示例
       

摘要

方策勾配強化学習は,エージェントが環境との相互作 用を通して,勾配法に基づき平均報酬量の局所最大化をB指 す手法である. 方策さえ適切に,ラメータ化してあれば課題 に関する事前知識を要せずマルコフ決定過程(MDP)に適 用できるが,実用化に向けて問題が少な< とも二点ある. i)メタパラメータの設定が困難, ii)学習所要時間が膨大になりやすい. これらに対する先行研究は多くあるが,そのほとんどは特 定の題を想定しており,汎用性に欠けていた. よって標準的 な強化学習の枠組みに手を加えない,課題に非依存な方法論の 改良が望まれる.そこで本研究では,上記問題の解決を目指し 方策勾配アルゴリズムを数理的に探った. 1 )に対しては,特 に有効な調節法のない積酬の割引率に着目した.従来法に より推定される方策勾配は,の定常分布の偏微分値の計算 が困難であったため,その偏微分に関する項を無視したもので あった. その影響は割引率を1に近づけれ(x減少するが,逆 に分散は大きくなってしまう.そこで逆方向マルコフ連鎖の性 質を利用して定常分布の偏微分を推定する方法を導出し,割引 率に依存しない方策勾配法を提案した.割引率の設定が困難is MDPに適用し提案法の有用性も確u6,した. 11)に対しては, 学習プラトーに注目して,MDPの確率分布に対して各パラメー タの敏感さの相違やその相関を考慮できる自然勾配法を利用し た. 最適な方策への収束を遅くしている理由を学習すべきパラ メータ空間の構造の性質から考察をして勾配の計量となるリー マン計量行列を解析し,自然“状態行動” 勾配法を導出した. そして数値実験ょり,特に状態数が多い場合でもプラトーに陥 らず有効に働くことを示した. 以上より本研究は,方策勾配強化学習法を適用する際に障害 となっていた問題に解決策を与えることで,強化学習法の工学 的な問題への適用可能性を広げることに貢献していると考える。
机译:策略梯度强化学习是一种方法,其中代理通过与环境的交互基于梯度方法指向平均奖励金额的局部最大化。即使对这些措施进行了适当的调整,也可以将其应用于马尔可夫决策过程(MDP),而无需事先了解这些问题,但是实际使用中几乎没有问题<有两点。 i)设置元参数很困难,并且ii)学习时间往往很长。以前有很多关于这些的研究,但是其中大多数假设了一个特定的主题并且缺乏通用性。因此,期望在不修改标准强化学习框架的情况下改进与任务无关的方法。因此,在本研究中,我们以数学方式搜索了一种策略梯度算法,以解决上述问题。对于1),我们专注于没有特别有效的调整方法的交易的折现率。由于难以计算通过常规方法估计的策略梯度的稳定分布的偏微分值,因此忽略了与偏微分有关的术语。效果是使折现率更接近1(x减小,但相反,方差变大。)因此,我们推导了一种利用反向马尔可夫链的性质估计平稳分布的偏微分的方法。我们提出了一种不依赖折现率的策略梯度方法,难以将折现率设置为适用于MDP,并且该方法的有效性得到了确认u6,11)对于11),要注意学习平台MDP我们使用自然梯度法,该方法可以考虑每个参数对概率分布及其相关性的敏感性差异。我们应该了解延迟收敛到最优策略的原因,从参数空间结构的本质出发,分析作为梯度度量的雷曼度量矩阵,并推导自然的“状态行为”梯度法。做到了。然后,数值实验表明,即使状态数很大,它也可以有效工作而不会陷入平稳状态。综上所述,本研究通过为应用策略梯度增强学习方法时遇到障碍的问题提供解决方案,有助于将增强学习方法的适用性扩展到工程问题。我认为有。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号