Efficient Task -independent Reinforcement Learring Metthods based on Policy Gradient（方策勾配に基づく効率の良い課題非依存な強イヒ学習法）

森村哲郎

首页> 外文期刊>人工知能学会志 >Efficient Task -independent Reinforcement Learring Metthods based on Policy Gradient（方策勾配に基づく効率の良い課題非依存な強イヒ学習法）

【24h】

Efficient Task -independent Reinforcement Learring Metthods based on Policy Gradient（方策勾配に基づく効率の良い課題非依存な強イヒ学習法）

机译：基于策略梯度的独立于任务的高效强化学习方法（基于策略梯度的独立于任务的高效Ihi学习方法）

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

方策勾配強化学習は，エージェントが環境との相互作用を通して，勾配法に基づき平均報酬量の局所最大化をB指す手法である．方策さえ適切に，ラメータ化してあれば課題に関する事前知識を要せずマルコフ決定過程(MDP)に適用できるが，実用化に向けて問題が少な＜とも二点ある． i)メタパラメータの設定が困難， ii)学習所要時間が膨大になりやすい．これらに対する先行研究は多くあるが，そのほとんどは特定の題を想定しており，汎用性に欠けていた．よって標準的な強化学習の枠組みに手を加えない，課題に非依存な方法論の改良が望まれる．そこで本研究では，上記問題の解決を目指し方策勾配アルゴリズムを数理的に探った． 1 )に対しては，特に有効な調節法のない積酬の割引率に着目した．従来法により推定される方策勾配は，の定常分布の偏微分値の計算が困難であったため，その偏微分に関する項を無視したものであった．その影響は割引率を1に近づけれ（x減少するが，逆に分散は大きくなってしまう．そこで逆方向マルコフ連鎖の性質を利用して定常分布の偏微分を推定する方法を導出し，割引率に依存しない方策勾配法を提案した．割引率の設定が困難is MDPに適用し提案法の有用性も確u6,した． 11）に対しては，学習プラトーに注目して，MDPの確率分布に対して各パラメータの敏感さの相違やその相関を考慮できる自然勾配法を利用した．最適な方策への収束を遅くしている理由を学習すべきパラメータ空間の構造の性質から考察をして勾配の計量となるリーマン計量行列を解析し，自然“状態行動” 勾配法を導出した．そして数値実験ょり，特に状態数が多い場合でもプラトーに陥らず有効に働くことを示した．以上より本研究は，方策勾配強化学習法を適用する際に障害となっていた問題に解決策を与えることで，強化学習法の工学的な問題への適用可能性を広げることに貢献していると考える。

机译：策略梯度强化学习是一种方法，其中代理通过与环境的交互基于梯度方法指向平均奖励金额的局部最大化。即使对这些措施进行了适当的调整，也可以将其应用于马尔可夫决策过程（MDP），而无需事先了解这些问题，但是实际使用中几乎没有问题<有两点。 i）设置元参数很困难，并且ii）学习时间往往很长。以前有很多关于这些的研究，但是其中大多数假设了一个特定的主题并且缺乏通用性。因此，期望在不修改标准强化学习框架的情况下改进与任务无关的方法。因此，在本研究中，我们以数学方式搜索了一种策略梯度算法，以解决上述问题。对于1），我们专注于没有特别有效的调整方法的交易的折现率。由于难以计算通过常规方法估计的策略梯度的稳定分布的偏微分值，因此忽略了与偏微分有关的术语。效果是使折现率更接近1（x减小，但相反，方差变大。）因此，我们推导了一种利用反向马尔可夫链的性质估计平稳分布的偏微分的方法。我们提出了一种不依赖折现率的策略梯度方法，难以将折现率设置为适用于MDP，并且该方法的有效性得到了确认u6，11）对于11），要注意学习平台MDP我们使用自然梯度法，该方法可以考虑每个参数对概率分布及其相关性的敏感性差异。我们应该了解延迟收敛到最优策略的原因，从参数空间结构的本质出发，分析作为梯度度量的雷曼度量矩阵，并推导自然的“状态行为”梯度法。做到了。然后，数值实验表明，即使状态数很大，它也可以有效工作而不会陷入平稳状态。综上所述，本研究通过为应用策略梯度增强学习方法时遇到障碍的问题提供解决方案，有助于将增强学习方法的适用性扩展到工程问题。我认为有。

著录项

来源
《人工知能学会志》 |2009年第1期|共1页
作者
森村哲郎;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类机器人技术;
关键词
強化学習; マルコフ決定過程; 方策勾配法; 自然勾配法; 状態定常分布の偏微分;

机译：强化学习;马尔可夫确定过程;策略梯度法;自然梯度法;状态稳定分布的偏微分;
入库时间 2022-08-19 08:35:24

相似文献

外文文献
中文文献
专利

1. Efficient Task -independent Reinforcement Learring Metthods based on Policy Gradient（方策勾配に基づく効率の良い課題非依存な強イヒ学習法） [J] . 森村哲郎人工知能学会志 . 2009,第1期

机译：基于策略梯度的独立于任务的高效强化学习方法（基于策略梯度的独立于任务的高效Ihi学习方法）
2. 方策勾配法によるCPGに基づいたエネルギー効率の良い二足歩行の学習 [J] . 東　良行, 柴田智広電子情報通信学会技術研究報告 . 2009,第480期

机译：通过策略梯度方法学习基于CPG的节能两足动物
3. 方策勾配法によるCPGに基づいたエネルギー効率の良い二足歩行の学習 [J] . 東良行, 柴田智広電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2008,第480期

机译：通过策略梯度法学习基于CPG的节能双足步行
4. 確率的勾配降下法に基づく非線形最適化法：勾配推定のための減衰率を適応的に調整する方法 [C] . 渡邊貴裕, 飯間等システム制御情報学会研究発表講演会 . 2018

机译：基于概率梯度滴的非线性优化方法：如何自适应调整梯度估计的衰减因子
5. 塩基組成の不均一な遺伝子配列データに基づく適切な進化系統樹推測法の探索：データリコーディング法および非一様モデルの有用性の検証 [O] . 石川奏太, イシカワソウタ 2015

机译：基于具有异质碱基组成的基因序列数据寻找合适的进化系统树估计方法：数据记录方法和异质模型的有效性验证

Efficient Task -independent Reinforcement Learring Metthods based on Policy Gradient（方策勾配に基づく効率の良い課題非依存な強イヒ学習法）

摘要

著录项

相似文献

相关主题

期刊订阅