自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

森村哲郎; 内部英治; 銅谷賢治; Tetsuro MORIMURA; Eiji UCHIBE; Kenji DOYA

首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

【24h】

自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

机译：自然TD学习：基于自然政策梯度的增强型学习方法，利用折扣折扣中的TD错误

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年，環境との相互作用を通じて学習する手法である強化学習が注目されている．パラメータ空間がリーマン構造であっても自然勾配は最急勾配方向を表すため，自然勾配に基づく強化学習の方策勾配法である自然方策勾配法は特に強力なツールになる．しかし，自然方策勾配法を実問題に適用するには必要となるサンプル数や逆行列の計算が問題となる．そこで本報告では，実用的な自然方策勾配法として自然時間差分学習法（自然TD学習法）を提案する．これは目的関数が平均報酬に制限されるために多くのサンプル数が必要となる問題に対処し，逆行列の計算を必要としない適応的な自然方策勾配法である．自然TD学習では状態価値関数のTD誤差を状態空間ではなく状態行動空間で定義する．この時，TD誤差はアドバンテージ関数をコードし，さらにTD誤差を近似したある線形近似器の重みが自然方策勾配を与えることを示す．2種のシミュレーション実験に自然TD学習を適用し，有効性を議論する．

机译：近年来，密集学习是一种通过与环境互动来学习的方法，已引起人们的关注。即使参数空间具有雷曼结构，自然梯度也代表最陡的梯度方向，因此自然策略梯度方法是一种基于自然梯度的强化学习策略，是一种非常强大的工具。但是，问题在于将自然策略梯度方法应用于实际问题所需的样本数量和逆矩阵的计算。因此，在本报告中，我们提出了一种自然时差学习方法（自然TD学习方法）作为一种实用的自然政策梯度方法。这是一种自适应的自然政策梯度方法，该方法解决了由于目标函数限于平均奖励而不需要大量样本的问题，并且不需要计算逆矩阵。在自然TD学习中，状态值函数的TD误差不是在状态空间中定义的，而是在状态动作空间中定义的。此时，TD误差编码了一个优势函数，并且表明近似TD误差的线性逼近设备的权重给出了自然的策略梯度。我们将自然TD学习应用于两种类型的模拟实验并讨论其有效性。

著录项

来源
《電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing》 |2004年第759期|共6页
作者
森村哲郎; 内部英治; 銅谷賢治; Tetsuro MORIMURA; Eiji UCHIBE; Kenji DOYA;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类人工智能理论;
关键词
強化学習; 方策勾配; 自然勾配; TD誤差; Reinforcement learning; Policy gradient; Natural gradient; TD-error;

机译：加强学习;政策梯度;自然梯度;TD错误;强化学习;政策梯度;自然梯度;TD错误;

相似文献

外文文献
中文文献
专利

1. 自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法 [J] . 森村哲郎, 内部英治, 桐谷賢治, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2005,第759期

机译：自然TD学习：基于自然政策梯度的增强型学习方法，利用折扣折扣中的TD错误
2. 自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法 [J] . 森村哲郎, 内部英治, 銅谷賢治, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2004,第759期

机译：自然TD学习：基于自然政策梯度的增强型学习方法，利用折扣折扣中的TD错误
3. 自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法 [J] . 森村哲郎, 内部英治, 銅谷賢治, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2004,第759期

机译：自然TD学习：基于自然测量梯度的增强学习方法，使用TD奖励中的TD误差
4. LoRaWANにおける深層強化学習を用いた直交リソース割り当て法における報酬値の影響に関する検討 [C] . 相原直紀, 安達宏一, 田久修, 電子情報通信学会ソサイエティ大会;電子情報通信学会 . 2019

机译：在LoRaWAN中使用深度强化学习检验奖励值对正交资源分配方法的影响
5. モデルベース深層強化学習におけるタスク依存の中間表現を用いた環境遷移モデルの学習利用統計を見る [D] . 水谷陽太 2019

机译：在基于模型的深度强化学习中查看使用任务相关中间表示的环境过渡模型的学习使用情况统计信息
6. 強化学習と脳における報酬系の情報処理(脳化学2,数学者のための分子生物学入門-新しい数学を造ろう-) [O] . 石井信, 柴田和久 2006

机译：大脑中奖励系统的强化学习和信息处理（脑化学2，数学家分子生物学导论-让我们做新的数学-）

自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

摘要

著录项

相似文献

相关主题

期刊订阅