自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

森村哲郎; 内部英治; 銅谷賢治; Tetsuro MORIMURA; Eiji UCHIBE; Kenji DOYA

首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

【24h】

自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

机译：自然TD学习：基于自然测量梯度的增强学习方法，使用TD奖励中的TD误差

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年，環境との相互作用を通じて学習する手法である強化学習が注目されている．パラメータ空間がリーマン構造であっても自然勾配は最急勾配方向を表すため，自然勾配に基づく強化学習の方策勾配法である自然方策勾配法は特に強力なツールになる．しかし，自然方策勾配法を実問題に適用するには必要となるサンプル数や逆行列の計算が問題となる．そこで本報告では，実用的な自然方策勾配法として自然時間差分学習法（自然TD学習法）を提案する．これは目的関数が平均報酬に制限されるために多くのサンプル数が必要となる問題に対処し，逆行列の計算を必要としない適応的な自然方策勾配法である．自然TD学習では状態価値関数のTD誤差を状態空間ではなく状態行動空間で定義する．この時，TD誤差はアドバンテージ関数をコードし，さらにTD誤差を近似したある線形近似器の重みが自然方策勾配を与えることを示す．2種のシミュレーション実験に自然TD学習を適用し，有効性を議論する．

机译：近年来，加强学习，这是一种通过与环境互动学习的方法，引起了关注。即使参数空间是雷曼结构，天然梯度也表示最快的梯度方向，因此是基于自然梯度的强化学习的测量方法的天然应变梯度，是一种特别强大的工具。然而，计算将自然应变梯度法应用于实际问题所需的样本数和逆矩阵的计算是问题。因此，在本报告中，我们提出了一种自然时差学习方法（天然TD学习方法）作为实际的天然应变梯度方法。这是一种自适应自然政策梯度方法，解决了需要许多样本的问题，因为目标函数限于平均补偿，并且不需要计算逆矩阵。在自然TD学习中，状态值函数的TD误差在状态行为空间而不是状态空间中定义。此时，TD误差对优势的优点进行编码，并指示近似TD误差的某个线性近似的权重给出了天然应变梯度。两种类型的仿真实验适用于自然TD学习并讨论效果。

著录项

来源
《電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing》 |2004年第759期|共6页
作者
森村哲郎; 内部英治; 銅谷賢治; Tetsuro MORIMURA; Eiji UCHIBE; Kenji DOYA;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类人工智能理论;
关键词
強化学習; 方策勾配; 自然勾配; TD誤差; Reinforcement learning; Policy gradient; Natural gradient; TD-error;

机译：加强学习;措施;自然梯度;TD错误;加强学习;政策梯度;自然梯度;TD-ERROR;

相似文献

外文文献
中文文献
专利

1. 自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法 [J] . 森村哲郎, 内部英治, 桐谷賢治, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2005,第759期

机译：自然TD学习：基于自然政策梯度的增强型学习方法，利用折扣折扣中的TD错误
2. 自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法 [J] . 森村哲郎, 内部英治, 銅谷賢治, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2004,第759期

机译：自然TD学习：基于自然政策梯度的增强型学习方法，利用折扣折扣中的TD错误
3. 自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法 [J] . 森村哲郎, 内部英治, 銅谷賢治, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2004,第759期

机译：自然TD学习：基于自然测量梯度的增强学习方法，使用TD奖励中的TD误差
4. LoRaWANにおける深層強化学習を用いた直交リソース割り当て法における報酬値の影響に関する検討 [C] . 相原直紀, 安達宏一, 田久修, 電子情報通信学会ソサイエティ大会;電子情報通信学会 . 2019

机译：在LoRaWAN中使用深度强化学习检验奖励值对正交资源分配方法的影响
5. モデルベース深層強化学習におけるタスク依存の中間表現を用いた環境遷移モデルの学習利用統計を見る [D] . 水谷陽太 2019

机译：在基于模型的深度强化学习中查看使用任务相关中间表示的环境过渡模型的学习使用情况统计信息
6. 強化学習と脳における報酬系の情報処理(脳化学2,数学者のための分子生物学入門-新しい数学を造ろう-) [O] . 石井信, 柴田和久 2006

机译：大脑中奖励系统的强化学习和信息处理（脑化学2，数学家分子生物学导论-让我们做新的数学-）

自然TD学習：割引報酬におけるTD誤差を利用する自然方策勾配に基づいた強化学習法

摘要

著录项

相似文献

相关主题

期刊订阅