自然方策勾配法に基づくオフポリシー型強化学習法

中村寮; 石井信; Yutaka Nakamura; Shin Ishii

首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >自然方策勾配法に基づくオフポリシー型強化学習法

【24h】

自然方策勾配法に基づくオフポリシー型強化学習法

机译：基于自然政策梯度法的非政策强化学习方法

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

強化学習法には"探索搾取問題"と呼ばれる問題がある?これは，過去に得た知識の最良の方策を実行（搾取）するか，存在するかも知れないより良い方策を探索するかを決定する問題である．本報告では，この探索搾取問題に対する一つの解決策としてオフポリシー翠の自然方策勾配法を提案する．提案手法では，behavior policyと呼ばれる現在の方策とは異なる任意の万乗でサンプリングされた状態と行動の系列から方策勾配を推定できるためごbehaviorpolicyの生成過程を変更することで，探索搾取問題を扱うことができる．

机译：增强型学习方法中是否存在一个称为“探索性利用问题”的问题？这决定了是实施（利用）过去获得的知识的最佳策略，还是寻求可能存在的更好的策略。这是一个要做的问题。在本报告中，我们提出了脱离政策的Midori的自然政策梯度法，作为解决该探索性开发问题的一种方法。在提出的方法中，由于可以从任意能力和操作序列所采样的状态估计策略梯度，这与当前称为行为策略的策略不同，因此可以通过更改行为策略的生成过程来处理搜索开发问题。能够。

著录项

来源
《電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing》 |2005年第759期|共6页
作者
中村寮; 石井信; Yutaka Nakamura; Shin Ishii;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类人工智能理论;
关键词
強化学乳自然方策勾配法; オフポリシー法; 探索－搾取問題; Reinforcement learning; natural policy gradient method4aoff-policy method; exploration-exploitation problem;

机译：强化学乳自然方策勾配法;オフポリシー法;探索－榨取问题;Reinforcement learning;natural policy gradient method4aoff-policy method;exploration-exploitation problem;

相似文献

外文文献
中文文献
专利

1. 自然方策勾配法に基づくオフポリシー型強化学習法 [J] . 中村寮, 石井信, Yutaka Nakamura, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2005,第759期

机译：基于自然政策梯度法的非政策强化学习方法
2. 自然方策勾配法に基づくオフポリシー型強化学習法 [J] . 中村泰, 石井信, Yutaka NAKAMURA, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2004,第759期

机译：基于自然政策梯度法的非政策强化学习方法
3. 自然方策勾配法に基づくオフポリシー型強化学習法 [J] . 中村泰, 石井信, Yutaka NAKAMURA, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2004,第759期

机译：基于自然应变梯度法的脱策型强化学习方法
4. 自律分散型スマートグリッド上の電力取引に対する自然方策勾配法によるマルチエージェント強化学習の有効性検証 [C] . 谷口忠大, 榊原一紀, 西川郁子自律分散システム·シンポジウム . 2010

机译：自然措施自然测量自动分布式智能电网电力交易梯度法的多智能验证学习的功效验证
5. 強化学習に基づく知能システム : 価値体系を利用したパターン処理型知能マシンの検討利用統計を見る [D] . 山川宏 1992

机译：基于强化学习的智能系统：基于价值系统视图使用统计的模式处理型智能机研究
6. 平成25年電気学会電子・情報・システム部門大会講演申込登録のご案内（第4報）／特集号の論文募集（「量子ビームによるナノバイオ物理応用技術」特集／「機械学習手法に基づく設備診断・監視技術」特集／「デペンダブルなサービスシステムに貢献する情報・システム技術」特集）／第17回アナログVLSIシンポジウム開催案内 [O] . 2013

机译：电子社会申请登记的信息电子社会电子和信息和系统司的消防社会（第4次报告）/特殊问题文件规范（“纳米梁物理应用技术按量子梁”/“设施诊断基于机器学习方法特殊功能/“特殊问题”“信息和系统技术导致可靠服务系统”）/第17个模拟VLSI研讨会举行指南

自然方策勾配法に基づくオフポリシー型強化学習法

摘要

著录项

相似文献

相关主题

期刊订阅