自然方策勾配法に基づくオフポリシー型強化学習法

中村泰; 石井信; Yutaka NAKAMURA; Shin ISHII

首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >自然方策勾配法に基づくオフポリシー型強化学習法

【24h】

自然方策勾配法に基づくオフポリシー型強化学習法

机译：基于自然应变梯度法的脱策型强化学习方法

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

強化学習法には"探索搾取問題"と呼ばれる問題がある.これは，過去に得た知識の最良の方策を実行（搾取）するか，存在するかも知れないより良い方策を探索するかを決定する問題である．本報告では，この探索搾取問題に対する一つの解決策としてオフポリシー型の自然方策勾配法を提案する．提案手法では，behavior policyと呼ばれる現在の方策とは異なる任意の方策でサンプリングされた状態と行動の系列から方策勾配を推定できるため，behavior policyの生成過程を変更することで，探索搾取問題を扱うことができる．

机译：增强学习法案有一个名为“搜索剥削问题”的问题。这决定了是否执行（利用）过去获得的知识的最佳策略。是问题在本报告中，我们提出了一个禁止策略类型自然政策梯度方法作为该搜索资源管理器问题的解决方案。在所提出的方法中，由于可以从系统采样的任何策略中估计了与所谓的当前措施不同于称为行为策略和行为序列的策略来估计测量梯度，我们将通过更改生产过程来处理搜索剥削问题行为政策能够。

著录项

来源
《電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing》 |2004年第759期|共5页
作者
中村泰; 石井信; Yutaka NAKAMURA; Shin ISHII;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类人工智能理论;
关键词
強化学習; 自然方策勾配法; オフポリシー法; 探索－搾取問題; Reinforcement Learning; Natural Policy Gradient Method; Off-Policy Method; Exploration-Exploitation Problem;

机译：加强学习;自然政策梯度法;关闭政策方法;搜索剥削问题;加固学习;自然政策梯度法;脱策法;探索 - 剥削问题;

相似文献

外文文献
中文文献
专利

1. 自然方策勾配法に基づくオフポリシー型強化学習法 [J] . 中村寮, 石井信, Yutaka Nakamura, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2005,第759期

机译：基于自然政策梯度法的非政策强化学习方法
2. 自然方策勾配法に基づくオフポリシー型強化学習法 [J] . 中村泰, 石井信, Yutaka NAKAMURA, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2004,第759期

机译：基于自然政策梯度法的非政策强化学习方法
3. 自然方策勾配法に基づくオフポリシー型強化学習法 [J] . 中村泰, 石井信, Yutaka NAKAMURA, 電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing . 2004,第759期

机译：基于自然应变梯度法的脱策型强化学习方法
4. 自律分散型スマートグリッド上の電力取引に対する自然方策勾配法によるマルチエージェント強化学習の有効性検証 [C] . 谷口忠大, 榊原一紀, 西川郁子自律分散システム·シンポジウム . 2010

机译：自然措施自然测量自动分布式智能电网电力交易梯度法的多智能验证学习的功效验证
5. 強化学習に基づく知能システム : 価値体系を利用したパターン処理型知能マシンの検討利用統計を見る [D] . 山川宏 1992

机译：基于强化学习的智能系统：基于价值系统视图使用统计的模式处理型智能机研究
6. 平成25年電気学会電子・情報・システム部門大会講演申込登録のご案内（第4報）／特集号の論文募集（「量子ビームによるナノバイオ物理応用技術」特集／「機械学習手法に基づく設備診断・監視技術」特集／「デペンダブルなサービスシステムに貢献する情報・システム技術」特集）／第17回アナログVLSIシンポジウム開催案内 [O] . 2013

机译：电子社会申请登记的信息电子社会电子和信息和系统司的消防社会（第4次报告）/特殊问题文件规范（“纳米梁物理应用技术按量子梁”/“设施诊断基于机器学习方法特殊功能/“特殊问题”“信息和系统技术导致可靠服务系统”）/第17个模拟VLSI研讨会举行指南

自然方策勾配法に基づくオフポリシー型強化学習法

摘要

著录项

相似文献

相关主题

期刊订阅