動的環境下の強化学習アルゴリズム：SequentialMonteCarloとサンプル初期化

田中昭雄; 中田洋平; 松本隆Akio TanakaYohei NakadaTakashi Matsumoto

首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >動的環境下の強化学習アルゴリズム：SequentialMonteCarloとサンプル初期化

【24h】

動的環境下の強化学習アルゴリズム：SequentialMonteCarloとサンプル初期化

机译：動的環境下の強化学習アルゴリズム：SequentialMonteCarloとサンプル初期化

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相关主题

摘要

強化学習の枠組みはエージェントと環境から成っており、行動、状態、報酬の3つの変数による相互作用によってエージェントの学習が行われる0これまで報告されているアルゴリズムの多くは静的な環境を前提としているため、環境が激変する場合、学習に支障をきたす事がままある。それは例えば学習が非常に遅くなる、もしくは学習自体が破綻してしまう、等である。本論文では、エ岬ジェントが環境変化に対応可能な機構を持つ手法の提案を行う。強化学習をベイズ的枠組みから定式化し、サンプ）L／を初桐化（再採取 ─工胄陇郡圣ⅴ毳触辚亥啶騻浃à縎equentialMonteCarlo（SMC）で実装する。このアルゴリズムを動的環境を含む強化学習問題に適用し、その有効性を示す。

著录项

来源
《電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing》 |2005年第759期|101-106|共6页
作者
田中昭雄; 中田洋平; 松本隆Akio TanakaYohei NakadaTakashi Matsumoto;
展开▼
作者单位

早稲田大学大学院理工学研究科;

Graduate School of Science and Engineering, Waseda University 3-4-1 Okubo, Shinjuku-ku, Tokyo 169-8555, Japan;

展开▼
收录信息
原文格式 PDF
正文语种日语
中图分类人工智能理论;
关键词
強化学習; Scqucntial Monte Carlo; サンプル初期化; サンプル再採取; Reinforcement Learning; Sequential Monte Carlo; Sample Re-initialization; Sample Re-drawing;

動的環境下の強化学習アルゴリズム：SequentialMonteCarloとサンプル初期化

摘要

著录项

相关主题

期刊订阅