Stochastic policy gradient methods are a type of reinforcement learning method, where the parameter of the policy parameter is updated according to the gradient with respect to called policy gradient. In this report, I propose a learning method for a probabilistic model, which generates policy parameters. This learning method is a kind of ensemble learning method, and can handle the "exploration-exploitation problem" by changing the variation of policy parameters. I apply my method to the automatic control of simple dynamical systems, and investigate the perfomance.%強化学習の一種である方策勾配法は,方策関数のパラメータ,すなわち方策パラメータを,方策勾配に基づき更新する手法である.本報告では,方策パラメータを生成する確率モデルに対する学習法を提案する.この方法はアンサンブル学習の一種となっており,方策パラメータの分布の広がりを変えることで探索搾取問題を扱うことができる.提案手法を単純な力学系の制御問題に適用し,その動作を調べた.
展开▼