強化学習は,状態空間が広いと学習に非常に時間がかかるという深刻な問題を抱えているが,その最大の原因は価値関数を効率的に近似する方法がないことにある.本報告では,選択的不感化ニューラルネットを用いて関数近似器を構成することによってこの問題の解決を図る.本手法を4次元の連続状態空間をもつ台車型倒立振子の安定化制御に適用したところ,学習効率が大幅に向上すると共に制御の安定性も向上することがわかった.このことは,構成した関数近似器が高い汎化能力をもつと共に分解能の点でも優れていることを示している.%Existing reinforcement learning (RL) systems have a serious problem that they require an extremely long time for learning particularly when the state space is continuous and high dimensional. To overcome this problem, we propose a method of using a selective desensitization neural network (SDNN) for approximating the value function. We applied this method to stabilizing control of a cart-type inverted pendulum and found that the efficiency of learning and the stability of control were greatly improved. This result indicates that the SDNN function approximator has high generalization ability as well as good resolution of approximation.
展开▼