Brown et al. (1964) は接近と回避のコンフリクト状態におけるラットの反応を調べた.動物実験の特徴として,(1)報酬と罰が同時に与えられる点,(2)環境が変化し,再学習をさせる点(3)確率的に報酬と罰が与えられる点が挙げられる.実験の結果,報酬獲得の過程において,報酬の与えられないことを経験していると,その後の無報酬による影響を減らすとし,罰を受けた場合,その後の罰による影響を減らすとしている.本稿では,既存の強化学習の手法を用いて,報酬及び罰の強化信号の獲得確率が異なる前学習の後に報酬を与えない,もしくは報酬と罰を同時に与える再学習を行ない,動物実験の結果の再現を試みた.しかし,従来の手法では,動物実験における特徴(3)による行動を再現できなかった.これに対応するアルゴリズムが必要だと考え,強化信号の獲得確率を考慮した学習パラメータ制御を導入したところ,Brown et al. (1964) の動物実験の結果を定性的に再現することができた.
展开▼