首页> 外文会议>システム·情報部門学術講演会 >状態価値に基づいた温度パラメータの調整手法
【24h】

状態価値に基づいた温度パラメータの調整手法

机译:基于状态值的温度参数调整方法

获取原文

摘要

本研究では,強化学習において行動選択のランダム性を制御する温度パラメータの自律調整手法を提案する.温度パラメータの制御には,状態価値の推定値と直近の訪問状態で観測された状態価値の割合を用いた.提案手法をMountain Carタスクに適用することで,提案手法の妥当性の検証を行った.また,同タスク内にて環境変化を与えた.検証の結果,提案手法を適用したエージェントは,環境変化に対して高い適応性を示した.
机译:在本研究中,我们提出了一种温度参数的自主调整方法,可控制加固学习中的行为选择的随机性。温度参数的控制使用了状态值的估计值和在最新访问状态下观察到的状态值速率。通过将建议的方法应用于山地汽车任务,我们检查了所提出的方法的有效性。此外,在同一任务中给出了环境变化。作为验证的结果,所提出的方法被应用的代理表明对环境变化的高适应性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号