首页> 外文期刊>计测と制御 >第1回:強化学習の基礎
【24h】

第1回:強化学習の基礎

机译:第一:强化学习的基础

获取原文
获取原文并翻译 | 示例
           

摘要

エ-ジェントは利得(return:最も単純な場合,報酬の総計)の最大化を目的として,状態観測から行動出力へのマッピング(政策(policy)と呼ばれる)を獲得する.環境とエ-ジェントには一般に下記の性質が想定される.エ-ジェシトはあらかじめ環境に関する知識をもたない.環境の状態遷移は確率的.報酬の与えられ方は確率的.状態遷醇を繰返した後,やっと報酬にたどり着くような,段取り的な行動を必要とする環境(報酬の遅れ).強化学習では,環境のダイナミクスをマルコフ決定過程(Markov decision process:MDP)によってモデル化し,学習アルゴリズムを解析するのが一般的である.本稿では,MDPモデルおよび代表的な強化学習法として知られるActor-Critic法とQ-learningを中心に理論的な基礎について解説する.
机译:代理获得从状态观察到动作输出(称为策略)的映射,以最大化回报(在最简单的情况下,总回报)。通常假定环境和代理具有以下属性。 Ejesito事先没有任何关于环境的知识。环境的状态转换是概率性的。给予奖励的方式是概率性的。需要设置动作(奖励延迟)的环境,该环境在重复的状态转换之后最终会获得奖励。在强化学习中,通常通过马尔可夫决策过程(MDP)对环境的动力学建模并分析学习算法。在本文中,我们解释了MDP模型的理论基础以及Actor-Critic方法和Q学习,这是典型的强化学习方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号