...
首页> 外文期刊>计测と制御 >強化学習の最近の発展 第4回:部分観測マルコフ決定過程と強化学習
【24h】

強化学習の最近の発展 第4回:部分観測マルコフ決定過程と強化学習

机译:强化学习的最新进展第4部分:部分观察马尔可夫决策过程和强化学习

获取原文
获取原文并翻译 | 示例

摘要

このように,情報の不十分性によって意思決定·学習が困難になる問題は不完全知覚問題と呼ばれている.意思決定者からみると,対象となるシステムの挙動にマルコフ性を仮定できないことが難しさの要因である.センサを増やすなどの工夫によってマルコフ性が回復できればよいのだが,そうでない場合には残念ながらそのままモデル化して問題を解かざるをえない.本稿が焦点を当てるPOMDP は,このような問題をモデル化する道具立てである.POMDPはMDPと比べて問題設定が厳しい.問題を解くにあたっては,事前知識や利用可能な計算資源に対する仮定や,要求される性能に応じて手法を選ぶことが必要である.本稿では,近年のPOMDPにおける強化学習研究のいくつかを取り上げ,解説を試みる.
机译:这样,由于信息不足而使决策和学习变得困难的问题称为不完全感知问题。从决策者的角度来看,困难在于目标系统的行为不能假定为马尔可夫。如果可以通过增加传感器的数量来恢复Markov属性,那将是很好的选择,但是不幸的是,在这种情况下,我们必须对其进行建模并解决问题。本文关注的POMDP是用于对此类问题进行建模的工具。 POMDP的问题设置比MDP严格。在解决该问题时,有必要根据先验知识,关于可用计算资源的假设以及所需的性能来选择一种方法。在本文中,我将介绍POMDP中最近进行的一些强化学习研究,并尝试对它们进行解释。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号