強化学習の最近の発展 第4回：部分観測マルコフ決定過程と強化学習

澁谷長史

首页> 外文期刊>计测と制御 >強化学習の最近の発展第4回：部分観測マルコフ決定過程と強化学習

【24h】

強化学習の最近の発展第4回：部分観測マルコフ決定過程と強化学習

机译：强化学习的最新进展第4部分：部分观察马尔可夫决策过程和强化学习

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

团队文献服务 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

このように，情報の不十分性によって意思決定·学習が困難になる問題は不完全知覚問題と呼ばれている．意思決定者からみると，対象となるシステムの挙動にマルコフ性を仮定できないことが難しさの要因である．センサを増やすなどの工夫によってマルコフ性が回復できればよいのだが，そうでない場合には残念ながらそのままモデル化して問題を解かざるをえない．本稿が焦点を当てるPOMDP は，このような問題をモデル化する道具立てである．POMDPはMDPと比べて問題設定が厳しい．問題を解くにあたっては，事前知識や利用可能な計算資源に対する仮定や，要求される性能に応じて手法を選ぶことが必要である．本稿では，近年のPOMDPにおける強化学習研究のいくつかを取り上げ，解説を試みる．

机译：这样，由于信息不足而使决策和学习变得困难的问题称为不完全感知问题。从决策者的角度来看，困难在于目标系统的行为不能假定为马尔可夫。如果可以通过增加传感器的数量来恢复Markov属性，那将是很好的选择，但是不幸的是，在这种情况下，我们必须对其进行建模并解决问题。本文关注的POMDP是用于对此类问题进行建模的工具。 POMDP的问题设置比MDP严格。在解决该问题时，有必要根据先验知识，关于可用计算资源的假设以及所需的性能来选择一种方法。在本文中，我将介绍POMDP中最近进行的一些强化学习研究，并尝试对它们进行解释。

著录项

来源
《计测と制御》 |2013年第4期| 共7页
作者
澁谷長史;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类自动化元件、部件 ;
关键词
強化学習; 部分観測マルコフ決定過程;

机译：强化学习;部分観测マルコフ决定过程;

相似文献

外文文献
中文文献
专利

1. 強化学習の最近の発展第4回：部分観測マルコフ決定過程と強化学習 [J] . 澁谷長史计测と制御 . 2013 ,第4期

机译：强化学习的最新进展第4部分：部分观察马尔可夫决策过程和强化学习
2. 強化学習の最近の発展第6回：逆強化学習によるマルチエージェント系の報酬設定 [J] . 荒井幸代计测と制御 . 2013 ,第6期

机译：强化学习的最新发展之六：通过反向强化学习进行多主体奖励设置
3. 強化学習の最近の発展第6回：逆強化学習によるマルチエージェント系の報酬設定 [J] . 荒井幸代计测と制御 . 2013 ,第6期

机译：最近的钢筋教学发展第六：逆向加强学习奖励制定多功能系统
4. 部分観測マルコフ決定過程における遺伝的アルゴリズムを用いた階層型強化学習 [C] . 鈴木晃平, 加藤昇平流体計測制御シンポジウム . 2018

机译：使用遗传算法在部分观察Markov确定过程中使用遗传算法的分层加固学习
5. モデルベース深層強化学習におけるタスク依存の中間表現を用いた環境遷移モデルの学習利用統計を見る [D] . 水谷陽太 2019

机译：在基于模型的深度强化学习中查看使用任务相关中间表示的环境过渡模型的学习使用情况统计信息
6. 部分観測可能なマルコフ過程での多段決定問題について (動的システム最適化理論の展開とその応用) [O] . 中井達 2002

机译：关于部分可观察的马尔可夫过程中的多阶段决策问题（动态系统优化理论及其应用的发展）

強化学習の最近の発展 第4回：部分観測マルコフ決定過程と強化学習

摘要

著录项

相似文献

相关主题

期刊订阅

強化学習の最近の発展第4回：部分観測マルコフ決定過程と強化学習