第1回：強化学習の基礎

木村元

首页> 外文期刊>计测と制御 >第1回：強化学習の基礎

【24h】

第1回：強化学習の基礎

机译：第一：强化学习的基础

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

エ-ジェントは利得（return：最も単純な場合，報酬の総計）の最大化を目的として，状態観測から行動出力へのマッピング（政策（policy）と呼ばれる）を獲得する．環境とエ-ジェントには一般に下記の性質が想定される．エ-ジェシトはあらかじめ環境に関する知識をもたない．環境の状態遷移は確率的．報酬の与えられ方は確率的．状態遷醇を繰返した後，やっと報酬にたどり着くような，段取り的な行動を必要とする環境（報酬の遅れ）．強化学習では，環境のダイナミクスをマルコフ決定過程（Markov decision process：MDP）によってモデル化し，学習アルゴリズムを解析するのが一般的である．本稿では，MDPモデルおよび代表的な強化学習法として知られるActor-Critic法とQ-learningを中心に理論的な基礎について解説する．

机译：代理获得从状态观察到动作输出（称为策略）的映射，以最大化回报（在最简单的情况下，总回报）。通常假定环境和代理具有以下属性。 Ejesito事先没有任何关于环境的知识。环境的状态转换是概率性的。给予奖励的方式是概率性的。需要设置动作（奖励延迟）的环境，该环境在重复的状态转换之后最终会获得奖励。在强化学习中，通常通过马尔可夫决策过程（MDP）对环境的动力学建模并分析学习算法。在本文中，我们解释了MDP模型的理论基础以及Actor-Critic方法和Q学习，这是典型的强化学习方法。

著录项

来源
《计测と制御》 |2013年第1期|共6页
作者
木村元;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类自动化元件、部件;
关键词
強化学習; マルコフ決定過程; Q学習;

机译：强化学习;マルコフ决定过程;Q学习;

相似文献

外文文献
中文文献
专利

1. 創成教育を目指した化学工学の実習と実験の試み:実験とシミュレータ演習による化学工学の基礎力充実 [J] . 鈴川一己, 諸岡成治化学工学 . 2012,第1期

机译：旨在进行创新教育的化学工程实践培训和实验试验：通过实验和模拟器练习提高化学工程的基本技能
2. 強化学習を用いたシェル構造の形態創生に関する基礎的研究 [J] . Chi-tathon KUPWIWAT, 山本　憲司構造工学論文集 . 2021,第Mara期

机译：利用加固学习创建壳结构的基础研究
3. 第1回：強化学習の基礎 [J] . 木村元计测と制御 . 2013,第1期

机译：第一：强化学习的基础
4. 強化学習における「認知の歪み」を利用した役割分化の促進：周期的に負の値をとる学習率にする基礎的検討 [C] . 永吉雅人, エルダトンサイモン, 玉置久電気学会電子・情報・システム部門大会 . 2019

机译：促进角色差异使用“认知失真”在钢筋学习中：基本检查导致负值学习率
5. 強化学習に基づく知能システム : 価値体系を利用したパターン処理型知能マシンの検討利用統計を見る [D] . 山川宏 1992

机译：基于强化学习的智能系统：基于价值系统视图使用统计的模式处理型智能机研究
6. 近代の市場社会における慣習および習俗とその法的強制力についての研究その1 慣習と習俗に関する基礎的検討 [O] . 1993

机译：现代市场社会习俗风俗及其法律可执行性研究第一部分海关基础研究

第1回：強化学習の基礎

摘要

著录项

相似文献

相关主题

期刊订阅