強化学習の最近の発展：第5回 応用志向の「試行錯誤に基づく目的指向学習」Exploitation-oriented Learning; XoL

宮崎和光

首页> 外文期刊>计测と制御 >強化学習の最近の発展：第5回応用志向の「試行錯誤に基づく目的指向学習」Exploitation-oriented Learning; XoL

【24h】

強化学習の最近の発展：第5回応用志向の「試行錯誤に基づく目的指向学習」Exploitation-oriented Learning; XoL

机译：强化学习的最新发展：面向应用的第五种“剥削式学习”; XoL

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

これまでに著者らは，XoL手法として，1種類の報酬のみが存在する問題クラスを対象にProfit Sharing （PS）の合理性定理を証明した後，合理的政策形成アルゴリズム（Rational Policy Making algorithm; RPM），PS-r，PS-rを提案してきた．さらに，報酬と罰を同時に扱うことができる手法としては，罰回避政策形成アルゴリズム（Penalty Avoiding Rational Policy Making algorithm; PARP）を提案している．また，連続な状態空間や行動空間に対応した手法を文献において提案している．本解説では，これらの手法を外観した後，XoLの応用例を2例示す．また，実応用に際し特に重要となる「報酬と罰の設計指針」についても述べる．

机译：到目前为止，作者已经证明了针对问题类别的利益共享（PS）合理性定理，其中仅存在一种类型的奖励作为XoL方法，然后是理性决策算法（RPM）。），PS-r，PS-r已被提出。此外，作为一种可以同时处理奖惩的方法，我们提出了“避免惩罚罚金合理决策”算法（PARP）。另外，我们提出了一种与文献中连续状态空间和动作空间相对应的方法。在本说明中，在研究了这些方法之后，显示了两个XoL应用示例。它还描述了“奖惩设计准则”，这在实际应用中特别重要。

著录项

来源
《计测と制御》 |2013年第5期|共6页
作者
宮崎和光;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类自动化元件、部件;
关键词
経験強化型学習; 強化学習; 報酬と罰;

机译：体验增强型学习;增强型学习;奖励和惩罚;

相似文献

外文文献
中文文献
专利

1. 強化学習の最近の発展：第5回応用志向の「試行錯誤に基づく目的指向学習」Exploitation-oriented Learning; XoL [J] . 宮崎和光计测と制御 . 2013,第5期

机译：强化学习的最新发展：面向应用的第五种“剥削式学习”; XoL
2. 強化学習における脱創発志向の潮流試行錯誤?見まね?目的理解へ [J] . 荒井幸代, 石川翔太, 中田勇介, 人工知能: 人工知能学会誌 . 2018,第2期

机译：潮汐学习持续发展的潮汐试验及误差？对目的的理解
3. 証明に基づく発展的な学習指導を志向した平面幾何教材の開発-命題の構造に着目して- [J] . 東龍平日本数学教育学会志 . 2015,第11期

机译：开发基于证明的基于高级学习指导的平面几何教材-关注命题结构-
4. 強化学習に基づく最適経路発見問題における対話型多目的意思決定手法の開発 [C] . 山本　浩之, 林田　智弘, 西崎　一郎, 電気学会研究会資料システム制御合同研究会 . 2018

机译：基于强化学习的最优寻路交互式多目标决策方法的开发
5. 強化学習に基づく知能システム : 価値体系を利用したパターン処理型知能マシンの検討利用統計を見る [D] . 山川宏 1992

机译：基于强化学习的智能系统：基于价值系统视图使用统计的模式处理型智能机研究
6. 基礎・基本の確実な定着は可能か (発展的学習の指導の手引き--学習指導要領「最低基準」下での個性に応じた指導) -- (新たな学力形成の動きとその課題) [O] . 高田喜久司 2001

机译：是否可以牢固地建立基础知识和基础知识？（进阶学习指南的指导-在学习指南的``最低标准''下根据个性进行教学）-（学术成就和挑战的新动向）

強化学習の最近の発展：第5回 応用志向の「試行錯誤に基づく目的指向学習」Exploitation-oriented Learning; XoL

摘要

著录项

相似文献

相关主题

期刊订阅

強化学習の最近の発展：第5回応用志向の「試行錯誤に基づく目的指向学習」Exploitation-oriented Learning; XoL