行動選択肢の確率的変動を伴う多段意思決定問題に対する強化学習法

机译：概率选项概率波动的多阶段决策问题的加固学习方法

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

強化学習は多段意思決定問題を解くことに向いているが、現実に存在する多段意思決定問題の多くは確率的な変動を含hでおり、行動選択時にはリスクが生じる．このような問題に対して，従来の強化学習では期待値に基づく考え方により一意的に解を導くが，意思決定者の主観に応じて最適な解は様々であるため，本研究では意思決定者の主観を考慮して最適な解を導くことのできる強化学習法を提案する．さらに，現実の問題で変動の生起確率が既知であることは少ないため，学習と同時に確率の推定も行い，確率と価値の収束性について検討する．

机译：尽管加强学习适合解决多阶段决定问题，但现实中存在的许多多级决策问题包括概率波动，并且在行为选择期间发生风险。对于这些问题，传统的加强学习唯一地指基于预期值的解决方案，但由于最佳解决方案根据决策者的主体性而不同，这项研究中的决策者我们提出了一种可以导致最佳解决方案的加强学习方法考虑到的主观性。此外，由于变异的概率概率在实际问题中较少，因此具有学习的同时估计概率，并且考虑了概率和值的收敛性。

著录项

来源
《インテリジェント·システム·シンポジウム》|2012年||共4页
会议地点
作者
江藤拓也; 高野浩貴; 村田純一;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP18-53;
关键词

相似文献

外文文献
中文文献
专利

1. 行動選択確率に基づく動的強化関数を用いた強化学習手法 [J] . 長谷川雄吾, 高田沙都子, 中野秀洋, 電子情報通信学会論文誌 . 2006,第4期

机译：基于动作选择概率的动态强化功能的强化学习方法
2. 行動選択確率に基づく動的強化関数を用いた強化学習手法 [J] . 長谷川雄吾, 高田沙都子, 中野秀洋, 電子情報通信学会論文誌, D. 情報·システム . 2006,第4期

机译：基于动作选择概率的动态强化功能强化学习方法
3. 不確実な市場変動を想定した米選択意思決定に関する調査分析 [J] . 山下良平, 新井健農林業問題研究 . 2013,第1期

机译：假设市场波动不确定的美国选择决策的研究与分析
4. 行動選択肢の確率的変動を伴う多段意思決定問題に対する強化学習法 [C] . 江藤拓也, 高野浩貴, 村田純一インテリジェント·システム·シンポジウム . 2012

机译：概率选项概率波动的多阶段决策问题的加固学习方法
5. 内胸動脈を橈骨動脈で延長した複合グラフト(composite I-graft)における橈骨動脈連続吻合法の術後開存率向上を目指した至適な標的冠動脈の選択を明らかにする研究 [D] . 島原佑介 2019

机译：明确选择最佳目标冠状动脉选择以提高连续radial骨吻合方法在复合式I植体中的有效性的研究
6. 〔民事手続判例研究〕仮処分命令における保全すべき権利が、本案訴訟の判決において、当該仮処分命令の発令時から存在しなかったものと判断され、このことが事情の変更に当たるとして当該仮処分命令を取り消す旨の決定が確定した場合には、当該仮処分命令を受けた債務者は、その保全執行としてされた間接強制決定に基づき取り立てられた金銭につき、債権者に対して不当利得返還請求をすることができるとした事例損害賠償等請求事件 (最高裁平成20年(受)第224号、平成21年4月24日第二小法廷判決・上告棄却、民集63巻4号765頁、裁時1482号12頁、判時2046号79頁、判タ1299号144頁、金法1874号155頁、金商1338号36頁) [O] . 金炳学 2011

机译：民事诉讼程序案例研究在本案判决书中，从发布临时处分令之时起，就判定不存在保留在临时处分令中的权利，并且由于改变了情况而取消了临时处分令。如果最终确定该决定，则收到临时处置令的债务人可以要求债权人根据作为保护执行而做出的间接强制性决定，退还与所收取款项有关的不当收益。要求损害赔偿的案件（最高法院第224（2008）号（收到）第224号，2009年4月24日，第二小法院的判决/上诉驳回，民述第63卷第4号第765页，第1482号判决）（第12号，第2046、79，J.1299、144，Kinho 1874、155，Kinsho 1338、36）

行動選択肢の確率的変動を伴う多段意思決定問題に対する強化学習法

摘要

著录项

相似文献

相关主题

期刊订阅