首页> 外文会议>インテリジェント·システム·シンポジウム >行動選択肢の確率的変動を伴う多段意思決定問題に対する強化学習法
【24h】

行動選択肢の確率的変動を伴う多段意思決定問題に対する強化学習法

机译:概率选项概率波动的多阶段决策问题的加固学习方法

获取原文

摘要

強化学習は多段意思決定問題を解くことに向いているが、現実に存在する多段意思決定問題の多くは確率的な変動を含hでおり、行動選択時にはリスクが生じる.このような問題に対して,従来の強化学習では期待値に基づく考え方により一意的に解を導くが,意思決定者の主観に応じて最適な解は様々であるため,本研究では意思決定者の主観を考慮して最適な解を導くことのできる強化学習法を提案する.さらに,現実の問題で変動の生起確率が既知であることは少ないため,学習と同時に確率の推定も行い,確率と価値の収束性について検討する.
机译:尽管加强学习适合解决多阶段决定问题,但现实中存在的许多多级决策问题包括概率波动,并且在行为选择期间发生风险。对于这些问题,传统的加强学习唯一地指基于预期值的解决方案,但由于最佳解决方案根据决策者的主体性而不同,这项研究中的决策者我们提出了一种可以导致最佳解决方案的加强学习方法考虑到的主观性。此外,由于变异的概率概率在实际问题中较少,因此具有学习的同时估计概率,并且考虑了概率和值的收敛性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号