...
首页> 外文期刊>计测と制御 >強化学習の最近の発展:第5回 応用志向の「試行錯誤に基づく目的指向学習」Exploitation-oriented Learning; XoL
【24h】

強化学習の最近の発展:第5回 応用志向の「試行錯誤に基づく目的指向学習」Exploitation-oriented Learning; XoL

机译:强化学习的最新发展:面向应用的第五种“剥削式学习”; XoL

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

これまでに著者らは,XoL手法として,1種類の報酬のみが存在する問題クラスを対象にProfit Sharing (PS)の合理性定理を証明した後,合理的政策形成アルゴリズム(Rational Policy Making algorithm; RPM),PS-r,PS-rを提案してきた.さらに,報酬と罰を同時に扱うことができる手法としては,罰回避政策形成アルゴリズム(Penalty Avoiding Rational Policy Making algorithm; PARP)を提案している.また,連続な状態空間や行動空間に対応した手法を文献において提案している.本解説では,これらの手法を外観した後,XoLの応用例を2例示す.また,実応用に際し特に重要となる「報酬と罰の設計指針」についても述べる.
机译:到目前为止,作者已经证明了针对问题类别的利益共享(PS)合理性定理,其中仅存在一种类型的奖励作为XoL方法,然后是理性决策算法(RPM)。 ),PS-r,PS-r已被提出。此外,作为一种可以同时处理奖惩的方法,我们提出了“避免惩罚罚金合理决策”算法(PARP)。另外,我们提出了一种与文献中连续状态空间和动作空间相对应的方法。在本说明中,在研究了这些方法之后,显示了两个XoL应用示例。它还描述了“奖惩设计准则”,这在实际应用中特别重要。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号