首页> 外文会议>SICE Symposium on Intelligent Systems >逆強化学習を用いた最適行動を促すインセンティブの推定
【24h】

逆強化学習を用いた最適行動を促すインセンティブの推定

机译:利用逆力学习促使激励措施的估算

获取原文

摘要

本研究では,上述のジレンマをスタグハントゲームを用いてモデル化し,ジレンマを引き起こす原因がインセンティブの影響であることを指摘した後,プレイヤーが最適解である「協力」を選択するインセンティブ設計法として2つのアプローチを取り上げる.ひとつは,Q学習を用いた手法,もう一つは逆強化学習を用いた手法である.
机译:在这项研究中,我们使用Stag-Hunt游戏模拟上述困境,并指出导致困境的原因是激励措施的影响,并作为选择“合作”的激励设计方法,即玩家是最佳解决方案占用两种方法。一个是使用Q学习的方法,另一个是使用逆钢筋学习的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号