首页> 外文会议>電気学会研究会資料 システム 制御合同研究会 >強化学習に基づく最適経路発見問題における 対話型多目的意思決定手法の開発
【24h】

強化学習に基づく最適経路発見問題における 対話型多目的意思決定手法の開発

机译:基于强化学习的最优寻路交互式多目标决策方法的开发

获取原文
获取原文并翻译 | 示例

摘要

複数の目的関数を同時に最適化する多目的最適化問題は, 古くから経済学やシステム工学など,様々な分野において研究が行われている.例えば,て自律的に行動するロボットなどを運用する場合,目的地への移動,障害物等の回避,エネルギー残量など様々な目的を同時に考慮しながら,状況が変化するたびにロボット自身が適切な行動を選択することが求められる.Druganは,ロボットなどの自律的な行動主体が連続的に意思決定する必要のある多目的最適化問題に対して強化学習手法を適用することは,パレート最適解集合の発見に有効であり,今後,様々な多目的最適化手法を取り入れた強化学習手法の開発が活発になることを示唆している.本研究では,特に連続して意思決定を行う必要のある多目的最適化問題に対する最適化手法を開発する.%If there exist multiple Pareto solutions for a multi-objective optimization problem, the solution which is most preferred by a decision maker should be chosen rationally in consideration of the trade-off relation between all objectives. However, complicated procedures are required to identify the preference structure of the decision maker. This study develops an interactive decision making method based on reinforcement learning for optimal route finding problems which are extended into multi-objective decision making problem and conducts numerical experiments.
机译:自古以来,在经济和系统工程等各个领域都研究了同时优化多个目标函数的多目标优化问题,例如,当操作具有自主作用的机器人时,每当情况发生变化时,机器人本身就必须选择适当的动作,同时要考虑各种目的,例如移至目的地,避开障碍物,剩余能量等。将强化学习方法应用于需要由多个自主行动者进行自主决策的多目标优化问题,对于找到帕累托最优解集是有效的,并且将来将进行各种多目标优化。在这项研究中,我们针对需要连续决策的多目标优化问题开发了一种优化方法。对于一个多目标优化问题,存在多个帕累托解,应考虑所有目标之间的权衡关系,合理选择决策者最喜欢的解决方案。但是,需要复杂的过程才能确定决策者的偏好结构。本研究针对最优路径发现问题开发了一种基于强化学习的交互式决策方法,并将其扩展为多目标决策问题并进行了数值实验。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号