首页> 外文会议>精密工学会大会学術講演会 >多リンクロボットの経路決定を行う強化学習に関する研究―ユーザの意図を表す複数報酬に基づく強化学習
【24h】

多リンクロボットの経路決定を行う強化学習に関する研究―ユーザの意図を表す複数報酬に基づく強化学習

机译:基于多重奖励确定多链接机器人加固学习的加固学习研究代表了用户的意图

获取原文

摘要

強化学習では報酬が最大となる行動が選択されるが、得られた行動に使用者が満足しない場合がある。その原因の一つに設定した報酬が使用者の意図を適切に表現していないことが挙げられる。例えば、2リンクアームロボットに、「各関節は1ステップで20°以上回転できないという制約条件の下、最小ステップ数で手先を初期位置からゴール円内に到達させる」というタスクを考え、「50ステップ以内に手先がゴール円内に到達すると“+1“の報酬を与える」という報酬関数を定義した場合、図1のような複数の学習結果が得られた。実線および破線で示した結果は同じ学習アルゴリズムを用いた学習結果であり、手先の軌跡は異なるものの、ともに6ステップでタスクを達成している。2つの学習結果は同じ評価を受けるはずであるが、人間には破線より実線の軌道の方が良いと感じられる。この原因は、人間がタスクには無い「無駄の無い動作でタスクを実現する」ことまで無意識のうちにロボットに要求したからであると考えた。実際、実線の軌道では肩関節と肘関節合わせて約165°回転したのに対して、破線の軌道では約212°必要とし、約50°も余分な動作をしている。
机译:在钢筋学习中,选择具有最大奖励的操作,但用户可能对所获得的动作不满意。据说,设置为原因之一的奖励没有正确代表用户的意图。例如,在双链路臂机器人中,考虑任务“从初始位置到达50步,从初始位置到达目标圈在每个接头在一步中不能旋转20°,”50步。在达到目标圆内的手中的情况下,在定义奖励功能“给予+1”时获得了多个学习结果。由实线和虚线指示的结果是使用相同的学习算法的学习结果,手的轨迹不同,但两步都达到任务。这两个学习结果应受到相同的评估,但人类的感觉比虚线更好。这一原因是,在人类的情况下无意识地要求机器人没有一项没有双打的任务。事实上,在虚线的轨迹中大约212°,而在肩关节的匆忙和带有实心轨道的肘关节中,在虚线轨迹中约212°,约50°也额外操作。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号