多リンクロボットの経路決定を行う強化学習に関する研究―ユーザの意図を表す複数報酬に基づく強化学習

机译：基于多重奖励确定多链接机器人加固学习的加固学习研究代表了用户的意图

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

強化学習では報酬が最大となる行動が選択されるが、得られた行動に使用者が満足しない場合がある。その原因の一つに設定した報酬が使用者の意図を適切に表現していないことが挙げられる。例えば、２リンクアームロボットに、「各関節は１ステップで20°以上回転できないという制約条件の下、最小ステップ数で手先を初期位置からゴール円内に到達させる」というタスクを考え、「50ステップ以内に手先がゴール円内に到達すると“＋１“の報酬を与える」という報酬関数を定義した場合、図１のような複数の学習結果が得られた。実線および破線で示した結果は同じ学習アルゴリズムを用いた学習結果であり、手先の軌跡は異なるものの、ともに６ステップでタスクを達成している。２つの学習結果は同じ評価を受けるはずであるが、人間には破線より実線の軌道の方が良いと感じられる。この原因は、人間がタスクには無い「無駄の無い動作でタスクを実現する」ことまで無意識のうちにロボットに要求したからであると考えた。実際、実線の軌道では肩関節と肘関節合わせて約165°回転したのに対して、破線の軌道では約212°必要とし、約50°も余分な動作をしている。

机译：在钢筋学习中，选择具有最大奖励的操作，但用户可能对所获得的动作不满意。据说，设置为原因之一的奖励没有正确代表用户的意图。例如，在双链路臂机器人中，考虑任务“从初始位置到达50步，从初始位置到达目标圈在每个接头在一步中不能旋转20°，”50步。在达到目标圆内的手中的情况下，在定义奖励功能“给予+1”时获得了多个学习结果。由实线和虚线指示的结果是使用相同的学习算法的学习结果，手的轨迹不同，但两步都达到任务。这两个学习结果应受到相同的评估，但人类的感觉比虚线更好。这一原因是，在人类的情况下无意识地要求机器人没有一项没有双打的任务。事实上，在虚线的轨迹中大约212°，而在肩关节的匆忙和带有实心轨道的肘关节中，在虚线轨迹中约212°，约50°也额外操作。

著录项

来源
《精密工学会大会学術講演会》|2007年||共2页
会议地点
作者
布引雅之; 奥田孝一; 小谷直樹;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TQ327-53;
关键词

相似文献

外文文献
中文文献
专利

1. 耐滑性のない安全靴シモン（東京都中央区，☎03-5695-1011)は，耐滑性と安定歩行を兼ね備えた安全靴，シモンライトシリーズ「SL28」を開発，販売を開始した。調整域の広い靴紐と，かかとを包み込み，足裏の負担を軽減する中敷きで，作業現場における軽やかなフットワークを可能にする。靴底には，複数パーツの「SX 3層底Fソールシステム（2016年グッドデザィン賞受賞）」を採用しているため，長期保存に強く加水分解しない。地面への接地面積も大きく安定感に優れ，耐滑効果が長く持続する。139-139第23期•東西ァス防水技能員養成所を卒業して目指すべき将来像が見えた学び舎 [J] . 平野　颯真防水ジャ—ナル . 2019,第6期

机译：Simon，防滑安全鞋（东京都中央区，☎03-5695-1011），已开发并开始销售具有防滑和稳定行走功能的安全鞋Simon Light系列“ SL28”。鞋带可调节的范围很广，鞋垫可以包裹脚后跟，减少脚底的压力，使工作场所的脚步轻松。鞋底使用多部分SX 3层鞋底F鞋底系统（2016年最佳设计奖得主），因此长时间水解不会强烈水解。与地面的地面接触面积大，稳定感极佳，并且防滑效果可长时间持续。 139-139第23学期•一栋教学楼，从东西方运动员技术培训学院毕业后，您可以看到将来的目标
2. 耐滑性のない安全靴シモン（東京都中央区，☎03-5695-1011)は，耐滑性と安定歩行を兼ね備えた安全靴，シモンライトシリーズ「SL28」を開発，販売を開始した。調整域の広い靴紐と，かかとを包み込み，足裏の負担を軽減する中敷きで，作業現場における軽やかなフットワークを可能にする。靴底には，複数パーツの「SX 3層底Fソールシステム（2016年グッドデザィン賞受賞）」を採用しているため，長期保存に強く加水分解しない。地面への接地面積も大きく安定感に優れ，耐滑効果が長く持続する。139-139第23期•東西ァス防水技能員養成所を卒業して目指すべき将来像が見えた学び舎 [J] . 平野　颯真防水ジャ—ナル . 2019,第6期

机译：没有光滑光滑的鞋子（Tokyo Chuo Ward，☎03-5695-1011）已经开发出并售出安全鞋，Simon Lat系列“SL28”结合光滑，稳定行走。调整区域的宽鞋带和高跟鞋被包裹并减少了鞋底的负担，使得可以在工作场所进行轻微的习惯。由于在多个部件中，鞋底采用“SX 3层底部F-SOL系统（2016指数奖励）”采用，因此它不会强烈水解它。地面到地面也具有高度稳定性，平滑效果长。第23章第23期•一个学习的建筑，未来雕像旨在瞄准Shozasu防水技术人员培训中心
3. NTTら業界団体を設立光通信技術を研究日本電信電話(株)(NTT、東京都千代田区)、米インテル、ソ二ー(株)(東京都港区)の3社は、新たな業界団体を設立する。光電融合技術を活用したフォトニクス関連技術の研究開発などを推進し、超大容量通信に対応できる光ネットヮーク技術の確立などを目指してハる。3-3プロセッシング領域狙う国内DRAM大手のェルピーダメモリを買収し、大きく飛躍を遂げた米マイクロンテクノロジー。2017年にはサンディスク共同創業者の1人である、Sanjay Mehrotra (サンジエイ·メイロトラ)氏を招聘。経営体制も刷新され、大きく生まれ変わった「新生マイクロン」を全面に押し出した。米サンフランシスコで開催されたプライベートイベント「MlicronInsight 2019」(現地10月24日開催)では、同社のあるべき将来像に対するメッセージが随所に散りばめられていた。 [J] . 半導体産業新聞 . 2019,第2372期

机译：成立了NTT和其他工业集团研究光通信技术的日本电报电话公司（NTT，东京千代田区），英特尔，索尼公司（东京都港区）是三个新的工业集团。建立。促进利用光电子融合技术的光子相关技术的研究和开发，并致力于建立可支持超高容量通信的光网络技术。 3-3处理领域美国Micron Technology在收购了国内主要DRAM公司Elpida Memory之后取得了巨大飞跃。 2017年，我们邀请了Sanjay联合创始人Sanjay Mehrotra。管理系统也进行了改进，我们推出了完全脱胎换骨的“新Micron”。在旧金山举行的私人活动“ Mlicron Insight 2019”（10月24日举行）上，有关公司未来愿景的信息四处散布。
4. 多リンクロボットの経路決定を行う強化学習に関する研究―ユーザの意図を表す複数報酬に基づく強化学習 [C] . 布引雅之, 奥田孝一, 小谷直樹精密工学会大会学術講演会 . 2007

机译：基于多重奖励确定多链接机器人加固学习的加固学习研究代表了用户的意图
5. センサ情報に基づく自律型移動ロボットの行動制御に関する研究利用統計を見る [D] . 久保田孝 1991

机译：基于传感器信息查看使用统计的自主移动机器人行为控制研究
6. 直接経験の省察に基づくリーダーシップ開発のための実践知 : 職業人を学習者とするアクティブラーニングの視点を踏まえて〈特集 : 筑波大学大学研究センター共同研究プロジェクト研究成果報告〉 [O] . 佐野享子, サノタカコ, SANO Takako 2017

机译：基于直接经验反映的领导力发展实践知识：从以专业人士为学习者的主动学习角度

多リンクロボットの経路決定を行う強化学習に関する研究―ユーザの意図を表す複数報酬に基づく強化学習

摘要

著录项

相似文献

相关主题

期刊订阅