首页> 中国专利> 一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法

一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于循环神经网络的自评估机器人任务中错误可知的策略学习方法。本发明针对具有自评估模块的机器人任务可以在执行动作之前评估该动作的特性，充分利用动作的自评估结果，将其建模到错误可知的策略学习中，利用循环神经网络隐式地编码观测和评估的记忆，使得策略本身具有基于之前的错误尝试进行分布更新的能力，从而使得最终执行的动作更加安全可靠。相比于通用的排序策略，本发明考虑了之前尝试的自评估结果对动作概率值分布的影响，从而可以再观测不变的情况下根据已知的失败更新策略分布，使得探索的次数尽可能少，更适用于机器人算法的在线调整。

著录项

公开/公告号CN115723132A

专利类型发明专利
公开/公告日2023-03-03

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN202211451138.4
发明设计人王越;许可淳;熊蓉;
展开▼

申请日2022-11-20
分类号B25J9/16;B25J15/08;G06N3/0442;G06N3/0455;G06N3/08;
代理机构杭州中成专利事务所有限公司;
代理人李亦慈;唐银益
地址 310058 浙江省杭州市西湖区余杭塘路866号
入库时间 2023-06-19 18:39:13

法律信息

法律状态公告日

法律状态信息

法律状态
2023-03-03

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种面向大规模环境中复杂任务的深度策略学习方法 [P] . 中国专利： CN106096729B . 2018-11-20
2. 一种面向大规模环境中复杂任务的深度策略学习方法 [P] . 中国专利： CN106096729A . 2016-11-09
3. A machine learning device, robot system and machine learning method for learning a movement of a robot involved in a task performed jointly by a human and a robot [P] . 德国专利： DE102017007729A1 . 2018-03-29

机译：一种机器学习设备，机器人系统和机器学习方法，用于学习与人和机器人共同执行的任务中涉及的机器人的运动
4. Machine learning device, robot system and machine learning method for learning a movement of a robot that is involved in a task jointly performed by a human and a robot [P] . 德国专利： DE102017007729B4 . 2021-09-16

机译：机器学习设备，机器人系统和机器学习方法，用于学习由人和机器人共同执行的任务中涉及的机器人的运动
5. MACHINE LEARNING DEVICE, ROBOT SYSTEM, AND MACHINE LEARNING METHOD FOR LEARNING MOTION OF ROBOT ENGAGED IN TASK PERFORMED BY HUMAN AND ROBOT IN COOPERATION WITH EACH OTHER [P] . 日本专利： JP2018030185A . 2018-03-01

机译：机器学习设备，机器人系统和机器学习方法，用于学习相互协作进行人与机器人执行的任务中的机器人运动