首页> 中国专利> 基于连续状态行为域强化学习的机器人羽状流追踪方法

基于连续状态行为域强化学习的机器人羽状流追踪方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提出的基于连续状态行为域强化学习的机器人羽状流追踪方法，属于水下机器人路径规划领域。该方法对水下机器人进行羽状流热液喷口搜索的路径规划进行训练；机器人在每次羽状流追踪中通过生成状态向量输入当前决策神经网络，神经网络输出该时刻机器人前进方向，机器人匀速运行一段时间后，更新在新时刻的状态向量并判断单次羽状流追踪是否达到终止条件：当满足终止条件时，则单次羽状流追踪结束，机器人重新生成新的初始位置；若不满足，则机器人下一时刻继续前进；在此过程中，利用强化学习算法在每个时刻对决策神经网络进行更新，直到算法收敛。本发明学习速度快，收敛好，能够提高机器人追踪羽状流热液喷口的灵活性，降低搜索成本。

著录项

公开/公告号CN107729953B

专利类型发明专利
公开/公告日2019-09-27

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN201710840331.X
发明设计人宋士吉;牛绿茵;
展开▼

申请日2017-09-18
分类号G06K9/66(20060101);G06N3/08(20060101);B25J9/16(20060101);
代理机构11201 北京清亦华知识产权代理事务所(普通合伙);
代理人廖元秋
地址 100084 北京市海淀区清华园1号
入库时间 2022-08-23 10:40:29

法律信息

法律状态公告日

法律状态信息

法律状态
2019-09-27

授权

授权
2018-12-18

著录事项变更 IPC(主分类):G06K 9/66 变更前: 变更后: 申请日:20170918

著录事项变更
2018-12-18

著录事项变更 IPC(主分类):G06K 9/66 变更前: 变更后: 申请日:20170918

著录事项变更
2018-03-20

实质审查的生效 IPC(主分类):G06K9/66 申请日:20170918

实质审查的生效
2018-03-20

实质审查的生效 IPC(主分类):G06K9/66 申请日:20170918

实质审查的生效
2018-03-20

实质审查的生效 IPC(主分类):G06K 9/66 申请日:20170918

实质审查的生效
2018-02-23

公开

公开
2018-02-23

公开

公开
2018-02-23

公开

公开
2018-02-23

公开

公开

查看全部

相似文献

专利
中文文献
外文文献

1. 基于连续状态行为域强化学习的机器人羽状流追踪方法 [P] . 中国专利： CN107729953B . 2019.09.27
2. 基于连续状态行为域强化学习的机器人羽状流追踪方法 [P] . 中国专利： CN107729953A . 2018-02-23
3. FLOW-STATE DISCRIMINATION DEVICE, FLOW-STATE DISCRIMINATION METHOD, FLOW-STATE DISCRIMINATION PROGRAM, AND ROBOT CONTROL SYSTEM USING THE DEVICE, METHOD AND PROGRAM [P] . 日本专利： JP2012203646A . 2012-10-22

机译：流状态鉴别设备，流状态鉴别方法，流状态鉴别程序以及使用该设备，方法和程序的机器人控制系统
4. TRACER PARTICLE FOR VISUALIZING BEHAVIOR OF MOLTEN METAL, METHOD FOR PRODUCING TRACER PARTICLE, METHOD FOR ANALYZING BEHAVIOR OF MOLTEN METAL USING TRACER PARTICLE, AND DEVICE FOR ANALYZING BEHAVIOR OF MOLTEN METAL [P] . 日本专利： JP2007054873A . 2007-03-08

机译：熔融金属的可视化行为的追踪粒子，制备追踪粒子的方法，利用追踪粒子分析熔融金属的行为的方法以及熔融金属的行为分析的装置
5. FLAG GAME SYSTEM AND METHOD USING SITUATION DEPENDENT BEHAVIOR BASED ROBOT [P] . 韩国专利： KR101470433B1 . 2014-12-09

机译：基于状态依赖行为的机器人游戏系统及方法