首页> 中国专利> 基于延迟经验优先回放机制的强化学习无人机航迹规划方法

基于延迟经验优先回放机制的强化学习无人机航迹规划方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开的一种基于延迟经验优先回放机制的强化学习航迹规划方法，属于航迹规划技术领域。本发明实现方法为：考虑无人机动力学、飞行性能、地形和威胁约束构造无人机避障航迹规划问题模型，并以此设计航迹规划问题的强化学习状态‑动作‑奖励三要素；构建基于最大化熵策略的局部航迹规划训练与应用框架，通过“离线训练‑在线规划”分层机制降低局部信息驱动下航迹规划的计算耗时；结合非稀疏设计引导奖励函数，利用局部信息引导无人机逐渐趋近目标。引入策略延迟更新机制与优先经验回放机制，在网络参数的训练过程中，分阶段训练以加快强化学习训练收敛速度。本发明能够提升强化学习训练过程中的训练速度与稳定性，实现毫秒级在线航迹规划。

著录项

公开/公告号CN116974299A

专利类型发明专利
公开/公告日2023-10-31

原文格式PDF
申请/专利权人北京理工大学;
展开▼

申请/专利号CN202311004197.1
发明设计人龙腾;钟建鑫;孙景亮;李俊志;李承恩;
展开▼

申请日2023-08-10
分类号G05D1/10(2006.01);
代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639;
代理人付雷杰
地址 100081 北京市海淀区中关村南大街5号
入库时间 2024-04-18 19:50:21

相似文献

专利
中文文献
外文文献

1. 基于优先经验回放机制的机器人路径规划方法及系统 [P] . 中国专利： CN115509233A . 2022-12-23
2. 一种基于优先级经验回放的深度强化学习机器人控制方法 [P] . 中国专利： CN111421538B . 2022-05-20
3. METHOD FOR EXPLORATION BASED ON CURIOSITY AND PRIORITIZATION OF EXPERIENCE DATA IN MULTI-AGENT REINFORCEMENT LEARNING [P] . US2022215204A1 . 2022-07-07

机译：方法基于好奇心和探索在多代理优先级的经验数据强化学习
4. EXPERIENCE REINFORCEMENT TYPE REINFORCEMENT LEARNING SYSTEM, EXPERIENCE REINFORCEMENT TYPE REINFORCEMENT LEARNING METHOD AND EXPERIENCE REINFORCEMENT TYPE REINFORCEMENT LEARNING PROGRAM [P] . 日本专利： JP2011204036A . 2011-10-13

机译：经验强化型强化学习系统，经验强化型强化学习方法和经验强化型强化学习计划
5. DISTRIBUTED STRENGTHENING LEARNING METHOD FOR INTEGRATING EXPERIENCE STRENGTHENING TYPE STRENGTHENING LEARNING METHOD AND ENVIRONMENT IDENTIFICATION TYPE STRENGTHENING LEARNING METHOD BY USING MULTI-AGENT MODEL [P] . 日本专利： JP2000020494A . 2000-01-21

机译：综合多经验模型的经验强化型强化学习方法与环境识别型强化学习方法的分布式强化学习方法