基于分支深度强化学习的非合作目标追逃博弈策略求解

刘冰雁; 叶雄兵; 高勇; 王新波; 倪蕾

首页> 中文期刊> 《航空学报》 >基于分支深度强化学习的非合作目标追逃博弈策略求解

基于分支深度强化学习的非合作目标追逃博弈策略求解

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为解决航天器与非合作目标的空间交会问题,缓解深度强化学习在连续空间的应用限制,提出了一种基于分支深度强化学习的追逃博弈算法,以获得与非合作目标的空间交会策略.对于非合作目标的空间交会最优控制,运用微分对策描述为连续推力作用下的追逃博弈问题;为避免传统深度强化学习应对连续空间存在维数灾难问题,通过构建模糊推理模型来表征连续空间,提出了一种具有多组并行神经网络和共享决策模块的分支深度强化学习架构.实现了最优控制与博弈论的结合,有效解决了微分对策模型高度非线性且难于利用经典最优控制理论进行求解的难题,进一步提升了深度强化学习对离散行为的学习能力,并通过算例仿真检验了该算法的有效性.

著录项

来源
《航空学报》 |2020年第10期|343-353|共11页
作者
刘冰雁; 叶雄兵; 高勇; 王新波; 倪蕾;
展开▼
作者单位

军事科学院北京 100091;

解放军32032部队北京 100094;

军事科学院北京 100091;

解放军32032部队北京 100094;

解放军32032部队北京 100094;

航天工程大学北京 101416;

展开▼
原文格式 PDF
正文语种 chi
中图分类航天器飞行力学;航天器制导与控制;
关键词
非合作目标; 空间交会; 航天器追逃问题; 连续空间; 微分对策; 深度强化学习; 分支架构;

相似文献

中文文献
外文文献
专利

1. 基于生存型微分对策的航天器追逃策略及数值求解 [J] . 吴其昌1 ,张洪波1 . 控制与信息技术 . 2019,第004期
2. 基于微分博弈的追逃问题最优策略设计 [J] . 刘坤 ,郑晓帅 ,林业茗 . 自动化学报 . 2021,第008期
3. 基于微分博弈的多机器人追逃策略研究及仿真 [J] . 张旭 ,李玲 ,贾磊磊 . 装备制造技术 . 2015,第009期
4. 时间固定的两航天器追逃策略及数值求解 [J] . 张秋华 ,孙松涛 ,谌颖 . 宇航学报 . 2014,第005期
5. 基于CW方程的航天器追逃问题半直接求解方法 [J] . 孙松涛 ,祝强军 ,宋斌 . 上海航天 . 2019,第003期
6. 基于活跃区域的多机器人分层追逃算法 [C] . 方宝富 ,潘启树 ,洪炳镕 . 第九届中国智能机器人学术研讨会 . 2011
7. 近圆轨道含饱和函数推力的两航天器追逃策略及数值求解 [A] . 程晓桐 . 2014

基于分支深度强化学习的非合作目标追逃博弈策略求解

摘要

著录项

相似文献

相关主题

期刊订阅