首页> 中国专利> 一种基于离在线训练结合的兵力行为决策模型加速构建方法

一种基于离在线训练结合的兵力行为决策模型加速构建方法

摘要

本发明公开了一种基于离在线训练结合的兵力行为决策模型加速构建方法,属于计算机生成兵力对抗决策技术领域。提出一种基于专家样本重用机制进行离线数据集构建的方法,支撑后续的离线行为克隆和在线强化学习过程;提出一种离线预训练机制,利用专家交互数据集,结合行为克隆算法,避免与底层仿真环境的交互,得到一个表现较优秀的初始策略;提出基于专家示例样本增强机制的在线训练方法,定期进行策略评估,在线强化学习在初始策略内涵知识的基础上完成策略提升。本发明的技术方案,能够有效加快模型调优进程,快速得到预期水平的兵力行为决策模型,同时纠正行为克隆算法可能存在的级联误差问题。

著录项

  • 公开/公告号CN115062761A

    专利类型发明专利

  • 公开/公告日2022-09-16

    原文格式PDF

  • 申请/专利权人 北京航空航天大学;

    申请/专利号CN202210642647.9

  • 发明设计人 龚光红;韩宏伟;董力维;李妮;

    申请日2022-06-08

  • 分类号G06N3/04;G06N3/08;G06K9/62;

  • 代理机构

  • 代理人

  • 地址 100191 北京市海淀区学院路37号

  • 入库时间 2023-06-19 16:49:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号