首页> 中国专利> 一种基于离在线训练结合的兵力行为决策模型加速构建方法

一种基于离在线训练结合的兵力行为决策模型加速构建方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于离在线训练结合的兵力行为决策模型加速构建方法，属于计算机生成兵力对抗决策技术领域。提出一种基于专家样本重用机制进行离线数据集构建的方法，支撑后续的离线行为克隆和在线强化学习过程；提出一种离线预训练机制，利用专家交互数据集，结合行为克隆算法，避免与底层仿真环境的交互，得到一个表现较优秀的初始策略；提出基于专家示例样本增强机制的在线训练方法，定期进行策略评估，在线强化学习在初始策略内涵知识的基础上完成策略提升。本发明的技术方案，能够有效加快模型调优进程，快速得到预期水平的兵力行为决策模型，同时纠正行为克隆算法可能存在的级联误差问题。

著录项

公开/公告号CN115062761A

专利类型发明专利
公开/公告日2022-09-16

原文格式PDF
申请/专利权人北京航空航天大学;
展开▼

申请/专利号CN202210642647.9
发明设计人龚光红;韩宏伟;董力维;李妮;
展开▼

申请日2022-06-08
分类号G06N3/04;G06N3/08;G06K9/62;
代理机构
代理人
地址 100191 北京市海淀区学院路37号
入库时间 2023-06-19 16:49:13

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-16

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种基于RoboSim的自动驾驶行为决策模型的构建方法 [P] . 中国专利： CN115034281A . 2022-09-09
2. 一种基于机器学习的脑卒中高危人群行为决策模型构建系统 [P] . 中国专利： CN114512215A . 2022-05-17
3. METHOD AND APPARATUS FOR TRAINING DRIVING BEHAVIOR DECISION-MAKING MODEL [P] . WO2021244207A1 . 2021-12-09

机译：用于训练驾驶行为决策模型的方法和装置
4. isolated antigen binding polypeptide construct, isolated polynucleotide or set of isolated polynucleotides, vector or set of vectors, isolated cell, pharmaceutical composition, use of the construct, method of treating a subject with a disease or disorder, method of obtaining a construct , method for preparing a construct, computer readable storage medium, method for producing a bispecific antigen binding polypeptide construct, and method for preparing an isolated antigen binding polypeptide construct [P] . BR112016027888A2 . 2017-10-24

机译：分离的抗原结合多肽构建体，分离的多核苷酸或分离的多核苷酸组，载体或一组载体，分离的细胞，药物组合物，该构建体的用途，治疗患有疾病或病症的受试者的方法，获得该构建体的方法，制备构建体，计算机可读存储介质，制备双特异性抗原结合多肽构建体的方法和制备分离的抗原结合多肽构建体的方法
5. ONLINE PAYMENT SYSTEM AND ONLINE PAYMENT SYSTEM-BASED SOCIAL NETWORKING PLATFORM CONSTRUCTION METHOD [P] . CA2993681A1 . 2016-02-11

机译：基于在线支付系统和基于在线支付系统的社交网络平台的构建方法