首页> 中国专利> 一种面向空中智能博弈的行为模仿训练方法

一种面向空中智能博弈的行为模仿训练方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种面向空中智能博弈的行为模仿训练方法，包括如下步骤：S1、构建智能体博弈决策模型；S2、确定环境状态和动作空间，塑造各动作的连续非疏奖励函数；S3、在模型中进行空中博弈，执行如下步骤：S31、根据执行的动作生成下一环境状态并获得奖励，依次循环迭代，实现最大化累积奖励；S32、基于专家行为实现反向强化学习，获得目标奖励函数；S33、计算各智能体行为和专家行为的相似度；S34、获得综合奖励；S4、训练智能体博弈决策模型。本发明改善了传统低效的奖励函数设计过程和模型训练随机探索过程，使得奖励函数具有可解释性和人为干预能力，提高了智能体决策水平和收敛速度，解决了模型训练冷启动问题。

著录项

公开/公告号CN113221444A

专利类型发明专利
公开/公告日2021-08-06

原文格式PDF
申请/专利权人中国电子科技集团公司第五十二研究所;
展开▼

申请/专利号CN202110425153.0
发明设计人包骐豪;朱燎原;夏少杰;瞿崇晓;
展开▼

申请日2021-04-20
分类号G06F30/27(20200101);G06N20/00(20190101);
代理机构33240 杭州君度专利代理事务所(特殊普通合伙);
代理人杨天娇
地址 311100 浙江省杭州市余杭区爱橙街198号B楼
入库时间 2023-06-19 12:07:15

法律信息

法律状态公告日

法律状态信息

法律状态
2023-01-03

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种面向空中智能博弈的行为模仿训练方法 [P] . 中国专利： CN113221444A . 2021-08-06
2. 一种面向导航的大鼠机器人自动训练装置以及大鼠行为识别方法和训练方法 [P] . 中国专利： CN103390193B . 2016.04.06
3. Report program language source code translation to object-oriented language source code which emulates report program language behavior [P] . 美国专利： US6467079B1 . 2002-10-15

机译：将报告程序语言源代码转换为模仿报告程序语言行为的面向对象的语言源代码
4. Method for supporting imitation of behavior of models by users piano instrumental teaching application, involves setting procedure and integration results of behavior according to learning and performance level of user [P] . 德国专利： DE102012020314A1 . 2014-04-30

机译：一种支持用户钢琴乐器教学应用程序模仿模型行为的方法，涉及根据用户的学习和表现水平来设置行为的过程和积分结果
5. IMITATION OF INCRUSTATION, A DASHED ELEMENT AND A METHOD FOR PRODUCING SAID IMITATION [P] . EA007111B1 . 2006-06-30

机译：模仿的模仿，一种破折的元素和一种产生模仿的方法