首页> 中国专利> 基于对抗学习的控制策略模仿学习方法及装置

基于对抗学习的控制策略模仿学习方法及装置

摘要

本发明公开了一种基于对抗学习的控制策略模仿学习方法及装置,方法包括:获取人类专家的决策示教数据,并且获取与专家示教决策数据对应的仿真环境;构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。

著录项

  • 公开/公告号CN111488988B

    专利类型发明专利

  • 公开/公告日2021-10-29

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202010302194.6

  • 申请日2020-04-16

  • 分类号G06N3/08(20060101);G06F30/20(20200101);

  • 代理机构11201 北京清亦华知识产权代理事务所(普通合伙);

  • 代理人王艳斌

  • 地址 100084 北京市海淀区清华园

  • 入库时间 2022-08-23 12:41:29

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号