首页> 中国专利> 基于事后经验的信赖域策略优化方法、装置及相关设备

基于事后经验的信赖域策略优化方法、装置及相关设备

摘要

本发明公开了一种基于事后经验的信赖域策略优化方法、装置及相关设备,方法包括:S100,将经验数据中已到达的目标点作为虚拟目标点,生成虚拟的事后经验数据;S200,基于事后目标滤波算法,完成对虚拟目标的过滤,获取所对应的训练数据;S300,基于虚拟经验数据,通过加权重要性采样修正虚拟经验数据与原始经验数据的分布偏差;S400,基于加权重要性采样修正虚拟经验数据与原始经验数据的分布偏差,以此估计策略间KL散度值;S500,通过KL散度修正策略梯度方向,并通过最大KL散度步长计算更新策略步长。该方法以使智能体能够基于少量的交互数据和简单设计的奖励函数,能够对环境和任务完成有效的探索过程,并对行为策略进行高效的学习和更新。

著录项

  • 公开/公告号CN112101563A

    专利类型发明专利

  • 公开/公告日2020-12-18

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN202010713458.7

  • 发明设计人 兰旭光;张翰博;柏思特;郑南宁;

    申请日2020-07-22

  • 分类号G06N20/00(20190101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人陈翠兰

  • 地址 710049 陕西省西安市咸宁西路28号

  • 入库时间 2023-06-19 09:13:40

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号