首页> 中国专利> 基于瓦瑟斯坦距离的无监督强化学习方法及装置

基于瓦瑟斯坦距离的无监督强化学习方法及装置

摘要

本发明公开了一种基于瓦瑟斯坦距离的无监督强化学习方法及装置,该方法包括获取智能体的当前策略引导得到的轨迹里的状态分布;计算状态分布与其他历史策略得到的轨迹里的状态分布之间的瓦瑟斯坦距离;根据瓦瑟斯坦距离计算智能体的伪回报,并以伪回报代替目标强化学习框架中的环境反馈的回报,引导智能体的当前策略与其他历史策略保持大的距离。该方法利用瓦瑟斯坦距离,来鼓励无监督强化学习框架下的算法能够训练得到多样化的策略或技能。

著录项

  • 公开/公告号CN114219066A

    专利类型发明专利

  • 公开/公告日2022-03-22

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202111270803.5

  • 发明设计人 季向阳;何舜成;蒋雨航;

    申请日2021-10-29

  • 分类号G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11201 北京清亦华知识产权代理事务所(普通合伙);

  • 代理人张娜

  • 地址 100084 北京市海淀区清华园

  • 入库时间 2023-06-19 14:36:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-22

    公开

    发明专利申请公布

获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号