首页> 中国专利> 协同模式多样化导向的无监督多智能体强化学习方法

协同模式多样化导向的无监督多智能体强化学习方法

摘要

本申请涉及无监督多智能体强化学习技术领域,特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法,包括:获取多智能体系统的多个联合策略网络;根据联合策略网络控制多个智能体进入协同模式,并获取在协同模型下与环境的交互数据;基于交互数据建立协同模式图,利用其计算协同模式差异;根据其对智能体的轨迹进行伪回报标注得到伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新联合策略网络,实现多智能体的强化学习。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。

著录项

  • 公开/公告号CN115496208A

    专利类型发明专利

  • 公开/公告日2022-12-20

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202211420475.7

  • 发明设计人 季向阳;蒋雨航;邵键准;

    申请日2022-11-15

  • 分类号G06N3/08;G06K9/62;

  • 代理机构北京清亦华知识产权代理事务所(普通合伙);

  • 代理人季永杰

  • 地址 100084 北京市海淀区清华园1号

  • 入库时间 2023-06-19 18:01:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-12-20

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号