首页> 中国专利> 协同模式多样化导向的无监督多智能体强化学习方法

协同模式多样化导向的无监督多智能体强化学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本申请涉及无监督多智能体强化学习技术领域，特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法，包括：获取多智能体系统的多个联合策略网络；根据联合策略网络控制多个智能体进入协同模式，并获取在协同模型下与环境的交互数据；基于交互数据建立协同模式图，利用其计算协同模式差异；根据其对智能体的轨迹进行伪回报标注得到伪回报，并从经验回放样本池中采样获得完成伪回报标注的样本，通过梯度反向传播来更新联合策略网络，实现多智能体的强化学习。由此，解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性，且多智能体系统依赖于精心设计的环境反馈的奖励信号，导致难以有效学习到多智能体的联合策略等问题。

著录项

公开/公告号CN115496208A

专利类型发明专利
公开/公告日2022-12-20

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN202211420475.7
发明设计人季向阳;蒋雨航;邵键准;
展开▼

申请日2022-11-15
分类号G06N3/08;G06K9/62;
代理机构北京清亦华知识产权代理事务所(普通合伙);
代理人季永杰
地址 100084 北京市海淀区清华园1号
入库时间 2023-06-19 18:01:47

法律信息

法律状态公告日

法律状态信息

法律状态
2022-12-20

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种基于多智能体强化学习的无人机集群协同学习方法 [P] . 中国专利： CN112131660A . 2020-12-25
2. 基于瓦瑟斯坦距离的无监督强化学习方法及装置 [P] . 中国专利： CN114219066A . 2022-03-22
3. PATTERN DIVERSIFICATION SYSTEM AND PATTERN DIVERSIFICATION METHOD USING INTELLIGENT VIRTUAL AGENT APPLIED EMOTION MODEL [P] . 韩国专利： KR20120110799A . 2012-10-10

机译：基于智能虚拟代理商应用情感模型的模式多样化系统和模式多样化方法
4. UNSUPERVISED, SUPERVISED AND REINFORCED LEARNING VIA SPIKING COMPUTATION [P] . 美国专利： US2019370655A1 . 2019-12-05

机译：通过优化计算进行无监督，无监督和强化的学习
5. UNSUPERVISED, SUPERVISED AND REINFORCED LEARNING VIA SPIKING COMPUTATION [P] . 美国专利： US2018268294A1 . 2018-09-20

机译：通过优化计算进行无监督，无监督和强化的学习