首页> 中国专利> 利用乐观映射提升值分解多智能体强化学习算法性能的方法

利用乐观映射提升值分解多智能体强化学习算法性能的方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提出了利用乐观映射提升值分解多智能体强化学习算法性能的方法，属于人工智能领域。针对现有技术中会出现的过度泛化等问题，本发明在现有值分解多智能体强化学习算法的基础上，引入了基于乐观映射的独立学习方法，并分别利用这两种学习方法对智能体的局部动作值函数进行相应地学习，融合这两种学习方式学到的局部动作值函数，进而得到智能体决策时所使用的策略，能够在一定程度上缓解值分解算法中智能体分布式决策时可能产生的相对过度泛化问题，促进多个智能体之间的相互协作，并提升值分解多智能体强化学习算法的性能。

著录项

公开/公告号CN115186807A

专利类型发明专利
公开/公告日2022-10-14

原文格式PDF
申请/专利权人南京大学;网易(杭州)网络有限公司;江苏万维艾斯网络智能产业创新中心有限公司;
展开▼

申请/专利号CN202210555406.0
发明设计人张玉鹏;胡裕靖;高阳;解宇;张咏琛;
展开▼

申请日2022-05-19
分类号G06N3/08;G06N3/04;G06N7/00;
代理机构南京泰普专利代理事务所(普通合伙);
代理人方晓雯
地址 210023 江苏省南京市栖霞区仙林大道163号
入库时间 2023-06-19 17:09:24

法律信息

法律状态公告日

法律状态信息

法律状态
2022-10-14

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种基于多智能体深度强化学习的虚拟光网络映射方法 [P] . 中国专利： CN111585811B . 2022.09.02
2. 一种基于多智能体深度强化学习的虚拟光网络映射方法 [P] . 中国专利： CN111585811A . 2020-08-25
3. SYSTEM AND METHODS UTILIZING ARTIFICIAL INTELLIGENCE ALGORITHMS TO ANALYZE WEARABLE ACTIVITY TRACKER DATA [P] . 美国专利： WO2022006103A1 . 2022-01-06

机译：利用人工智能算法利用人工智能算法来分析可穿戴活动跟踪器数据的系统和方法
4. SYSTEM AND METHODS UTILIZING ARTIFICIAL INTELLIGENCE ALGORITHMS TO ANALYZE WEARABLE ACTIVITY TRACKER DATA [P] . 美国专利： US2021401295A1 . 2021-12-30

机译：利用人工智能算法利用人工智能算法来分析可穿戴活动跟踪器数据的系统和方法
5. MULTI-AGENT DEEP REINFORCEMENT LEARNING PROXY METHOD BASED ON INTELLIGENT GRID [P] . 世界知识产权组织专利： WO2020000399A1 . 2020-01-02

机译：基于智能网格的多智能体深度强化学习代理方法