首页> 中国专利> 基于注意力机制的多智能体值函数分解方法及装置

基于注意力机制的多智能体值函数分解方法及装置

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置，该方法包括：获取多个智能体决策下的状态轨迹；构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络；基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程，对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。

著录项

公开/公告号CN112101564A

专利类型发明专利
公开/公告日2020-12-18

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN202010824845.8
发明设计人杨以钦;马骁腾;李承昊;杨君;梁斌;
展开▼

申请日2020-08-17
分类号G06N20/00(20190101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11201 北京清亦华知识产权代理事务所(普通合伙);
代理人白雪静
地址 100084 北京市海淀区清华园
入库时间 2023-06-19 09:13:40

相似文献

专利
中文文献
外文文献

1. 基于注意力机制的多智能体值函数分解方法及装置 [P] . 中国专利： CN112101564A . 2020-12-18
2. 基于值函数可信度的多智能体强化学习方法及相关装置 [P] . 中国专利： CN114037049A . 2022-02-11
3. Smart superconducting cable winding body for power transmission fault current limit and production method thereof and power supply equipment used for a fault current limiter based on smart superconducting cable winding body [P] . 韩国专利： KR102167824B1 . 2020-10-20

机译：用于输电故障限流的智能超导电缆绕线体及其生产方法和基于智能超导电缆绕线体的用于故障电流限制器的供电设备
4. Smart superconducting cable winding body for power transmission fault current limit and production method thereof and power supply equipment used for a fault current limiter based on smart superconducting cable winding body [P] . 韩国专利： KR20200008739A . 2020-01-29

机译：用于输电故障限流的智能超导电缆绕线体及其生产方法和基于智能超导电缆绕线体的用于故障电流限制器的供电设备
5. DEVICE AND METHOD APPARATUS AND METHOD FOR PROVIDING RECOMMENDATION INFORMATION ON ARTIFICIAL INTELLIGENCE BASED CUSTOMIZED INSULATOR [P] . KR102310970B1 . 2021-10-08

机译：用于在基于人工智能的定制绝缘体提供关于人工智能的推荐信息的装置和方法和方法