首页> 中国专利> 一种基于归纳逻辑编程的多智能体强化学习方法

一种基于归纳逻辑编程的多智能体强化学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及一种基于归纳逻辑编程的多智能体强化学习方法，包括：步骤1：构建多智能体系统；步骤2：利用可微归纳逻辑编程将智能体获取的环境局部观察信息和接收的通信信息编码为一阶谓词表示；步骤3：对一阶谓词表示进行推理解码得到动作概率；步骤4：智能体根据动作概率选择动作并与环境交互；步骤5：利用优势函数对智能体选择的动作进行评估，并根据评估结果进行优化更新，直至所有智能体的策略收敛。本发明的基于归纳逻辑编程的多智能体强化学习方法在智能体的合作任务中拥有优越的表现，不仅可以学习接近最优的策略，并且比传统的强化学习方法具有更好的可解释性。

著录项

公开/公告号CN114565072A

专利类型发明专利
公开/公告日2022-05-31

原文格式PDF
申请/专利权人西安电子科技大学;
展开▼

申请/专利号CN202210090154.9
发明设计人李光夏;张俊波;沈玉龙;
展开▼

申请日2022-01-25
分类号G06N3/00;G06N20/00;
代理机构西安嘉思特知识产权代理事务所(普通合伙);
代理人王萌
地址 710000 陕西省西安市雁塔区太白南路2号
入库时间 2023-06-19 15:30:44

法律信息

法律状态公告日

法律状态信息

法律状态
2022-05-31

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种基于多智能体强化学习的合作型智能体的学习方法 [P] . 中国专利： CN110852448A . 2020-02-28
2. 一种基于动作约束的离线多智能体强化学习方法 [P] . 中国专利： CN114386620A . 2022-04-22
3. 基于智能合约的收款方法、系统及可读存储介质 [P] . 世界知识产权组织专利： WO2020/143378A1 . 2020.07.16
4. 基于网络拥塞探测的智能限速方法、装置及存储介质 [P] . 世界知识产权组织专利： WO2020/143180A1 . 2020.07.16
5. 一种室内360度旋转的智能家用立体投影机 [P] . 世界知识产权组织专利： WO2020/143081A1 . 2020.07.16