首页> 中国专利> 一种多代理强化学习合作任务下的奖励函数建模方法

一种多代理强化学习合作任务下的奖励函数建模方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种多代理强化学习合作任务下的奖励函数建模方法，包括：每个代理独立观测环境状态，输入各自的策略网络，得到各自的动作决策；在模拟环境执行各代理的动作，得到每个代理各自的奖励；将各代理之间的交互建模为一张无向图，使用此图计算出每个代理的奖励的加权总和；使用加权后的奖励训练代理的策略网络。该方法能够对多个代理与环境交互后的结果进行整合，同时建模出的无向图能够起到可信度赋值的效果，给训练算法提供更加精准的奖励描述，帮助多代理系统在合作任务上学习到更好的策略。

著录项

公开/公告号CN112084721A

专利类型发明专利
公开/公告日2020-12-15

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN202011009883.4
发明设计人谭哲越;尹建伟;尚永衡;张鹿鸣;李莹;邓水光;
展开▼

申请日2020-09-23
分类号G06F30/27(20200101);G06F17/18(20060101);
代理机构33200 杭州求是专利事务所有限公司;
代理人林松海
地址 310058 浙江省杭州市西湖区余杭塘路866号
入库时间 2023-06-19 09:12:09

法律信息

法律状态公告日

法律状态信息

法律状态
2023-10-27

发明专利申请公布后的驳回 IPC(主分类):G06F30/27 专利申请号:2020110098834 申请公布日:20201215

发明专利申请公布后的驳回

相似文献

专利
中文文献
外文文献

1. 一种多代理强化学习合作任务下的奖励函数建模方法 [P] . 中国专利： CN112084721A . 2020-12-15
2. 多代理强化学习合作任务场景下的代理间交换知识的方法 [P] . 中国专利： CN111178496A . 2020-05-19
3. Reward cooperation with server systems, reward with server cooperation method, and reward with server cooperation program [P] . 日本专利： JPWO2010116984A1 . 2012-10-18

机译：奖励与服务器系统的合作，奖励与服务器合作的方法，以及奖励与服务器合作的程序
4. METHOD AND SYSTEM FOR PERFORMING NEGOTIATION TASK USING REINFORCEMENT LEARNING AGENTS [P] . 美国专利： US2020020061A1 . 2020-01-16

机译：使用强化学习代理执行协商任务的方法和系统
5. METHOD AND SYSTEM FOR PERFORMING NEGOTIATION TASK USING REINFORCEMENT LEARNING AGENTS [P] . 欧洲知识产权局专利： EP3594891A1 . 2020-01-15

机译：使用强化学习代理执行协商任务的方法和系统