首页> 中文学位 >在多Agent环境中求帕累托效率解的方法研究
【6h】

在多Agent环境中求帕累托效率解的方法研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1研究背景

1.2研究现状

1.3研究内容

1.4论文结构及主要内容

第二章 多Agent学习理论综述

2.1 Agent的概念及特征

2.1.1 Agent的定义

2.1.2 Agent的特征

2.1.3多Agent系统

2.2 MAS学习框架理论模型

2.2.1马尔科夫决策过程(Markov Decision Processes,MDP)

2.2.2矩阵博弈(Matrix Games)

2.2.3随机博弈(Stochastic Games)

2.2.4 MAS学习框架小结

2.3学习算法相关定义

第三章 一种在多Agent系统中求帕累托高效率解的方法

3.1 Q-学习

3.1.1 Q-学习原理

3.1.2 Q-学习算法的描述

3.2 WoLF思想及其相关算法

3.2.1WoLF原理

3.2.2 Wnning的判定

3.3 Robert Axelrod实验

3.4 PESCO算法

3.4.1 PESCO算法的核心策略

3.4.2 PESCO算法的描述

第四章博弈实验与分析

4.1供零博弈

4.1.1供零博弈

4.1.2自博弈

4.1.3不同的对手

4.1.4各个Agent的博弈结果

4.1.5结论

4.2 Stackelberg博弈

4.2.1 Stackelberg

4.2.2自博弈

4.2.3各个Agent的博弈结果

4.3猜硬币博弈

4.3.1猜硬币博弈

4.3.2自博弈

4.3.3与WoLF-GIGA的博弈

4.3.4各个Agent博弈结果

4.4小结

第五章 总结与展望

5.1总结

5.2未来工作展望

参考文献

致谢

附录(攻读学位期间发表的论文)

展开▼

摘要

多Agent系统(MAS)及其相关技术近年来受到越来越多的研究者的关注。它不仅已经被广泛运用到了Internet、办公自动化、冲突协调、决策支持、开放式信息系统等众多领域。并且它还是博弈论和人工智能交叉领域研究的热门问题之一。
   在一个竞争的环境中,一个令人满意的多Agent学习算法应该至少是理性的,它应该能保证自己的安全收益。在一个可合作的环境中,一个令人满意的多Agent学习算法应该是满足合作性的,在与公正对手博弈时,应尽可能的达到双赢的局面。目前,有很多算法都可以满足理性,而另一些算法能够在与公正对手的博弈中取得高额回报,但是却不能二者兼得。
   在本文中,我们详细分析了MAS中的学习环境理论模型,简要介绍了多Agent环境中学习算法应具备的属性,并分析了当前一些学者提出的算法。然后分析了Q-学习算法,WoLF原理,并介绍了Roben Axelrod实验。根据以上三个方面,我们分析了一个优秀的算法应能从历史博弈中进行学习,并且应该兼顾理性与合作性。在此基础上我们提出了PESCO算法,它能从以往的收益和对手的动作中学习到对手的特点,并且具备善意的、宽容的、强硬的特点。它在自博弈时满足自兼容性,它对非合作对手满足理性,保证安全收益,对合作对手,寻求帕累托效率解,达到双赢局面。
   我们以可合作的供零博弈、Stackelberg博弈和非合作的猜硬币博弈为背景,通过一系列的实验来验证PESCO算法的有效性,详细描述了实验过程的每一个细节,说明了该算法无论在可合作的博弈中,还是非合作的博弈中,无论对手是合作的,还是非合作的,其效果都是令人满意的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号