首页> 中文学位 >多Agent系统中强化学习的研究与应用
【6h】

多Agent系统中强化学习的研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

符号说明

图索引

1.绪论

1.1多Agent研究背景

1.2多Agent研究中的问题

1.3多Agent技术的应用

1.4论文组织结构

2.多Agent理论与技术

2.1 Agent概念

2.2个体Agent模型

2.3 Agent的结构

2.4多Agent系统(MAS)

2.5 MAS研究与RoboCup

3.多Agent强化学习与基于矢量势能场的局部合作强化学习

3.1强化学习原理

3. 2强化学习中各种算法

3.3多Agent强化学习

3.4基于局部合作的Q-学习

3.5基于势能场的RoboCup建模

3.6基于势能场模型的局部合作Q-学习

3.7矢量势能场模型

4.RoboCup研究

4.1 RoboCup的研究意义

4.2 RoboCup仿真2D

5.场景合作与分层Q-学习

5.1基于场景合作的分层强化学习

5.2基于过程的分层局部合作Q-学习

6.案例实验与分析

6.1实验1基本势能场模型在RoboCup进攻中的应用

6.2基于势能场模型的局部合作Q-学习

6.3 Keepaway问题的相关实验

7.结论与展望

7.1主要结论

7.2发展与展望

参考文献

致谢

攻读博士期间发表论文与研究成果

展开▼

摘要

本文研究的重点是在多Agent技术环境下探讨强化学习技术的原理以及如何改进其学习效率并提高其算法的合理性,在此研究基础上构建基于矢量势能场的区域合作的强化学习算法和基于任务与过程的分层强化学习算法,这些算法在RoboCup(机器人足球世界杯)仿真机器人系统这一标准测试床的子任务中进行了应用与研究,同时与现有算法的效能进行了比较并分析了新算法提高学习效能的原因。
  在目前的计算机科技发展领域,Agent和多Agent系统(Multi-Agent Systems,简称MAS)技术已成为分布式计算环境中软件智能化和人工智能研究实用化的关键支撑技术,与其相关的理论与技术研究已成为分布式系统的设计、分析与实现的重要途径。以至于斯坦福大学的Hayes-Roth在IJCAI’95的特邀报告中谈到:“智能的计算机Agent既是人工智能研究的最初目标,也是人工智能研究的最终目标。”这一断言来自于Agent技术的特点,即能够模拟人类的行为,具有自治性、社会性、适应性、智能性等人类的特性。然而随着多Agent系统及其运行环境日益趋于大型、开放、动态和不确定,迫切需要采用各种智能技术来构建具有自学习能力的Agent以适应这些特点。但是目前在面对由复杂实时环境带来的海量数据、复杂数据、噪声数据、缺损数据、错误数据以及极少的学习样本数据时,传统的机器学习算法面临巨大的挑战。现有算法中基于MDP(Markov Decision Processes,马尔可夫决策过程)的强化学习算法由于无需历史状态和建模的特性开始成为构建Agent的核心技术,其各种改进算法在机器人系统、飞行控制系统、网络数据通信、并行计算、机械与工程制造等领域的应用中取得了良好的效果。但在多Agent系统中传统强化学习技术也面临许多挑战,因此对于提高强化学习在多Agent系统中的学习效能已成为当前的热点问题。本文的研究工作和创新包括:
  1.对现有的Agent技术与多Agent技术进行了深入的研究并对各种技术的内涵进行分析。在此基础上对强化学习技术的发展和研究现状进行了深入的探讨,对现有的各种强化学习方法的效能进行了考察并提出其不足之处。
  2.在Q-学习算法的基础上提出了局部合作的多Agent强化学习算法,在当多Agent系统的整个学习过程中合作状态较少时,使用此算法可以极大的提高算法收敛速度,减少算法的时间复杂度。这种算法的核心思想是,只有在明确知道Agent之间有协作或关联时(由先验知识或其他方法确定)才通过其联合动作进行学习,而在其他情况下使用其独立的强化学习机制,并给出了在这两种状态以及状态转化时的确定Q值的方法与环境奖励的分配方法。算法通过避免在全部状态下都考虑联合行动,从而加快了学习过程。
  3.从MAS研究中的知识表现多样性出发,联系Agent之间与Agent内部状态及属性的特点,结合对MAS运行时环境与系统的相关性,提出了势能场模型,对Agent效能模型进行了重构,并以此对工作于多Agent系统中的Agent效能进行评价。在进行机器人足球标准任务实验时,对上述势能场模型进行了进一步优化,通过引入矢量概念,构建出基于矢量的势能场模型。
  4.结合矢量势能场模型,对局部合作的强化学习算法进行优化。通过势能场模型建立对Agent效能及Agent之间联系的评判标准,由此对算法中联合动作Q值表中Q值更新时的分配给出依据,并提供区分联合状态的评判标准。
  5.从研究分层强化学习入手,提出由MAS中任务结构分析产生的分层合作研究方法,通过区分子任务并以此建立更大粒度层面上的基于任务场景的状态空间,并结合以联合动作为基础的任务动作,从而解决强化学习中的状态空间的维数灾难。文中给出了基于机器人足球的子任务的算法应用,其效能得到实验的验证。
  6.通过对强化学习中合作MAS的研究,在基于系统工作逻辑的研究基础上,提出了基于学习过程分层的局部合作强化学习,通过对独立Agent强化学习的知识考察,改进多Agent系统学习的效率,进一步提高了局部合作强化学习的效能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号