首页> 中文学位 >RoboCup2D仿真足球队智能体协作研究
【6h】

RoboCup2D仿真足球队智能体协作研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1多智能体协作技术概述

1.2足球机器人仿真比赛

1.3本文的论述结构

第二章 多智能体系统的感知模型和运动实现

2.1智能体的感知模型

2.2智能体的动作模型

2.3多智能体协作运动实现

2.4本章小结

第三章 基于树搜索算法的在线选择动作序列机制

3.1多智能体在线选择动作序列

3.2树搜索算法

3.3实验结果与分析

3.4本章小结

第四章 多智能体协作研究

4.1强化学习方法

4.2经验累积算法

4.3基于POMDP的守门员决策研究

4.4本章小结

第五章 实验结果与分析

5.1 在线选择动作序列机制下的实验结果和分析

5.2 守门员POMDP模型的实验结果和分析

第六章 总结与展望

6.1总结

6.2展望

参考文献

致谢

展开▼

摘要

人工智能隶属于复杂系统,起源于上个世纪50年代,近年来广泛地受到海内外学者的青睐。决策理论作为人工智能的重要研究分支,现已成为机器人行为选择和协调的核心问题。研究决策理论,对于人类掌控机器学习并让机器更好地服务人类起着重要的作用。本文以RoboCup2D仿真平台为基础,以增强仿真足球队的进攻和防守为方向,以对智能体决策建模、对智能体强化学习为方法,从四个章节展开对多智能体协作问题的深入探讨。
  本文首先对前人的研究成果予以总结,并对关键的知识做出阐述,比如智能体的感知信息(视觉信息、听觉信息、自身感知信息),动作命令(单一命令、兼容命令)等等。然后根据球员的不同角色对球员的站位进行研究,做出了改善,并对改善后的结果进行实验,验证其有效性。
  其次提出了基于树搜索算法的在线搜索动作序列机制,对树搜索算法进行求解,并提出了动作序列的概念。然后对强化学习和Q-Learning做了简单回顾,并根据这个提出了经验累积算法,定义了球员热区的概念,构造了学习型智能体。智能体在比赛的过程中,遇到正回报值的动作,就会在E矩阵中更新,下一次再遇到类似情况将会有很大概率选择该动作。
  前两个研究主要是为了增强球队的进攻能力和整体作战能力,最后一项研究是针对防守,结合守门员动作的特殊性,基于POMDP模型对守门决策建模,并利用值迭代算法求解,结果以动作序列的形式实现。该动作序列实际上是一个动作集,动作集里的每一个动作都是使值迭代函数具有最大报酬值的动作。
  本文提出的每一种算法和机制,笔者都在RoboCup2D仿真平台上进行了仿真,以对抗的形式,横向与世界强队比较,纵向与过去的球队比较,并对结果进行分析,验证本文提出的多智能体协作的策略和算法的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号