首页> 中文学位 >基于Q学习的RoboCup Agent智能策略的研究与应用
【6h】

基于Q学习的RoboCup Agent智能策略的研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章?绪论?

1.1智能Agent概述?

1.2 RoboCup研究概述?

1.3机器人足球的研究意义?

1.4论文结构?

第二章? SoccerServer仿真环境?

2.1机器人足球世界杯2D仿真组?

2.2机器人足球世界杯3D仿真组?

2.3本章小结?

第三章?强化学习?

3.1强化学习概述?

3.2常见的强化学习算法?

3.3多Agent强化学习?

3.4本章小结?

第四章? Q学习算法的研究与应用?

4.1 Q学习?

4.2 Q学习算法?

4.3 Q学习在RoboCup守门员防守策略中的应用?

4.4?本章小结?

第五章?改进的Q学习算法的研究与应用?

5.1几种改进的Q学习算法?

5.2?模糊Q学习算法?

5.3模糊Q学习在RoboCup带球问题中的应用?

5.4改进的模糊Q学习在RoboCup中? 2VS1边路进攻策略中的应用?

5.5本章小结?

第六章?结束语?

6.1本文主要工作

6.2发展与展望

参考文献

致谢

攻读硕士学位期间的科研工作及成果?科研工作?

展开▼

摘要

机器人世界杯足球赛(The Robot World Cup,简称RoboCup),是典型的MAS(Multi-Agent Systems,简记为MAS)问题,可以用来评价多种人工智能理论、算法和体系结构。
  强化学习是一种以环境反馈作为输入的、特殊的、适应环境的、从环境状态到行为映射以使系统行为从环境中获得的累积奖赏值最大的机器学习方法。该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错的方法来发现最优行为策略,因此广泛应用于Agent的智能决策。目前主流的强化学习算法是Q学习算法。本文针对RoboCup中的几个具体问题,从Q学习算法、模糊Q学习算法、分层模糊Q学习算法三个方面分别阐述其在RoboCup中的Agent智能决策学习。本文的研究内容主要包括以下三个方面:
  首先,针对RoboCup中守门员的防守策略问题,传统的几何计算得到的防守策略已经不能适应比赛中多变的情况。RoboCup的比赛环境是动态、复杂的开放环境,利用Q学习算法,分别离散守门员的状态空间、动作空间,制定奖赏策略函数,通过试错的方法来发现最优行为策略,实验结果证明了Q学习算法在守门员防守决策学习问题上的有效性。
  其次,针对大规律强化学习的维数灾难问题,结合Q学习算法和模糊推理系统,应用模糊Q学习算法,解决Q学习处理连续的状态空间和连续的动作空间能力不足的弊端,通过学习得到一个规则库,进而为Agent的动作选择提供依据。我们将这个算法应用于RoboCup的带球问题中,实现了带球策略的优化。
  最后,在模糊Q学习的基础上,提出了一种分层模糊Q学习算法,通过分层构建多层动作体系结构,利用模糊推理泛化状态空间,学习速度较为理想,我们在RoboCup中成功解决了2VS1的高层决策问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号