基于Q学习的RoboCup Agent智能策略的研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

机器人世界杯足球赛(The Robot World Cup,简称RoboCup),是典型的MAS(Multi-Agent Systems,简记为MAS)问题,可以用来评价多种人工智能理论、算法和体系结构。
　　强化学习是一种以环境反馈作为输入的、特殊的、适应环境的、从环境状态到行为映射以使系统行为从环境中获得的累积奖赏值最大的机器学习方法。该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错的方法来发现最优行为策略,因此广泛应用于Agent的智能决策。目前主流的强化学习算法是Q学习算法。本文针对RoboCup中的几个具体问题,从Q学习算法、模糊Q学习算法、分层模糊Q学习算法三个方面分别阐述其在RoboCup中的Agent智能决策学习。本文的研究内容主要包括以下三个方面:
　　首先,针对RoboCup中守门员的防守策略问题,传统的几何计算得到的防守策略已经不能适应比赛中多变的情况。RoboCup的比赛环境是动态、复杂的开放环境,利用Q学习算法,分别离散守门员的状态空间、动作空间,制定奖赏策略函数,通过试错的方法来发现最优行为策略,实验结果证明了Q学习算法在守门员防守决策学习问题上的有效性。
　　其次,针对大规律强化学习的维数灾难问题,结合Q学习算法和模糊推理系统,应用模糊Q学习算法,解决Q学习处理连续的状态空间和连续的动作空间能力不足的弊端,通过学习得到一个规则库,进而为Agent的动作选择提供依据。我们将这个算法应用于RoboCup的带球问题中,实现了带球策略的优化。
　　最后,在模糊Q学习的基础上,提出了一种分层模糊Q学习算法,通过分层构建多层动作体系结构,利用模糊推理泛化状态空间,学习速度较为理想,我们在RoboCup中成功解决了2VS1的高层决策问题。

著录项

作者
马勇;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机软件与理论
授予学位硕士
导师姓名李龙澍;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类智能机器人;自动推理、机器学习;
关键词
机器人; 世界杯足球赛; 智能决策; 强化学习; 模糊Q学习算法; 模糊推理;

相似文献

中文文献
外文文献
专利

1. 基于Q学习的Agent智能防守策略研究与应用 [J] . 马勇 ,李龙澍 ,李学俊 . 计算机技术与发展 . 2008,第012期
2. 基于多Agent Q学习的RoboCup局部配合策略 [J] . 赵发君 ,李龙澍 . 计算机工程与应用 . 2014,第023期
3. 基于改进的Q学习的RoboCup传球策略研究 [J] . 周勇 ,刘锋 . 计算机技术与发展 . 2008,第004期
4. 基于Q学习Robocup前锋的射门训练 [J] . 申迅 ,刘国栋 . 计算机工程与应用 . 2011,第018期
5. 智能办公环境中多Agent模糊Q学习研究 [J] . 王海珍 ,廉佐政 ,滕艳平 . 计算机工程与应用 . 2012,第018期
6. Robocup中基于Q学习的射门模块设计 [C] . 李春光 ,刘国栋 . 马斯特杯2003年中国机器人大赛及研讨会 . 2003
7. 基于Q学习的RoboCup多智能体决策优化 [A] . 周戎 . 2018

基于Q学习的RoboCup Agent智能策略的研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅