摘要
第一章 绪论
1.1 引言
1.2 学习方式
1.3 强化学习发展进程
1.3.1 Agent强化学习技术
1.3.2 多Agent强化学习算法
1.4 机器人足球RoboCup
1.4.1 RoboCup的实验平台
1.4.2 RoboCup的特点与意义
1.5 本章小结及本文主要内容
第二章 强化学习基础理论
2.1 马尔科夫决策与强化学习
2.1.1 马尔科夫决策过程
2.1.2 强化学习的四个要素
2.1.3 强化学习算法的目的
2.2 强化学习的主要算法
2.2.1 时序差分算法
2.2.2 Q-learning算法
2.2.3 Sarsa算法
2.3 本章小结
第三章 平均奖赏强化学习算法
3.1 MDP与SMDP
3.2 平均奖赏强化学习算法
3.3 马尔科夫系统与性能势理论
3.4 性能势以及基于性能势的无折扣强化学习算法
3.5 平均奖赏强化学习主要算法
3.5.1 R-learning
3.5.2 H-learning
3.5.3 LC-learning
3.6 基于G学习的Agent踢球技术的实现
3.6.1 问题描述
3.6.2 状态划分
3.6.3 仿真实验
3.7 本章小结
第四章 分布式多智能体基于G-learning的改进
4.1 角色与阵型
4.1.1 角色
4.1.2 阵型
4.2 RoboCup决策框架结构
4.3 RoboCup中的协作
4.4 性能势以及基于性能势的无折扣强化学习算法
4.4.1 基于改进的G-learning在RoboCup中的应用
4.4.2 仿真实验
4.5 本章小结
总结与展望
参考文献
攻读硕士学位期间发表论文
声明
致谢