首页> 中文学位 >基于性能势的改进平均奖赏强化学习算法研究
【6h】

基于性能势的改进平均奖赏强化学习算法研究

代理获取

目录

摘要

第一章 绪论

1.1 引言

1.2 学习方式

1.3 强化学习发展进程

1.3.1 Agent强化学习技术

1.3.2 多Agent强化学习算法

1.4 机器人足球RoboCup

1.4.1 RoboCup的实验平台

1.4.2 RoboCup的特点与意义

1.5 本章小结及本文主要内容

第二章 强化学习基础理论

2.1 马尔科夫决策与强化学习

2.1.1 马尔科夫决策过程

2.1.2 强化学习的四个要素

2.1.3 强化学习算法的目的

2.2 强化学习的主要算法

2.2.1 时序差分算法

2.2.2 Q-learning算法

2.2.3 Sarsa算法

2.3 本章小结

第三章 平均奖赏强化学习算法

3.1 MDP与SMDP

3.2 平均奖赏强化学习算法

3.3 马尔科夫系统与性能势理论

3.4 性能势以及基于性能势的无折扣强化学习算法

3.5 平均奖赏强化学习主要算法

3.5.1 R-learning

3.5.2 H-learning

3.5.3 LC-learning

3.6 基于G学习的Agent踢球技术的实现

3.6.1 问题描述

3.6.2 状态划分

3.6.3 仿真实验

3.7 本章小结

第四章 分布式多智能体基于G-learning的改进

4.1 角色与阵型

4.1.1 角色

4.1.2 阵型

4.2 RoboCup决策框架结构

4.3 RoboCup中的协作

4.4 性能势以及基于性能势的无折扣强化学习算法

4.4.1 基于改进的G-learning在RoboCup中的应用

4.4.2 仿真实验

4.5 本章小结

总结与展望

参考文献

攻读硕士学位期间发表论文

声明

致谢

展开▼

摘要

强化学习是人工智能领域内用于解决学习控制问题的一个重要方法。机器人仿真足球比赛是一个多智能体系统研究的标准问题,具有动态实时、分布式控制、不确定环境中的合作和对抗等特点,是人工智能、控制决策和智能机器人领域发展的一项重要研究。传统的强化学习算法在解决RoboCup智能体策略问题时,仍存在算法收敛速度慢,环境不确定性强、参数敏感性高等问题。针对强化学习算法存在的上述问题,本文提出了相应的改进方法。本文主要的工作和创新点如下:
  首先,本文对强化学习发展进程、强化学习基础理论及主要算法和性能势理论进行基本介绍,并对其在求解过程中的优缺点进行分析。
  其次,传统平均强化学习在求解智能体的个体技术过程中会产生求解速度过慢、局部最优等问题。为了提高球员的个体技术性能,我们采用性能势强化学习算法对球员个体踢球技术进行离线训练。通过实验验证,结果表明这一算法在这一问题上收敛速度和成功率都优于传统强化学习算法。
  最后,我们提出了基于性能势强化学习的多智能体协作算法。该方法不仅要解决多智能体系统状态空间的问题,还要考虑多个智能体同时学习及回报值问题。本文将改进的多智能体G学习算法运用在Keepaway平台上,体现了良好的性能表现。
  本文工作都是基于RoboCup2D机器人足球仿真球队GDUT_TiJi架构上实现的,在完成球队代码的实现后,我们分别参加了2013 RoboCup2D Soccer SimulationWorldCup和2013年中国机器人大赛暨Robocup公开赛,并获得了理想成绩。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号