基于性能势的改进平均奖赏强化学习算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

强化学习是人工智能领域内用于解决学习控制问题的一个重要方法。机器人仿真足球比赛是一个多智能体系统研究的标准问题，具有动态实时、分布式控制、不确定环境中的合作和对抗等特点，是人工智能、控制决策和智能机器人领域发展的一项重要研究。传统的强化学习算法在解决RoboCup智能体策略问题时，仍存在算法收敛速度慢，环境不确定性强、参数敏感性高等问题。针对强化学习算法存在的上述问题，本文提出了相应的改进方法。本文主要的工作和创新点如下:
　　首先，本文对强化学习发展进程、强化学习基础理论及主要算法和性能势理论进行基本介绍，并对其在求解过程中的优缺点进行分析。
　　其次，传统平均强化学习在求解智能体的个体技术过程中会产生求解速度过慢、局部最优等问题。为了提高球员的个体技术性能，我们采用性能势强化学习算法对球员个体踢球技术进行离线训练。通过实验验证，结果表明这一算法在这一问题上收敛速度和成功率都优于传统强化学习算法。
　　最后，我们提出了基于性能势强化学习的多智能体协作算法。该方法不仅要解决多智能体系统状态空间的问题，还要考虑多个智能体同时学习及回报值问题。本文将改进的多智能体G学习算法运用在Keepaway平台上，体现了良好的性能表现。
　　本文工作都是基于RoboCup2D机器人足球仿真球队GDUT_TiJi架构上实现的，在完成球队代码的实现后，我们分别参加了2013 RoboCup2D Soccer SimulationWorldCup和2013年中国机器人大赛暨Robocup公开赛，并获得了理想成绩。

著录项

作者
杨宛璐;
展开▼
作者单位

广东工业大学;

展开▼
授予单位广东工业大学;
学科控制理论与控制工程
授予学位硕士
导师姓名陈玮;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;机器人;
关键词
足球机器人; 多智能体; 平均强化学习算法; 性能势;

相似文献

中文文献
外文文献
专利

1. 基于性能势的A*平均奖赏强化学习算法研究 [J] . 黄浩晖 ,杨宛璐 ,陈玮 . 计算机仿真 . 2014,第007期
2. 平均奖赏强化学习算法研究 [J] . 高阳 ,周如益 ,王皓 . 计算机学报 . 2007,第008期
3. 一种改进的平均奖赏强化学习方法在RoboCup训练中的应用 [J] . 李瑾 ,刘全 ,杨旭东 . 苏州大学学报（自然科学版） . 2012,第002期
4. 基于平均奖赏强化学习算法的零阶分类元系统 [J] . 臧兆祥 ,李昭 ,王俊英 . 计算机工程与应用 . 2016,第021期
5. 一种基于性能势的无折扣强化学习算法 [J] . 周如益 ,高阳 . 广西师范大学学报（自然科学版） . 2006,第004期
6. S(λ):一个基于平均奖赏MDPs的激励学习算法 [C] . 陈焕文 ,谢丽娟 ,谢建平 . 2001年中国智能自动化会议 . 2001
7. 折扣和平均准则下SMDP基于性能势的统一强化学习算法 [A] . 周雷 . 2006

基于性能势的改进平均奖赏强化学习算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅