首页> 中文学位 >基于状态预测强化学习的移动机器人路径规划研究
【6h】

基于状态预测强化学习的移动机器人路径规划研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1引言

1.1.1环境探索

1.1.2路径规划

1.1.3多机器人协作

1.1.4移动机器人的学习方法

1.2移动机器人路径规划的发展及研究现状

1.2.1移动机器人环境探索的发展及研究现状

1.2.2移动机器人路径规划的研究现状

1.2.3多移动机器人协作系统的发展与研究现状

1.3本文的主要研究工作及结构

第二章 移动机器人环境探索及路径规划研究

2.1引言

2.2移动机器人环境探索

2.2.1环境地图的创建及表示方式

2.2.2目标点的定义

2.2.3代价值计算

2.2.4效用值的计算

2.2.5基于迭代运算的目标点分配策略

2.3移动机器人的路径规划

2.3.1移动机器人的路径规划方法

2.3.2移动机器人的传感器系统

2.3.3多移动机器人在路径规划中的冲突消解

2.4小结

第三章 基于强化学习的移动机器人在静态未知环境中的路径规划

3.1引言

3.2 强化学习

3.2.1强化学习的概念

3.2.2强化学习的原理

3.2.3强化学习的基本方法

3.2.4强化学习算法

3.3基于强化学习的移动机器人在静态未知环境中的路径规划

3.3.1环境模型及初始状态设置

3.3.2传感器模型

3.3.3机器人模型及相关定义

3.3.4障碍物模型

3.3.5路径规划策略

3.3.6基本状态和基本行为的分解与表示

3.3.7强化函数设计

3.3.8强化学习算法描述

3.4仿真实验结果与分析

3.5小结

第四章基于强化学习的移动机器人在动态未知环境中的路径规划

4.1引言

4.2资格迹(Eligibility trace)技术简介

4.2.1资格迹的基本原理

4.2.2资格迹在Q强化学习算法中的应用

4.3基于强化学习的移动机器人在规则运动动态障碍物环境中的路径规划

4.3.1运动障碍物的预测与模型

4.3.2路径规划策略

4.3.3状态空间和动作空间的划分

4.3.4强化函数的设计

4.3.5算法描述

4.4移动机器人在动态环境下的路径规划

4.4.1路径规划策略

4.4.2强化函数的设计

4.5仿真实验结果与分析

4.6小结

第五章 基于状态预测强化学习在多移动机器人环境探索中的路径规划

5.1引言

5.2状态预测

5.2.1状态预测的概念

5.2.2状态预测的原理

5.2.3基于状态预测的强化学习模型

5.3基于状态预测的强化学习在多移动机器人协作环境探索中的路径规划

5.3.1路径规划策略

5.3.2状态预测的动作选择概率及动作选择策略

5.3.3状态空间与动作空间

5.3.4强化函数的设计

5.3.5基于状态预测的强化学习算法描述

5.4仿真试验结果与分析

5.5小结

结论

参考文献

致谢

展开▼

摘要

随着机器人技术的发展,机器人已开始应用到未知环境,与静态已知环境下的移动机器人路径规划研究相比较,对于动态未知环境探索应用问题,环境的未知性和动态变化都给机器人路径规划带来了新的挑战。由于机器人不具有环境的先验知识,移动机器人在环境探索过程中不可避免的会遇到各式各样的障碍物,因此,研究具有灵活规划和避障功能的移动机器人及其在未知环境下的路径规划具有重要的现实意义。本文将状态预测与强化学习算法相结合,分别对静态和动态障碍物未知环境下移动机器人的路径规划进行了研究。 文章首先对移动机器人环境探索中路径规划的研究内容进行了综述,然后对移动机器人环境探索下路径规划的研究现状及发展作了回顾,并对本论文的主要结构进行了概述。 其次,详细介绍了有关移动机器人环境探索方面的知识、研究现状及存在的问题,包括栅格地图的创建、到达目标点的代价和效用值的计算、目标点的定义及分配策略等问题。然后,就路径规划的方法、传感器系统及多移动机器人路径规划的冲突消解等相关内容作了详细的阐述。 第三,详细介绍了强化学习的基本概念、原理、方法、各种算法及研究现状等问题,然后从单个机器人在静态障碍物环境中的路径规划入手,以Q强化学习算法为基础,通过合理划分状态空间与动作空间,设计强化函数,描述了该算法在路径规划中的具体应用。 第四,将强化学习算法与“预测”的思想相结合用于单个机器人在动态环境下的路径规划,解决了针对规则运动障碍物和同时存在静态、动态障碍物两种环境的避障问题。考虑到机器人前面每一步的决策对最后的成功或失败都有影响,所以在算法中引入资格迹(Eligibility trace)技术,采用改进的Q学习算法实现控制。 第五,借用人类在动态复杂环境下确定自己下一步行动的预测机制思想,本文将状态预测的方法与强化学习相结合,用于多移动机器人系统环境探索下的路径规划。较以往单纯使用强化学习方法实现的路径规划,本文的方法更加合理的实现了机器人之间的避碰,并通过预测函数降低群体强化学习空间维数、加快了群体强化学习算法的收敛速度。 最后,对本文所作的工作和取得的成果作了总结,分析了可以进一步改进的地方,并对未来发展进行了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号