首页> 中文学位 >马尔可夫决策过程在送餐机器人路径规划上的研究与应用
【6h】

马尔可夫决策过程在送餐机器人路径规划上的研究与应用

代理获取

目录

第一章 绪论

1.1 研究背景以及意义

1.2 国内外研究现状

1.3 研究内容

1.4 论文的组织结构

第二章 相关理论

2.1 机器人路径规划相关算法

2.2 马尔可夫决策过程路径规划算法

2.3本章小结

第三章 总体设计

3.1 系统分析

3.2 总体架构

3.3 数据结构

3.4 系统组成

3.5 本章小结

第四章 构建基于马尔可夫决策过程的路径规划模型

4.1 基于马尔可夫决策过程的路径规划算法模型构建流程

4.2 初始化数据

4.3 更新数据

4.4 计算栅格地图的状态动作奖励值

4.5 计算动作选择策略π

4.6 本章小结

第五章 应用与分析

5.1 实验环境

5.2 系统应用

5.3 实验分析

5.4 本章小结

总结与展望

参考文献

攻读硕士学位期间发表的论文

声明

致谢

展开▼

摘要

送餐机器人代替人工服务员送餐,给餐馆节省了不少开支。但餐馆的环境过于复杂,例如椅子被临时挪动到通道上,顾客在餐馆中动态出现等,送餐机器人可能会进行多次避障,送餐效率不高。如果送餐机器人能够预测一条不出现或者少出现意外椅子或者驻足顾客的路径,那么送餐机器人的送餐效率将大大提高。本文应用马尔可夫决策过程(MDP)算法对送餐机器人的路径进行规划,以提高机器人的送餐效率。
  本文在研究餐馆送餐机器人路径规划算法的基础上,以马尔可夫决策过程为主要算法,通过引入惩罚函数 F、状态立即奖励值更新规则以及状态转移概率更新规则,进行送餐机器人的路径规划,以提高送餐机器人的安全性以及全程送餐效率。本文基于MDP构建了一个餐馆送餐机器人路径规划系统。该系统有5个组成模块:地图模块,任务模块,数据采集模块,路径规划模块和控制模块。地图模块用来构建餐馆环境二维栅格地图。任务模块用来下达送餐任务。数据采集模块用来采集MDP初始化信息。路径规划模块是路径规划系统的核心模块,它用来为送餐机器人规划高效的送餐路径。控制模块用来控制送餐机器人送餐。具体做法是:首先对餐馆环境进行建模即构建二维栅格地图,初始化一个MDP模型。然后应用MDP为送餐机器人规划一条全局送餐路径,控制送餐机器人沿着此路径进行送餐。当送餐机器人在送餐的过程中对地图以及MDP模型进行实时更新。对地图的更新主要是标注桌椅以及驻足顾客的位置,对MDP模型的更新主要是更新状态立即奖励值函数R以及状态转移概率P。对P的更新应用了如下一个分式:分母是在状态s下采取动作a的总次数,分子是在状态s下采取动作a而到达状态s’的次数。对R的更新具体做法是:当传感器探测到前方状态无障碍物时,需要判断一下是否要更新前方状态的立即奖励值,如果前方状态的立即奖励值等于初始奖励值,则不更新,否则增大其状态立即奖励值;当传感器探测到前方有障碍物时,以当前位置为起始点规划出一条能够避障的全局路径并判断其奖励值是否为最小值,若等于最小值,则不变,否则减小其立即奖励值。以此进行下去,直到到达目标。如果机器人与障碍物相撞,机器人除了获得原始状态的部分状态奖励外,还要获得一个负的惩罚奖励 F,这样能够保证路径的安全性。
  通过仿真实验,该算法在餐馆动态环境下规划的全局路径出现意外障碍物的情况比较少。得出结论:MDP算法规划的路径能够避开那些经常出现障碍物的区域,对那些以往经常出现障碍物,而最近相当一段时间没有出现障碍物的区域,又能够重新考虑。在整个送餐过程中,机器人可能进行的避障次数少,提高了送餐机器人的送餐效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号