首页> 中文学位 >基于强化学习的机器人行为控制研究
【6h】

基于强化学习的机器人行为控制研究

代理获取

目录

声明

1 绪论

1.1 选题背景

1.2 选题的目的和意义

1.3 国内外研究现状

1.3.1 基于深度强化学习的机器人行为控制

1.3.2 注意力机制

1.3.3 机器人融合人类先验知识

1.4 论文主要创新点

1.5 论文的主要内容与组织结构

2 相关研究基础

2.1 马尔科夫决策过程

2.2 强化学习算法

2.2.1 前馈神经网络

2.2.2深度Q网络(Deep Q Network)及其变种

2.2.3 策略梯度算法:信赖域策略优化(TRPO)

2.3 多智能体强化学习与协同图

3 基于去中心化多智能体强化学习的机器人控制方法

3.1 协同图机器人分解

3.2 问题形式化

3.3 联合最优动作计算

3.4 实验结果

3.5 结论

4 基于注意力机制的动态拓扑机器人控制学习方法

4.1 机器人拓扑如何影响学习效率

4.2 自适应动态拓扑

4.3 基于注意力机制动态拓扑

4.4 局部可观测动力学拓扑

4.5 组合模型:注意力机制和PODT

4.6 实验

4.7 结论

5 自适应人机融合的强化学习方法

5.1 人机融合简介

5.2 人类-智能体强化学习方法

5.3 自适应人机融合算法

5.4 实验验证

5.4.1 实验设置

5.4.2 实验结果

5.5 结论

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

近年来,机器人技术的研究与应用在全球范围内得到了空前的重视,各个国家先后出台了机器人相关的国家发展战略。我国也发布了《机器人工业展开计划(2016-2020年)》,力求在潜力巨大的机器人产业实现跨越式突破,使机器人技术发展成为实现《中国制造2025》目标的有效推动力。面对机器人所处复杂动态的环境,如何设计有效的控制器和决策机制,使机器人在复杂变化的未知环境中稳定工作,自适应完成任务,是机器人智能化研究的重要问题。强化学习利用与真实世界交互所收集到的样本数据自主学习最优行为,已经成为实现机器人最优控制的有效方法。虽然强化学习已经在某些特定领域取得进展,但是在很多机器人环境中仍然难以应用。 强化学习很难应用于真实机器人的最重要的原因有三点:(1)机器人的状态、动作空间一般均为高维度的连续空间。庞大的决策空间使得普通强化学习方法,甚至基于降维和近似的强化学习方法迅速失效。(2)强化学习需要大量的样本来探索机器人的高维连续状态空间,而机器人的内部结构之间往往存在着彼此之间的相关性,这种相关性是存着时间、环境的变化而动态变化的。随着环境的变化,强化学习算法无法准确的感知到此时最需要关注的位置,因此算法往往会遭遇到学习速度过慢的问题。同时,强化学习算法往往不具有可解释性,对强化学习训练得到的策略无法得知策略成功或者失败的原因。(3)强化学习完全从零试错学习,无法融合人类的经验、知识。真实机器人需要与人类交互,若不能融合人类知识,将导致无法预期的机器人行为,甚至误伤人类。目前,虽然已经有多种方法能够初步解决融合人类先验知识的问题,然而这些算法的优缺点、适用范围都不明确,因此,需要一种自适应的人机融合算法来更深刻的研究人类–智能体强化学习算法的作用和优缺点,同时能够适用于各种情形下的人机融合。 为了缓解以上问题,本文将从三个方面进行探讨:基于去中心化多智能体强化学习的机器人控制方法、基于注意力机制的动态拓扑机器人控制学习方法、以及自适应人机融合的强化学习方法,并将提出的方法与原始方法在多个标准的大规模状态空间机器人上进行的详细的实验对比以及实例分析,验证了本文提出的方法在解决上述三个机器人强化学习难点问题上具有显著的效果提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号