基于强化学习的机器人行为控制研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，机器人技术的研究与应用在全球范围内得到了空前的重视，各个国家先后出台了机器人相关的国家发展战略。我国也发布了《机器人工业展开计划（2016-2020年）》，力求在潜力巨大的机器人产业实现跨越式突破，使机器人技术发展成为实现《中国制造2025》目标的有效推动力。面对机器人所处复杂动态的环境，如何设计有效的控制器和决策机制，使机器人在复杂变化的未知环境中稳定工作，自适应完成任务，是机器人智能化研究的重要问题。强化学习利用与真实世界交互所收集到的样本数据自主学习最优行为，已经成为实现机器人最优控制的有效方法。虽然强化学习已经在某些特定领域取得进展，但是在很多机器人环境中仍然难以应用。强化学习很难应用于真实机器人的最重要的原因有三点：（1）机器人的状态、动作空间一般均为高维度的连续空间。庞大的决策空间使得普通强化学习方法，甚至基于降维和近似的强化学习方法迅速失效。（2）强化学习需要大量的样本来探索机器人的高维连续状态空间，而机器人的内部结构之间往往存在着彼此之间的相关性，这种相关性是存着时间、环境的变化而动态变化的。随着环境的变化，强化学习算法无法准确的感知到此时最需要关注的位置，因此算法往往会遭遇到学习速度过慢的问题。同时，强化学习算法往往不具有可解释性，对强化学习训练得到的策略无法得知策略成功或者失败的原因。（3）强化学习完全从零试错学习，无法融合人类的经验、知识。真实机器人需要与人类交互，若不能融合人类知识，将导致无法预期的机器人行为，甚至误伤人类。目前，虽然已经有多种方法能够初步解决融合人类先验知识的问题，然而这些算法的优缺点、适用范围都不明确，因此，需要一种自适应的人机融合算法来更深刻的研究人类–智能体强化学习算法的作用和优缺点，同时能够适用于各种情形下的人机融合。为了缓解以上问题，本文将从三个方面进行探讨：基于去中心化多智能体强化学习的机器人控制方法、基于注意力机制的动态拓扑机器人控制学习方法、以及自适应人机融合的强化学习方法，并将提出的方法与原始方法在多个标准的大规模状态空间机器人上进行的详细的实验对比以及实例分析，验证了本文提出的方法在解决上述三个机器人强化学习难点问题上具有显著的效果提升。

著录项

作者
王东旭;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机技术
授予学位硕士
导师姓名余超;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;自动化技术及设备;
关键词
强化学习; 机器人行为;

相似文献

中文文献
外文文献
专利

1. 基于ZMP的四足仿生机器人反应式行为控制策略研究 [J] . 闫曈 ,许威 ,苏波 . 车辆与动力技术 . 2021,第001期
2. 基于PSO算法的多机器人探测行为控制研究 [J] . 江洁 ,李团结 ,王飞军 . 制造业自动化 . 2013,第017期
3. 基于改进T-S型模糊神经网络的护士机器人行为控制研究 [J] . 赵文斐 ,周风余 ,台述鹏 . 北京联合大学学报（自然科学版） . 2013,第003期
4. 基于强化学习的六足机器人动态避障研究 [J] . 董星宇 ,唐开强 ,傅汇乔 . 传感器与微系统 . 2022,第1期
5. 基于模型的机器人强化学习研究综述 [J] . 孙世光 ,兰旭光 ,张翰博 . 模式识别与人工智能 . 2022,第1期
6. 一种基于Elman神经网络的机器人行为控制器 [C] . 刘满强 ,周红莉 . 2006中国控制与决策学术年会 . 2006
7. 基于机器学习的机器人行为控制关键技术研究 [A] . 刘潇龙 . 2018

基于强化学习的机器人行为控制研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅