声明
1 绪论
1.1 选题背景
1.2 选题的目的和意义
1.3 国内外研究现状
1.3.1 基于深度强化学习的机器人行为控制
1.3.2 注意力机制
1.3.3 机器人融合人类先验知识
1.4 论文主要创新点
1.5 论文的主要内容与组织结构
2 相关研究基础
2.1 马尔科夫决策过程
2.2 强化学习算法
2.2.1 前馈神经网络
2.2.2深度Q网络(Deep Q Network)及其变种
2.2.3 策略梯度算法:信赖域策略优化(TRPO)
2.3 多智能体强化学习与协同图
3 基于去中心化多智能体强化学习的机器人控制方法
3.1 协同图机器人分解
3.2 问题形式化
3.3 联合最优动作计算
3.4 实验结果
3.5 结论
4 基于注意力机制的动态拓扑机器人控制学习方法
4.1 机器人拓扑如何影响学习效率
4.2 自适应动态拓扑
4.3 基于注意力机制动态拓扑
4.4 局部可观测动力学拓扑
4.5 组合模型:注意力机制和PODT
4.6 实验
4.7 结论
5 自适应人机融合的强化学习方法
5.1 人机融合简介
5.2 人类-智能体强化学习方法
5.3 自适应人机融合算法
5.4 实验验证
5.4.1 实验设置
5.4.2 实验结果
5.5 结论
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢
大连理工大学;