首页> 中文学位 >基于深度强化学习的多智能体策略优化研究
【6h】

基于深度强化学习的多智能体策略优化研究

代理获取

目录

第1章 绪论

1.1 研究背景与问题的提出

1.2 研究内容与技术路线

1.3 研究创新点

1.4 本文的组织结构

第2章 研究理论基础与文献综述

2.1 研究理论基础

2.2 主要相关算法

2.3 多模态信息输入的智能体策略优化分析

2.4 噪声环境下的智能体策略优化分析

2.5 非静态对手环境下的智能体策略优化分析

2.6 本章小结

第3章 面向多模态信息输入的智能体策略优化研究

3.1 引言

3.2 基于多模态信息输入的策略优化算法框架

3.3 基于多模态信息输入的网络架构

3.4 层次注意力机制

3.5 多模态信息融合

3.6 实验验证

3.7 本章小结

第4章 面向噪声环境下独立学习智能体的策略优化研究

4.1 引言

4.2 基于双权估计的多智能体策略优化算法框架

4.3 双权深度Q网络

4.4 奖赏值网络与宽容机制

4.5 调度经验重放策略

4.6 实验论证

4.7 本章小结

第5章 面向非静态对手环境下的多智能体策略优化研究

5.1 引言

5.2 基于深度贝叶斯策略重用的多智能体策略优化算法框架

5.3 贝叶斯策略重用理论

5.4 基于置信模型的对手策略检测

5.5 基于策略蒸馏的策略优化

5.6 实验论证

5.7 本章小结

第6章 总结与展望

6.1 研究内容总结

6.2 展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

著录项

  • 作者

    郑岩;

  • 作者单位

    天津大学;

  • 授予单位 天津大学;
  • 学科 软件工程
  • 授予学位 博士
  • 导师姓名 孟昭鹏;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号