文摘
英文文摘
声明
1.绪论
1.1.课题背景与意义
1.2.强化学习的基本原理及其与相关学科关系
1.2.1.强化学习的基本原理
1.2.2.强化学习研究的相关学科背景
1.3.强化学习研究现状
1.3.1.强化学习的发展历史
1.3.2.经典的强化学习算法及其发展
1.3.3.强化学习的应用研究
1.3.4.有待进一步研究的问题
1.4.基于MAS的协同概念设计研究现状
1.4.1.协同概念设计的内涵
1.4.2.MAS概述
1.4.3.基于MAS的协同概念设计
1.5.论文组织结构
1.6.本文的主要成果和创新点
2.基于模拟退火Metropolis准则的多步Q强化学习
2.1.引言
2.2.MDP与动态规划
2.2.1.MDP模型
2.2.2.Bellman最优性原理
2.2.3.值迭代与策略迭代
2.3.强化学习的经典算法
2.3.1.TD学习算法
2.3.2.Q学习
2.3.3.Q(λ)学习
2.3.4.参数λ的意义
2.4.多步Q强化学习算法
2.4.1.算法提出
2.4.2.算法分析
2.4.3.k值的确定
2.4.4.仿真试验
2.5.基于Metropolis准则的多步Q强化学习算法
2.5.1.模拟退火算法
2.5.2.结合Metropolis准则的多步Q学习算法
2.5.3.算法分析
2.5.4.仿真实验
2.6.本章小结
3.基于最小二乘的强化学习
3.1.引言
3.2.值函数逼近
3.2.1.函数逼近的TD学习
3.2.2.函数逼近的Q(λ)算法
3.3.最小二乘Q(λ)强化学习方法
3.3.1.最小二乘Q(λ)学习
3.3.2.递推最小二乘Q(λ)学习
3.3.3.算法分析
3.3.4.仿真实验与结果分析
3.4.最小二乘SARSA(λ)算法
3.4.1.强化学习的SARSA(λ)算法
3.4.2.最小二乘SARSA(λ)算法
3.4.3.递推最小二乘SARSA(λ)学习
3.4.4.仿真实验与结果分析
3.4.5.最小二乘Q(λ)和SARSA(λ)算法的对比
3.5.本章小结
4.基于MAS的协同概念设计系统研究
4.1.引言
4.2.协同概念设计的特点与模型
4.2.1.协同概念设计的特点
4.2.2.协同概念设计的集成模型
4.2.3.基于MAS的协同概念设计系统的总体思想
4.3.协同概念设计系统的Agent建模方法
4.4.基于MAS的协同概念设计系统
4.4.1.系统体系结构
4.4.2.管理Agent
4.4.3.设计Agent
4.5.基于信念型承诺的Agent协作机制
4.5.1.通用部分全局规划概述
4.5.2.信念型承诺的提出
4.5.3.基于信念型承诺的Agent协作机制
4.5.4.基于信念型承诺的Agent协作在协同概念设计系统中的应用
4.6.基于MAS的协同概念设计系统实现
4.7.本章小结
5.强化学习在协同概念设计系统中的应用
5.1.引言
5.2.协同设计任务调度的强化学习方法研究
5.2.1.任务调度问题的研究现状分析
5.2.2.协同设计任务调度问题描述
5.2.3.任务调度问题的MDP模型
5.2.4.任度调度的强化学习算法
5.2.5.应用实例与分析
5.3.强化学习在协同概念设计方案优化中的应用
5.3.1.方案优化问题的MDP模型
5.3.2.基于强化学习的方案优化算法
5.3.3.应用实例分析
5.4.本章小结
6.结束语
致 谢
参考文献
攻读博士学位期间发表和录用的论文
南京理工大学;