首页> 中文学位 >强化学习及其在MAS协同概念设计中应用的研究
【6h】

强化学习及其在MAS协同概念设计中应用的研究

 

目录

文摘

英文文摘

声明

1.绪论

1.1.课题背景与意义

1.2.强化学习的基本原理及其与相关学科关系

1.2.1.强化学习的基本原理

1.2.2.强化学习研究的相关学科背景

1.3.强化学习研究现状

1.3.1.强化学习的发展历史

1.3.2.经典的强化学习算法及其发展

1.3.3.强化学习的应用研究

1.3.4.有待进一步研究的问题

1.4.基于MAS的协同概念设计研究现状

1.4.1.协同概念设计的内涵

1.4.2.MAS概述

1.4.3.基于MAS的协同概念设计

1.5.论文组织结构

1.6.本文的主要成果和创新点

2.基于模拟退火Metropolis准则的多步Q强化学习

2.1.引言

2.2.MDP与动态规划

2.2.1.MDP模型

2.2.2.Bellman最优性原理

2.2.3.值迭代与策略迭代

2.3.强化学习的经典算法

2.3.1.TD学习算法

2.3.2.Q学习

2.3.3.Q(λ)学习

2.3.4.参数λ的意义

2.4.多步Q强化学习算法

2.4.1.算法提出

2.4.2.算法分析

2.4.3.k值的确定

2.4.4.仿真试验

2.5.基于Metropolis准则的多步Q强化学习算法

2.5.1.模拟退火算法

2.5.2.结合Metropolis准则的多步Q学习算法

2.5.3.算法分析

2.5.4.仿真实验

2.6.本章小结

3.基于最小二乘的强化学习

3.1.引言

3.2.值函数逼近

3.2.1.函数逼近的TD学习

3.2.2.函数逼近的Q(λ)算法

3.3.最小二乘Q(λ)强化学习方法

3.3.1.最小二乘Q(λ)学习

3.3.2.递推最小二乘Q(λ)学习

3.3.3.算法分析

3.3.4.仿真实验与结果分析

3.4.最小二乘SARSA(λ)算法

3.4.1.强化学习的SARSA(λ)算法

3.4.2.最小二乘SARSA(λ)算法

3.4.3.递推最小二乘SARSA(λ)学习

3.4.4.仿真实验与结果分析

3.4.5.最小二乘Q(λ)和SARSA(λ)算法的对比

3.5.本章小结

4.基于MAS的协同概念设计系统研究

4.1.引言

4.2.协同概念设计的特点与模型

4.2.1.协同概念设计的特点

4.2.2.协同概念设计的集成模型

4.2.3.基于MAS的协同概念设计系统的总体思想

4.3.协同概念设计系统的Agent建模方法

4.4.基于MAS的协同概念设计系统

4.4.1.系统体系结构

4.4.2.管理Agent

4.4.3.设计Agent

4.5.基于信念型承诺的Agent协作机制

4.5.1.通用部分全局规划概述

4.5.2.信念型承诺的提出

4.5.3.基于信念型承诺的Agent协作机制

4.5.4.基于信念型承诺的Agent协作在协同概念设计系统中的应用

4.6.基于MAS的协同概念设计系统实现

4.7.本章小结

5.强化学习在协同概念设计系统中的应用

5.1.引言

5.2.协同设计任务调度的强化学习方法研究

5.2.1.任务调度问题的研究现状分析

5.2.2.协同设计任务调度问题描述

5.2.3.任务调度问题的MDP模型

5.2.4.任度调度的强化学习算法

5.2.5.应用实例与分析

5.3.强化学习在协同概念设计方案优化中的应用

5.3.1.方案优化问题的MDP模型

5.3.2.基于强化学习的方案优化算法

5.3.3.应用实例分析

5.4.本章小结

6.结束语

致 谢

参考文献

攻读博士学位期间发表和录用的论文

展开▼

摘要

本文研究了采用多步信息更新值函数的多步Q学习算法、能够有效平衡智能体(Agent)选择动作时面临的新知识探索与当前策略遵循的模拟退火Metropolis准则和能够提高经验利用率、加快收敛速度的最小二乘强化学习方法,构建了基于多智能体系统(MAS)的协同概念设计系统,并将强化学习应用到该系统的任务调度和方案优化中,旨在深化强化学习在理论与应用方面的研究,促进协同概念设计技术的发展。所做的主要工作和研究成果如下: 首先,提出了基于模拟退火Metropolis准则的多步Q学习算法。针对经典的Q学习算法收敛速度慢的问题,从两个方面进行了改进:一是改进了一步更新策略,单纯的一步更新不能充分利用经验信息,因此提出了采用多步信息更新值函数的多步Q学习算法;二是在多步Q学习算法的动作选择中引入了模拟退火中的Metropolis准则,较好地解决了Agent选择动作时面临的新知识探索还是当前策略遵循的关键问题。 其次,提出了离策略的最小二乘Q(λ)算法和在策略的最小二乘SARSA(λ)算法,以及各自的改进递推算法。针对经典的Q(λ)和SARSA(λ)算法存在的经验利用率低、收敛速度慢的问题,根据当前和多步的经验知识样本建立了状态-动作对值函数的最小二乘逼近模型,推导了逼近函数在一组基底上的权向量所满足的一组线性方程,从而提出了最小二乘Q(λ)和最小二乘SARSA(λ)算法。并且根据递推最小二乘参数估计方法,给出了各自的改进递推算法。由于最小二乘算法实际上是构造了强化学习问题的经验模型,因而能够加快收敛速度。 再次,通过分析复杂产品协同概念设计过程的特点,提出了协同概念设计的集成模型,进而提出了基于MAS的协同概念设计系统的层次化联邦结构,设计了系统中管理Agent和设计Agent的结构。在这两类Agent中分别实现了任务调度、冲突消解、方案评价与优化、智能设计等功能。提出了适用于复杂产品概念设计的信念型承诺,给出了Agent的形式化表示,详细讨论了基于信念型承诺的Agent协作机制。该协同概念设计系统的建立为研究强化学习在其中的应用奠定了基础。 最后,针对协同概念设计系统管理Agent中的任务调度和方案优化问题,提出了基于强化学习的求解方法。任务调度问题是协同设计的重要内容之一,目前的方法大多存在算法效率较低、收敛于局部最优解等缺点。建立了调度问题的马尔可夫决策过程(MDP)模型,从理论上证明了采用强化学习求解调度问题的可行性,给出了基于O学习和Q(λ)学习的任务调度算法,从而为有向无环图(DAG)调度提供了一种新解法。现有的概念设计方案优化方法存在组合爆炸问题,因此难以对组合出来的方案逐一评价并获得最优方案解。引入了状态之间距离的概念,将方案优化问题建模为MDP模型,给出了基于Q学习的方案优化算法,应用实例表明了该方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
AI论文写作

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号