首页> 中文学位 >基于ADP算法的随机离散线性二次最优控制问题的研究
【6h】

基于ADP算法的随机离散线性二次最优控制问题的研究

代理获取

目录

第一个书签之前

摘 要

ABSTRACT

目 录

Contents

1 绪 论

1.1 研究目的和意义

1.2 国内外研究现状

1.2.1 LQ最优控制的研究现状

1.2.2 ADP算法的背景与研究现状

1.3 本文主要内容及章节安排

2 预备知识

2.1符号说明

2.2 BP神经网络算法的基本理论

2.3 基于BP网络的HDP算法的基本理论

3 未知平均场随机离散系统的LQ最优控制问题

3.1 问题描述及相关准备

3.2 ADP迭代方法及其收敛性证明

3.2.1 ADP迭代方法

3.2.2 收敛性证明

3.3 通过基于BP网络的HDP技术实现迭代

3.4 仿真模拟及分析

3.5 小结

4 未知斯坦克尔伯格博弈随机离散系统的LQ最优策略问题

4.1 问题描述及相关准备

4.2 迭代的ADP算法及其收敛性证明

4.2.1 迭代的ADP算法

4.2.2 收敛性分析

4.3 通过HDP技术实现迭代方程

4.4 仿真模拟及分析

4.5小结

5 总结与展望

参考文献

致 谢

攻读硕士学位期间的主要成果

展开▼

摘要

随着现代科学技术的快速发展,工业生产过程变得异常复杂.受不确定性、强非线性和多变量等因素的影响,很难用精确的数学模型描述系统的动态特性,从而对研究最优控制问题造成了极大的困难.因此,未知系统下的最优控制问题成为研究热点.本文提出基于神经网络的自适应动态规划(Adaptive/Approximate Dynamic Programming,ADP)算法研究未知随机离散系统在无限时域的线性二次型(Linear Quadratic,LQ)最优控制问题.具体研究内容如下:
  一、研究了未知平均场随机离散系统下在无限时域的LQ最优控制问题.首先,将黎卡提(Riccati)方程推广到广义的Riccati方程组,状态反馈增益矩阵扩展为增益矩阵对,给出了平均场系统的LQ最优控制存在的充分条件.然后,将随机系统转化为确定性系统,提出一种值迭代的ADP算法并进行了收敛性分析.同时,用反向传播(Back Propagation,BP)神经网络设计模型网络、评价网络和执行网络来分别估计未知的系统模型、目标函数、控制增益矩阵对.最后,通过系统仿真验证了ADP方法的有效性.
  二、解决了未知的斯坦克尔伯格博弈随机离散系统下的无限时间LQ最优策略问题.首先,把随机系统转化为确定性系统,给出最优策略的存在的充分条件.然后,在满足纳什均衡的条件下,提出ADP算法,构造迭代方程,构造迭代方程时要考虑决策者和跟随者的相互作用,迭代方程的结构特点要求和目标函数的结构特点保持一致,并且迭代方程的个数与决策者和跟随者的个数密切相关,并进行收敛性分析.同时,用BP神经网络设计启发式动态规划(Heuristic Dynamic Programming,HDP)控制器并且通过训练模型网络、评价网络、执行网络分别估计动态系统状态、目标函数、最优策略集.最后,通过仿真实验验证算法的有效性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号