首页> 中文学位 >面向决策仿真的Agent模型中强化学习方法的研究
【6h】

面向决策仿真的Agent模型中强化学习方法的研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 引言

1.2 研究目标与意义

1.3 国内外研究现状

1.4 研究内容

1.5 论文组织结构

第二章 相关理论与技术

2.1 Agent理论与技术

2.1.1 Agent定义

2.1.2 Agent特性

2.1.3 BDI模型简介

2.2 强化学习基本概念

2.2.1 强化学习原理

2.2.2 强化学习的特点

2.2.3 马尔科夫决策过程

2.3 强化学习相关算法

2.3.1 TD算法

2.3.2 Q学习算法

2.3.3 Sarsa算法

第三章 基于Agent的决策仿真系统框架

3.1 分层学习及决策过程

3.1.1 自底向上的学习过程

3.1.2 自顶向下的决策过程

3.2 多任务分解学习的智能化框架

3.3 模型中各模块功能设计

第四章 决策仿真系统中Agent的认知模型

4.1 Agent认知模型

4.1.1 形式化定义

4.1.2 认知结构模型

4.2 Agent模型内部结构设计

4.2.1 各模块交互过程设计

4.2.2 各模块功能设计

4.3 Agent的决策与学习行为设计

4.3.1 Agent的决策与学习过程

4.3.2 Agent的运行流程

4.3.3 Agent的状态转换

第五章 强化学习方法在决策仿真系统中的应用

5.1 单Agent Q学习算法研究

5.1.1 Q学习算法分析

5.1.2 改进Q学习模型描述

5.1.3 改进Q学习算法描述

5.2 多Agent联合强化学习

5.2.1 多Agent强化学习信度分配问题

5.2.2 多Agent联合Q学习算法

第六章 实验研究

6.1 实验目的

6.2 实验环境

6.3 实验过程及结果分析

6.3.1 Agent认知模型的有效性验证

6.3.2 单Agent强化学习算法效率验证

6.3.3 多Agent联合强化学习算法效率验证

结束语

致谢

参考文献

在研期间研究成果

展开▼

摘要

强化学习是一种无监督的机器学习技术,通过试错法即能找到最优解或者接近最优解,并能实现动态环境下的在线学习,因此强化学习被公认为是构成智能Agent的理想技术之一。决策仿真系统具有环境复杂、状态不确定等特点,如何将强化学习应用到决策仿真领域,是当前研究的热点与难点。
  本文主要研究强化学习方法并应用到多Agent决策仿真系统中。首先根据分层学习和决策的思想,给出了基于Agent的决策仿真系统框架。接着本文提出了一种基于强化学习的Agent认知模型,将环境变化预测引入Agent模型,使Agent对环境在一定程度上具有前瞻性的预测能力。在对已有强化学习算法分析的基础上,提出了改进的单Agent Q学习算法,使系统中每个Agent都能根据需要自主学习。随后,本文分析了多Agent强化学习中的信度分配问题,并提出了多Agent联合Q学习算法,以提高整个多Agent系统的学习效率。
  最后,本文通过对某决策仿真系统的实验,对本文提出的Agent认知模型和强化学习算法进行验证。实验表明,本文提出的Agent认知模型能够有效的应用于决策仿真系统,且强化学习算法提高了Agent的学习效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号