强化学习中状态抽象技术的研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

抽象技术允许系统忽略与当前决策无关的一些细节，而仅仅只考虑那些有关的或重要的因素，是用于解决“维数灾”问题的一种重要技术。在强化学习领域，存在着两类主要的抽象技术：过程抽象与状态抽象。过程抽象指的是忽略掉一个复杂动作的执行细节，而把它当作一个整体(抽象动作)来看待。状态抽象指的是忽略掉状态向量中与当前决策不相关的特征，以达到状态空间压缩的效果。就状态抽象技术而言，虽然它已经取得了一定的进展，但仍然存在着许多问题。
　　本文针对多维连续状态空间的离散化精度问题，构造了一种基于自组织神经网络的状态抽象方法，它将自组织神经网络、资格迹及Actor/Critic强化学习框架进行了有机的集成。该方法的特点如下：利用自组织神经网络并结合智能体自身在线获取到的数据来离散化连续状态空间，以获得良好的量化精度；同时，自组织神经网络的工作机制也利于智能体自主地在线量化连续空间；将量化空间的自组织特性和资格迹技术相结合以调整强化学习的性能指标。
　　本文针对目前的层次强化学习框架还缺乏面向问题的表达能力这一问题，对SMDPs问题进行了分类，定义了HAM-可分解概念，明确了HAM机、HAM-可分解及策略耦合SMDPs这三者之间的关系，并证明了HAM框架适合解决策略耦合SMDPs问题。实际上，上述框架表明了HAM的策略耦合观点，它从问题的角度来描述层次强化学习方法。在HAM的策略耦合基础上，针对一类具有有向无环图形式的策略耦合SMDPs问题，提出了一种层次分解方法。该方法充分利用了HAM体系中的CALL状态与CHOICE状态这两个核心概念。与其他方法相比，该方法在构造层次时所需的信息较少，而且各层子任务单一，允许执行的动作集有限；同时，各层间相对独立的特点便于使用状态抽象技术加快学习速度。
　　本研究在HAM策略耦合观点的基础上，提出了基于HAM的同态变换方法，可以有效地解决基于子过程的状态抽象方法的抽象能力有限及HAMs模型本身存在的联合状态空间这一问题，并进行了理论分析与实验验证。在此基础上，从实用的观点出发，总结了应用同态变换进行状态抽象的几个重要的观点，并且还讨论了近似同态变换与Bootstrapping技术、部分同态变换等实用技术。从层次强化学习方法应该满足面向问题的求解这一基本需求的角度出发，在上述提出的主要概念与理论的基础上，给出了一个统一的框架：它初步支持问题的建模分析与计算求解；允许同时使用多种抽象机制；并且能够同时学习层次最优策略和递归最优策略。同时，还提出了一种NPCs行为设计方法，并在一个实际的游戏平台----Quake2平台上，采用该方法为NPCs设计了移动行为，表明了本文提出的方法可以应用于实际问题。

著录项

作者
杜小勤;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机应用技术
授予学位博士
导师姓名李庆华;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
人工智能; 机器学习; 同态变换; 人工神经网络;

相似文献

中文文献
外文文献
专利

1. 基于凸多面体抽象域的自适应强化学习技术研究 [J] . 陈冬火 ,刘全 ,朱斐 . 计算机学报 . 2018,第001期
2. 深度强化学习中状态注意力机制的研究 [J] . 申翔翔 ,侯新文 ,尹传环 . 智能系统学报 . 2020,第002期
3. 概率实时时态认知逻辑模型检测中抽象技术的研究 [J] . 刘志锋 ,孙博 ,周从华 . 电子学报 . 2013,第007期
4. SCA中CORBA与硬件抽象层技术研究 [J] . 崔晓鹏 ,胡中豫 ,张豪 . 现代电子技术 . 2011,第006期
5. 反编译中IA-64指令语义抽象技术的研究 [J] . 张雪萌 ,赵荣彩 . 计算机工程与应用 . 2007,第003期
6. POMDP中基于内部状态的多agent强化学习 [C] . 方长胜 ,王浩 ,王池社 . 中国仪器仪表学会第九届青年学术会议 . 2007
7. 基于动作抽象的分层强化学习算法研究 [A] . 许志鹏 . 2016

强化学习中状态抽象技术的研究

摘要

著录项

相似文献

相关主题

期刊订阅