基于逻辑马尔可夫决策过程的关系强化学习研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前普遍认为智能主体应当具有学习能力，能够把握和适应动态环境的变化。在没有任何老师指导的情况下，强化学习让主体尝试行动，在与环境交互过程中试错，根据收集到的环境反馈，对尝试的行动进行评价，最终把握环境并学会行动决策以适应环境。以马尔可夫决策过程为基础，近年来提出了很多强化学习方法，获得了很大的进展，对以特性向量表示的状态也有了充分的研究。然而特性向量这种命题表示法，很难表示环境中的关系信息，特别是有大量物体，物体之间又有很多关系的领域。为了把强化学习方法应用到这些复杂的环境，最近提出了以关系表示为基础的关系强化学习，研究在用关系逻辑表示环境的状态和主体的行动时，如何进行学习，以及如何对环境状态进行抽象以把握环境。用常原子表示的环境基本状态空间巨大，需要使用适当的有变量的抽象状态表示方法来把握环境。最近提出了一些关系强化学习的方法和模型，但对关系强化学习问题本身还缺乏透彻的理解，关系强化学习的理论也很不充分。本文在简单的仅用原子表示的逻辑马尔可夫决策过程LOMDP的基础上，提出了带否定词的逻辑马尔可夫决策过程nLMDP，并基于该模型，提出了替换学习方法及状态演化方法。在逻辑马尔可夫决策过程nLMDP中，首次引入了逻辑否定，用来准确的描述环境和任务。然后又提出了抽象状态空间的生成方法和扩展方法，从一个准确描述的的目标抽象状态开始，使用一次生成方法和多次扩展方法，可以让设计者很容易的得到一个规模适度的互补抽象状态空间，即每个基本状态只有一个抽象状态来表示，所有的抽象状态又能表示所有的基本状态。本文也提出了原型行动，以表示环境内主体的基本行动方式，是抽象行动上的更高抽象。原型行动中同样引入了逻辑否定表示行动的执行条件，根据原型行动和互补的抽象状态空间，可以很容易得到抽象状态上的可执行抽象行动。逻辑马尔可夫决策过程nLMDP基于互补的抽象状态空间和原型行动集构建。基于nLMDP，本文提出了替换学习(θ(λ))方法，实现了主体在线自动获得抽象行动，并完成对原型行动到抽象状态上有效替换的评价估计。试验显示替换学习是一个高效的学习方法。对于复杂的领域，设计者很难给出完善的互补抽象状态空间，也很难对给出的互补抽象状态空间进行评价。本文提出了状态演化的方法，基于逻辑马尔可夫决策过程nLMDP和替换学习，仅需要设计者提供任务的目标抽象状态和主体的原型行动集，主体在学习中自己组织抽象状态空间，并对他们进行评价，完成策略的学习。试验显示状态演化过程中，主体能够抓住任务的本质，获得的自组织互补抽象状态空间也是合理的。本文的主要贡献与创新： 1.引入逻辑否定描述抽象状态，准确表述环境和任务；提出抽象状态空间的生成和扩展方法，为关系强化学习提供了一个构建互补抽象状态空间的简单方法。 2.提出引入逻辑否定的原型行动，并形式定义了可执行抽象行动空间，为关系强化学习中主体自动获得抽象行动提供了基础。 3.基于互补抽象状态空间和原型行动集，提出逻辑马尔可夫决策过程nLMDP，成为关系强化学习的一个理论模型。 4.提出替换学习，实现抽象行动的在线获得，学习从原型行动到抽象状态有效替换的评价函数。 5.提出状态演化的理论和方法，主体在学习最优策略过程中，也学习对环境状态的组织，最终得到互补的抽象状态空间。这也为关系强化学习提供了一个主体自组织环境状态的框架。

著录项

作者
宋志伟;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科计算机科学与技术
授予学位博士
导师姓名陈小平;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习 ;
关键词
强化学习; 学习能力; 智能主体; 特性向量; 逻辑马尔可夫决策过程;

相似文献

中文文献
外文文献
专利

1. 基于深度强化学习算法的颗粒材料应力−应变关系数据驱动模拟研究 [J] . 狄少丞 ,冯云田 ,瞿同明 . 力学学报 . 2021 ,第010期
2. 基于泛逻辑学的模糊逻辑关系柔性的研究 [J] . 郭加安 ,王万森 ,姜千辉 . 计算机应用与软件 . 2007 ,第012期
3. 基于泛逻辑学的逻辑关系柔性化研究 [J] . 王万森 ,何华灿 . 软件学报 . 2005 ,第005期
4. 双重逻辑引导下政党生命力与政党规模的内在关系研究——基于函数关系模型的分析 [J] . 周赟 ,徐玉生 . 领导科学 . 2021 ,第20期
5. "课程思政""专业思政""学科思政"的逻辑关系研究——基于中国知网数据的发现 [J] . 张峰 ,王琦 ,张玲娜 . 北京联合大学学报（自然科学版） . 2021 ,第002期
6. 基于分层强化学习和偏爱逻辑的Web服务组合 [C] . 郭晓辉 ,王红兵 . 第一届全国服务计算学术会议 . 2010
7. 部分观测马尔可夫决策过程中的强化学习 [A] . 王子强 . 2013

基于逻辑马尔可夫决策过程的关系强化学习研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅