文摘
英文文摘
论文说明:图表目录、算法
致谢
第一章绪论
第一节人工智能
第二节机器学习
第三节强化学习
第四节关系强化学习
第五节主要工作
一、逻辑马尔可夫决策过程nLMDP
二、替换学习
三、状态演化
第六节章节安排
第二章强化学习
第一节强化学习思想
一、试错学习
二、最优控制
三、时序差分
四、现代强化学习
第二节强化学习模型
一、强化学习框架
二、马尔可夫决策过程
第三节强化学习方法
一、动态规划
二、蒙特卡罗
三、时序差分
第四节小结
第三章状态行动表示
第一节命题表示
一、线性泛化
二、梯度下降
三、决策树
第二节结构表示
一、关系表示
二、图表示
三、积木世界
第三节小结
第四章关系强化学习
第一节关系马尔可夫决策过程
一、逻辑术语
二、因子化
第二节关系回归
第三节LOMDP
一、模型
二、学习方法
第四节其它相关工作
第五节小结
第五章逻辑马尔可夫决策过程
第一节抽象状态空间
第二节抽象行动空间
第三节逻辑马尔可夫决策过程
第四节相关工作比较
第五节小结
第六章替换学习
第一节替换评价
第二节行动自动抽象
第三节θ(λ)-学习
第四节试验
第五节小结
第七章状态演化
第一节目标状态
第二节新合取
第三节状态演化方法
第四节试验
第五节小结
第八章应用讨论
第一节仿真模拟
第二节任务分层
第三节向导策略
第四节背景知识
第五节小结
第九章结论与展望
第一节本文主要工作
第二节主要贡献与创新
一、逻辑马尔可夫决策过程
二、替换学习
三、状态演化
第三节进一步研究方向
参考文献
索引
发表及已投稿论文
学术活动
中国科学技术大学;