首页> 中文会议>2001年中国智能自动化会议 >部分可观测MDP强化学习

部分可观测MDP强化学习

页面导航

摘要
著录项
相似文献
相关主题

摘要

在学习单元对环境信息未知的序贯决策问题中,强化学习(RL)是一种被广泛用于建立环境模型以及求解最优控制策略的有效技术.许多RL的理论及实际应用均集中于其学习环境可被描述为一马氏决策过程(MDP)的情形.然而,在一些实际问题中,环境却是非马氏的,即对学习单元而言,它所能获得的环境状态的信息是不完全的.本文给出了一种新的算法:R(λ)学习,以求解这类非马氏环境的决策问题.环境本身是马氏的,但是学习单元却不能感知全部的状态信息,此时我们也称其为部分可观测马氏决策过程(POMDP).

著录项

来源
《2001年中国智能自动化会议》|2001年|533-538|共6页
会议地点昆明
作者
胡光华;
展开▼
作者单位

中国自动化学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类自动推理、机器学习;
关键词
强化学习; 部分可观测马氏决策过程; R学习; R(λ)学习; 机器学习;
入库时间 2022-08-17 10:20:12

相似文献

中文文献
外文文献
专利

1. 求解部分可观测马氏决策过程的强化学习算法 [J] . 王学宁 ,贺汉根 ,徐昕 . 控制与决策 . 2004,第11期
2. 改进GA3C求解POMDP的深度强化学习网络模型 [J] . 陈晓军 ,康士伟 . 电脑编程技巧与维护 . 2019,第004期
3. 基于POMDP强化学习的动态频谱分配算法 [J] . 唐伦 ,陈前斌 ,曾孝平 . 北京邮电大学学报 . 2009,第6期
4. 基于SMDP强化学习的电力信息网络入侵检测研究 [J] . 李帅 ,王先培 ,王泉德 . 电力自动化设备 . 2006,第012期
5. 基于强化学习的海洋移动观测网络观测路径规划方法 [J] . 赵玉新 ,杜登辉 ,成小会 . 智能系统学报 . 2022,第1期
6. POMDP中基于内部状态的多agent强化学习 [C] . 方长胜 ,王浩 ,王池社 . 中国仪器仪表学会第九届青年学术会议 . 2007
7. 部分观测马尔科夫决策过程中基于记忆的强化学习问题研究 [A] . 宋佳佳 . 2017

部分可观测MDP强化学习

摘要

著录项

相似文献

相关主题

期刊订阅