面向高维连续行动空间的蒙特卡罗树搜索算法

刘天星; 李伟; 许铮; 张立华; 戚骁亚; 甘中学

首页> 中文期刊>计算机科学 >面向高维连续行动空间的蒙特卡罗树搜索算法

面向高维连续行动空间的蒙特卡罗树搜索算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)在低维离散控制任务中取得了巨大的成功.然而,在现实生活中许多任务需要在连续动作空间进行行动规划.由于连续行动空间涉及的行动集过大,蒙特卡罗树搜索很难在有限的时间内从中筛选出最佳的行动.作为蒙特卡罗树搜索的一个变种,KR-UCT(Kernel Regression UCT)算法通过核函数泛化局部信息的方式提高了蒙特卡罗树搜索在低维连续动作空间的模拟效率.但是在与环境交互的过程中,为了找出最佳的行动,KR-UCT在每一步都需要从头进行大量的模拟,这使得KR-UCT算法仅局限于低维连续行动空间,而在高维连续行动空间难以在有限的时间内从行动空间筛选出最佳的行动.在与环境交互的过程中,智能体可以获得环境反馈回来的信息,因此,为了提高KR-UCT算法在高维行动空间的性能,可以使用这些反馈信息剪枝树搜索过程来加快KR-UCT算法在高维连续行动空间的模拟效率.基于此,文中提出了一种基于策略-价值网络的蒙特卡罗树搜索方法(KR-UCT with Policy-Value Network,KRPV).该方法使用策略-价值网络保存智能体与环境之间的交互信息,随后策略网络利用这些信息帮助KR-UCT算法剪枝KR-UCT搜索树的宽度;而价值网络则通过泛化不同状态之间的价值信息对蒙特卡罗树搜索在深度上进行剪枝,从而提高了KR-UCT算法的模拟效率,进而提高了算法在高维连续行动任务中的性能.在OpenAI gym中的4个连续控制任务上对KRPV进行了评估.实验结果表明,该方法在4个连续控制任务上均优于KR-UCT,特别是在6维的HalfCheetah-v2任务中,使用KRPV算法所获得的奖励是KR-UCT的6倍.

著录项

来源
《计算机科学》|2021年第10期|30-36|共7页
作者
刘天星; 李伟; 许铮; 张立华; 戚骁亚; 甘中学;
展开▼
作者单位

复旦大学智能机器人研究院上海200433;

季华实验室广东佛山 528000;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
蒙特卡罗树搜索; 高维连续行动空间; 深度神经网络; 强化学习; 核回归UCT;
入库时间 2022-08-20 08:47:21

相似文献

中文文献
外文文献
专利

1. 面向不平衡数据集分类的离散高维空间距离采样和极端随机树算法 [J] . 袁帅 ,余伟 ,余放 . 计算机应用与软件 . 2020,第007期
2. 高维数值积分的蒙特卡罗方法 [J] . 郑华盛 ,胡结梅 ,李曦 . 南昌航空大学学报（自然科学版） . 2009,第002期
3. 双人博弈问题中的蒙特卡洛树搜索算法的改进 [J] . 季辉 ,丁泽军 . 计算机科学 . 2018,第001期
4. 蒙特卡罗均匀化与多群蒙特卡罗输运研究 [J] . 张鹏 ,王侃 ,李满仓 . 核动力工程 . 2012,第4期
5. 蒙特卡罗方法与拟蒙特卡罗方法的历史、现状及展望 [J] . 朱辉 ,刘义保 ,游运 . 东华理工大学学报（自然科学版） . 2010,第004期
6. 基于蒙特卡罗模拟的高维欧式期权定价 [C] . 胡煜寒 ,颜涵 ,冯卫兵 . International Conference on Engineering and Business Management2010(EBM2010)(2010年工程和商业管理国际会议) . 2010
7. 双人博弈问题中的蒙特卡洛树搜索算法的改进 [A] . 季辉 . 2017

面向高维连续行动空间的蒙特卡罗树搜索算法

摘要

著录项

相似文献

相关主题

期刊订阅