贝叶斯学习与强化学习结合技术的研究

陈飞; 王本年; 高阳; 陈兆乾; 陈世福

首页> 中文期刊> 《计算机科学》 >贝叶斯学习与强化学习结合技术的研究

贝叶斯学习与强化学习结合技术的研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡.贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段.因此,把强化学习和贝叶斯学习相结合,使Agent可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作.本文分别介绍了单Agent贝叶斯强化学习方法和多Agent贝叶斯强化学习方法:单Agent贝叶斯强化学习包括贝叶斯Q学习、贝叶斯模型学习以及贝叶斯动态规划等;多Agent贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等.最后,提出了贝叶斯在强化学习中进一步需要解决的问题.

著录项

来源
《计算机科学》 |2006年第2期|173-177|共5页
作者
陈飞; 王本年; 高阳; 陈兆乾; 陈世福;
展开▼
作者单位

南京大学计算机软件新技术国家重点实验室;

南京;

210093;

南京大学计算机软件新技术国家重点实验室;

南京;

210093;

南京大学计算机软件新技术国家重点实验室;

南京;

210093;

南京大学计算机软件新技术国家重点实验室;

南京;

210093;

南京大学计算机软件新技术国家重点实验室;

南京;

210093;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
贝叶斯学习; 强化学习; 单Agent; 多Agent;

相似文献

中文文献
外文文献
专利

1. 单agent强化学习与多agent强化学习比较研究 [J] . 吴元斌 . 电脑与信息技术 . 2009,第001期
2. 静力触探识别场地土层分布的贝叶斯学习方法研究 [J] . 胡越 ,王宇 . 工程地质学报 . 2020,第005期
3. 改进的不平衡贝叶斯学习分类模型研究 [J] . 韩忠明 ,刘聃 ,段大高 . 计算机应用研究 . 2020,第012期
4. 基于反贝叶斯学习的WD MS光谱自动识别研究 [J] . 姜斌 ,赵梓良 ,黄灏 . 光谱学与光谱分析 . 2019,第006期
5. 基于变分贝叶斯学习的光伏功率波动特性研究 [J] . 李芬 ,李春阳 ,闫全全 . 电力自动化设备 . 2017,第008期
6. 基于纳米磁珠-LAMP结合技术检测齿兰环斑病毒的初步研究 [C] . Chen Dinghu ,陈定虎 ,Xiong Renguang . 第三届全国检验检测检疫学术报告会 . 2015
7. 面向长距离引水工程全生命周期信息管理的GIS与BIM结合技术研究与应用 [A] . 邱世超 . 2015

贝叶斯学习与强化学习结合技术的研究

摘要

著录项

相似文献

相关主题

期刊订阅