基于联合训练的强化学习方法

杨佳明; 姜静

首页> 中文期刊> 《信息技术与信息化》 >基于联合训练的强化学习方法

基于联合训练的强化学习方法

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

很多深度强化学习算法在应用时的数据利用率都很低,这限制了模型的泛化能力与适用性.本文通过实现多个任务间的策略共享来实现对数据学习效率的提升.在联合训练多个任务的过程中,通过蒸馏和迁移学习实现不同任务中策略的传输与筛选,并加以精炼.通过建立一个共享的核心"蒸馏"策略,来捕捉不同任务中产生的共同行为,并针对不同任务设定目标函数对各自策略加以精化后让一个核心智能体进行学习.每个智能体在学习自身任务策略的同时通过约束条件被迫保持接近核心共享策略.

著录项

来源
《信息技术与信息化》 |2021年第3期|126-127|共2页
作者
杨佳明; 姜静;
展开▼
作者单位

沈阳理工大学辽宁沈阳 110159;

沈阳理工大学辽宁沈阳 110159;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
强化学习; 多任务学习; 策略共享;

相似文献

中文文献
外文文献
专利

1. 强化学习法的学习方法指导——基于行为主义学习理论的学习方法指导 [J] . 陈伟 ,王涛 ,谢铁丽 . 新课程研究(上旬) . 2011,第006期
2. 基于相对熵的元逆强化学习方法 [J] . 吴少波 ,傅启明 ,陈建平 . 计算机科学 . 2021,第009期
3. 基于元深度强化学习方法的智能博弈决策模型研究 [J] . 徐志雄 ,曹雷 ,陈希亮 . 军事运筹与系统工程 . 2021,第003期
4. 基于自回归预测模型的深度注意力强化学习方法 [J] . 梁星星 ,冯旸赫 ,黄金才 . 软件学报 . 2020,第004期
5. 基于改进深度强化学习方法的单交叉口信号控制 [J] . 刘志 ,曹诗鹏 ,沈阳 . 计算机科学 . 2020,第012期
6. 基于强化学习方法的ATM拥塞控制器的设计 [C] . 李鑫 ,井元伟 . 2007中国控制与决策学术年会 . 2007
7. 基于深度强化学习方法的拥塞控制研究 [A] . 何佳晋 . 2021

基于联合训练的强化学习方法

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅