聚焦对象的Q值学习算法改进研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本论文主要研究聚焦对象的Q值学习算法改进。强化学习是机器学习中一大分支，其中Q值学习算法是一个经典的算法。Q值学习算法缺点之一是无法应用于状态较多的场景。聚焦对象的Q值学习算法是Q值学习算法的一种改进算法，可以应用于特定的状态更多的场景。通过人为分类场景中的对象，分解场景的状态空间，指数级减少了该场景的状态空间的规模，使算法可以在一定时间内训练出结果。本论文将从稳定性、收敛速度等角度研究改进聚焦对象的Q值学习算法。论文主要内容如下：首先将传统的聚焦对象的Q值学习算法与基于模型的学习算法相结合，在原算法的流程中结合了Prioritized Sweeping算法。算法在训练的同时增加了对模型采样学习的步骤。通过实验验证该改进加快收敛速度。第二，尝试改变聚焦对象的Q值学习算法使用的控制策略，通过场景测试不同控制策略对收敛的影响。原算法改进了控制策略，再结合基于模型的学习算法后，减少了原算法的参数数量，内存开销更低，收敛更加稳定。第三，论文尝试从提高计算资源利用的角度改进聚焦对象的Q值学习算法。将传统的结合基于模型学习的算法步骤中，模型学习的部分通过异步方式实现。本论文参考已有的Actor-Critic结构以及分布式优先经验回放技术，设计了一个简单的异步模型学习系统框架。该系统框架应用于传统的结合模型学习的算法，算法可以将模型学习的步骤利用处理器多核使用多进程或多线程等异步方式实现。在相同的训练周期内可以获取更多的环境的模型信息用于模型学习，从而提升训练效率。在只有一个节点进行模型学习的情况下，该系统和传统的Prioritized Sweeping算法流程一样，在多于一个节点进行模型学习的情况下，训练性能有稳定提升，提升效果和应用场景以及节点数量有关。最后，论文中将聚焦对象的Q值学习算法与异步模型学习框架结合，得到最终的改进算法，在不同规模的场景下通过实验测试，收敛速度都比原算法有所提升。

著录项

作者
陈钟汇;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科信息与通信工程
授予学位硕士
导师姓名王桥;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类 I20;
关键词
聚焦对象; 学习算法;

相似文献

中文文献
外文文献
专利

1. 英国高等教育E-learning研究系列之二:"可重复利用学习对象"的研究与应用——介绍一个"可重复利用学习对象"研究中心 [J] . 丁桂芝 ,薛勇 . 计算机教育 . 2005,第012期
2. 在体域网中基于Q值迭代的强化学习动态频谱分配策略研究 [J] . 杨贺淞 . 电子世界 . 2020,第004期
3. 在线学习者有效学习行为的研究与分析——以云南开放大学“中高衔接”项目学习者为研究对象 [J] . 何俊颖 . 云南开放大学学报 . 2021,第002期
4. 在线学习者有效学习行为的研究与分析——以云南开放大学"中高衔接"项目学习者为研究对象 [J] . 何俊颖 . 云南电大学报 . 2021,第002期
5. 70kVp联合深度学习算法改进儿童腹部双低CTA图像质量的研究 [J] . 孙记航 ,刘志敏 ,霍爱华 . 影像诊断与介入放射学 . 2021,第001期
6. 基于随机通达理论的碎片化学习对象和学习环境研究 [C] . 陈俊达 ,方海光 ,高洁 . The 20th Global Chinese Conference on Computer in Education （第20届全球华人计算机教育应用大会）（GCCCE2016） . 2016
7. 聚焦对象的强化学习算法研究 [A] . 顾喆旭 . 2018

聚焦对象的Q值学习算法改进研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅