首页> 中国专利> 自适应双自驱动深度确定性策略梯度强化学习方法

自适应双自驱动深度确定性策略梯度强化学习方法

页面导航

摘要
著录项
相似文献

摘要

本发明涉及一种用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法，使用多头自驱动架构提高评判家评估性能的同时，提高执行者对环境探索的效率，并且能够一定程度上优化深度确定性策略梯度(DDPG)算法，缓解上述环境复杂性和随机性等不利影响，加速了DDPG算法的收敛，在训练稳定的基础上提高了性能。实验证明，本发明能够在实验数据集(模拟环境)达到训练速度的最快、性能最佳、以及稳定性最好的三个优点，在具体数值上超过了已知解决方案。

著录项

公开/公告号CN109523029B

专利类型发明专利
公开/公告日2020-11-03

原文格式PDF
申请/专利权人清华大学深圳研究生院;
展开▼

申请/专利号CN201811144686.6
发明设计人袁春;郑卓彬;朱新瑞;
展开▼

申请日2018-09-28
分类号G06N20/00(20190101);
代理机构44223 深圳新创友知识产权代理有限公司;
代理人江耀纯
地址 518055 广东省深圳市南山区西丽大学城清华校区
入库时间 2022-08-23 11:20:15

相似文献

专利
中文文献
外文文献

1. 自适应双自驱动深度确定性策略梯度强化学习方法 [P] . 中国专利： CN109523029B . 2020.11.03
2. 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 [P] . 中国专利： CN109523029A . 2019-03-26
3. DISTRIBUTED STRENGTHENING LEARNING METHOD FOR INTEGRATING EXPERIENCE STRENGTHENING TYPE STRENGTHENING LEARNING METHOD AND ENVIRONMENT IDENTIFICATION TYPE STRENGTHENING LEARNING METHOD BY USING MULTI-AGENT MODEL [P] . 日本专利： JP2000020494A . 2000-01-21

机译：综合多经验模型的经验强化型强化学习方法与环境识别型强化学习方法的分布式强化学习方法
4. STATISTICAL ACOUSTIC MODEL ADAPTATION METHOD, ACOUSTIC MODEL LEARNING METHOD SUITABLE FOR STATISTICAL ACOUSTIC MODEL ADAPTATION, STORAGE MEDIUM STORING PARAMETERS FOR BUILDING DEEP NEURAL NETWORK, AND COMPUTER PROGRAM FOR ADAPTING STATISTICAL ACOUSTIC MODEL [P] . 美国专利： US2016260428A1 . 2016-09-08

机译：统计声学模型自适应方法，适用于统计声学模型自适应的声学模型学习方法，用于构建深度神经网络的存储介质存储参数以及用于自适应统计声学模型的计算机程序
5. Identification of rolling areas taking into account uncertainty by a deep learning method [P] . 法国专利： FR3092546A1 . 2020-08-14

机译：通过深度学习方法识别滚动区域并考虑不确定性