首页> 中国专利> 基于评论家和双经验池的深度确定性策略梯度学习方法

基于评论家和双经验池的深度确定性策略梯度学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提出的用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法及设备，属于人工智能应用技术领域，主要包括：确定所述智能无人系统的智能体的观测空间和动作空间大小，构建行动者actor模块与评论家critic模块；创建所述critic模块中的多个评论家子模块；创建双经验池的环形数组数据结构；进行所述actor模块与critic模块的参数梯度更新与训练过程，在达到了最大的迭代次数或者满足终止条件后训练过程结束。本发明能够提供一种更高稳定性和更高性能的强化学习方法，使得智能体的性能表现得到有效提升。

著录项

公开/公告号CN109934332A

专利类型发明专利
公开/公告日2019-06-25

原文格式PDF
申请/专利权人中国科学院软件研究所;
展开▼

申请/专利号CN201811650467.5
发明设计人王瑞;吴蛟;李瑞英;胡晓惠;
展开▼

申请日2018-12-31
分类号G06N3/04(20060101);G06N3/08(20060101);
代理机构11215 中国和平利用军工技术协会专利中心;
代理人刘光德;彭霜
地址 100190 北京市海淀区中关村南四街4号
入库时间 2024-02-19 11:32:30

法律信息

法律状态公告日

法律状态信息

法律状态
2019-07-19

实质审查的生效 IPC(主分类):G06N3/04 申请日:20181231

实质审查的生效
2019-06-25

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于评论家和双经验池的深度确定性策略梯度学习方法 [P] . 中国专利： CN109934332A . 2019-06-25
2. 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 [P] . 中国专利： CN109523029A . 2019-03-26
3. Insurance review billing statement Learning method and Examination device based on Depth neural network and [P] . 韩国专利： KR20190105211A . 2019-09-16

机译：基于深度神经网络的保险评论开票单学习方法及考试装置
4. - Frequency Based Hybrid Deep-learning Method Apparatus and Computer-readable Medium and Driving Control of Cable Driven Parallel Robot Using Frequency Based Hybrid Deep-learning Method [P] . 韩国专利： KR102106992B1 . 2020-05-06

机译： -基于频率的混合深度学习方法设备和计算机可读介质，以及基于频率的混合深度学习方法的电缆驱动并联机器人的驱动控制
5. - Frequency Based Hybrid Deep-learning Method Apparatus and Computer-readable Medium and Driving Control of Cable Driven Parallel Robot Using Frequency Based Hybrid Deep-learning Method [P] . 韩国专利： KR20200010665A . 2020-01-31

机译： -基于频率的混合深度学习方法设备和计算机可读介质，以及基于频率的混合深度学习方法的电缆驱动并联机器人的驱动控制