首页> 中国专利> 一种基于值函数的参数化深度强化学习算法

一种基于值函数的参数化深度强化学习算法

页面导航

摘要
著录项
相似文献

摘要

本发明属于深度强化学习技术领域，具体为一种基于值函数的参数化深度强化学习算法。本发明是将强化学习中的状态动作值函数(Q值)分解为状态值函数(V值)和优势函数(A值)之和，V值用于估计各离散动作下的期望累计奖励，A值用于估计各连续动作带来的累计奖励偏差；通过构建单个神经网络，同时输出最优离散动作和连续动作选择。本发明算法同时解决了Q值过估计问题，在动作决策时离散动作V值仅取决于其对应的连续动作，在神经网络训练过程中连续动作更新仅与其对应的离散动作有关。仿真实验结果表明，相比于其余参数化强化学习算法，本发明具有更快的收敛速度和更好的收敛效果。

著录项

公开/公告号CN113569466A

专利类型发明专利
公开/公告日2021-10-29

原文格式PDF
申请/专利权人广东利通科技投资有限公司;复旦大学;
展开▼

申请/专利号CN202110772706.X
发明设计人徐跃东;游新宇;戴连贵;邢万勇;
展开▼

申请日2021-07-08
分类号G06F30/27(20200101);G06N3/04(20060101);G06N3/08(20060101);G06F111/08(20200101);
代理机构31200 上海正旦专利代理有限公司;
代理人陆飞;陆尤
地址 510663 广东省广州市黄埔区科学城科汇三街5号601房
入库时间 2023-06-19 13:02:24

相似文献

专利
中文文献
外文文献

1. 一种基于值函数的参数化深度强化学习算法 [P] . 中国专利： CN113569466A . 2021-10-29
2. 一种基于新阈值函数小波变换的心电信号去噪算法 [P] . 中国专利： CN111616697A . 2020-09-04
3. System for the energy saving pre-cooling/heating training of an air conditioner using deep reinforcement learning algorithm based on the user location living climate condition and method thereof [P] . 韩国专利： KR102131414B1 . 2020-07-08

机译：基于用户所在地生活气候条件的深度强化学习算法的空调节能预冷/热训系统及方法
4. DEEP REINFORCEMENT LEARNING-BASED ADAPTIVE GAME ALGORITHM [P] . 世界知识产权组织专利： WO2020024097A1 . 2020-02-06

机译：基于深度强化学习的自适应游戏算法
5. Method and apparatus for using a parameterized cell based circular sorting algorithm [P] . US11069097B1 . 2021-07-20

机译：用于使用基于参数化小区的循环排序算法的方法和装置