首页> 中国专利> 基于深度强化学习中Actor-Critic框架的策略选择方法

基于深度强化学习中Actor-Critic框架的策略选择方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于深度强化学习中Actor‑Critic框架的策略选择方法，该方法通过在Actor中同时保持多个策略，在强化学习训练过程中使用Critic中的动作状态价值函数估计策略的价值期望，根据期望实时地选择或集成其中的优势策略进行输出或更新，其目的在于提升训练速度，并使得在训练中生成有效的局部策略。因此，本发明对于使用Actor‑Critic框架的基于策略梯度的强化学习算法有着提升采样效率，增加参数搜索空间等的技术效果。

著录项

公开/公告号CN111766782B

专利类型发明专利
公开/公告日2021-07-13

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN202010600847.9
发明设计人李红;杨国青;钱广一;吕攀;吴朝晖;
展开▼

申请日2020-06-28
分类号G05B13/04(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构33224 杭州天勤知识产权代理有限公司;
代理人王琛
地址 310013 浙江省杭州市西湖区余杭塘路866号
入库时间 2022-08-23 12:07:01

相似文献

专利
中文文献
外文文献

1. 基于深度强化学习中Actor-Critic框架的策略选择方法 [P] . 中国专利： CN111766782B . 2021.07.13
2. 基于深度强化学习DDPG算法框架的策略协同选择方法 [P] . 中国专利： CN112906885A . 2021-06-04
3. TECHNIQUES TO DETECT PERTURBATION ATTACKS WITH AN ACTOR-CRITIC FRAMEWORK [P] . 美国专利： US2020327238A1 . 2020-10-15

机译：一种基于actor-critic框架的检测摄动攻击的技术
4. TECHNIQUES TO DETECT PERTURBATION ATTACKS WITH AN ACTOR-CRITIC FRAMEWORK [P] . 美国专利： US2019042761A1 . 2019-02-07

机译：一种基于actor-critic框架的检测摄动攻击的技术
5. SPATIAL AND TEMPORAL ATTENTION-BASED DEEP REINFORCEMENT LEARNING OF HIERARCHICAL LANE-CHANGE POLICIES FOR CONTROLLING AN AUTONOMOUS VEHICLE [P] . 美国专利： US2020139973A1 . 2020-05-07

机译：基于时空注意的深度强化学习，用于控制自主车辆的分层车道变化策略