首页> 中国专利> 资源受限条件下提高强化学习探索效率的方法

资源受限条件下提高强化学习探索效率的方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种资源受限条件下提高强化学习探索效率的方法，包括：步骤1，智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境；步骤2，接受环境返回执行所述智能体动作后的新状态和相应的外在奖励；步骤3，通过资源感知方式计算智能体用于探索环境的内在奖励；步骤4，按以下总体奖励计算公式计算所述智能体的总体奖励；步骤5，根据得出的智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新；步骤6，判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化，若否，则回到步骤1重复进行处理，若是，则结束本轮环境探索。该方法能在资源受限条件下，提升智能体应用的主流强化学习方法的探索效率。

著录项

公开/公告号CN114492845A

专利类型发明专利
公开/公告日2022-05-13

原文格式PDF
申请/专利权人中国科学技术大学;
展开▼

申请/专利号CN202210336685.1
发明设计人王杰;王治海;潘涛星;周祺;李厚强;
展开▼

申请日2022-04-01
分类号G06N20/00;
代理机构
代理人
地址 230026 安徽省合肥市包河区金寨路96号
入库时间 2023-06-19 15:18:12

法律信息

法律状态公告日

法律状态信息

法律状态
2022-05-31

实质审查的生效 IPC(主分类):G06N20/00 专利申请号:2022103366851 申请日:20220401

实质审查的生效

相似文献

专利
中文文献
外文文献

1. 资源受限条件下的无人机在线并行异常检测方法及系统 [P] . 中国专利： CN114398944A . 2022-04-26
2. 一种基于资源受限条件下的停机位分配多目标优化方法 [P] . 中国专利： CN113570247A . 2021-10-29
3. 経路探索装置、経路探索方法、及び経路探索プログラム [P] . 日本专利： JP2019035661A . 2019-03-07

机译：路线搜索装置，路线搜索方法和路线搜索程序
4. 経路探索装置、経路探索方法及びコンピュータプログラム [P] . 日本专利： JP2019045296A . 2019-03-22

机译：路线搜索装置，路线搜索方法和计算机程序
5. 一种网络资源的分配方法及设备 [P] . 世界知识产权组织专利： WO2020/143164A1 . 2020.07.16