首页> 中国专利> 一种基于多重目标神经网络的强化学习值函数更新方法

一种基于多重目标神经网络的强化学习值函数更新方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提出一种基于多重目标神经网络的强化学习值函数更新方法，包括步骤：(1)构建并初始化强化学习智能体，其主要包括1个在线神经网络和K个目标神经网络；(2)智能体与环境进行交互；(3)每隔一定训练次数，将在线神经网络的参数按照编号顺序复制到相应的目标神经网络；(4)将多重目标神经网络输出中小于阈值的值函数进行平均，得到新的值函数估计更新目标；(5)利用基于多重目标网络的更新目标来更新在线神经网络参数；(6)判断是否达到预定的训练总次数，是则退出训练，否则继续训练。上述基于多重目标神经网络的强化学习值函数更新方法，能够有效去除值函数估计过程中的过估计误差，从而得到具有更好表现的策略。

著录项

公开/公告号CN111832723A

专利类型发明专利
公开/公告日2020-10-27

原文格式PDF
申请/专利权人四川大学;
展开▼

申请/专利号CN202010628201.1
发明设计人李辉;吴昊霖;王壮;
展开▼

申请日2020-07-02
分类号G06N3/08(20060101);
代理机构
代理人
地址 610065 四川省成都市一环路南一段24号
入库时间 2023-06-19 08:41:05

法律信息

法律状态公告日

法律状态信息

法律状态
2022-12-30

发明专利申请公布后的视为撤回 IPC(主分类):G06N 3/08 专利申请号:2020106282011 申请公布日:20201027

发明专利申请公布后的视为撤回

相似文献

专利
中文文献
外文文献

1. 一种基于多重目标神经网络的强化学习值函数更新方法 [P] . 中国专利： CN111832723A . 2020-10-27
2. 共享循环神经网络的高效值函数迭代强化学习方法 [P] . 中国专利： CN111582441A . 2020-08-25
3. AP AP APPARATUS CLUSTERING METHOD USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING AND COOPERATIVE COMMUNICATIN APPARATUS USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING [P] . 韩国专利： KR101877243B1 . 2018-07-11

机译： AP基于神经网络的基于强化学习的聚类方法和基于神经网络的协作通信基于强化学习的聚类方法
4. VALUE FUNCTION REPRESENTATION METHOD OF REINFORCEMENT LEARNING AND APPARATUS USING THIS [P] . 美国专利： US2009234783A1 . 2009-09-17

机译：基于此的强化学习与装置的价值函数表示方法
5. Realtime Accelerator Controlling System using Artificial Neural Network Simulator and Reinforcement Learning Controller [P] . 韩国专利： KR20200094577A . 2020-08-07

机译：基于人工神经网络模拟器和强化学习控制器的实时加速器控制系统