首页> 中国专利> 基于适合度轨迹的神经网络强化学习方法及系统

基于适合度轨迹的神经网络强化学习方法及系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于适合度轨迹的神经网络强化学习方法及系统。该神经网络强化学习方法包括：初始化神经网络权值，强化学习参数及适合度轨迹；获取当前环境状态和立即回报值；计算强化学习的Q值函数；获取适合度轨迹和更新神经网络权值；检测新的环境状态和立即回报值；新的环境状态和立即回报值满足结束条件，强化学习结束，不满足结束条件，返回重新检测获取当前环境状态和立即回报值。其优点在于：解决了强化学习面对连续状态空间的函数逼近问题，同时引进的适合度轨迹，对经历过的状态动作正确的访问路径的有效保存，提高神经网络的泛化性能，最后加快算法的收敛速度。

著录项

公开/公告号CN109583582A

专利类型发明专利
公开/公告日2019-04-05

原文格式PDF
申请/专利权人中国石油化工股份有限公司;中国石油化工股份有限公司石油物探技术研究院;
展开▼

申请/专利号CN201710899730.3
发明设计人王婷婷;
展开▼

申请日2017-09-28
分类号
代理机构北京思创毕升专利事务所;
代理人孙向民
地址 100728 北京市朝阳区朝阳门北大街22号
入库时间 2024-02-19 09:22:25

法律信息

法律状态公告日

法律状态信息

法律状态
2019-04-30

实质审查的生效 IPC(主分类):G06N3/08 申请日:20170928

实质审查的生效
2019-04-05

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于适合度轨迹的神经网络强化学习方法及系统 [P] . 中国专利： CN109583582A . 2019-04-05
2. 一种基于深度强化学习与神经网络的轨迹预测模型方法、系统及装置 [P] . 中国专利： CN113298324A . 2021-08-24
3. AP AP APPARATUS CLUSTERING METHOD USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING AND COOPERATIVE COMMUNICATIN APPARATUS USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING [P] . 韩国专利： KR101877243B1 . 2018-07-11

机译： AP基于神经网络的基于强化学习的聚类方法和基于神经网络的协作通信基于强化学习的聚类方法
4. Neural Networks ENTROPY-BASED NEURAL NETWORKS PARTIAL LEARNING METHOD AND SYSTEM [P] . 韩国专利： KR102120443B1 . 2020-06-08

机译：神经网络的基于熵的神经网络局部学习方法和系统
5. Neural Networks ENTROPY-BASED NEURAL NETWORKS PARTIAL LEARNING METHOD AND SYSTEM [P] . 韩国专利： KR20200038072A . 2020-04-10

机译：神经网络的基于熵的神经网络局部学习方法和系统