首页> 中国专利> 一种基于随机微分方程的连续性强化学习系统及方法

一种基于随机微分方程的连续性强化学习系统及方法

页面导航

摘要
著录项
相似文献

摘要

本发明公布了一种基于随机微分方程的连续性强化学习系统及方法，系统包括动作策略生成器APG、环境状态估计器ESE、值估计器VE，记忆存储模块MS和外部环境EE；具体步骤如下：初始化动作策略生成器APG、环境状态估计器ESE和值估计器VE；动作策略生成器APG计算输出动作值增量Δa_k；外部环境EE输出下一步动作值a_k+1、下一步环境状态值s_k+1以及当前步奖励值R_k，并存储至记忆存储模块MS中；环境状态估计器ESE更新环境状态参数集θ_p和预测未来环境状态估计值s′_k；VE优化器更新Q函数网络并预测未来奖励估计值R′_k；APG优化器更新动作值参数集θ_v。本方法基于随机微分方程作为基础模型，能实现动作控制的连续性且能控制训练过程方差，能够通过预测环境的变化来选择动作以实现更好的环境交互。

著录项

公开/公告号CN110502721B

专利类型发明专利
公开/公告日2021-04-06

原文格式PDF
申请/专利权人上海大学;
展开▼

申请/专利号CN201910712857.9
发明设计人贾文川;程丽梅;陈添豪;孙翊;马书根;
展开▼

申请日2019-08-02
分类号G06F17/13(20060101);G06K9/62(20060101);
代理机构11465 北京慕达星云知识产权代理事务所(特殊普通合伙);
代理人曹鹏飞
地址 200444 上海市宝山区上大路99号
入库时间 2022-08-23 11:37:54

相似文献

专利
中文文献
外文文献

1. 一种基于随机微分方程的连续性强化学习系统及方法 [P] . 中国专利： CN110502721B . 2021.04.06
2. 基于随机微分方程的连续性强化学习模型构造系统及方法 [P] . 中国专利： CN111027705A . 2020-04-17
3. A RANDOM BASED BETTING SYSTEM AND A METHOD OF CONDUCTING A RANDOM BASED BETTING SYSTEM [P] . 世界知识产权组织专利： WO2011091469A1 . 2011-08-04

机译：一种基于随机的下注系统和一种基于随机的下注系统的方法
4. Method for detecting at least one object which causes a pressure wave non random persistent.A computerized method to analyze seismic or acoustic signal detected in order to detect at least one object causing a signal non random persistent interest in a band of frequenciesF, detection device for detecting at least one object that causes a seismic or acoustic signal of interest.A computerized system to analyze a signal detected in order to detect at least one object causing a signal of interest.The computer module to analyze a signal detected in order to detect at least one object causing a signal of interest, the device program storage that can be read by the machine.Method for detecting at least one object, which causes a seismic or acoustic signal of interest is an orderly way and computer program [P] . BRPI0814150A2 . 2018-12-26

机译：一种用于检测至少一个引起压力波非随机持续变化的物体的方法。一种计算机分析方法，用于分析检测到的地震或声波信号，以便检测至少一个在频带F中引起信号非随机持续变化的物体。检测至少一个引起感兴趣的地震或声音信号的物体。一种计算机系统，分析检测到的信号，以便检测至少一个引起感兴趣的信号的物体。计算机模块，分析检测到的信号，以便检测至少一个物体引起感兴趣的信号，该设备程序可以被机器读取。检测至少一个物体引起感兴趣的地震或声音的方法是一种有序的方法和计算机程序
5. RANDOM TEXTURE-BASED ANTI-COUNTERFEITING PRODUCT, RANDOM TEXTURE-BASED ANTI-COUNTERFEITING SYSTEM, AND RANDOM TEXTURE-BASED ANTI-COUNTERFEITING METHOD [P] . 世界知识产权组织专利： WO2017148421A1 . 2017-09-08

机译：基于随机纹理的防伪产品，基于随机纹理的防伪系统和基于随机纹理的防伪方法