首页> 中国专利> 基于并行架构的内在奖励强化学习方法

基于并行架构的内在奖励强化学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于并行架构的内在奖励强化学习方法，包含如下步骤：执行模块与模拟环境交互，获取一整幕经验数据并存入缓存组件；同步学习模块的最近更新的策略；取出定量的经验数据进行评估，获得奖励值；对经验数据的状态价值函数进行估计，获得内部状态价值函数与外部状态价值函数；处理内部状态价值函数与外部状态价值函数，获得总状态价值函数并改写成近似状态价值函数；外部的智能体对预测网络的参数进行优化，并更新策略网络的当前策略，获得新策略；执行模块更新新策略。本发明解决了现有技术中价值函数估计不准、收敛到局部最优策略的缺陷，避免了优化结果出现偏差的问题，具有更高的单位时隙吞吐率、更好的性能和更快的学习速度。

著录项

公开/公告号CN114266360A

专利类型发明专利
公开/公告日2022-04-01

原文格式PDF
申请/专利权人中国人民解放军军事科学院战争研究院;
展开▼

申请/专利号CN202111598134.4
发明设计人杨思明;曹江;高原;郭洋;王平;王景;王晓楠;
展开▼

申请日2021-12-24
分类号G06N20/00(20190101);G06N3/04(20060101);G06N3/08(20060101);
代理机构31467 上海洞见未来专利代理有限公司;
代理人苗绘
地址 100091 北京市海淀区厢红旗东门外甲1号
入库时间 2023-06-19 14:43:46

法律信息

法律状态公告日

法律状态信息

法律状态
2022-04-01

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 基于奖励自适应分配的合作多智能体强化学习方法 [P] . 中国专利： CN113780576A . 2021-12-10
2. 一种基于并行架构的迭代分割核学习方法 [P] . 中国专利： CN109726823A . 2019-05-07
3. 基于区块链架构的仓单质押融资评估方法及装置 [P] . 世界知识产权组织专利： WO2020/143341A1 . 2020.07.16