首页> 中国专利> 一种强化学习训练方法及基于强化学习的决策方法

一种强化学习训练方法及基于强化学习的决策方法

页面导航

摘要
著录项
相似文献

摘要

本发明提供一种强化学习训练方法及基于强化学习的决策方法，其中，强化学习模型训练方法，包括如下步骤：获取多组历史状态数据；将每一组历史状态数据输入至强化学习模型，得到初步决策数据；将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，所述状态量变化值为当前状态数据与下一状态数据的差值；根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。通过实施本发明，能够增加强化学习模型训练样本量，提高强化学习效果，提高动态决策规划结果的准确性。

著录项

公开/公告号CN112580801B

专利类型发明专利
公开/公告日2021-10-15

原文格式PDF
申请/专利权人广州优策科技有限公司;
展开▼

申请/专利号CN202011451511.7
发明设计人刘震;王闯;周兴;李华;
展开▼

申请日2020-12-09
分类号G06N3/08(20060101);G06N3/04(20060101);
代理机构11250 北京三聚阳光知识产权代理有限公司;
代理人李红团
地址 511457 广东省广州市南沙区南沙街进港大道8号1107房
入库时间 2022-08-23 12:36:47

相似文献

专利
中文文献
外文文献

1. 一种强化学习训练方法及基于强化学习的决策方法 [P] . 中国专利： CN112580801B . 2021.10.15
2. 一种基于端到端的深度强化学习换道决策方法和装置 [P] . 中国专利： CN113928321A . 2022-01-14
3. AP AP APPARATUS CLUSTERING METHOD USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING AND COOPERATIVE COMMUNICATIN APPARATUS USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING [P] . 韩国专利： KR101877243B1 . 2018-07-11

机译： AP基于神经网络的基于强化学习的聚类方法和基于神经网络的协作通信基于强化学习的聚类方法
4. Method and Apparatus for Relation Extraction based on Reinforcement Learning using Sequential Information in a Paragraph [P] . 韩国专利： KR20200114919A . 2020-10-07

机译：基于段落中基于顺序信息的强化学习的关系提取方法和装置
5. DYNAMIC, AUTOMATED FULFILLMENT OF COMPUTER-BASED RESOURCE REQUEST PROVISIONING USING DEEP REINFORCEMENT LEARNING [P] . 美国专利： US2020034701A1 . 2020-01-30

机译：基于深层强化学习的基于计算机的资源需求动态，自动实现