首页> 中国专利> 一种强化学习训练方法及基于强化学习的决策方法

一种强化学习训练方法及基于强化学习的决策方法

摘要

本发明提供一种强化学习训练方法及基于强化学习的决策方法,其中,强化学习模型训练方法,包括如下步骤:获取多组历史状态数据;将每一组历史状态数据输入至强化学习模型,得到初步决策数据;将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型,得到状态变化量以及奖励值,所述状态量变化值为当前状态数据与下一状态数据的差值;根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。通过实施本发明,能够增加强化学习模型训练样本量,提高强化学习效果,提高动态决策规划结果的准确性。

著录项

  • 公开/公告号CN112580801B

    专利类型发明专利

  • 公开/公告日2021-10-15

    原文格式PDF

  • 申请/专利权人 广州优策科技有限公司;

    申请/专利号CN202011451511.7

  • 发明设计人 刘震;王闯;周兴;李华;

    申请日2020-12-09

  • 分类号G06N3/08(20060101);G06N3/04(20060101);

  • 代理机构11250 北京三聚阳光知识产权代理有限公司;

  • 代理人李红团

  • 地址 511457 广东省广州市南沙区南沙街进港大道8号1107房

  • 入库时间 2022-08-23 12:36:47

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号