首页> 中国专利> 一种离线强化学习网络训练方法、装置、系统及存储介质

一种离线强化学习网络训练方法、装置、系统及存储介质

摘要

本发明涉及一种离线强化学习网络训练方法、装置、系统及存储介质。方法包括:根据样本数据和当前的动作网络,对动作网络的奖励网络和风险网络的网络参数进行更新;获取样本数据的分布与动作网络的分布的分布相似度;基于奖励网络、风险网络和分布相似度,对动作网络进行更新。本发明实施例根据样本数据和动作网络对相应的奖励网络和风险网络进行更新,使得奖励网络和风险网络适应动作网络,并获取样本数据的分布和动作网络的输出结果的分布的分布相似度,基于奖励网络和风险网络对于动作网络的评价,和样本数据和动作网络的分布相似度,完成对于动作网络的更新,并循环上述步骤预设次数后完成对动作网络的优化。

著录项

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号