首页> 中国专利> 一种基于最大置信度上界的交替深度Q网络方法

一种基于最大置信度上界的交替深度Q网络方法

摘要

本发明公开了一种基于最大置信度上界的交替深度Q网络方法,包括:初始化多个各自独立的深度Q网络,公共历史经验回放池,网络选择次数;初始化环境状态;根据Q‑UCB策略选择Q网络;选择并执行动作,获得新环境状态和奖励;将信息存储进公共历史经验回放池中;更新网络选择次数;从公共历史经验回放池中独立随机采样更新深度Q网络;重复步骤直到网络收敛。本发明基于神经网络自身初始化的探索性能结合最大置信度上界策略进行交替探索,使用多个Q网络进行协作决策,提升了探索效率,解决了强化学习任务中样本效率与算法效率低下的问题,提升了Q网络的性能。

著录项

  • 公开/公告号CN113627589A

    专利类型发明专利

  • 公开/公告日2021-11-09

    原文格式PDF

  • 申请/专利权人 南京航空航天大学;

    申请/专利号CN202110858279.7

  • 发明设计人 谭晓阳;吴卿源;

    申请日2021-07-28

  • 分类号G06N3/04(20060101);G06N3/08(20060101);G06N20/00(20190101);

  • 代理机构32204 南京苏高专利商标事务所(普通合伙);

  • 代理人向文

  • 地址 210016 江苏省南京市秦淮区御道街29号

  • 入库时间 2023-06-19 13:12:12

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号