首页> 中国专利> 一种基于最大置信度上界的交替深度Q网络方法

一种基于最大置信度上界的交替深度Q网络方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于最大置信度上界的交替深度Q网络方法，包括：初始化多个各自独立的深度Q网络，公共历史经验回放池，网络选择次数；初始化环境状态；根据Q‑UCB策略选择Q网络；选择并执行动作，获得新环境状态和奖励；将信息存储进公共历史经验回放池中；更新网络选择次数；从公共历史经验回放池中独立随机采样更新深度Q网络；重复步骤直到网络收敛。本发明基于神经网络自身初始化的探索性能结合最大置信度上界策略进行交替探索，使用多个Q网络进行协作决策，提升了探索效率，解决了强化学习任务中样本效率与算法效率低下的问题，提升了Q网络的性能。

著录项

公开/公告号CN113627589A

专利类型发明专利
公开/公告日2021-11-09

原文格式PDF
申请/专利权人南京航空航天大学;
展开▼

申请/专利号CN202110858279.7
发明设计人谭晓阳;吴卿源;
展开▼

申请日2021-07-28
分类号G06N3/04(20060101);G06N3/08(20060101);G06N20/00(20190101);
代理机构32204 南京苏高专利商标事务所(普通合伙);
代理人向文
地址 210016 江苏省南京市秦淮区御道街29号
入库时间 2023-06-19 13:12:12

相似文献

专利
中文文献
外文文献

1. 一种基于最大置信度上界的交替深度Q网络方法 [P] . 中国专利： CN113627589A . 2021-11-09
2. 基于深度学习的特征和最大置信路径的图像分类方法 [P] . 中国专利： CN104992191A . 2015-10-21
3. Method and apparatus for controlling time of flight confidence map based depth noise and depth coverage range [P] . 美国专利： US10571571B2 . 2020-02-25

机译：基于深度噪声和深度覆盖范围的控制飞行时间置信度图的方法和装置
4. METHOD AND APPARATUS FOR CONTROLLING TIME OF FLIGHT CONFIDENCE MAP BASED DEPTH NOISE AND DEPTH COVERAGE RANGE [P] . 美国专利： US2012123718A1 . 2012-05-17

机译：基于深度噪声和深度覆盖范围的飞行置信度图时间控制方法和装置
5. deep neural network multiple patch combination METHOD FOR RECOGNIZING FACE USING MULTIPLE PATCH COMBINATION BASED ON DEEP NEURAL NETWORK WITH FAULT TOLERANCE AND FLUCTUATION ROBUSTNESS IN EXTREME SITUATION [P] . 韩国专利： KR20200095356A . 2020-08-10

机译：深度情形下基于深度神经网络的具有容错和波动稳健性的深度神经网络多补丁组合识别面部的方法