首页> 中国专利> 一种非完备信息下的神经网络与Q学习结合的估值方法

一种非完备信息下的神经网络与Q学习结合的估值方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提供了一种非完备信息下的神经网络与Q学习结合的估值方法，步骤1：将非完备信息转换成部分可观测马尔科夫决策模型；步骤2：通过蒙特卡洛抽样技术把非完备信息博弈转换为完备信息博弈；步骤3：采用基于前 n步的Q学习算法，神经网络与Q学习结合的算法以及基于上限置信区间算法UCT计算Q学习延迟回报的值；步骤4：将前一步骤得到的Q值融合，得到最终结果。本发明提出的技术方案可以应用到多种非完备信息博弈中，比如“斗地主”，德州扑克等，并提高了智能体的博弈水平。本发明与现有的相关研究相比，在精度上有了较大的提升。

著录项

公开/公告号CN107038477A

专利类型发明专利
公开/公告日2017-08-11

原文格式PDF
申请/专利权人哈尔滨工业大学深圳研究生院;
展开▼

申请/专利号CN201710095895.5
发明设计人王轩;蒋琳;张加佳;李昌;代佳宁;王鹏程;林云川;胡开亮;朱航宇;
展开▼

申请日2017-02-22
分类号G06N3/08(20060101);G06N5/04(20060101);
代理机构44248 深圳市科吉华烽知识产权事务所(普通合伙);
代理人张立娟
地址 518000 广东省深圳市南山区西丽镇深圳大学城哈工大校区
入库时间 2023-06-19 02:59:30

法律信息

法律状态公告日

法律状态信息

法律状态
2017-09-05

实质审查的生效 IPC(主分类):G06N3/08 申请日:20170222

实质审查的生效
2017-08-11

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种非完备信息下的神经网络与Q学习结合的估值方法 [P] . 中国专利： CN107038477A . 2017-08-11
2. OFDM系统在非完备信道信息下的子载波带宽、调制方式和功率分配的移动自适应方法 [P] . 中国专利： CN103701747A . 2014-04-02
3. OPTICAL DISK REPRODUCING DEVICE, AND A MIRROR SURFACE DETECTING METHOD OF AN OPTICAL DISK, PARTICULARLY CONCERNED WITH DECIDING WHETHER AN OPTICAL PICKUP IS LOCATED EITHER AN INFORMATION RECORDING AREA OR AN INFORMATION NON-RECORDING AREA WITHIN VERY SHORT TIME [P] . 韩国专利： KR20040087953A . 2004-10-15

机译：光盘复制设备以及一种光盘的镜面检测方法，尤其是在没有很短时间内就找到信息记录区域或信息非记录区域的情况下，尤其考虑到了光学盘的镜面检测方法
4. METHODS AND APPARATUS FOR PRUNING EXPERIENCE MEMORIES FOR DEEP NEURAL NETWORK-BASED Q-LEARNING [P] . 欧洲知识产权局专利： EP3445539A4 . 2020-02-19

机译：基于深度神经网络的Q学习修剪经验存储器的方法和装置
5. Methods and Apparatus for Pruning Experience Memories for Deep Neural Network-Based Q-Learning [P] . 美国专利： US2019061147A1 . 2019-02-28

机译：基于深度神经网络的Q学习修剪经验记忆的方法和设备