首页> 中国专利> 一种用于大菠萝扑克二三轮摆法的深度增强学习方法

一种用于大菠萝扑克二三轮摆法的深度增强学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种用于大菠萝扑克二三轮摆法的深度增强学习方法，该方法无需专家数据，结合神经网络和蒙特卡洛树搜索算法，让智能体在自我博弈中学习决策规则、不断提升收益。本方法以二三轮牌面为根节点，在给定迭代次数内，根据先验概率和平均收益选取叶节点，如果该节点未被扩展，将牌面信息编码输入神经网络得到先验概率和估值并扩展节点，用所选叶节点估值更新所有父节点的收益。迭代结束后对根节点所有摆法的采样次数进行归一化，选取概率最大摆法进入下一轮决策。所有决策完成后收集训练数据更新网络参数。本方法在进行大量自博弈学习后大比分战胜未学习网络，为研究非完备信息博弈提供一种通用可行的方法。

著录项

公开/公告号CN109871943A

专利类型发明专利
公开/公告日2019-06-11

原文格式PDF
申请/专利权人华南理工大学;
展开▼

申请/专利号CN201910124932.X
发明设计人袁文广;韦佳;张加佳;
展开▼

申请日2019-02-20
分类号G06N3/04(20060101);G06N5/00(20060101);
代理机构44245 广州市华学知识产权代理有限公司;
代理人李斌
地址 510640 广东省广州市天河区五山路381号
入库时间 2024-02-19 10:24:21

法律信息

法律状态公告日

法律状态信息

法律状态
2019-07-05

实质审查的生效 IPC(主分类):G06N3/04 申请日:20190220

实质审查的生效
2019-06-11

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种用于大菠萝扑克二三轮摆法的深度增强学习方法 [P] . 中国专利： CN109871943A . 2019-06-11
2. 一种用于股票指数预测的数据增强深度学习方法 [P] . 中国专利： CN113256425A . 2021-08-13
3. A two component system, the methods of curing of a composition termoendurecu00ecvel, preparing a foamed reinforcing structure, reinforcing a substrate which has a superfu00eccie,And the strengthening of a piece of structure that has a cavity, the adhesive reinforcement structure, foam for reinforcing the structure, and.The component useful in the curing of a second component comprising epoxy resin [P] . BR0114496A . 2003-12-30

机译：一种两组分体系，一种是固化组合物白屈烯醛的方法，一种是制备泡沫增强结构，一种是增强表面的基体，另一种是增强具有空腔的结构，即粘合剂增强结构，用于增强结构的泡沫，以及用于固化包含环氧树脂的第二组分的组分
4. A process for preparing precipitated silica, a zinc-containing precipitated silica and a use thereof for reinforcing an elastomer (NOVEL METHOD FOR PREPARING PRECIPITATED SILICA, NOVEL ZINC-CONTAINING PRECIPITATED SILICAS, AND USE THEREOF FOR REINFORCING ELASTOMERS) [P] . 韩国专利： KR970703279A . 1997-07-03

机译：一种制备沉淀二氧化硅的方法，一种含锌的沉淀二氧化硅及其用于增强弹性体的用途（制备沉淀二氧化硅的新方法，含有锌的沉淀二氧化硅的新方法及其用于增强弹性体的用途）
5. A learning method and learning apparatus for updating an object detector based on deep learning of an autonomous vehicle to be adapted to the driving environment, and an update method and update apparatus using the same [P] . KR20220003651A . 2022-01-10

机译：一种基于自主车辆的深度学习更新对象检测器的学习方法和学习设备，适用于驱动环境，以及使用相同的更新方法和更新设备