首页> 中国专利> 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质

一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质

页面导航

摘要
著录项
相似文献

摘要

本发明提供了一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质，该方法包括：针对二人博弈情况，使用多类别逻辑回归和蓄水池抽样实现了平均策略的生成，使用DQN和环形缓冲记忆实现了最优反应策略的生成；针对多人博弈情况，使用多智能体近端策略优化算法MAPPO实现最优反应策略，同时使用多智能体NFSP调节智能体的训练。本发明的有益效果是：本发明引入了虚拟自我对局的算法框架，将德州扑克策略优化过程分为最优反应策略学习和平均策略学习两个部分，并分别用模仿学习和深度强化学习来实现，设计出了更为通用的多智能体最优策略学习方法。

著录项

公开/公告号CN110404264B

专利类型发明专利
公开/公告日2022.11.01

原文格式PDF
申请/专利权人哈尔滨工业大学（深圳）;
展开▼

申请/专利号CN201910676407.9
发明设计人王轩;漆舒汉;蒋琳;胡书豪;毛建博;廖清;李化乐;张加佳;刘洋;夏文;
展开▼

申请日2019.07.25
分类号A63F13/67(2014.01);G06N20/00(2019.01);
代理机构深圳市添源创鑫知识产权代理有限公司 44855;
代理人覃迎峰
地址 518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
入库时间 2022-11-28 17:54:09

相似文献

专利
中文文献
外文文献

1. 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 [P] . 中国专利： CN110404264A . 2019-11-05
2. 基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置 [P] . 中国专利： CN114048833A . 2022-02-15
3. Computer-readable non-transitory storage medium having stored therein information processing program, information processing system, information processing apparatus, and information processing method for controlling movement of a virtual camera in a game space [P] . 美国专利： US10410418B2 . 2019-09-10

机译：其中存储有用于控制虚拟空间在游戏空间中的移动的信息处理程序，信息处理系统，信息处理装置和信息处理方法的计算机可读非暂时性存储介质。
4. Computer-readable non-transitory storage medium having stored game program, information processing system, information processing apparatus, and information processing method for generating a game image having at least an image of a virtual space and a map image [P] . 美国专利： US11013999B2 . 2021-05-25

机译：具有存储的游戏程序，信息处理系统，信息处理装置和用于生成具有虚拟空间和地图图像的图像的游戏图像的信息处理方法的计算机可读非暂时性存储介质
5. A method for determining motion information for a current block, a method for constructing and updating a list of history-based motion vector predictors, and a non-transitory computer-readable storage medium, and a method and apparatus for encoding/decoding video [P] . 韩国专利： KR20210072098A . 2021-06-16

机译：一种用于确定当前块的运动信息的方法，一种用于构建和更新基于历史的运动矢量预测器的列表的方法，以及用于编码/解码视频的非暂时性计算机可读存储介质的方法和装置