基于虚拟遗憾最小化算法的德州扑克机器博弈研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

德州扑克是风靡全球的扑克游戏，是非完备信息机器博弈的典型代表。游戏中的随机发牌导致了信息的不确定性，博弈者无法得到对手的手牌信息致使信息具有不完备性，四轮的押注决策使游戏具有重复性等。德州扑克的非确定性非完备性等特点决定了其博弈树具有指数级的游戏状态，如简单的两人限注德州扑克玩法，游戏的整个博弈树包括3.19×1017个游戏状态。对于德州扑克这类博弈状态呈指数级增长的游戏，虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)是目前最先进的能够生成高效策略的技术之一。CFR算法通过多次迭代计算博弈树中每个信息集的动作遗憾值和平均策略值，预测下一时刻的决策动作，使其是当前最小遗憾动作。如何存储大量迭代计算产生的遗憾值、平均策略值和计算效率是CFR算法面临的两大挑战。本课题针对以上问题展开研究，对CFR算法进行了改进，实现了具有较高智能水平的德州扑克机器博弈系统。
　　本课题实现的德州扑克智能体使用基于9-Bucketing策略的底牌抽取技术对德州扑克游戏进行抽象，降低了德州扑克状态空间复杂度。基于蒙特卡罗CFR算法的抽样思想和Pure CFR算法的整数运算思想，本课题提出了两种改进的CFR算法，根据离线训练和在线博弈时处理对手策略的不同方式，课题将改进的算法称为离线学习对手策略的CFR算法和在线自适应对手策略的CFR算法。这两种改进算法与原始的CFR算法相比，提高了计算效率和博弈的胜率，降低了存储要求。本课题根据改进的CFR算法产生的最优化策略选取未来的决策行为时，结合使用欺诈策略，避免了被对手建模。2014年，本课题使用CFR算法实现的3-Kuhn扑克机器博弈智能体在国际人工智能协会(AAAI)举办的世界年度计算机扑克机器博弈大赛(ACPC)的3-Kuhn扑克项目中获得了铜奖，随后根据本课题改进的两种CFR算法实现的德州扑克机器博弈智能体在与往年ACPC大赛决赛阶段的部分参赛智能体的机器博弈对比实验中也取得了胜利。
　　在日常生活中，经常需要在信息不完善或不确定的情况下做决策，这和德州扑克等非完备信息机器博弈游戏的决策过程相似。CFR算法从使遗憾最小化的角度调整策略，这可以用来解决很多现实问题，比如拍卖场上与谈判桌上的最优策略、股票博弈系统等等。

著录项

作者
滕雯娟;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名王轩;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类智能机器人;
关键词
扑克游戏; 机器博弈智能体; 虚拟遗憾最小化算法; 离线学习; 在线自适应; 对手策略;

相似文献

中文文献
外文文献
专利

1. 基于遗憾最小化算法的谣言抑制与演化博弈模型 [J] . 臧正功 ,丁箐 . 信息技术与网络安全 . 2020,第007期
2. 基于遗憾最小化算法的谣言抑制与演化博弈模型 [J] . 臧正功 ,丁箐 . 微型机与应用 . 2020,第007期
3. 基于知识库的象棋机器博弈搜索算法研究 [J] . 郭晓霞1 ,韩燮1 ,赵融1 . 中国科技论文 . 2018,第020期
4. 基于知识库的象棋机器博弈搜索算法研究 [J] . 郭晓霞 ,韩燮 ,赵融 . 中国科技论文 . 2018,第020期
5. 基于虚拟斥力的多机器人遥操作算法的研究 [J] . 闫继宏 ,边信黔 . 哈尔滨商业大学学报（自然科学版） . 2008,第004期
6. 多人扩展式博弈问题中的虚拟遗憾最小化算法研究 [C] . Zhang Jiajia ,张加佳 ,Liu Hong . 第十二届中国智能机器人大会 . -1
7. 基于虚拟遗憾最小化算法的非完备信息机器博弈研究 [A] . 代佳宁 . 2016

基于虚拟遗憾最小化算法的德州扑克机器博弈研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅