Táto práca sa zaoberá algoritmom the Upper confidence Tree, v skratke UCT, ktorý patrído velkej rodiny the Monte Carlo Tree Search algoritmov. Zamerali sme sa na zero-sum hrypre dvoch hrácov. Pozorovali sme vlastnosti UCT, aby sme zistili, preco konverguje tak rýchloa kedy UCT nekonverguje k Nashovmu equilibriu. Empiricky sme analyzovali konvergenciuUCT v jednoduchých maticových hráca v sekvencných hrách so simultánnymi tahmi rôznejkomplexnosti. Použili sme náhodne generované hry na hladanie problémov konvergencieUCT. Priamo sme porovnali dve modifikácie, menovite Sliding Window a nedeterministickúmodifikáciu. Obidve majú svoje plusy a mínusy. Navrhli sme zlepšenie nedeterministickejmodifikácie.
展开▼
机译:这项工作涉及的缩写为UCT的Upper confidence Tree算法,该算法属于Monte Carlo Tree Search算法的大家族。我们专注于针对两个玩家的零和游戏。我们观察了UCT的性质,以找出为什么当UCT不收敛到纳什均衡时它收敛这么快的原因。根据经验,我们分析了具有不同复杂度的同时移动的连续游戏中简单矩阵玩家中PROD的收敛性。我们使用随机生成的游戏来解决融合问题。我们直接比较了两个修改,即滑动窗口修改和非确定性修改。两者都有其优点和缺点。我们提出了对不确定性修改的改进。
展开▼