首页> 外文OA文献 >Reinforcement learning produces dominant strategies for the Iterated Prisoner's Dilemma
【2h】

Reinforcement learning produces dominant strategies for the Iterated Prisoner's Dilemma

机译:强化学习为迭代囚徒困境产生了主导策略

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We present tournament results and several powerful strategies for the Iterated Prisoner'sudDilemma created using reinforcement learning techniques (evolutionary and particle swarmudalgorithms). These strategies are trained to perform well against a corpus of over 170 distinctudopponents, including many well-known and classic strategies. All the trained strategiesudwin standard tournaments against the total collection of other opponents. The trained strategiesudand one particular human made designed strategy are the top performers in noisy tournamentsudalso.
机译:我们介绍了使用强化学习技术(进化和粒子群 udalgorithms)创建的迭代囚犯 udDilemma的比赛结果和几种有效的策略。这些策略经过训练可以在超过170种不同的 udoppentents的语料库中表现良好,包括许多众所周知的经典策略。所有训练有素的策略 udwin标准比赛都与其他对手的总人数相反。受过训练的策略 udd和一种特殊的人为设计策略是在嘈杂的比赛中表现最好的 udalso。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号