首页> 中文学位 >基于人工智能的星际争霸II智能体的研究与设计
【6h】

基于人工智能的星际争霸II智能体的研究与设计

代理获取

目录

声明

第 1 章绪论

1.1研究背景及意义

1.2研究现状

1.3主要研究工作

1.4论文的组织结构

1.5本章小结

第 2 章星际争霸Ⅱ 智能体开发平台及相关算法介绍

2.2 星际争霸Ⅱ 智能体开发平台

2.3 星际争霸智能体算法

2.4 本章小结

第 3 章 星际争霸Ⅱ宏观动作预测算法研究

3.1数据预处理

3.2.1基础特征

3.2.2 统计特征

3.3 输入数据预处理

3.4 LSTM模型结构设计

3.5.1 模型参数分析

3.5.2 LSTM 模型与其他算法对比

3.6 本章小结

第 4 章基于宏观动作预测的深度强化学习算法研究

4.1.1深度强化学习

4.1.2 PPO算法

4.2 深度强化学习智能体的基本架构

4.3 将LSTM模型应用到PPO中

4.4 奖励函数的设置

4.5 实验设置

4.6实验结果与分析

4.6.1 预训练LSTM网络对强化学习的影响

4.6.2 不同奖励值设定下的结果对比

4.6.3 使用课程学习训练智能体

4.7本章小结

第5 章星际争霸Ⅱ 智能体的构建

5.1.1 ProductionManager 完善

5.1.2 CombatCommander 完善

5.2 算法集成到智能体

5.3 StarCraft 2 AI Ladder 测试

5.4 本章小结

总结与展望

致谢

参考文献

附录

攻读硕士学位期间发表的论文

展开▼

摘要

即时战略游戏星际争霸,由于观测空间大,动作空间多,局部观测,长时间决策等特点,已经被证明是一个对人工智能技术具有挑战性的环境。不过,目前最先进的解决方案包含许多手工设计的模块,几乎不能因对手所采取策略不同而做出适当的调整。虽然在SC2LE平台刚发布时就测试过直接使用强化学习构建智能体,但却不能战胜最简单的内置AI,主要原因是直接在庞大的原子动作中学习是困难的,并且对于星际争霸的每一个种族都有自身独特的科技树知识,这就使得强化学习在星际争霸中几乎不起作用。本文提出一种基于回放数据的宏观动作预测的深度强化学习算法的方法,主要工作和研究成果如下:  一、本文使用人族构建智能体WBot。首先使用层次化结构构造智能体,将庞大的原子动作简化成少量的宏观动作,并且给部分兵种微观操作。  二、为了解决学习科技树硬规则的难题,构建游戏回放数据集训练基础模型,通过深度学习从数据集中直接学习星际争霸中的宏观管理决策。采用的方法是从SC2LE平台发布的160多万对局中通过预处理筛选出高质量的对局,使用pysc2解析游戏回放,提取基础特征和统计特征构造特征数据集;然后使用LSTM网络进行训练,确定特征组合、损失函数、网络层数、时间窗等,最终在对抗人族、虫族和神族在宏观动作预测上,分别取得了80.72%、78.25%和79.72%的准确率。  三、使用强化学习算法PPO,通过对比三元组、系统内置得分score、自定义XGBoost三种奖励值的设定,确定最佳奖励值设定方式,进一步训练智能体。最后,将智能体WBot提交到用于星际争霸Ⅱ智能体竞赛平台StarCraftⅡAILadder,测试其效果并得到排名,直到天梯赛第8赛季截止,在45个参赛的智能体中取得了第10名的成绩。  本文首先介绍了星际争霸II智能体的研究意义以及研究现状;然后详细介绍了智能体的基本结构,通过使用层次结构将动作空间从庞大的原子操作中脱离出来;接下来介绍了如何基于SC2LE平台构建游戏特征数据集并通过该数据集构造基础网络来预测人族对抗各种族的宏观动作预测,从而解决强化学习很难学习科技树硬规则的难题;之后使用强化学习算法PPO进一步优化网络,并将算法集成到智能体并将智能体提交到竞赛平台上进行测试;最后,总结了本文的工作及未来的研究展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号