基于人工智能的星际争霸II智能体的研究与设计

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

即时战略游戏星际争霸，由于观测空间大，动作空间多，局部观测，长时间决策等特点，已经被证明是一个对人工智能技术具有挑战性的环境。不过，目前最先进的解决方案包含许多手工设计的模块，几乎不能因对手所采取策略不同而做出适当的调整。虽然在SC2LE平台刚发布时就测试过直接使用强化学习构建智能体，但却不能战胜最简单的内置AI，主要原因是直接在庞大的原子动作中学习是困难的，并且对于星际争霸的每一个种族都有自身独特的科技树知识，这就使得强化学习在星际争霸中几乎不起作用。本文提出一种基于回放数据的宏观动作预测的深度强化学习算法的方法，主要工作和研究成果如下：　　一、本文使用人族构建智能体WBot。首先使用层次化结构构造智能体，将庞大的原子动作简化成少量的宏观动作，并且给部分兵种微观操作。　　二、为了解决学习科技树硬规则的难题，构建游戏回放数据集训练基础模型，通过深度学习从数据集中直接学习星际争霸中的宏观管理决策。采用的方法是从SC2LE平台发布的160多万对局中通过预处理筛选出高质量的对局，使用pysc2解析游戏回放，提取基础特征和统计特征构造特征数据集；然后使用LSTM网络进行训练，确定特征组合、损失函数、网络层数、时间窗等，最终在对抗人族、虫族和神族在宏观动作预测上，分别取得了80.72%、78.25%和79.72%的准确率。　　三、使用强化学习算法PPO，通过对比三元组、系统内置得分score、自定义XGBoost三种奖励值的设定，确定最佳奖励值设定方式，进一步训练智能体。最后，将智能体WBot提交到用于星际争霸Ⅱ智能体竞赛平台StarCraftⅡAILadder，测试其效果并得到排名，直到天梯赛第8赛季截止，在45个参赛的智能体中取得了第10名的成绩。　　本文首先介绍了星际争霸II智能体的研究意义以及研究现状；然后详细介绍了智能体的基本结构，通过使用层次结构将动作空间从庞大的原子操作中脱离出来；接下来介绍了如何基于SC2LE平台构建游戏特征数据集并通过该数据集构造基础网络来预测人族对抗各种族的宏观动作预测，从而解决强化学习很难学习科技树硬规则的难题；之后使用强化学习算法PPO进一步优化网络，并将算法集成到智能体并将智能体提交到竞赛平台上进行测试；最后，总结了本文的工作及未来的研究展望。

著录项

作者
温叶廷;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科信息与通信工程
授予学位硕士
导师姓名黄海于;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
人工智能,即时战略游戏,深度学习,强化学习;

相似文献

中文文献
外文文献
专利

1. 人工智能与"星际争霸":多智能体博弈研究新进展 [J] . 张宏达 ,李德才 ,何玉庆 . 无人系统技术 . 2019,第001期
2. 人工智能与“星际争霸”:多智能体博弈研究新进展 [J] . 张宏达123 ,李德才12 ,何玉庆12 . 无人系统技术 . 2019,第001期
3. 基于人工智能的智能客服终端的研究与设计 [J] . 林雪峰 ,曹子勇 ,曹家玉 . 电子制作 . 2020,第016期
4. 基于人工智能技术的智能教学系统研究与设计 [J] . 蒋秀莲 . 微型电脑应用 . 2009,第011期
5. 中小学人工智能教学平台研究与设计——以“智慧狗”人工智能教学辅助系统为例 [J] . 马静 ,刘江岳 ,刘奕林 . 中国教育信息化 . 2021,第001期
6. 二层人工智能——基于互逆主义逻辑二层假言推理的人工智能 [C] . 周训伟 ,鲍泓 . 2009国际信息技与应用论坛 . 2009
7. 基于人工智能的星际争霸II智能体研究与实现 [A] . 樊东东 . 2019

基于人工智能的星际争霸II智能体的研究与设计

目录

摘要

著录项

相似文献

相关主题

期刊订阅