首页> 中国专利> 一种基于信息瓶颈理论的强化学习对战游戏AI训练方法

一种基于信息瓶颈理论的强化学习对战游戏AI训练方法

页面导航

摘要
著录项
相似文献

摘要

本发明涉及一种基于信息瓶颈理论的强化学习对战游戏AI训练方法，包括以下步骤：1)AI训练模型的初始化；2)通过游戏AI在仿真环境中进行决策交互得到样本训练批数据集；3)根据游戏AI与环境交互得到的样本训练批数据集，采用强化学习算法迭代训练AI训练模型，并分阶段保存AI训练模型的参数；4)将保存的不同阶段AI训练模型的部分参数固定，利用强化学习算法重新训练余下参数进行微调，得到最终不同等级AI的AI训练模型，并由此生成对战游戏AI文件。与现有技术相比，本发明具有采样效率高、训练速度快、测试灵活性高、AI分等级等优点。

著录项

公开/公告号CN112717415B

专利类型发明专利
公开/公告日2022.08.16

原文格式PDF
申请/专利权人上海交通大学;
展开▼

申请/专利号CN202110091260.4
发明设计人张轶飞;程帆;张冬梅;
展开▼

申请日2021.01.22
分类号A63F13/67(2014.01);G06N3/08(2006.01);
代理机构上海科盛知识产权代理有限公司 31225;
代理人杨宏泰
地址 200240 上海市闵行区东川路800号
入库时间 2022-09-26 23:16:11

相似文献

专利
中文文献
外文文献

1. 一种基于信息瓶颈理论的强化学习对战游戏AI训练方法 [P] . 中国专利： CN112717415A . 2021-04-30
2. 一种基于信息瓶颈理论和社区探测的网络信息检索方法 [P] . 中国专利： CN104408096B . 2017-01-25
3. AP AP APPARATUS CLUSTERING METHOD USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING AND COOPERATIVE COMMUNICATIN APPARATUS USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING [P] . 韩国专利： KR101877243B1 . 2018-07-11

机译： AP基于神经网络的基于强化学习的聚类方法和基于神经网络的协作通信基于强化学习的聚类方法
4. METHOD OF TRAINING REAL-TIME SIMULTANEOUS INTERPRETATION MODEL BASED ON EXTERNAL ALIGNMENT INFORMATION, AND METHOD AND SYSTEM FOR SIMULTANEOUS INTERPRETATION BASED ON EXTERNAL ALIGNMENT INFORMATION [P] . 美国专利： US2022129643A1 . 2022-04-28

机译：基于外部对齐信息的实时同声传译模型训练方法，以及基于外部对齐信息的同声传译方法和系统
5. Method and Apparatus for Relation Extraction based on Reinforcement Learning using Sequential Information in a Paragraph [P] . 韩国专利： KR20200114919A . 2020-10-07

机译：基于段落中基于顺序信息的强化学习的关系提取方法和装置