首页> 中国专利> 一种基于逆向强化学习算法在斗地主中的应用

一种基于逆向强化学习算法在斗地主中的应用

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于逆向强化学习算法在斗地主中的应用。涉及游戏与深度强化学习领域。首先对采集专家数据，获得专家数据集；然后，根据逆向强化学习和专家数据，学习到新的奖励函数；将学习到的奖励函数替换DQN算法中的奖励函数进行训练，比较两种框架的实验结果，以此来验证逆向强化学习在斗地主中的应用是否合理；最后，在RLCard平台对两种框架进行同样时间的训练，进行对比来验证新框架的效果。本发明能够通过较少的数据得到不错的结果，降低了对数据量的需求，减少了训练时间。

著录项

公开/公告号CN114669056A

专利类型发明专利
公开/公告日2022-06-28

原文格式PDF
申请/专利权人南京信息工程大学;
展开▼

申请/专利号CN202210329589.4
发明设计人孔燕;史鸿远;
展开▼

申请日2022-03-31
分类号A63F13/67;A63F1/00;G06N3/04;G06N3/08;G06F17/18;
代理机构南京苏高专利商标事务所(普通合伙);
代理人曹坤
地址 210044 江苏省南京市江北新区宁六路219号
入库时间 2023-06-19 15:49:21

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-28

公开

发明专利申请公布

说明书

技术领域

本发明属于深度强化学习在游戏领域的应用，具体是涉及一种基于逆向强化学习在斗地主这种需要经验的游戏中的应用。

背景技术

目前深度强化学习在许多游戏上都有应用，比如著名的Atari游戏、星际争霸和DOTA等。而斗地主作为传统扑克游戏，具有自己的特色，拥有巨大的动作状态空间和多样化的出牌策略，是一个非常值得研究和解决的游戏。

当前对于斗地主的研究方法有很多，例如将贝叶斯算法和蒙特卡洛搜索树进行结合对斗地主进行处理，的确取得了不错的效果。还有对牌型进行分解的方法，将自己的手牌先分解为最合理的出牌组合以及最合理的出牌动作，符合人类玩家在玩斗地主时的思维。以及简单有效的蒙特卡洛方法，也在斗地主上取得了很好的结果。虽然上述方法虽然取得了不错的效果，但是都需要大量的采样和计算，对数据的需求量很高，并且很多方法都需要很长的时间进行训练。

发明内容

发明目的：本发明的目的是提供了一种基于逆向强化学习的斗地主AI，本发明能够利用少量的专家轨迹训练出一个斗地主AI，并且需要的训练时间很短，有助于推进深度强化学习在游戏中的应用以及逆向强化学习在需要经验的游戏中的应用。

技术方案：本发明所述的一种基于逆向强化学习算法在斗地主中的应用，具体操作步骤如下：

(1)、采集职业玩家在每一局中的手牌和出牌，形成专家数据集；

(2)、利用DQN算法构建深度强化学习框架；

(3)、利用逆向强化学习算法学习到一个最符合专业玩家玩斗地主时的策略；

(4)、根据值函数的定义，选择一个随机策略；

(5)、将专家数据导入上述DQN-IRL学习框架中进行训练并得出实验结果；

(6)、比较步骤2和步骤5中的实验结果。

进一步的，在所述步骤(2)中，利用DQN算法构建深度强化学习框架的具体步骤是：

(2.1)、将斗地主游戏中的状态和动作使用one-hot编码方式进行编码，使得agent在训练过程中能进行训练，且选择数据作为状态来帮助训练；将其编码为5*15的矩阵形式，其中状态是6个5*15的矩阵集合，分别为自己的手牌，另外两个玩家的手牌，所有已经出过的牌和最近三轮的动作；

(2.2)、将编码好的牌局在DQN算法框架下进行训练，在仿真平台RLCard上使用DQN算法对AI进行训练并得出实验结果。

进一步的，在所述步骤(3)中，利用逆向强化学习算法学习到一个最符合专业玩家玩斗地主时的策略，其具体的是：

基于收集的专家数据，运用学徒学习学习逼近专家策略的奖励函数R(S)；

定义一个奖励函数R(S)，其如下式所示：

其中，w表示是一个随机初始化的参数，

进一步的，在所述步骤(4)中，根据值函数的定义，选择一个随机策略具体是：

通过值函数的定义对特征期望进行改写，且使用随机策略的特征期望与专家数据的特征期望进行计算得出奖励函数中的w的值，并将其代入到奖励函数公式中得到奖励函数，然后将求得的奖励函数替换掉DQN算法中的奖励函数来进行迭代更新；其具体的操作步骤是：

首先，得到下式公式：

其中，D表示初始的状态分布，s

随着策略的改变，特征期望也会随之改变，所示特征期望的定义如下：

其中，μ表示特征期望；

因此，值函数可改写为：

其中，D表示初始状态分布；

然后，根据收集的专家数据来估算专家的特征期望：

式中，

将随机策略的特征期望按下述式子对专家策略的随机期望进行逼近，具体如下式所示：

式中，∈表示是一个超参数，控制当前策略与专家策略逼近的程度；

最后，对w进行求解，求得最优的w，来更新之前设置的奖励函数R(S)；

在求出奖励函数后去替代DQN算法中的奖励函数来计算期望，进而继续与专家数据的期望做差值进行更新；所示的框架为DQN-IRL的学习框架。

进一步的，在所述步骤(5)中，将专家数据导入上述DQN-IRL学习框架中进行训练并得出实验结果具体是：将每局的手牌作为输入，通过DQN-IRL的框架进行训练，然后令其和随机策略的AI对战并记录下每一局的结果。

进一步的，在所述步骤(6)中，比较步骤(2)和步骤(5)中的实验结果具体是：比较两种框架下的表现，比较的指标为每一个框架在经过相同时间训练后的胜率和稳定性。

有益效果：本发明与现有技术相比，本发明的特点是：1、本发明提供了一种逆向强化学习算法在斗地主中的应用，为深度强化学习在需要丰富经验的游戏中的应用提供了一种新的思路，对后续一些更加优良的逆向强化学习算法在此类游戏中的应用提供了参考；2、本发明提出的DQN-IRL框架，对于数据量的需求不高，并且训练所需时间更短，相较于其他的算法而言易于实现。

附图说明

图1是本发明的整体流程示意图；

图2是本发明中DQN算法构建的深度强化学习框架示意图；

图3是本发明中运用逆向强化学习算法学习到奖励函数并进行替换的示意图；

图4是本发明中在地主位置时的胜率和方差示意图；

图5是本发明中在地主上家位置时的胜率和方差示意图。

图6是本发明中在地主下家位置时的胜率和方差示意图；

图7是本发明的实施例示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步的说明。

如图所述，一种基于逆向强化学习算法在斗地主中的应用，包括以下步骤：

步骤1、采集职业玩家每一局的手牌和出牌，形成专家数据集；

步骤2、利用DQN算法构建深度强化学习框架，对牌进行编码，在RLCard实验仿真平台上进行训练；具体如下：

步骤2.1、将斗地主游戏中的状态和动作使用one-hot编码方式进行编码，将其编码为5*15的矩阵形式，其中状态是6个5*15的矩阵集合，分别为自己的手牌，另外两个玩家的手牌，所有已经出过的牌和最近三轮的动作；

步骤2.2、在仿真平台RLCard上使用DQN算法对AI进行训练并得出实验结果；

步骤3、利用逆向强化学习算法学习到一个最符合专业玩家玩斗地主时的策略，基于收集的专家数据，运用学徒学习学习逼近专家策略的奖励函数R(S)，

首先，定义一个奖励函数R(S)如下：

其中，w是一个随机初始化的参数，

步骤4、根据值函数的定义，选择一个随机策略，即：构建DQN-IRL学习框架，根据值函数的定义对奖励函数进行推导和求解；得到公式：

D表示初始的状态分布，s

随着策略的改变，特征期望也会随之改变，特征期望的定义如下：

因此，值函数可以改写为：

然后，根据收集的专家数据来估算专家的特征期望：

上式中的

将随机策略的特征期望按照下述式子对专家策略的随机期望进行逼近：

∈是一个超参数，控制当前策略与专家策略逼近的程度；

最后，对w进行求解，求得最优的w，来更新之前设置的奖励函数R(S)；

在求出奖励函数后去替代DQN(Deep Q Network)算法中的奖励函数来计算期望，进而继续与专家数据的期望做差值进行更新，这种框架我们定义为DQN-IRL的学习框架；

步骤5、将专家数据导入上述DQN-IRL学习框架中进行训练并得出实验结果；即：将专家数据及导入新的深度强化学习框架，进行训练，并记录实验结果；

步骤6、比较步骤2和步骤5中的实验结果；即：在同样的训练时间下，比较DQN框架和DQN-IRL框架在胜率和方差上的表现。

作为本发明所述的一种逆向强化学习算法在斗地主中的应用，步骤1采集了职业玩家在每一局中的手牌和动作，形成专家数据集。

作为本发明所述的一种逆向强化学习算法在斗地主中的应用，步骤2.1对扑克牌进行了编码，使得agent在训练过程中能够进行有效率的训练，并且选择了合理的数据作为状态来帮助训练。

作为本发明所述的一种逆向强化学习算法在斗地主中的应用，步骤2.2将编码好的牌局在DQN算法框架下进行训练，然后让其和随机策略的AI进行对战并得出实验结果。

作为本发明所述的一种逆向强化学习算法在斗地主中的应用，步骤3中选择适当的基底函数对需要学习的奖励函数进行定义，方便后续对奖励函数的求解。

作为本发明所述的一种逆向强化学习算法在斗地主中的应用，步骤4通过值函数的定义对特征期望进行改写，并且使用随机策略的特征期望与专家数据的特征期望进行计算得出奖励函数中的w的值，并将其代入到奖励函数公式中得到奖励函数，然后将求得的奖励函数替换掉DQN算法中的奖励函数来进行迭代更新。

作为本发明所述的一种逆向强化学习算法在斗地主中的应用，步骤5将每局的手牌作为输入，通过DQN-IRL的框架进行训练，然后令其和随机策略的AI对战并记录下每一局的结果。

作为本发明所述的一种逆向强化学习算法在斗地主中的应用，步骤6比较两种框架下的表现，比较的指标为每一个框架在经过相同时间训练后的胜率和稳定性。

本发明是运用逆向强化学习算法学习新的奖励函数来构建构建DQN-IRL深度强化学习框架，训练出有效的斗地主AI；与以往的方法不同，本发明降低了对数据量的需求，也减少了训练时间，同时也为后续的逆向强化学习在斗地主上的应用做出了一个参考。

具体实施例

参加附图4，在RLCard仿真平台上，将本AI和DQN算法训练出的地主位置的AI进行对战，得出各自的胜率和胜率的方差，可见本AI的胜率还是较高的，稳定性也较好。

参加附图5，在RLCard仿真平台上，将本AI和DQN算法训练出的地主上家位置的AI进行对战，得出各自的胜率和胜率的方差，从胜率和方差来看，两个AI的表现较为接近。

参加附图6，在RLCard仿真平台上，将本AI和DQN算法训练出的地主下家位置的AI进行对战，得出各自的胜率和胜率的方差，从胜率上来看，本AI的前期胜率较高，后期表现欠佳，但是相较于DQN算法训练的AI更加稳定。

本案例在实战对弈时的具体界面参见附图7。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于逆向剔除法的高维度数据功能选择算法及其在医疗中的应用 [P] . 中国专利： CN103500263A . 2014-01-08
2. 一种基于强化学习算法功率域的NOMA中的功率分配方法 [P] . 中国专利： CN108924935A . 2018-11-30
3. 一种应用于废水除磷去浊的复合絮凝剂及其制法及应用 [P] . 世界知识产权组织专利： WO2020/143282A1 . 2020.07.16
4. 胃肠道间质瘤的靶点DEPDC5及其在诊断和治疗中的应用 [P] . 世界知识产权组织专利： WO2020/143424A1 . 2020.07.16
5. 蒲公英甾酮在制备防治老年痴呆的药物中的应用 [P] . 世界知识产权组织专利： WO2020/143333A1 . 2020.07.16