首页> 中国专利> 面向群智夺旗博弈的深度强化学习方法和系统

面向群智夺旗博弈的深度强化学习方法和系统

摘要

本发明公开了一种面向群智夺旗博弈的深度强化学习方法和系统,解决不完美信息条件下外部竞争、内部合作的群智路径规划与夺旗的问题。具体而言,首先基于卷积神经网络的分通道提取图片特征;然后,基于图注意力网络根据自身观测信息与接收到的队友观测信息,定量确定不完美信息条件下各智能体间的竞合关系,使得智能体在决策时,充分考虑其他智能体的状态;最后,根据对于场上不同智能体的注意力值,辅助多智能体双重决斗深度Q网络实现多智能体在二维迷宫环境中的路径规划与自主导航,优化群智夺旗策略,以实现快速、精准地二对二夺旗。

著录项

  • 公开/公告号CN115631165A

    专利类型发明专利

  • 公开/公告日2023-01-20

    原文格式PDF

  • 申请/专利权人 华东理工大学;

    申请/专利号CN202211301852.5

  • 发明设计人 唐漾;杜文莉;钱锋;

    申请日2022-10-24

  • 分类号G06T7/00(2017.01);G06N3/0464(2023.01);G06N3/08(2023.01);

  • 代理机构上海专利商标事务所有限公司 31100;

  • 代理人施浩

  • 地址 200237 上海市徐汇区梅陇路130号

  • 入库时间 2023-06-19 18:22:39

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-14

    实质审查的生效 IPC(主分类):G06T 7/00 专利申请号:2022113018525 申请日:20221024

    实质审查的生效

  • 2023-01-20

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及群智夺旗博弈策略端到端求解方法和系统,具体涉及多智能体深度强化学习路径规划与图注意力网络量化博弈竞合关系。

背景技术

博弈是参与者在合作或竞争行为下的策略优化过程。将博弈论引入多智能体系统时,凭借传感器模块、智能穿戴设备等基本感知单元的广泛使用,通过互联网协同,实现了多智能体系统中的数据高效收集和任务协同规划,使得完成复杂战场环境下的群智攻防任务成为可能。在此背景下,通过构建并求解博弈模型,提升强对抗、高动态战场环境下智能体精准攻击与防御的成功率。

攻防博弈问题可被建模为夺旗博弈模型,其中攻击方实现对防守方目标的夺取,而防守方则试图摧毁攻击方以阻止袭击。当博弈是低维时,现有文献(例如,Huang H,DingJ,Zhang W,et al.Automation-assisted capture-the-flag:A differential gameapproach.IEEE Trans Control Syst Technol,2014,23:1014-1028)往往尝试构建微分博弈模型,以解析的形式求解1对1夺旗博弈的最优策略。然而将夺旗博弈推广到复杂战场环境中多对多博弈的情况时,由于智能体的最优策略往往取决于其他智能体的动作选择,因而造成偏微分方程维数爆炸等问题,导致目前无法解析求解群智夺旗博弈的最优策略。

卷积神经网络可以提取输入图像的特征,然而仅从智能体每一步状态的角度分析,无法定量判断下一时刻智能体的决策偏向于合作或竞争,从而影响最终多智能体夺旗博弈策略的制定。

深度强化学习算法可以解决战场环境图像输入下存在大量障碍物空间中的路径规划问题,然而针对多智能体系统,特别是存在竞合关系的多智能体,不同合作智能体与竞争智能体拥有不同的奖励函数,从而无法使用同一深度强化学习网络进行策略搜索。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题,提供了一种面向群智夺旗博弈的深度强化学习方法和系统,解决了强对抗、高动态战场环境下克服不完美观测信息,实现群智高效攻防夺旗的问题。

本发明的技术方案为:本发明揭示了一种面向群智夺旗博弈的深度强化学习方法,方法包括:

步骤1:将复杂战场环境抽象为包括多个智能体在内的二维迷宫仿真环境;

步骤2:基于卷积神经网络分通道提取输入图像的视觉特征;

步骤3:使用强化学习双重决斗深度Q网络分别为分队的智能体初始化对应的网络;

步骤4:根据群智夺旗任务目标构造奖励函数,根据由战场环境抽象出的夺旗规则,设置需要达到的目标;

步骤5:在双重决斗深度Q网络结构中加入图注意力网络;

步骤6:设置最大迭代轮次;

步骤7:根据智能体在该时刻的观测信息和与队友间的通讯信息,计算每一步各智能体间的注意力值,智能体根据注意力值选择偏向进攻/防守的动作;

步骤8:根据选取的奖励函数执行动作,获取经验回放四元组;

步骤9:获取新的环境部分观测,更新经验回放四元组,计算双重决斗深度Q网络目标值;

步骤10:反复执行步骤7-9,更新双重决斗深度Q网络,直至迭代次数达到最大迭代次数,实现迷宫环境下的群智夺旗博弈。

根据本发明的面向群智夺旗博弈的深度强化学习方法的一实施例,步骤1进一步包括:

定义N个智能体,其中包含一组局部观测

根据本发明的面向群智夺旗博弈的深度强化学习方法的一实施例,步骤2进一步包括:

在卷积神经网络后增加残差网络模块,将前后连接的卷积神经网络和残差网络模块的特征连接在一起,用于减少过拟合。

根据本发明的面向群智夺旗博弈的深度强化学习方法的一实施例,步骤4进一步包括:

需要达到的目标为:我方智能体在不被敌方智能体击杀的条件下,夺取敌方的旗帜。

本发明还揭示了一种面向群智夺旗博弈的深度强化学习系统,系统包括:

仿真模块,配置为将复杂战场环境抽象为包括多个智能体在内的二维迷宫仿真环境;

特征提取模块,配置为基于卷积神经网络分通道提取输入图像的视觉特征;

初始化模块,配置为使用强化学习双重决斗深度Q网络分别为分队的智能体初始化对应的网络;

奖励函数构造模块,配置为根据群智夺旗任务目标构造奖励函数,根据由战场环境抽象出的夺旗规则,设置需要达到的目标;

图注意力网络模块,配置为在双重决斗深度Q网络结构中加入图注意力网络;

最大迭代轮次设置模块,配置为设置最大迭代轮次;

注意力值计算模块,配置为根据智能体在该时刻的观测信息和与队友间的通讯信息,计算每一步各智能体间的注意力值,智能体根据注意力值选择偏向进攻/防守的动作;

经验回放四元组获取模块,配置为根据选取的奖励函数执行动作,获取经验回放四元组;

网络目标值计算模块,配置为获取新的环境部分观测,更新经验回放四元组,计算双重决斗深度Q网络目标值;

反复执行注意力值计算模块、经验回放四元组获取模块和网络目标值计算模块,更新双重决斗深度Q网络,直至迭代次数达到最大迭代次数,实现迷宫环境下的群智夺旗博弈。

根据本发明的面向群智夺旗博弈的深度强化学习系统的一实施例,仿真模块进一步配置为:

定义N个智能体,其中包含一组局部观测

根据本发明的面向群智夺旗博弈的深度强化学习系统的一实施例,特征提取模块进一步配置为:

在卷积神经网络后增加残差网络模块,将前后连接的卷积神经网络和残差网络模块的特征连接在一起,用于减少过拟合。

根据本发明的面向群智夺旗博弈的深度强化学习系统的一实施例,奖励函数构造模块进一步配置为:

需要达到的目标为:我方智能体在不被敌方智能体击杀的条件下,夺取敌方的旗帜。

本发明对比现有技术有如下的有益效果:第一,本发明采用双重决斗深度Q网络算法分别训练多智能体,解决了复杂迷宫环境中路径规划存在网络偏差的问题,确保智能体无论是否转移状态,都能够获得显著的奖励,从而实现了更准确的状态估计并提升了训练效率。第二,本发明采用图注意力网络关注夺旗博弈过程中最相关的智能体,实时量化智能体间相互关系,辅助双重决斗深度Q网络算法进行决策,高效优化了多智能体夺旗策略。第三,本发明针对外部竞争、内部合作的多智能体端到端地训练路径规划与自主导航策略,实现二维迷宫环境中不完美信息条件下多智能体的夺旗博弈。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1为智能体部分可观的夺旗博弈迷宫环境示意图。

图2为本发明的面向群智夺旗博弈的深度强化学习方法的一实施例所涉及的整体网络框架。

图3为夺旗博弈过程中注意力值变化曲线图。

图4示出了本发明的面向群智夺旗博弈的深度强化学习系统的一实施例的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。

如图1所示,本实施例的夺旗博弈框架中存在智能体的观测信息不完美。智能体每一步可获得的完美信息为己方智能体与旗帜的位置;不完美信息包含迷宫地图中智能体视野范围外的非己方信息。以A队智能体1为例,其观测范围受限,如图1中圈内范围所示。当敌方旗帜在观测范围内时,智能体以其为目标进行探索;当敌方旗帜不在观测范围内时,智能体则进行随机探索。智能体成功夺旗后,若观测范围内均为敌方领地,则进行随机探索,直至探索到己方领地边界线;若观测范围内有己方领地,其目标为在观测范围内己方领地边界线上的点集,如图1中阴影区域所示。此时,智能体在躲避敌方追击的过程中不断优化目标,选择既能安全到达又距离较近的目标点,以促使智能体携旗快速返回得分。

如图2所示,本实施例提供了一种面向群智夺旗博弈的深度强化学习方法,其具体步骤如下。

步骤1:将复杂战场环境抽象为二维迷宫仿真环境,定义N个智能体,其中包含一组局部观测

步骤1中,迷宫地图中心对称,A、B两队分别驻扎在左右两半区域。假设A、B两队智能体的驻地(初始出发位置)分别为地图的左下角和右上角。同队智能体可通过互联网保持通信,异队智能体的可观范围是在迷宫环境约束下,以智能体为圆心,半径为5欧氏距离的范围。动作集合指同队所有智能体动作的集合。以A队为例,包含智能体1的动作集{上1,下1,左1,右1,停1}与智能体2的动作集{上2,下2,左2,右2,停2}的5*5=25组动作组合。目标是到敌方区域夺取旗帜。具体而言,当智能体位于己方地图时,该阶段目标为保护己方旗帜,同时击杀入侵的敌方智能体(两方智能体位于同一坐标位置即实现击杀。当智能体被击杀后,在固定的驻地复活);当智能体位于敌方地图时,该阶段目标为夺取敌方旗帜,同时躲避敌方智能体的击杀。智能体的移动速度相同,且在每一步都从动作集合中选取动作,当智能体移动到1200步时,夺旗博弈结束。在二维迷宫地图环境限制下,智能体夺取旗帜后,仅当其成功返回己方领地时,才视为成功夺旗(积一分),最终得分高的队伍获胜。如果最终得分为零,则博弈以平局结束。

步骤2:特征提取步骤,提取输入图像的视觉特征。假定迷宫地图的全景为FOV,由于智能体仅可观测一定距离视场内的环境信息,因此将智能体的观测信息分解为3个通道,分别代表迷宫地图,智能体以及旗帜。

其中,在卷积神经网络后增加残差网络模块,将前后连接的卷积神经网络和残差网络模块的特征连接在一起,用于减少过拟合并提高性能。具体而言,实现了一个具有3个堆叠ResNet-101特征提取器,将卷积层conv5阶段的第一个卷积块的步幅由2修改为1,用于提高特征图的分辨率,最终得到每一步的图像特征图。

步骤3:使用强化学习双重决斗深度Q网络分别为分队的智能体初始化各自的网络,比如分别为两队的智能体初始化两个网络。遵循策略

其中,从头开始使用Nvidia Quadro RTX 8000GPU训练强化学习双重决斗深度Q网络至收敛,将评价网络的权重初始化为θ,θ′,设置记忆D以存储经验回放,重放缓冲区最大规模为N

决斗深度Q网络通过将优势函数设置为单个动作的优势函数与所有动作的平均优势函数之差来估计状态值和每个动作的优势,从而计算出最终的Q值:

其中,θ为权重,α,β分别是双重深度Q网络中主、辅深度Q网络的参数,s

步骤4:根据群智夺旗任务目标构造奖励函数,根据由战场环境抽象出的夺旗规则,需要达到以下目标:我方智能体在不被敌方智能体击杀的条件下,夺取敌方的旗帜。

其中,具体的奖励函数设计公式如下:

若鼓励进攻动作时,奖励r

若鼓励防守动作时,奖励r

此外,一般的探索地图奖励r

其中,d

步骤5:在双重决斗深度Q网络结构中加入图注意力网络。

其中,图注意力网络能够处理所有智能体的局部观测值,从而定量确定智能体间的竞合关系,有助于及时关注构成威胁的敌方智能体,从而避免被击杀,具体计算过程如下:

首先使用共享参数化矩阵W∈R

其中,e

其中,N

其中,h′

步骤6:设置最大迭代轮次。

其中,最大迭代轮次为1200。

步骤7:根据智能体在该时刻的观测信息和与队友间的通讯信息,计算每一步各智能体间的注意力值。根据注意力值,智能体选择偏向进攻/防守的动作a

其中,计算每一步各智能体间的注意力值的计算过程如下:

图注意力层训练一个参数化矩阵,进行智能体向量的特征变换后,得到共享参数化矩阵W∈R

步骤8:根据选取的奖励函数执行动作,获取经验回放四元组。

其中,在d

在此之后,智能体设置记忆D以存储经验回放,获取经验回放四元组,存放n个时刻的经验回放四元组(o

步骤9:获取新的环境部分观测o

其中,智能体更新经验回放四元组和计算双重决斗深度Q网络目标值的过程如下:

首先,智能体获取新的环境部分观测o

对每个转移组:

y

其中,γ为折现因子,取值为0.9,y

步骤10:反复执行步骤7-9,更新双重决斗深度Q网络,直至迭代次数达到最大迭代次数。

步骤10完成后,即可实现迷宫环境下的群智夺旗博弈,智能体在每一步根据局部观测范围,结合对迷宫地图的探索,采取偏向合作/竞争的动作,最终在避免被敌方袭击的同时,快速、精准地夺取旗帜。

如图3所示,本实施例在一次夺旗博弈过程中的注意力值的变化,以A队智能体1为例,由于图注意力网络求解得到标准注意力值,因此多智能体的注意力值在每一步均满足a

图4示出了本发明的面向群智夺旗博弈的深度强化学习系统的一实施例的原理。请参见图4,本实施例的系统包括:仿真模块、特征提取模块、初始化模块、奖励函数构造模块、图注意力网络模块、最大迭代轮次设置模块、注意力值计算模块、经验回放四元组获取模块、网络目标值计算模块。

仿真模块,配置为将复杂战场环境抽象为包括多个智能体在内的二维迷宫仿真环境。仿真模块进一步配置为:定义N个智能体,其中包含一组局部观测

仿真模块的具体实现内容与上述方法实施例的步骤1相同,在此不再赘述。

特征提取模块,配置为基于卷积神经网络分通道提取输入图像的视觉特征。特征提取模块进一步配置为:在卷积神经网络后增加残差网络模块,将前后连接的卷积神经网络和残差网络模块的特征连接在一起,用于减少过拟合。

特征提取模块的具体实现内容与上述方法实施例的步骤2相同,在此不再赘述。

初始化模块,配置为使用强化学习双重决斗深度Q网络分别为分队的智能体初始化对应的网络。

初始化模块的具体实现内容与上述方法实施例的步骤3相同,在此不再赘述。

奖励函数构造模块,配置为根据群智夺旗任务目标构造奖励函数,根据由战场环境抽象出的夺旗规则,设置需要达到的目标。奖励函数构造模块进一步配置为:需要达到的目标为:我方智能体在不被敌方智能体击杀的条件下,夺取敌方的旗帜。

奖励函数构造模块的具体实现内容与上述方法实施例的步骤4相同,在此不再赘述。

图注意力网络模块,配置为在双重决斗深度Q网络结构中加入图注意力网络。图注意力网络模块的具体实现内容与上述方法实施例的步骤5相同,在此不再赘述。

最大迭代轮次设置模块,配置为设置最大迭代轮次。最大迭代轮次设置模块的具体实现内容与上述方法实施例的步骤6相同,在此不再赘述。

注意力值计算模块,配置为根据智能体在该时刻的观测信息和与队友间的通讯信息,计算每一步各智能体间的注意力值,智能体根据注意力值选择偏向进攻/防守的动作。

注意力值计算模块的具体实现内容与上述方法实施例的步骤7相同,在此不再赘述。

经验回放四元组获取模块,配置为根据选取的奖励函数执行动作,获取经验回放四元组。

注意力值计算模块的具体实现内容与上述方法实施例的步骤8相同,在此不再赘述。

网络目标值计算模块,配置为获取新的环境部分观测,更新经验回放四元组,计算双重决斗深度Q网络目标值。

网络目标值计算模块的具体实现内容与上述方法实施例的步骤9相同,在此不再赘述。

反复执行注意力值计算模块、经验回放四元组获取模块和网络目标值计算模块,更新双重决斗深度Q网络,直至迭代次数达到最大迭代次数,实现迷宫环境下的群智夺旗博弈。智能体在每一步根据局部观测范围,结合对迷宫地图的探索,采取偏向合作/竞争的动作,最终在避免被敌方袭击的同时,快速、精准地夺取旗帜。

尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号