法律状态公告日
法律状态信息
法律状态
2022-07-05
授权
发明专利权授予
2022-06-14
著录事项变更 IPC(主分类):G06N 3/04 专利申请号:2021106093974 变更事项:发明人 变更前:庄星王玥尹昊刘劲涛李柯绪 变更后:王玥庄星尹昊刘劲涛李柯绪
著录事项变更
技术领域
本发明涉及智能体技术领域,具体涉及一种多智能体行动策略自演进生成方法。
背景技术
无人设备在真实的自然环境中,可以视为具有感知和行动能力的智能体,由于态势信息通常处于不断变化的过程中,在短时间内可能出现周围环境、可分配资源、智能体宏观任务以及智能体自身能力等信息的快速变化。在有限的行动规划时间里,快速生成行动策略,实现多智能体统一部署、协同作战的能力,是目前多智能体复杂系统行动策略研究的重点方向。其在智能调度、工业智能化以及复杂军事作战等领域有着极为广泛的应用。
通常采用的层次分析法、证据融合方法与多属性决策等理论等主要依靠专家知识与经验库进行决策生成,既缺少足够多的案例以供判断,智能体也不具备自我探索能力,同时在真实的战场环境下,没有考虑到整个智能系统中智能体的增减与集群化;基于神经网络的策略生成方法依赖大规模的监督学习,面对小样本的作战案例无法有效给出行动策略。
因此如何在战场高动态变化态势下进行智能体行动策略的快速生成是目前亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种多智能体行动策略自演进生成方法,具有较强的鲁棒性与自适应能力,同时兼顾单智能体与多智能体的多层级策略生成要求,适应于战场高动态变化态势下的智能体行动策略快速生成。
为达到上述目的,本发明的技术方案包括如下步骤:
步骤1:初始化公共神经网络,公共神经网络包含演员网络和评论家网络,设置两个全局参数分别θ和w,其中演员网络参数为θ',评论家网络参数为w'。
设置全局迭代次数T,全局最大迭代次数T
单次线程的单次迭代中的时间序列最大长度t
步骤2:设置当前线程的单次迭代中的时间节点t,t的初始值为1;设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0。
步骤3:将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数,即θ'=θ,w'=w。
步骤4:初始化状态特征集S。
步骤5:基于部分设定规则以及智能体的当前状态特征s
步骤6:计算当前时间节点执行完动作a
步骤7:若t>t
步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(s
步骤9:更新时间节点t+1的状态奖励值Q(s
其中W为单步动作的回报值的权重系数,W取值为0-1之间;
更新当前线程中演员网络参数的梯度值为
其中,
更新当前线程中评论家网络参数的梯度值为
步骤10:更新公共神经网络的两个全局参数:θ减小αdθ',w减小βdw';其中α为演员网络参数步长;β为评论家网络参数步长。
步骤11:T自增1;如果T>T
步骤12:公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将新的空战环境的状态特征和动作输入至策略生成模型,输出行动策略。
进一步地,特征状态集S的向量空间包括以下量化后的数据:环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。
进一步地,动作集包含智能体的基本行为动作。
进一步地,步骤8中,Q(s
进一步地,单步动作的回报值的权重系数W的取值,将通过设定阈值将时间序列分为前后两段,当t处于前半段时W的取值大于t处于后半段时W的取值。
有益效果:
本发明提供了一种多智能体行动策略自演进生成方法,采用了改进的强化学习算法对智能体的自我决策能力进行训练,使其具备在对抗环境下的行动策略自主生成能力,同时该算法鲁棒性强,可以适用于不同的智能体训练、对抗环境,策略生成率达到100%。本发明中智能体个体决策与群体决策都是基于统一的框架,基于这种框架智能体个数可以自适应地增添或删减,增加了整个系统的鲁棒性,同时有效应对智能体损毁减少,或者随时增加的场景。
附图说明
图1为本发明一个实施例提供的一种多智能体的决策生成训练方法的流程图;
图2为本发明另外一个实施例提供的一种多智能体的决策生成训练方法的原理示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种多智能体行动策略自演进生成方法,适用于多智能体行动策略自主生成。其中智能体是现实实体的抽象概念,范围可以包括具备动态感知能力;能够执行动作并获取反馈;对反馈结果能够获取评价信息。其主要的实体可以包括如下:森林火灾中的灭火无人机;自然灾害求援任务中的求援机器人;军事打击任务中的侦察机、智能打击武器等。
上述的所有场景中,有以下几个特征:
智能体的行动策略是收到一定规则限制的。智能体的策略行为必然不可能超过其能力范围,比如无人车不可能执行飞行命令,无人机无法进行水下探测等,这类智能体的策略规则由先验知识界定,在下文中用“规则”代替。
智能体的策略行为所带来的反馈不同。例如在无人机策略规划中,攻击行为与飞航行为所反馈的态势信息截然不同;有些策略具备极高的正向反馈,但有些策略的反馈可以认为是0值。在下文中,用“策略奖励值”表示策略的执行情况。
由于通常的智能体策略需要多个智能体共同执行完成,多智能体的编队行为也需要额外的智能体进行监督。在下文中,用“演员”来表示执行策略的智能体,用“评论家”来表示进行监督的智能体。
本发明提供的多智能体自主行为策略生成方法,考虑了复杂态势感知的环境下,多智能体根据环境信息与自身状态,生成不超出规则范围的行动策略的任务分配方案。本发明以改进的强化学习算法作为智能体行为策略的探索算法,算法对训练样本要求低,生成策略的回报率高。
如图1所示,本发明的一个实施例提供的一种多智能体行动策略自演进生成方法,包括如下步骤:
步骤1:初始化公共神经网络,所述公共神经网络包含演员网络和评论家网络,设置两个全局参数分别θ和w,其中演员网络参数为θ',评论家网络参数为w';
设置全局迭代次数T,全局最大迭代次数T
单次线程的单次迭代中的时间序列最大长度t
本发明实施例中特征状态集S的向量空间包括以下量化后的数据:环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。动作集包含智能体的基本行为动作。
步骤2:设置当前线程的单次迭代中的时间节点t,t的初始值为1;设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0;
步骤3:将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数,即θ'=θ,w'=w;
步骤4:初始化状态特征集S;
步骤5:基于部分设定规则以及智能体的当前状态特征s
步骤6:计算当前时间节点执行完动作a
步骤7:若t>t
步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(s
步骤9:更新时间节点t+1的状态奖励值Q(s
其中W为单步动作的回报值的权重系数,W取值为0-1之间;单步动作的回报值的权重系数W的取值,将通过设定阈值将时间序列分为前后两段,当t处于前半段时W的取值大于t处于后半段时W的取值。
更新当前线程中演员网络参数的梯度值为
其中,
更新当前线程中评论家网络参数的梯度值为
步骤10:更新公共神经网络的两个全局参数:θ减小αdθ',w减小βdw';其中α为演员网络参数步长;β为评论家网络参数步长;
步骤11:T自增1;如果T>T
步骤12:公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将所述新的空战环境的状态特征和动作输入至所述策略生成模型,输出行动策略。
如图2所示,本发明的另外一个实施例提供的一种多智能体行动策略自演进生成方法,包括如下步骤:
SS1:初始化公共神经网络参数,并设置公共最大迭代轮数T,其上限为T
本发明实施例中,演员信息包括智能体编号i、任务状态S,任务规则π,其中状态集S中包含以下信息:当前损毁状态α,α初值为1;演员当前执行任务β,β主要为起飞、侦查、攻击、返航四种状态,以00、01、10、11表示。
SS2:T=T+1;启动单个线程,单个线程中时间序列节点表示为t,其上限为t
本发明实施例中,智能体i对当前线程时间序列为t的节点,执行策略π后的奖励值为:r
当前本次线程时间序列终止后,我方智能体所获得的所有奖励值求和得到该次行动策略的序列奖励值
SS3:t=t+1;神经网络根据当前智能体的行为奖励值,梯度上升更新演员网络和评论家网络的参数,随后根据更新后的参数重新执行SS 1,直到该网络参数达到最大值或t>t
SS 4:在主要任务想定改变后,演员根据自身规则,选择机动策略执行,演员根据路径规划结果情况获得反馈,并对反馈的奖励值进行缓存,当前任务执行完毕后感知环境的整体态势信息,选择下一时刻所要执行的任务,任务结束状态为当前想定达到既定结束指标。
SS 5:启动新的线程,执行路径规划学习,在该线程时间节点为t的节点处,其奖励值计算方式如下:r
SS 6:重复执行SS 5至该网络参数达到最大值或t>t
SS 7:当T>T
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 超声波诊断装置及镜面反射镜的图像生成方法