首页> 中国专利> 去中心化离线多智能体强化学习方法以及执行系统

去中心化离线多智能体强化学习方法以及执行系统

摘要

本申请公开了一种去中心化离线多智能体强化学习方法以及执行系统。通过应用本申请的技术方案,可以仅依靠每个智能体自身所拥有的离线数据去训练智能体,从而达到不需要与环境交互采集数据也不需要其他智能体的数据、去中心化地学习到协同策略的目的。进而避免在去中心化学习中多智能体策略不协调的弊端。

著录项

  • 公开/公告号CN113191500A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 北京大学;

    申请/专利号CN202110210551.0

  • 发明设计人 卢宗青;姜杰川;

    申请日2021-02-25

  • 分类号G06N20/00(20190101);

  • 代理机构11619 北京辰权知识产权代理有限公司;

  • 代理人李小朋

  • 地址 100871 北京市海淀区颐和园路5号

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本申请中涉及数据处理技术,尤其是一种去中心化离线多智能体强化学习方法以及执行系统。

背景技术

多智能体执行系统的应用在人类社会中非常重要,例如自动驾驶车辆、分布式计算机网络、5G基站等。

但是在现有的多智能体执行系统中,由于安全性、成本等问题,很难直接在真实场景中对智能体进行训练及智能体直接与环境交互。同时,随着大量多智能体执行系统的部署,会产生大量的数据,如何从这些数据中学习智能体的策略是一个难题。此外,在真实多智能体执行系统中智能体的数量大,很难实现中心化的训练,如何实现去中心的训练也是一个难题。

因此,如何实现一种离线学习方法且不需要其他智能体的数据即可去中心化地学习到协同策略,成为了本领域技术人员需要解决的问题。

发明内容

本申请实施例提供一种去中心化离线多智能体强化学习方法以及执行系统。其中,根据本申请实施例的一个方面,提供的一种去中心化离线多智能体强化学习方法,其特征在于,包括:

利用离线数据集拟合离线强化学习算法的第一条件变分自动编码模块以及第二条件变分自动编码模块;

根据所述第一条件变分自动编码模块以及第二条件变分自动编码模块,得到训练权重,所述训练权重用于对目标智能体的损失函数以及目标函数进行优化训练,其中所述训练权重包括值偏离度权重以及转移归一化权重;

利用所述第一条件变分自动编码模块、离线数据集的样本数据以及所述训练权重更新所述离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体;

利用所述训练完毕的目标智能体执行最高价值分数的动作,所述最高价值分数为基于所述更新后的值网络以及扰动网络所确定。

可选地,在基于本申请上述方法的另一个实施例中,在所述得到训练完毕的目标智能体之后,还包括:

获得第一时刻状态的目标智能体;

利用所述第一条件变分自动编码模块生成所述第一时刻状态的目标智能体对应的多个动作;

利用所述更新后的扰动网络,分别给每个动作叠加噪声扰动,得到多个叠加后的动作。

可选地,在基于本申请上述方法的另一个实施例中,所述得到多个叠加后的动作之后,还包括:

利用所述更新后的值网络计算出每个叠加后动作在当前状态下的价值分数;

由所述目标智能体执行所述最高价值分数对应的叠加后动作。

可选地,在基于本申请上述方法的另一个实施例中,所述利用所述第一条件变分自动编码模块生成所述第一时刻状态的目标智能体对应的多个动作,包括:

利用所述第一条件变分自动编码模块,将所述第一时刻状态的目标智能体编码为隐变量;

以所述隐变量以及所述目标智能体的当前状态为条件,解码出所述目标智能体对应的多个动作。

可选地,在基于本申请上述方法的另一个实施例中,所述利用样本数据以及所述训练权重更新所述离线强化学习算法的值网络以及扰动网络,包括:

通过最小化所述离线强化学习算法的损失函数实现更新所述值网络;以及,

通过最大化所述离线强化学习算法的损失函数实现更新所述扰动网络。

可选地,在基于本申请上述方法的另一个实施例中,所述利用样本数据以及所述训练权重更新所述离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体,包括:

将所述值偏离度权重作为训练因子优化所述目标智能体,所述值偏离度用于表征所述目标智能体在下一状态的实际价值分数与下一状态期望价值分数的偏离程度。

可选地,在基于本申请上述方法的另一个实施例中,所述利用样本数据以及所述训练权重更新所述离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体,包括:

将所述转移归一化权重作为训练因子优化所述目标智能体的损失函数以及目标函数,所述转移归一化权重用于使从离线数据集计算得到的转移概率变为均匀分布。

其中,根据本申请实施例的又一个方面,提供的一种去中心化离线强化学习的多智能体执行系统,其特征在于,包括:

拟合模块,被配置为利用离线数据集拟合离线强化学习算法的第一条件变分自动编码模块以及第二条件变分自动编码模块;

生成模块,被配置为根据所述第一条件变分自动编码模块以及第二条件变分自动编码模块,得到训练权重,所述训练权重用于对目标智能体的损失函数以及目标函数,其中所述训练权重包括值偏离度权重以及转移归一化权重;

训练模块,被配置为利用所述第一条件变分自动编码模块、离线数据集的样本数据以及所述训练权重更新所述离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体;

执行模块,被配置为利用所述训练完毕的目标智能体执行最高价值分数的动作,所述最高价值分数为基于所述更新后的值网络以及扰动网络所确定。

根据本申请实施例的又一个方面,提供的一种电子设备,包括:

存储器,用于存储可执行指令;以及

显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述经过去中心化离线强化学习的多智能体执行方法的操作。

根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述去中心化离线多智能体强化学习方法的操作。

本申请中,可以利用离线数据集拟合离线强化学习算法的第一条件变分自动编码模块以及第二条件变分自动编码模块;根据第一条件变分自动编码模块以及第二条件变分自动编码模块,得到训练权重,训练权重用于对目标智能体的损失函数以及目标函数进行优化训练,其中训练权重包括值偏离度权重以及转移归一化权重;利用第一条件变分自动编码模块、离线数据集的样本数据以及训练权重更新离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体;利用训练完毕的目标智能体执行最高价值分数的动作,最高价值分数为基于更新后的值网络以及扰动网络所确定。通过应用本申请的技术方案,可以仅依靠每个智能体自身所拥有的离线数据去训练智能体,从而达到不需要与环境交互采集数据也不需要其他智能体的数据、去中心化地学习到协同策略的目的。进而避免在去中心化学习中多智能体策略不协调的弊端。

下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:

图1为本申请提出的一种去中心化离线多智能体强化学习方法示意图;

图2为本申请提出的一种去中心化离线多智能体强化学习执行系统的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。

需要说明的是,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

下面结合图1来描述根据本申请示例性实施方式的用于进行去中心化离线多智能体强化学习方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。

本申请还提出一种去中心化离线多智能体强化学习方法以及执行系统。

图1示意性地示出了根据本申请实施方式的一种去中心化离线多智能体强化学习方法的流程示意图。如图1所示,该方法包括:

S101,利用离线数据集拟合离线强化学习算法的第一条件变分自动编码模块以及第二条件变分自动编码模块。

相关技术中,在智能体学习训练的过程中,通常是由智能体主动地与在线环境进行交互,从而通过其自身收集经验去学习。然而本申请提出的使用离线强化学习可以有效地使用现有的交互数据,其中离线强化学习是完全脱离规则的强化学习,其中从记录经验地固定数据集中训练代理器,而无需与环境进行任何进一步的交互。具体的,离线强化学习可以帮助智能体使用现有数据对其进行训练,并根据其利用固定的交互数据集的能力对强化学习算法进行经验评估,以及可以避免受到真实世界的影响。

进一步的,条件变分自编码模块(CVAE)可以将原始数据以及其对应的类别共同作为编码器的输入,可以用于指定类别的数据的生成。从而避免变分自编码模块存在的,只能生成与输入类似的输出数据的问题。

进一步的,本申请适用于多智能体合作问题,每个智能体i可以获得环境的状态s,独立执行自己的动作a

更进一步的,本申请采用离线和去中心化的设定。也就是说,智能体在学习过程中不能与环境发生交互获取新的数据,而是仅能使用预先采集的离线数据集进行更新策略。每个智能体的数据集

B

一种方式中,单智能体离线强化学习算法关注于限制离线数据分布之外的动作。由于部分动作在数据集中没有出现,对这部分动作的价值估计会与真实的价值发生很大的偏差,即外推偏差。因此离线强化学习算法限制训练得到的动作分布与数据集中的动作分布偏差不能太大。

S102,根据第一条件变分自动编码模块以及第二条件变分自动编码模块,得到训练权重,训练权重用于对目标智能体的以及目标函数进行优化训练,其中训练权重包括值偏离度权重以及转移归一化权重。

进一步的,由于在离线去中心化多智能体强化学习中,受其他智能体策略变化的影响,智能体从离线数据集中计算得到的状态转移概率与真正执行过程中观测到的状态转移概率有很大偏差。因此可能会导致智能体出现高估次优动作而低估最优动作,致使智能体学到次优解。

另外,由于每个智能体离线数据集的数据分布不同,导致每个智能体对于同一个状态的价值估计不同,使得智能体学到的策略不能相互协同。为此,本申请可以提出在离线训练中加入两个训练权重(即值偏离度权重以及转移归一化权重),用于不断优化智能体的损失函数以及目标函数,帮助智能体学习相互协同的最优解。

S103,利用第一条件变分自动编码模块、离线数据集的样本数据以及训练权重更新离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体。

需要说明的是,本申请适用的情景是存在多个合作的智能体,每个拥有一个离线数据集,包含每一时刻的状态,自身动作,全局奖励和下一个状态。每个智能体仅依赖自己的离线数据集,而不需要与环境交互采集数据也不需要其他智能体的数据,去中心化地独立学习自己的策略。在执行过程中,所有智能体共同与环境进行交互。

对于每个智能体i,学习过程可以分为以下多个阶段:

初始化阶段,即可以初始化第一条件变分自动编码模块以及第二条件变分自动编码模块并利用离线数据集拟合两个条件变分自动编码机:

训练阶段,即可以在每次更新时从离线数据集中采样一批样本,并利用上述引入重要性权重的损失函数更新值网络和扰动网络,再经过若干次更新后得到训练完毕的目标智能体。

S104,利用训练完毕的目标智能体执行最高价值分数的动作,最高价值分数为基于更新后的值网络以及扰动网络所确定

本申请中,可以利用离线数据集拟合离线强化学习算法的第一条件变分自动编码模块以及第二条件变分自动编码模块;根据第一条件变分自动编码模块以及第二条件变分自动编码模块,得到训练权重,训练权重用于对目标智能体的损失函数以及目标函数进行优化训练,其中训练权重包括值偏离度权重以及转移归一化权重;利用第一条件变分自动编码模块、离线数据集的样本数据以及训练权重更新离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体;利用训练完毕的目标智能体执行最高价值分数的动作,最高价值分数为基于更新后的值网络以及扰动网络所确定。通过应用本申请的技术方案,可以仅依靠每个智能体自身所拥有的离线数据去训练智能体,从而达到不需要与环境交互采集数据也不需要其他智能体的数据所带来的,去中心化地学习到协同策略的目的。进而避免在去中心化学习中多智能体策略不协调的弊端。

可选地,在基于本申请上述方法的另一个实施例中,在得到训练完毕的目标智能体之后,还包括:

获得第一时刻状态的目标智能体;

利用第一条件变分自动编码模块生成第一时刻状态的目标智能体对应的多个动作;

利用更新后的扰动网络,分别给每个动作叠加噪声扰动,得到多个叠加后的动作。

可选地,在基于本申请上述方法的另一个实施例中,得到多个叠加后的动作之后,还包括:

利用更新后的值网络计算出每个叠加后动作在当前状态下的价值分数;

由目标智能体执行最高价值分数对应的叠加后动作。

进一步的,本申请在得到训练完毕的目标智能体之后,可以在每次从环境中获得该时刻状态,并可以利用第一条件变分自动编码机生成n个动作,再使用扰动网络给每个动作叠加一个小的噪声扰动,最后利用值网络计算出每个动作的价值,选择价值最高的动作执行。

可选的,第一条件变分自动编码机可以将智能体的状态和动作编码为一个隐变量,并根据隐变量以及状态为条件解码出动作。经过训练,第一条件变分自动编码机生成的动作服从于数据集中的数据分布。

其中,智能体的策略可以写为:

其中,Q

可选地,在基于本申请上述方法的另一个实施例中,利用第一条件变分自动编码模块生成第一时刻状态的目标智能体对应的多个动作,包括:

利用第一条件变分自动编码模块,将第一时刻状态的目标智能体编码为隐变量;

以隐变量以及目标智能体的当前状态为条件,解码出目标智能体对应的多个动作。

可选地,在基于本申请上述方法的另一个实施例中,利用样本数据以及训练权重更新离线强化学习算法的值网络以及扰动网络,包括:

通过最小化离线强化学习算法的损失函数实现更新值网络;以及,

通过最大化离线强化学习算法的目标函数实现更新扰动网络。

进一步的,在训练过程中,值网络的更新通过以下公式实现最小化损失函数:

进一步的,在训练过程中,扰动网络的更新通过以下公式实现最大化目标函数:

其中

其中需要说明的是,对于值网络的更新来说,其是通过优化损失函数来得到的,而对于扰动网络的更新来说,其是通过优化目标函数而得到的。

可选地,在基于本申请上述方法的另一个实施例中,利用样本数据以及训练权重更新离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体,包括:

将值偏离度权重作为训练因子优化目标智能体中,高价值分数的状态转移概率,值偏离度用于表征目标智能体在下一状态的实际价值分数与下一状态期望价值分数的偏离程度。

进一步的,值偏离度的具体形式为:

上述公式表示下一状态的价值相比所有下一状态价值期望的偏离程度,记为

为了在高维环境中对

其中,Q

可选地,在基于本申请上述方法的另一个实施例中,利用样本数据以及训练权重更新离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体,包括:

将转移归一化权重作为训练因子优化目标智能体的状态转移概率,转移归一化权重用于使从离线数据集计算得到的转移概率变为均匀分布。

进一步的,归一化权重的具体形式为

再者,为了在高维环境中对

μ作为输入的编码并估计出概率密度函数

其中,

本申请将值偏离度权重以及转移归一化权重作为一个因子,施加在状态转移概率中,使得价值较高的状态转移概率更高,提高潜在最优解的价值,并且降低不同智能体对于同一个状态值估计偏差,从而帮助智能体学到有协同性的最优解。

进一步的,基于施加值偏离度权重以及转移归一化权重后转移概率的算法收敛性。由于在深度强化学习算法中,直接改变转移概率并不可行,因此本申请将两个权重施加在损失函数的采样概率中,能够起到与改变转移概率等价的作用。而在采样概率中施加放缩因子,可以通过在损失函数上将该因子作为重要性权重进行重要性采样。最终,本申请的方法具体体现为值网络和扰动网络损失函数的变化。

本申请中,可以利用离线数据集拟合离线强化学习算法的第一条件变分自动编码模块以及第二条件变分自动编码模块;根据第一条件变分自动编码模块以及第二条件变分自动编码模块,得到训练权重,训练权重用于对目标智能体的损失函数以及目标函数进行优化训练,其中训练权重包括值偏离度权重以及转移归一化权重;利用第一条件变分自动编码模块、离线数据集的样本数据以及训练权重更新离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体;利用训练完毕的目标智能体执行最高价值分数的动作,最高价值分数为基于更新后的值网络以及扰动网络所确定。通过应用本申请的技术方案,可以仅依靠每个智能体自身所拥有的离线数据去训练智能体,从而达到不需要与环境交互采集数据也不需要其他智能体的数据所带来的,去中心化地学习到协同策略的目的。进而避免在去中心化学习中多智能体策略不协调的弊端。

在本申请的另外一种实施方式中,如图2所示,本申请还提供一种去中心化离线多智能体强化学习执行系统。其中,包括拟合模块201,生成模块202,训练模块203,执行模块2043,其中,

拟合模块201,被配置为拟合模块,被配置为利用离线数据集拟合离线强化学习算法的第一条件变分自动编码模块以及第二条件变分自动编码模块;

生成模块202,被配置为根据所述第一条件变分自动编码模块以及第二条件变分自动编码模块,得到训练权重,所述训练权重用于对目标智能体的损失函数以及目标函数进行优化训练,其中所述训练权重包括值偏离度权重以及转移归一化权重;

训练模块203,被配置为利用所述第一条件变分自动编码模块、离线数据集的样本数据以及所述训练权重更新所述离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体;

执行模块204,被配置为利用所述训练完毕的目标智能体执行最高价值分数的动作,所述最高价值分数为基于所述更新后的值网络以及扰动网络所确定。

本申请中,可以利用离线数据集拟合离线强化学习算法的第一条件变分自动编码模块以及第二条件变分自动编码模块;根据第一条件变分自动编码模块以及第二条件变分自动编码模块,得到训练权重,训练权重用于对目标智能体的损失函数以及目标函数进行优化训练,其中训练权重包括值偏离度权重以及转移归一化权重;利用第一条件变分自动编码模块、离线数据集的样本数据以及训练权重更新离线强化学习算法的值网络以及扰动网络,得到训练完毕的目标智能体;利用训练完毕的目标智能体执行最高价值分数的动作,最高价值分数为基于更新后的值网络以及扰动网络所确定。通过应用本申请的技术方案,可以仅依靠每个智能体自身所拥有的离线数据去训练智能体,从而达到不需要与环境交互采集数据也不需要其他智能体的数据所带来的,去中心化地学习到协同策略的目的。进而避免在去中心化学习中多智能体策略不协调的弊端。

在本申请的另外一种实施方式中,拟合模块201,还包括:

拟合模块201,被配置为获得第一时刻状态的目标智能体;

拟合模块201,被配置利用所述第一条件变分自动编码模块生成所述第一时刻状态的目标智能体对应的多个动作;

拟合模块201,被配置利用所述更新后的扰动网络,分别给每个动作叠加噪声扰动,得到多个叠加后的动作。

在本申请的另外一种实施方式中,拟合模块201,还包括:

拟合模块201,被配置利用所述更新后的值网络计算出每个叠加后动作在当前状态下的价值分数;

拟合模块201,被配置由所述目标智能体执行所述最高价值分数对应的叠加后动作。

在本申请的另外一种实施方式中,拟合模块201,还包括:

拟合模块201,被配置利用所述第一条件变分自动编码模块,将所述第一时刻状态的目标智能体编码为隐变量;

拟合模块201,被配置以所述隐变量以及所述目标智能体的当前状态为条件,解码出所述目标智能体对应的多个动作。

在本申请的另外一种实施方式中,拟合模块201,还包括:

拟合模块201,被配置通过最小化所述离线强化学习算法的损失函数实现更新所述值网络;以及,

拟合模块201,被配置通过最大化所述离线强化学习算法的损失函数实现更新所述扰动网络。

在本申请的另外一种实施方式中,拟合模块201,还包括:

拟合模块201,被配置将所述值偏离度权重作为训练因子优化所述目标智能体,所述值偏离度用于表征所述目标智能体在下一状态的实际价值分数与下一状态期望价值分数的偏离程度。

在本申请的另外一种实施方式中,拟合模块201,还包括:

拟合模块201,被配置将所述转移归一化权重作为训练因子优化所述目标智能体的损失函数以及目标函数,所述转移归一化权重用于使从离线数据集计算得到的转移概率变为均匀分布。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号