首页> 中国专利> 面向大规模多Agent系统的非对称分布式约束优化算法及系统

面向大规模多Agent系统的非对称分布式约束优化算法及系统

摘要

本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法及系统,包括以下步骤:S1,构造约束图;S2,每个Agent随机选择状态信息s

著录项

  • 公开/公告号CN104376382A

    专利类型发明专利

  • 公开/公告日2015-02-25

    原文格式PDF

  • 申请/专利权人 重庆大学;

    申请/专利号CN201410668722.4

  • 申请日2014-11-18

  • 分类号

  • 代理机构重庆市前沿专利事务所(普通合伙);

  • 代理人郭云

  • 地址 400044 重庆市沙坪坝区沙正街174号

  • 入库时间 2023-12-17 04:10:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-10-24

    授权

    授权

  • 2015-03-25

    实质审查的生效 IPC(主分类):G06Q10/04 申请日:20141118

    实质审查的生效

  • 2015-02-25

    公开

    公开

说明书

技术领域

本发明涉及Agent系统的非对称分布式约束优化问题的求解,特别是涉及 一种面向大规模多Agent系统的非对称分布式约束优化算法及系统,适用于电 力发电优化策略计算,尤其是微网配置问题的求解。

背景技术

分布式约束优化问题(Distributed Constraint Opt imization Problems, DCOPs)是解决多Agent系统问题的一个基本框架。DCOPs常用来作为多Agent 协作问题的重要而有用的抽象,可对多Agent领域许多真实问题建模。DCOPs强 调利用本地的局部交互获得全局的最优性,是协调多个Agent解决分布式问题 的有效技术,已成为分布式人工智能领域的研究热点。目前已逐步运用于任务 调度、资源分配、传感器网络、交通管理、微网配置等实际应用中。但是,当 前在这些应用领域中,对于多Agent系统仍然使用的是“对称性”特性,即认 为各Agent对与其有约束关系的其他Agent的特征、取值(策略)空间及代价 (收益)函数有准确的信息,每个Agent没有个人的偏好信息和隐私性,进而 简化了其求解的过程。

但是,在实际问题中,大多数的多Agent系统都具有非对称特征,即每个 个体具有自己的偏好且不希望与其他个体共享。例如,在微网控制中,每个分 布式电源(DG)由于各自的特性不同(如风能或水电站电源等等),彼此之间 的影响是不同的,在相同网络配置下相邻DG的收益也不相同,而每个DG并不 清楚其他DG的收益情况。因此,现实情况使得在此类多Agent系统中,需要充 分考虑其非对称性特征。

非对称分布式约束优化问题(Asymmetric Distributed Constraint  Optimization Problems,ADCOPs)是在分布式约束优化问题(DCOPs)的基础 上增加了非对称特性的新模型,具有更强的建模能力和更好的工程应用前景。 ADCOPs由多元组<A,X,D,C>构成。其中A={A1,A2,...,Am}表示m个Agent的集合, Agent负责给变量集合X中的变量选择赋值;X={x1,x2,...,xn}表示n个变量; D={D1,D2,...,Dn}是一组离散而有限的值域集合,Di表示xi的值域;C表示各变 量之间的约束关系集合。C中的约束关系描述如下:

u:Di1×Di2×...×DikR+k,uC,DikD,ik{1,...n}---(1)

u称为代价函数或收益函数。以二元关系为例,对于ADCOPs求解目标是:

x*=argmaxΣdiDi,djDjuij(xi=di,xj=dj)=argmaxΣdiDi,djDj(ui(j)(xi=di,xj=dj)+u(i)j(xi=di,xj=dj))---(2)

其中ui(j),u(i)j:Di×Dj→R+,ui(j),u(i)j∈uij

公式(2)中ui(j)和u(i)j分别表示在xi与xj取相同赋值下,Agent和邻居Agent 得到的代价或收益,并且ui(j)和u(i)j是Agent和邻居Agent的私有信息,彼此不 共享。由于ADCOPs多用于多Agent系统的决策优化中,因此在实际应用中,决 策集合S={S1,S2,...,Sn}取代D作为实际值域集合。从上述公式可见,ADCOPs中具 有非对称关系的各Agent,虽然彼此影响,但各自的影响情况(代价或收益)是 不同的,并且该情况彼此不共享。很多有非对称关系的多Agent系统能较方便 地用ADCOPs建模,然而对ADCOPs的求解较困难。

发明内容

本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种 面向大规模多Agent系统的非对称分布式约束优化算法及系统。

为了实现本发明的上述目的,本发明提供了一种面向大规模多Agent系统 的非对称分布式约束优化算法,包括以下步骤:

S1,根据具有非对称关系的Agent构造约束图,令t=0,所述t为时刻;

S2,每个Agent随机选择状态信息si,t,根据约束图向邻居Agent发送所述 状态信息si,t,其中,i为Agent的序号,在本实施方式中,每个Agent随机选 择状态信息si,t是指:每个Agent的状态信息具有一个设定的取值范围,从这个 取值范围内随机选择一个状态信息si,t

S3,每个Agent接收到邻居Agent的状态信息sj,t后,所述每个Agent计算 初始最佳响应状态s'i,t+1后再计算增益信息GIi,t并将所述增益信息GIi,t发送到其邻 居Agent;

S4,每个Agent接收到所有邻居Agent的增益信息GIj,t及所有邻居Agent的 的状态信息si,t后,计算最佳响应s'i,t+1,计算最佳响应s'i,t+1的预测概率P并产生一 个随机概率Pm,如果Pm<P,则si,t+1=s'i,t+1;否则si,t+1=si,t

在分布式控制问题中,每个Agent与邻居Agent交换信息,然后自主地进 行优化决策,因此对其算法的设计主要在信息交换机制和各Agent的内部处理 上。本发明采用同步的信息交换机制,即各Agent发送完t时刻的个人决策信 息后,只有接收到全部邻居Agent在t时刻的个人决策信息后才进行内部新的 决策处理。

S5,计算状态信息si,t+1的状态出现频率如果则采用随机调度; 否则采用确定性调度,执行Agent的状态改变;发送si,t+1,令t=t+1;

S6,当t>tmax,结束算法,所述tmax为允许的最大时刻;否则返回步骤S3。

本发明适用于大规模多Agent的协调优化问题,可以解决有用户偏好以及 不确定环境下多Agent系统的优化控制。Agent通过网络连接,交换信息,相互 协作完成共同的任务。单独Agent只与有连接关系的Agent(邻居Agent)之间 进行信息共享,且个体Agent能根据自身的周围环境以及目标自主做出决策, 而不受其他Agent的限制。Agent与Agent之间存在竞争和合作关系,通过自身 协调来解决目标与行为之间的冲突。

在本发明的一种优选实施方式中,在步骤S3中,所述Agent i只接收邻居 Agent的状态信息sj,t,所述初始最佳响应s'i,t+1的计算方法为:

si,t+1=argmaxsiSif(si),

f(si)=Σjv(i)ξj×ui(j)(si,sj,t),

其中,ξj为ηj、0或1,所述ηj表示邻居Agent j在系统中的影响程度,ui(j)表示Agent的私有信息,Si表示Agent的状态信息集合,si是Si中的一个状态信 息,sj,t表示在t时刻邻居Agent j的状态信息,j表示Agent i的邻居Agent的 序号,v(i)表示Agent i的邻居集合。

在本发明的一种优选实施方式中,所述增益信息GIi,t的计算方法为:

GIi,t=ui(j)(si,t+1,sj,t)-ui(j)(si,t-sj,t)ui(j)(si,t-sj,t),jv(i),

其中,ui(j)表示Agent的私有信息,s'i,t+1表示初始最佳响应或最佳响应,sj,t 表示在t时刻邻居Agent j的状态信息,si,t表示在t时刻Agent的状态信息,j表 示Agent i的邻居Agent的序号,v(i)表Agent i的邻居集合。

本发明引入增益信息GIi,t能够有效地对决策进行预测。具有预测能力的 ADCOP近似算法新框架和相应算法,较好的解决Agent不完全信息的响应、双向 代价求解和个体收益的私密性等问题。

在本发明的一种优选实施方式中,所述最佳响应s'i,t+1的计算方法为:

si,t+1=argmaxsiSif(si),

f(si)=Σj=v(i)ξj×Ai,j(<si,sj,t>,<si,t,sj,t>)×ui(j)(si,sj,t)-IFi,t×Fsi,t+1t,

其中,ξj为ηj、0或1,所述ηj表示邻居Agentj在系统中的影响程度,Ai,j为 转移矩阵,Si是Agent的状态信息集合,si是Si中的一个状态信息,si,t是t时刻 Agent i的状态信息,sj,t是t时刻邻居Agent j的状态信息,IFi,t是影响因子,是状态出现频率。

在本发明的一种优选实施方式中,所述影响因子IFi,t的计算方法为:

IFi,t=Σjv(i)(ηj×GIj,t),

其中,j表示Agent i的邻居Agent的序号,v(i)表示Agent i的邻居集合, GIj,t是邻居Agent j的增益信息。

在本发明的一种优选实施方式中,所述状态出现频率的计算方法为:

Fsi,t+1t=1tΣτ=0t-1E{si,t+1=siτ},

E{si,t+1=siτ}=1,ifsi,t+1=siτ0,ifsi,t+1siτ

是agent i在0到t-1时刻出现过的状态信息,

如果采用随机调度,否则采用确定性调度。

在本发明的一种优选实施方式中,所述随机调度的方法:

当P>Pp时,Agent i执行最佳策略,其中,Pp为并发概率,Pp=t/tmax;否则 保持原来的策略。

在本发明的一种优选实施方式中,所述确定性调度的方法:

当GIi,t>GIj,t时,Agent i执行最佳策略;否则保持原来的策略。

在本发明的一种优选实施方式中,所述预测概率P的计算方法:

N={1,2,…,n}为Agent集合,对于有约束关系的Agent对,定义元组 CM=<Si,j,GIi,j,Ai,ji,j>,具体元素为:

Si,j={<si,sj>|si∈Si,sj∈Sj}是Agent i与j相关的状态对集合;

GIi,j={<GIi,GIj>}是状态对Si,j对应的增益对;

在时刻t,设<si,sj>状态下出现观测增益对P(Ot=<GIi,GIj>|Qt=<si,sj>)服从 student-t分布

T=O-μS/n,

其中,为观测增益对的样本均值,S为观测增益对的样本方差,由样本均 值及样本方差S构造变量x,x服从分布:

f(x)=Γ((<GIi,GIj>+1)/2)<GIi,GIj>πΓ(<GIi,GIj>/2)(1+x2/<GIi,GIj>)-(<GIi,GIj>+1)/2

其中,Ai,j是转移矩阵,Ai,j=[alk],

Λi,j是初始状态概率,Λi,j=i,j],λi,j=P(Qt=<si,sj>),

根据马尔可夫序列跳转至不同候选状态的预测概率:

P(Qt+1|Ot,Qt)=Πjv(i)P(Qt+!|Qtj).

每个Agent i将根据该联合概率给出的预测结果来决定自己在t+1时刻的策 略。

此外,由于增益对<GIi,GIj>的优劣是可知的,因此转移矩阵Ai,j的跳转方向 (系统变好或变坏)及跳转概率都可以确定,将Ai,j的跳转方向及概率大小反馈 到环境认知特征的构建中,能更准确地刻画当前环境下各状态的影响情况,从 而使系统状态不断地往好的方向前进。

对于该模型的参数求解,本发明利用Baum-Welch算法使模型和给定的观测 序列更加匹配。Baum-Welch算法采用递归的思想,使P(θ|O)达到局部极大, 最后得到模型参数。Baum-Welch算法思想类似EM算法,它可以从非完整数据集 中对参数进行最大似然估计,是一种非常简单实用的学习算法。这种方法可以 广泛地应用于处理缺损数据、截尾数据、带有噪声等不完全数据(incomplete  data)。除此之外,本发明中的观测数据序列较少,进一步减少了算法进行参 数估计的时间,提高模型求参的效率。

本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法 的系统,包括状态评估模块、决策选择模块、协调控制模块及Agent视野模块, 所述决策选择模块包括预测模型模块及策略生成模块;所述预测模型模块的输 出端与所述策略生成模块的输入端相连,所述预测模型模块用于对所述Agent 视野模块进行最佳响应状态预估并引导Agent做出最佳选择,所述策略生成模 块用于选出最佳响应状态的最佳策略;所述Agent视野模块的输入端接收邻居 Agent的通信信息I(t),所述Agent视野模块的输出端与所述状态评估模块的输 入端相连,所述状态评估模块的输出端与所述决策选择模块的输入端相连,所 述决策选择模块的输出端与所述协调控制模块的输出端相连,所述协调控制模 块的输出端发送通信信息I(t+1);所述Agent视野模块包括个体当前利益模块及 环境认知特征模块,所述个体当前利益模块用于对Agent及邻居Agent的状态 信息si,t及与Agent相关的转移矩阵A的采集,所述环境认知特征模块用于对影 响因子IFi,t及状态出现频率的采集;所述状态评估模块用于对时刻t收集到的 邻居Agent信息评估自己的最佳响应状态集合,所述协调控制模块用于协调邻 居Agent之间的行为,决定Agent是否要执行最佳策略或如何传递最佳策略。

综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明适用 于大规模多Agent的协调优化问题,可以解决有用户偏好以及不确定环境下多 Agent系统的优化控制并解决了Agent不完全信息的响应、双向代价求解和个体 收益的私密性等问题。

附图说明

图1是本发明Agent结构示意图。

图2是本发明Agent算法框架示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自 始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元 件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能 理解为对本发明的限制。

在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、 “下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、 “顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的 方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所 指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理 解为对本发明的限制。

在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、 “相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以 是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对 于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

本发明公开了一种面向大规模多Agent系统的非对称分布式约束优化算法 的系统,如图1所示,包括状态评估模块、决策选择模块、协调控制模块及Agent 视野模块,决策选择模块包括预测模型模块及策略生成模块;预测模型模块的 输出端与策略生成模块的输入端相连,预测模型模块用于对Agent视野模块进 行最佳响应状态预估并引导Agent做出最佳选择,策略生成模块用于选出最佳 响应状态的最佳策略;

Agent视野模块的输入端接收邻居Agent的通信信息I(t),Agent视野模块 的输出端与状态评估模块的输入端相连,状态评估模块的输出端与决策选择模 块的输入端相连,决策选择模块的输出端与协调控制模块的输出端相连,协调 控制模块的输出端发送通信信息I(t+1);

Agent视野模块包括个体当前利益模块及环境认知特征模块,个体当前利益 模块用于对Agent及邻居Agent的状态信息si,t及与Agent相关的转移矩阵A的 采集,环境认知特征模块用于对影响因子IFi,t及状态出现频率的采集;状态 评估模块用于对时刻t收集到的邻居Agent信息评估自己的最佳响应状态集合, 协调控制模块用于协调邻居Agent之间的行为,决定Agent是否要执行最佳策 略或如何传递最佳策略。

图1中状态评估模块是对时刻t收集到的邻居Agent信息评估自己的最佳 响应状态集合(Agent的邻居可能有1个或多个);决策选择模块负责选出最佳 策略;协调控制模块用于协调邻居Agent之间的行为,决定Agent是否要执行 最佳策略或如何传递最佳策略。为了解决ADCOPs的不完全信息响应,兼顾个人 利益和全局利益,本发明增加了Agent视野模块和预测模型模块。Agent视野模 块是Agent对自己和邻居的认知,在本发明中包括Agent当前状态、Agent收集 到的自己和邻居的历史信息,Agent的收益函数等。Agent视野模块是Agent感 知的外部世界,会随着信息的不断收集而变化。预测模型模块基于Agent视野 预估最佳响应执行对其它Agent的影响,引导Agent做出最佳选择。图1中I 表示Agent之间的通信信息,它影响着系统的稳定性和私密性。对于ADCOPs, 通信信息不能包含或推算出Agent的私有收益函数(矩阵)。预测模型随着变 化的Agent视野不断更新。Agent i预测模型PM描述如下:

PM(Viewi,t,s'i,t+1):Viewi,t→(s'i,t+1→[0,1])

其中,Viewi,t是Agent i在t时刻的视野,s'i,t+1表示状态评估后的最佳响应状 态,即下一时刻可能的最佳策略。

Agent视野包含个体当前利益和环境认知特征两类信息;个体当前利益主要 包括当前状态si,t、邻居Agent状态sj,t、与自己相关的约束收益函数(矩阵)。 环境认知特征表示Agent对全局利益的认知。由于全局信息是不可知的,因此 该特征只能通过邻居利益、邻居行为以及系统运行的可能规律来不断地感知可 能的全局特征;从历史和全局的角度,对Agent的每个状态做合理的评估。本 发明采用影响因子IFi,t、状态出现频率和预测选择中的转移矩阵Ai,j来表征环 境认知特征。

本发明提供了一种面向大规模多Agent系统的非对称分布式约束优化算法, 如图2所示,其包括以下步骤:

S1,根据具有非对称关系的Agent构造约束图,令t=0,t为时刻;

S2,每个Agent随机选择状态信息si,t,根据约束图向邻居Agent发送状态 信息si,t,i为Agent的序号。需要说明的是,Agent i为待计算Agent,其邻居 Agent为Agent j,其中,i,j均为正整数。

S3,每个Agent i接收到邻居Agentj的状态信息sj,t后,每个Agenti计算 初始最佳响应状态s'i,t+1后再计算增益信息GIi,t并将增益信息GIi,t发送到其邻居 Agent;在本实施方式中,初始最佳响应s’i,t+1的计算方法为:f(si)=Σjv(i)ξj×ui(j)(si,sj,t),

增益信息GIi,t的计算方法为:GIi,t=ui(j)(si,t+1,sj,t)-ui(j)(si,t-sj,t)ui(j)(si,t-sj,t),jv(i),

其中,ξj为ηj、0或1,ηj表示邻居Agent j在系统中的影响程度,ui(j)表示 Agent的私有信息,Si表示Agent的状态信息集合,si是Si中的一个状态信息,si,t表示在t时刻Agent i的状态信息,sj,t表示在t时刻邻居Agent j的状态信息, j表示Agent i的邻居Agent的序号,v(i)表示Agent i的邻居集合,s'i,t+1表示 初始最佳响应。

S4,每个Agent接收到所有邻居Agent的增益信息GIj,t及所有邻居Agent的 的状态信息sj,t后,计算最佳响应s'i,t+1,计算最佳响应s′i,t+1的预测概率P并产生一 个随机概率Pm,如果Pm<P,则si,t+1=s'i,t+1;否则si,t+1=si,t;在实施方式中,最佳响 应s'i,t+1的计算方法为:si,t+1=argmaxsiSif(si),

f(si)=Σj=v(i)ξj×Ai,j(<si,sj,t>,<si,t,sj,t>)×ui(j)(si,sj,t)-IFi,t×Fsi,t+1t,影响因子IFi,t的计算 方法为:IFi,t=Σjv(i)(ηj×GIj,t),

状态出现频率的计算方法为:

Fsi,t+1t=1tΣτ=0t-1E{si,t+1=siτ},E{si,t+1=siτ}=1,ifsi,t+1=siτ0,ifsi,t+1siτ

其中,Ai,j为转移矩阵,是agent i在0到t-1时刻出现过的状态信息。

S5,计算状态信息si,t+1的状态出现频率如果则采用随机调度; 否则采用确定性调度,执行Agent的状态改变;发送si,t+1,令t=t+1;在实施方 式中,状态出现频率的计算方法为:

Fsi,t+1t=1tΣτ=0t-1E{si,t+1=siτ},E{si,t+1=siτ}=1,ifsi,t+1=siτ0,ifsi,t+1siτ

其中,是agent i在0到t-1时刻出现过的状态信息,

在本实施方式中,随机调度方法为:当P>Pp时,Agent i执行最佳策略,其 中,Pp为并发概率,Pp=t/tmax;否则保持原来的策略;确定性调度的方法:当 GIi,t>GIj,t时,Agent i执行最佳策略;否则保持原来的策略。

S6,当t>tmax,结束算法,tmax为允许的最大时刻;否则返回步骤S3。

本发明不仅可以用于ADCOPs,也可用于DCOPs以及动态环境下的DCOPs。

在本发明的一种优选实施方式中,预测概率P的计算方法:

N={1,2,…,n}为Agent集合,对于有约束关系的Agent对,定义元组 CM=<Si,j,GIi,j,Ai,ji,j>,具体元素为:

Si,j={<si,sj>|si∈Si,sj∈Sj}是Agent i与j相关的状态对集合;

GIi,j={<GIi,GIj>}是状态对Si,j对应的增益对;

在时刻t,设<si,sj>状态下出现观测增益对P(Ot=<GIi,GIj>|Qt=<si,sj>)服从 student-t分布

T=O-μS/n,

其中,为观测增益对的样本均值,S为观测增益对的样本方差,由样本均 值及样本方差S构造变量x,x服从分布:

f(x)=Γ((<GIi,GIj>+1)/2)<GIi,GIj>πΓ(<GIi,GIj>/2)(1+x2/<GIi,GIj>)-(<GIi,GIj>+1)/2

其中,Ai,j是转移矩阵,Ai,j=[alk],

Λi,j是初始状态概率,Λi,j=[λi,j],λi,j=P(Qt=<si,sj>),

根据马尔可夫序列跳转至不同候选状态的预测概率:

P(Qt+1|Ot,Qt)=Πjv(i)P(Qt+!|Qtj).

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示 例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述 的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。 在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。 而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例 或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解: 在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、 替换和变型,本发明的范围由权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号