首页> 中国专利> 一种基于信赖域贝叶斯的大规模网络信号控制优化方法

一种基于信赖域贝叶斯的大规模网络信号控制优化方法

摘要

本发明属于智能交通信号控制的技术领域,具体为一种基于信赖域贝叶斯的大规模网络信号控制优化方法。该方法主要包含模型准备,信赖域贝叶斯优化和终止迭代三部分内容。其中,模型准备部分主要是构建大规模信号控制优化模型,获取先验训练集以及初始化信赖域;信赖域贝叶斯优化部分是基于模型准备部分得到先验数据集优化得到下一批采样点(多组信号配时方案),并将结果输入至微观交通仿真模型中运行得到多组交通评价目标函数值,之后通过终止迭代部分判断迭代是否终止优化。

著录项

  • 公开/公告号CN114970058A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN202210513971.0

  • 申请日2022-05-12

  • 分类号G06F30/18(2020.01);G06F30/27(2020.01);G06N7/00(2006.01);G06Q10/04(2012.01);G06Q50/30(2012.01);G08G1/01(2006.01);G08G1/081(2006.01);

  • 代理机构辽宁鸿文知识产权代理有限公司 21102;辽宁鸿文知识产权代理有限公司 21102;

  • 代理人许明章;王海波

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-06-19 16:36:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F30/18 专利申请号:2022105139710 申请日:20220512

    实质审查的生效

说明书

技术领域

本发明属于智能交通信号控制的技术领域,涉及信赖域贝叶斯优化算法领域以及区域交通网络信号优化方法,具体为一种基于信赖域贝叶斯的大规模网络信号控制优化方法。

背景技术

大规模区域信号控制优化一直是交通信号控制领域的一大难题。现有解决大规模网络信号控制优化问题的方法主要有三种:基于动态规划的方法、基于多智能体强化学习方法和基于仿真优化方法。如Zhang and Su在《An optimization model and trafficlight control scheme for heterogeneous traffic systems》中基于宏观模型和逻辑约束,将异构交通网络的信号优化问题设计成混合整数规划问题,并使用CPLEX或Gurobi进行求解;Chu等在《Multi-agent deep reinforcement learning for large-scale trafficsignal control》中基于深度强化学习提出了一个用于解决自适应信号控制的多智能体强化学习算法,通过大量数据学习的策略来推断所有协调交叉口的最佳联合信号配时方案;Osorio and Bierlaire在《A simulation-based optimization framework for urbantransportation problems》中使用低阶多项式近似和排队网络分析模型相结合的方法来表示绿信比与期望的出行时间之间的关系,最后采用基于元模型的信赖域优化算法获得最优解。

但是现有大规模网络信号控制优化方法存在以下问题:首先,基于分解的策略会导致搜索空间的局部化,无法获得全局空间的最优解。其次,现有的解析法无法很好地近似描述大规模信号控制问题的决策空间与环境系统状态之间的真实关系。最后,现有的基于学习的算法和优化算法需要大量的反馈数据或者几百上千次迭代才能获得满意的信号配时方案,往往会有很高的计算成本。

发明内容

针对现有方法存在的问题,本发明提出一种基于信赖域贝叶斯的大规模网络信号控制优化方法。基于现有的实际调查获得路网流量数据、原始信号配时方案和路网基础数据,使用微观交通仿真平台构建微观交通仿真模型;搭建大规模网络信号优化模型;设计基于微观交通仿真模型和信赖域贝叶斯优化算法的优化器,使用该优化器求解上述的大规模网络信号优化模型,直至获得大规模网络最优的信号配时方案。

本发明的技术方案:

一种基于信赖域贝叶斯的大规模网络信号控制优化方法,主要包含3个部分,分别为模型准备,信赖域贝叶斯优化和终止迭代。其中,模型准备部分主要是构建大规模信号控制优化模型,获取先验训练集以及初始化信赖域;信赖域贝叶斯优化部分是基于模型准备部分得到先验训练集优化得到下一批采样点(多组信号配时方案),并将结果输入至微观交通仿真模型中运行得到多组交通评价目标函数值,之后通过终止迭代部分判断迭代优化是否终止。微观交通仿真模型是基于可靠的道路网络基础数据、网络中车辆属性及车辆比例数据、信号配时方案数据和网络各路段分流向的流量数据输入至微观交通仿真平台(如VISSIM,SUMO)中构建得到的。

具体步骤如下:

步骤1.模型准备

模型准备主要包含2部分。一是大规模信号控制优化模型的构建;二是获取信赖域贝叶斯优化所需要的先验训练集,并初始化信赖域。

(1.1)构建大规模信号控制优化模型

大规模信号控制优化问题可以用一个普适性的大规模信号控制优化模型来表示。大规模信号控制优化模型使用交叉口各个相位的绿信比作为决策变量,变量限制条件参考信号控制通用标准,而各交叉口信号周期时间和相位结构及相位显示顺序预先设定,以及同一交叉口的所有相位的黄灯时间相同。该大规模网络信号控制优化模型用于获取信号配时方案,可用如下公式表示:

s.t.

x∈[lw,up] (3)其中,x表示交叉口绿信比,

为了衔接步骤(1.1)和步骤(1.2)以及后续的步骤2,需要将上述模型决策变量x转换成步骤(1.2)和后续步骤2中的信赖域贝叶斯的优化变量τ,即

(1.2)获取先验训练集和初始化信赖域

通过拉丁超立方体取样方法基于步骤(1.1)的模型选取t

步骤2.信赖域贝叶斯优化

(2.1)使用步骤(1.2)获得的先验训练集基于局部高斯过程回归模型拟合目标函数f与优化变量τ之间的关系。需要说明的是,局部高斯过程回归相较全局高斯过程回归不同的是,前者使用的数据集是基于信赖域局部空间取样获得的,后者是全局空间取样获得的。如此,便使得前者既能在局部空间保持较高的拟合准确度,又能保留在全局空间探索的信息,同时也能大幅度降低高斯过程回归的计算复杂度。具体过程如下:

将用于训练局部高斯过程回归模型的数据集记为D=D

f

其中f

其中λ表示长度超参数,λ=[λ

在训练高斯过程回归模型时,通过梯度法优化其边际似然函数的对数化形式,由此确定长度超参数λ的值,即:

其中-f

(2.2)基于步骤(2.1)训练好的高斯过程回归模型可以给出下一采样点τ

f(τ

其中均值和方差分别由下面公式(9)和公式(10)给出:

其中K

(2.3)更新当前迭代信赖域空间

信赖域的中心点为

(2.4)通过汤普森取样获得下一批取样点

在步骤(2.3)确定的信赖域空间中生成大小为min{100d,z}的随机样本M。其中z表示用户期望的选取样本大小。

基于随机样本M和步骤(2.2)获得的下一取样点的后验概率预测分布函数f

(2.5)评估下一批采样点

基于微观交通仿真模型和步骤(2.4)获得的下一批采样点Tcand平行同步运行微观交通仿真平台获得下一批采样点所对应的交通评价目标函数值,表示为

(2.6)更新成功计数器和失败计数器

判断本次迭代是否能找到更优解:若能找到,则成功计数器N

(2.7)更新信赖域基础边长

先对成功失败计数器进行条件判断:如果N

之后再对信赖域基础边长进行条件判断:如果信赖域基础边长L≥L

步骤3.终止迭代

终止条件用于终止整个优化过程以返回最优结果。终止条件有2个,第一个是微观仿真平台运行次数(控制计算成本),第二个是信赖域基础长度小于预设的最小值(即终止信赖域)。

如果iter>max_iter或者L

特别说明:

(1)信赖域贝叶斯优化是使用步骤(2.1)中的高斯过程回归来训练交通评价目标函数,而高斯过程回归的前提条件是所有拟合变量相互独立。而每个交叉口的绿灯持续时间又有周期时长的限制,所以使用信赖域贝叶斯优化的每个交叉口的变量数要比对应交叉口的总相位数少1。具体要优化某个交叉口的哪几个相位由使用者自行决定。

(2)t

为了更加清晰地展现上述过程,在图1中给出了信赖域贝叶斯优化流程。使用者可以利用本发明对大规模网络信号控制优化问题进行求解。当迭代达到终止迭代中设置的条件,就可获得网络最优的信号配时方案。本发明同样适用于无模型的场景(即完全脱离微观交通仿真平台和模型),即在实际条件允许的情况下,使用者可以在现实世界中选定一片实验区域,设定好该区域的信号配时方案,通过道路和交叉口安装的检测设备来获得一定时间内的交通评价数据来作为交通评价目标函数值。

本发明与现有技术相比,具有以下优势:

(1)本发明能够解决大规模区域网络信号优化问题。以往的方法主要集中于单点交叉口或者小范围多个交叉口的优化,由于交通网络流动性强、交互性强,这种小规模的信号控制优化,极易引起区域拥堵转移,导致实际效果较差。大规模网络级信号控制优化具有整体性,在提高交通网络整体通行效率方面有明显的优势。

(2)本发明中使用高维优化算法,既能大幅度降低计算成本又能保证求解结果的质量。以往的基于学习的方法(如强化学习)需要大量的反馈数据以及很长时间来训练智能体使其学习到最优的信号控制策略,并且每个智能体的探索都可能对其他智能体的策略产生影响,这将使算法很难稳定,学习速度慢,如此便使得这种方法计算成本非常高。对于新的不同的交通场景需要重新训练才能实现较好的优化效果,造成这种方法的计算成本进一步加大。另外,多智能体强化学习中智能体之间信息交互问题一直无法完全攻克,导致其对于全局的环境信息把握不够准确,如此对求解结果的质量会产生很大影响。而解析法由于无法完全准确拟合目标函数和决策变量之间的非线性关系(大规模网络信号控制问题属于黑匣子问题),导致其求解结果质量无法得到很好保障。同时,该方法所使用的优化算法往往迭代效率比较低。

附图说明

图1是本发明中信赖域贝叶斯优化流程图;

图2是实施例中大规模网络信号控制交叉口编号示意图;

图3是本发明实施例中构建的微观交通仿真模型示意图;

图4是实验中区域总延误时间随迭代次数的变化图。

具体实施方式

以下结合附图和技术方案,详细叙述本发明的具体实施方式,并模拟发明的实施效果。

本实施例通过以牡丹江市中心城区为案例进行验证,并对案例进行优化,最终可以得到最优的网络信号配时方案,该方案能够大幅度降低区域总延误时间。具体如下:

1.微观交通仿真模型构建

选取牡丹江市中心城区道路网络作为研究区域,该区域长1.6千米,宽1.5千米,包含130条路段共942车道。共61个信号控制交叉口,其中40个主干道信号控制交叉口和21个次干路信号控制交叉口。

通过牡丹江研究区域的流量视频获得各个信号控制交叉口进口道流量,主干道和次干路交叉口的车流量取早高峰7:00-8:00时间段。

通过与牡丹江市交通局协调获得研究区域早高峰7:00-8:00时间段运行的信号配时方案,这些信号控制交叉口的信号周期为55,60,62,66,70,76,85,90,99,100,105,110,114,117,120,125,140,或者180秒。总共有165个绿灯相位。黄灯持续时间统一设置为3秒。为了方便描述,对田字型网络中的交叉口进行了编号,具体如图2所示,其中将交叉口简写为IN。具体信号配时方案如下表:

表1网络原始信号配时方案

通过Openstreetmap获得研究区域道路网路基础数据,并结合原始信号配时方案和各信号控制交叉口的车流量,使用城市微观交通仿真软件(本实施例以SUMO为例)构建网络仿真模型,如图3所示。本实施例设置的仿真运行时间长度为2050秒,其中前800秒为仿真模型不稳定期,后1250秒为模型稳定期(即有效仿真时间)。运行仿真模型,通过记录统计有效仿真时间期间结果,获得区域总延误时间。仿真网络中同时存在的标准车最高可达7,500辆。

2.大规模网络信号控制优化模型建立

本实施例使用一个双层规划模型来表示大规模交通网络信号控制优化问题,从而构建大规模网络信号控制优化模型。具体而言,上层问题是基于下层微观交通仿真模型得到的网络交通流运行状态,确定最佳的信号配时方案,使交通评价目标函数达到最优。下层问题是在给定网络信号配时方案的情况下,模拟网络交通流的运行状态,即下层问题能够基于上述所构建的微观交通仿真模型返回目标函数值。

本实施例使用区域车辆总延误作为目标函数,预先设定各交叉口信号周期时间、相位结构和相位显示顺序,将绿信比作为决策变量。总计61个信号控制交叉口,有165个决策变量。参考中国信号控制通用标准,确定得到决策变量的限制条件。本实施例所使用的大规模网络信号控制优化模型公式如下:

s.t.

x∈[lw,up]

[R(x,C,S),V(x,C,S),P(x,C,S)]=Micro(x)

其中,x表示交叉口绿信比,

因此,信赖域贝叶斯的优化变量

3.求解模型

本发明中相关参数设置为t

通过本发明方法优化区域车辆总延误得到最优的信号配时方案,实验结果如图4所示。通过SUMO仿真运行网络初始信号配时方案,获得区域总延误时间为6,750,412秒。通过优化求解得到的区域总延误时间最小可达到6,384,502秒,相较初始网络信号配时方案降低了5.42%,其所对应的最优信号配时方案如下表2所示。

表2最优的信号控制配时方案

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号