法律状态公告日
法律状态信息
法律状态
2020-03-17
授权
授权
2018-05-04
实质审查的生效 IPC(主分类):H02J3/32 申请日:20171101
实质审查的生效
2018-04-10
公开
公开
技术领域
本发明涉及轨道交通的控制和节能技术,具体是一种基于强化学习的城轨交通地面式超级电容储能系统能量管理方法。
背景技术
在城轨交通牵引供电系统中,牵引变电所通常采用二十四脉波二极管整流,将10kV/35kVAC交流电转换成750V/1500V直流电,给线路列车提供牵引能量。由于二极管整流具有单向性,当列车制动,制动能量传递到牵引网,若附近没有牵引列车吸收,将使牵引网电压迅速抬升,引起制动电阻的启动和再生失效的发生。为了充分回收列车再生能量、减少再生失效和牵引网电压波动,在牵引变电所安装超级电容储能系统,如图1所示,超级电容通过双向DC/DC连接到牵引网,与整流机组相并联。
城轨交通超级电容储能系统通常采用基于牵引网电压的控制策略,包括工作模式选择和电压电流双闭环控制两部分,分别如图2(a)、(b)所示。首先设置储能系统的充电阈值uch和放电阈值uds,当列车牵引,储能系统所在变电所网压低于放电阈值,超级电容放电,通过电压电流双闭环控制将牵引网电压稳定在放电阈值;当列车制动,牵引网电压高于充电阈值,超级电容进入充电模式,回收列车的再生制动能量,并维持网压的稳定。为了保证储能系统稳定、正常地工作,分别在工作模式选择和电压电流双闭环控制中设置超级电容SOC和电流限幅,使其维持在允许范围之内。
现有技术的一种方案如图3所示,为固定充放电阈值的控制策略。首先设置储能系统的充电阈值uch和放电阈值uds,当列车牵引,储能系统所在变电所网压低于放电阈值,超级电容放电,通过电压电流双闭环控制将牵引网电压稳定在放电阈值;当列车制动,牵引网电压高于充电阈值,超级电容进入充电模式,回收列车的再生制动能量,并维持网压的稳定。这种方案的缺陷是:轨系统的交通条件存在多变性:根据每日不同时间段的客流差异,发车间隔根据运行图进行调整,使得线路列车密度发生改变;单车功率、停站时间存在一定的随机性,因此多车整体工况与运行图存在一定偏差;随着城市用电负荷的变化,变电所空载电压发生缓慢的波动,影响变电所与储能系统之间的能量分配。而现有技术一采用固定阈值的控制策略,无法适应交通条件的变化、维持良好的节能稳压效果;无法在节能稳压效果欠佳时进行在线调整,改善控制效果。
现有技术的另一种方案如图4所示,基于特定的双车行驶过程,把储能系统控制优化问题看做一个经典变分问题,在约束条件中考虑等周约束,求得解析解。这种方案的缺陷是:城市轨道交通牵引供电系统是一个复杂的非线性时变网络,难以对其精确建模,求解储能系统的理论最优控制策略存在较大的困难,并且由于模型偏差难以获得最优控制效果。此外,现有技术二得到的优化结果仅仅针对特定的运行过程,不能适用于线路列车运行工况、发车间隔不断变化的实际情景。
发明内容
本发明所要解决的技术问题是,提供一种基于强化学习的城轨交通地面式超级电容储能系统能量管理方法,能够在城轨牵引供电网复杂时变、难以精确建模的情况下,对超级电容储能系统控制策略进行在线学习,实现节能效果和稳压效果的优化;提出基于强化学习的储能系统能量管理方法,作为一种创新的节能稳压效果优化方法。
本发明的基于强化学习的城轨交通地面式超级电容储能系统能量管理方法,包括策略网络初始化和在线学习两部分;其中策略网络初始化部分利用城轨交通中已知的线路、车辆信息、事先编制的列车运行图,以及实际采集的历史车辆数据,建立多车运行场景模型;将多车运行场景模型、空载电压预测模型、直流供电潮流计算算法和近似动态规划算法结合,离线求解储能系统最优控制问题,得到策略网络,作为在线学习模块的初值;在线学习模块采用无模型强化学习算法,通过超级电容智能代理试错的方法进行充放电阈值在线调整,使储能系统的节能稳压效果得到优化和改善。
进一步的,所述多车运行场景模型,是将储能系统附近多车运行的整体工况用LSTM网络进行预测:首先基于已知的线路、车辆参数和列车运行图进行牵引计算,得到单列车的速度-时间(V-t)、功率-时间(P-t)和位移-时间(S-t)序列,在全天列车运行图的不同时段进行序列采样(序列长度为所在时段的发车间隔时间),得到多车运行场景序列,如式(1)所示;
x(t)=[s1,p1,s2,p2,s3,p3,s4,p4]>
基于得到的序列数据初始化训练LSTM网络;然后再根据长期记录的实际列车历史运行数据对网络参数进行调整,使其更加精确地预测实际列车工况。
进一步的,所述空载电压预测模型,是通过记录变电所整流机组电流从0变为正值时刻的输出电压为该时段变电所空载电压,得到全天变电所空载电压变化曲线,用LSTM网络进行拟合。
进一步的,所述策略网络初始化是:
超级电容储能系统的优化控制策略,表示成式(2)的形式:
式中,u(t)为决策变量,u(t)=[uch(t),uds(t)];
J为控制目标,本文综合考虑储能系统的节能和稳压效果,将其定义为节能率e%和网压改善率v%的加权和,ω为权重系数。e%和v%的计算公式分别如式(3)、(4)所示:
式(3)中,
进一步的,所述在线学习模块是:
将超级电容能量管理系统视为学习和决策的代理,整个牵引供电系统视为代理所处的环境;代理通过通信获取线路列车运行状态、变电所状态和自身SOC状态,执行相应的动作,从而影响环境状态并使得环境生成反映节能、稳压效果的奖励信号;代理获得反馈的奖励信号后对动作进行改进,通过与环境交互和试错的机制实现序贯决策的优化;包括:
(a)状态s,包括各个列车的位移dk、功率pk,其中k表示第k辆列车,还包括超级电容SOC状态和变电所状态,即整流机组电流从0变为正值时刻的输出电压ues;即:
s=[d1,p1,…,dN,pN,soc,ues]>
状态集合S为各个列车状态集合Straink、SOC状态集合SSOC和变电所状态Ssub的直积,如式(6)所示;
S=Strain1×Strain2×…StrainN×Ssoc×Ssub>
(b)动作a与策略π,储能系统动作a定义为充放电阈值的组合,即a=[uds,uch];策略π定义了代理的行为,是状态集合S到动作集合A的映射:π:S→A;
(c)奖励r,奖励信号是环境对代理动作的反馈,代理学习的目标即获得最大累积奖励;定义代理的奖励为时间步长ΔT内节能率、电压改善率加权和的增量,其中权重系数ω取为0.5,如式(7)所示
r=-0.5·Δv%-0.5·Δe% (7);
累积奖励与储能系统控制目标J满足关系式(8);
J=1+r1+r2+…+rT>
本发明的优点体现在:
(1)基于强化学习算法,超级电容储能系统对充放电阈值进行动态调整,实现不同发车间隔、空载电压等交通条件下节能、稳压效果的在线优化;
(2)基于城轨车辆、线路、运行图信息及历史运行数据进行策略网络初始化,从而提高在线学习算法的学习效率;
附图说明
图1是现有技术的城轨交通地面式超级电容储能系统示意图;
图2是现有技术的基于电压阈值的超级电容控制策略示意图;
图3是现有技术的固定充放电阈值控制策略示意图;
图4是现有技术的储能系统解析最优控制方法示意图;
图5是本发明的基于强化学习的储能系统能量管理方法示意图;
图6是本发明实施例中多车运行场景模型的原理示意图;
图7是本发明实施例中超级电容强化学习模型的原理示意图;
图8是本发明实施例中确定性策略梯度方法的伪码图。
具体实施方式
本专利提出基于强化学习的城轨交通地面式超级电容储能系统能量管理策略,由策略网络初始化模块和在线学习模块两部分组成,如图5所示。其中策略网络初始化部分充分利用城轨交通中已知的线路、车辆信息、事先编制的列车运行图,以及实际采集的历史车辆数据,建立多车运行场景模型;将多车运行场景模型、空载电压预测模型、直流供电潮流计算算法和近似动态规划算法结合,离线求解储能系统最优控制问题,得到策略网络,作为在线学习模块的初值。由于仿真模型和实际存在一定偏差,并考虑实际运行条件的变化,在在线学习模块采用无模型强化学习算法,通过超级电容智能代理“试错”的机制进行充放电阈值在线调整,使储能系统的节能稳压效果得到优化和改善。
(1)多车运行场景模型
图6为本专利的多车运行场景模型,将储能系统附近多车运行的整体工况用LSTM网络进行预测。首先基于已知的线路、车辆参数和列车运行图进行牵引计算,得到单列车的速度-时间(V-t)、功率-时间(P-t)和位移-时间(S-t)序列,在全天列车运行图的不同时段进行序列采样(序列长度为所在时段的发车间隔时间),得到多车运行场景序列,如式(1)所示。本实施例中考虑的列车为位于储能系统相邻两变电所之间线路区间的列车。基于得到的序列数据初始化训练LSTM网络;然后再根据长期记录的实际列车历史运行数据对网络参数进行调整,使其更加精确地预测实际列车工况。
x(t)=[s1,p1,s2,p2,s3,p3,s4,p4]>
(2)空载电压预测模型
由于城市用电负荷在全天发生较大的变化,变电所空载电压存在波动,影响储能系统的节能稳压效果。本专利通过记录变电所整流机组电流从0变为正值时刻的输出电压为该时段变电所空载电压,得到全天变电所空载电压变化曲线,用LSTM网络进行拟合。
(3)策略网络初始化
超级电容储能系统的优化控制策略设计是一个序贯决策优化问题,可表示成式(2)的形式:
式中,u(t)为决策变量,本文中为储能系统充放电阈值,即u(t)=[uch(t),uds(t)]。约束条件包含了牵引供电系统的电路方程约束和储能系统的工作条件(电流、SOC)约束。为保证系统运行的稳定性和可靠性,通过图2中的工作模式选择和双环控制进行约束。
J为控制目标,本文综合考虑储能系统的节能和稳压效果,将其定义为节能率e%和网压改善率v%的加权和,ω为权重系数。e%和v%的计算公式分别如式(3)、(4)所示:
式(3)中,
在策略网络初始化模块,该控制优化问题求解通过直流潮流解析算法与近似动态规划算法结合实现;而在在线学习模块,采用无模型强化学习算法,基于“尝试与失败”机制,学习代理通过与环境交互、得到评价性的反馈信号来获取经验,进行策略改进,最终实现序贯决策的优化。为了加快在线学习速度,在线学习模块以离线求得的策略网络为初值。
(4)在线学习模块(超级电容强化学习模型)
图7为超级电容强化学习模型的原理框图。将超级电容能量管理系统视为学习和决策的代理,整个牵引供电系统视为代理所处的环境。代理通过通信获取线路列车运行状态、变电所状态和自身SOC状态,执行相应的动作,从而影响环境状态并使得环境生成反映节能、稳压效果的奖励信号;代理获得反馈的奖励信号后对动作进行改进,通过与环境交互和试错的机制实现序贯决策的优化。
(a)状态s。包括各个列车状态(位移dk、功率pk,其中k表示第k辆列车)、超级电容状态(超级电容SOC)和变电所状态(整流机组电流从0变为正值时刻的输出电压ues)。即:
s=[d1,p1,…,dN,pN,soc,ues]>
因此,状态集合S为各个列车状态集合Straink、SOC状态集合SSOC和变电所状态Ssub的直积,如式(6)所示。
S=Strain1×Strain2×…StrainN×Ssoc×Ssub>
(b)动作a与策略π。储能系统动作a定义为充放电阈值的组合,即a=[uds,uch];策略π定义了代理的行为,是状态集合S到动作集合A的映射:π:S→A。
(c)奖励r。奖励信号是环境对代理动作的反馈,代理学习的目标即获得最大累积奖励。本文定义代理的奖励为时间步长ΔT内节能率、电压改善率加权和的增量,其中权重系数ω取为0.5,如式(7)所示
r=-0.5·Δv%-0.5·Δe% (7)
因此,累积奖励与储能系统控制目标J满足关系式(8)。代理根据超级电容以及列车状态,获得关于稳压、节能率的奖励信号,并以此为依据对充放电阈值进行改进,最终得到最优策略π*,使累积奖励最大化的过程即通过与环境交互的方式解决储能系统的最优控制问题(2),使控制目标J达到最优。
J=1+r1+r2+…+rT>
超级电容储能系统在线学习算法采用深度确定性策略梯度(DDPG)算法,基于Actor-critic(AC)的学习框架,分别用策略网络和值网络逼近策略和值函数,可以实现连续动作空间控制,并且相比于随机策略,需要采样的数据少,算法效率高,因此适用于超级电容充放电阈值连续调整,有利于提高在线学习效率。
确定性策略梯度方法的伪码如图8所示,为了解决深度神经网络进行函数逼近时强化学习算法常常不稳定的问题,采用经验回放和独立的目标网络。
机译: 基于超级电容储能的光伏发电虚拟惯性补偿系统和方法
机译: 具有超级电容器(超级电容器)的动力系统中的能量和功率管理方法
机译: 具有超级电容器(超级电容器)的动力系统中的能量和功率管理方法