公开/公告号CN113824116A
专利类型发明专利
公开/公告日2021-12-21
原文格式PDF
申请/专利权人 国网江西省电力有限公司电力科学研究院;国家电网有限公司;
申请/专利号CN202111411829.7
申请日2021-11-25
分类号H02J3/00(20060101);H02J3/46(20060101);G06Q10/06(20120101);G06Q50/06(20120101);
代理机构36137 南昌丰择知识产权代理事务所(普通合伙);
代理人吴称生
地址 330096 江西省南昌市高新区民营科技园民强路88号
入库时间 2023-06-19 13:46:35
法律状态公告日
法律状态信息
法律状态
2022-03-11
授权
发明专利权授予
技术领域
本发明属于输配电技术领域,涉及一种基于混合时间尺度DRL的综合能源在线调度方法。
背景技术
综合能源系统(IES)能够有效地对多种能源进行梯级利用,大力促进新能源消纳,是实现“双碳”目标的重要方向。IES优化调度是实现系统中多种能源供需平衡的前提。调度过程中主要面临以下困难:第一,可再生能源的间歇性、波动性以及负荷预测的误差所造成的源荷不确定性,给IES优化调度带来了极大的挑战。第二,IES中气和热的传输速度远小于电能传输,电力系统达到稳态时气和热还处于动态过程,不同子系统的调度时间尺度不一致增加了IES调度难度。
针对源荷不确定性的处理方法主要有随机优化和鲁棒优化。有文献采用鲁棒优化处理源侧风电不确定性,并采用随机优化处理负荷不确定性。但是鲁棒优化方法是一类基于区间扰动信息的不确定性决策方法,由于考虑了最差场景下的最优解,造成结果可能较为保守。而随机优化方法一般需要先假设随机变量的概率分布,其性能严重依赖建模者的技能和经验,导致对不确定性的刻画不够精确。
近年来,深度强化学习(DRL)凭借其能够避免对复杂的不确定性进行建模,并自适应不确定性的优点,吸引了大量研究人员的关注。在电力领域,已有部分研究应用DRL方法来解决IES的优化调度问题。然而DRL方法在进行能量管理时需将动作空间离散化,随着离散化精度的增加容易出现动作空间维度灾难。为了避免出现这一问题,一些学者将目光投向连续动作空间下的DRL方法。有文献基于SAC算法实现多场景下的电-气综合能源系统优化调度决策,将源荷不确定性近似为某种确定的数学概率分布,叠加概率分布来模拟历史数据,进而对智能体进行训练。还有文献提出一种双层强化学习方法对多能园区进行实时经济调度。还有文献基于近端策略优化算法实现对电热综合能源系统中风电的动态能量转化。还有文献基于深度确定性策略梯度算法对综合能源系统进行动态经济调度。以上研究中均表明DRL方法无需对源荷不确定性进行建模,并能对该不确定性做出动态响应。
然而,现有文献对IES优化调度的研究都基于单一时间尺度,忽视了实际过程中不同能源系统调度时间尺度的差异。由此差异性造成在同一时刻下的不同能源系统状态变量维度不一致,并且IES无法应对多重状态变量维度的缺陷,进而导致DRL方法难以处理多时间尺度的优化问题。
发明内容
为了补充DRL应用于IES多时间尺度优化调度研究的空缺,本发明提出了一种基于混合时间尺度DRL的综合能源在线调度方法。首先将多时间尺度同步协调为混合时间尺度,建立混合时间尺度IES环境经济调度模型;然后针对多时间尺度下电热状态变量维度不一致的问题,结合混合时间尺度IES调度模型,提出一种新型的混合时间尺度DRL方法,分别定义混合时间尺度状态空间、混合时间尺度动作空间以及环境经济归一化奖励函数;采用近端策略优化(Proximal Policy Optimization,PPO)算法,可达到根据环境实时反馈信息做出在线调度决策。最后结合算例分析,验证混合时间尺度DRL方法对IES在线环境经济调度的有效性,并与日前优化、实时优化和单一时间尺度DRL方法进行对比,证明了本发明的优越性。
本发明通过下述技术方案来实现,一种基于混合时间尺度DRL的综合能源在线调度方法,步骤如下:
步骤一、构建综合能源系统的热电联产机组模型、电锅炉模型、燃气锅炉模型;
步骤二、将多时间尺度同步协调为混合时间尺度,建立混合时间尺度IES环境经济调度模型;
步骤三、分别定义混合时间尺度状态空间、混合时间尺度动作空间以及环境经济归一化奖励函数;
步骤四、采用近端策略优化算法实现基于混合时间尺度实时反馈的在线决策。
更具体地是,步骤一中,定义电力系统调度时间尺度为
热电联产机组模型表示为:
式中,
电锅炉模型表示为:
式中,
燃气锅炉模型表示为:
式中,
更具体地是,步骤二中,将热力系统的长时间尺度作为混合时间尺度,并以此来进行混合时间尺度下的综合能源系统优化调度;调度过程中混合时间尺度下的能量关系如式(4)所示。
式中,
更具体地是,步骤二中,混合时间尺度IES环境经济调度模型包括经济性调度目标、碳排放调度目标和约束条件,约束条件包括能量平衡约束和风光出力上下限约束;
经济性调度目标的目标函数为:
式中:
碳排放调度目标的目标函数为:
式中:
能量平衡约束表示为:
式中:
风光出力上下限约束表示为:
式中:
更具体地是,步骤三中,混合时间尺度状态空间如式(11)所示:
式中,
更具体地是,步骤三中,动作机组的调度时间尺度分别与电热调度时间尺度相同, 假设共有
式中,向量
动作机组设置为风电机组、光伏机组、热电联产机组和电锅炉;为了在动作设计上更好的切合IES环境的约束条件,对4种动作机组进行分类设计,且动作值的范围为[-1,1];
对于风电机组和光伏机组,其下一时刻的出力值为对应动作的绝对值乘上状态中的预测信息,满足了风光出力上下限约束:
式中,
对于热电联产机组和电锅炉,下一时刻的出力为当前时刻的出力加上其动作值乘于爬坡率,在满足其爬坡约束的同时将其限制在机组出力上下限范围内,如式(14)所示:
式中:
更具体地是,步骤三中,IES环境经济调度的目标为最小化成本和碳污染排放,首先将两个目标进行归一化处理,再采用加权法将多目标优化问题转化为单目标优化;为提升训练速度,在环境经济归一化奖励函数中加入热平衡机组越限惩罚,归一化后的环境经济归一化奖励函数为:
式中:
更具体地是,步骤四中,连续动作空间下的DRL算法可以分为确定性策略和随机性 策略;随机策略是根据状态
传统策略梯度优化算法的目标函数为:
式中,
PPO算法通过重要性采样方法,设定上一次迭代时的旧策略与环境互动,用旧策略收集到的轨迹去训练当前迭代的策略,使得训练更新时不会过于发散,重要性采样因子公式如下所示:
为了限制新旧策略更新距离,避免算法因为更新过大导致不稳定,PPO算法将
式中,第一项为原来的目标函数,第二项为裁剪后将重要采样因子作为优化目标,将重要采样因子限制在一定范围内从而降低优化目标的上下限;
PPO算法与IES环境进行交互,用历史数据来进行训练,训练过程中不断更新DRL算法参数并存储在缓存库中,训练结束后保存DRL模型以提供混合时间尺度下的在线调度策略。
本发明首先对不同时间尺度的能流进行同步协调,建立混合时间尺度下的综合能源系统环境经济调度模型;然后针对多时间尺度下状态变量维度不统一而无法适应马尔可夫决策过程的问题,构建了IES混合时间尺度在线环境经济调度方法,分别定义了混合时间尺度状态空间、动作空间以及环境经济归一化奖励函数;最终采用近端策略优化算法实现基于混合时间尺度实时反馈的在线决策。本发明对IES在线环境经济调度的有效性,克服了IES无法应对多重状态变量维度的缺陷,进而导致DRL方法难以处理多时间尺度的优化问题。
本发明基于DRL的前沿算法PPO算法,通过设计智能体混合时间尺度下的状态空间、动作空间以及环境经济奖励函数,构建DRL解决IES多时间尺度的在线环境经济调度问题的桥梁,具有以下优点:
1)应用DRL解决IES环境经济调度问题,为推进“双碳”目标提供可行性方案。
2)针对DRL方法难以解决多时间尺度下的优化调度问题,本发明拟将多时间尺度同步协调为混合时间尺度,填补了DRL方法应用在多时间尺度优化调度的空缺。
3)本发明设计的混合时间尺度DRL智能体动作空间能够更好的契合实际环境中约束条件,满足动作机组的动态特性。
4)训练好的智能体能够在线响应供需双方的动态变化,实时给出优化调度方案。
5)与日前优化调度方法相比,本文所提混合时间尺度优化调度方法能够利用更加精准的预测信息,达到更好的调度结果。
6)与实时优化调度方法相比,本文所提混合时间尺度优化调度方法是以整体最优目标为导向给出的调度方案,具有更佳的全局性。
7)与单一时间尺度DRL优化调度方法相比,本文所提混合时间尺度DRL优化调度方法能够在不同能流时间尺度内达到实时平衡,更加符合实际调度需求。
具体实施方式
一种基于混合时间尺度DRL的综合能源在线调度方法,步骤如下:
步骤一、构建综合能源系统的热电联产(CHP)机组模型、电锅炉(EB)模型、燃气锅 炉(GB)模型;综合能源系统由电力系统、热力系统和实现能源转换的耦合元件组成。PV表示 风电机组、WT表示光伏机组,耦合元件有热电联产(CHP)机组和电锅炉(EB),上级电网和燃 气锅炉(GB)分别连接到电热系统的平衡节点上。由于电热系统调度时间尺度的不同,分别 定义电力系统调度时间尺度为
(1)热电联产(CHP)机组模型
热电联产(CHP)机组耦合电力系统和热力系统,一般采用以热定电模式,调度时间尺度与电力系统调度时间尺度一致。
式中,
(2)电锅炉(EB)模型
电锅炉通过消耗电能来提供热能,其调度时间尺度与电力系统调度时间尺度一致。
式中,
(3)燃气锅炉(GB)模型
将燃气锅炉作为热力系统的平衡机组,故不考虑其爬坡约束,燃气锅炉调度时间尺度与热力系统调度时间尺度一致。
式中,
步骤二、将多时间尺度同步协调为混合时间尺度,建立混合时间尺度IES环境经济调度模型;
在包含多种能流系统参与的综合能源系统(IES)中,不同能流的动态过程具有明显的差异性。电力系统和热力系统对调度指令的响应速度各不相同,其中电力系统调度周期通常较短,通常为5分钟或者15分钟;而热力系统调度周期较长,通常为45分钟甚至1小时。在综合能源系统(IES)调度周期选取上,目前较为常规的单一时间尺度只能在固定时间尺度下达到功率平衡,无法顾及到更加细分的电热子系统调度时间尺度内的实时平衡。如何选取合适的综合能源系统(IES)调度时间尺度,实现电热子系统调度周期内的实时功率平衡,是目前亟需解决的问题。
本发明将热力系统的长时间尺度作为混合时间尺度,并以此来进行混合时间尺度下的综合能源系统(IES)优化调度。调度过程中混合时间尺度下的能量关系如式(4)所示。
式中,
假设电力系统调度时间尺度为15min,热力系统调度时间尺度60min。对于单一时间尺度优化调度而言,调度人员需要在单一时间尺度60min的间隔给出一次调度指令,每隔60min电热出力矩形面积分别与负荷曲线对应的曲面面积相等,以达到60min时间尺度下的电热功率平衡。然而这种做法忽略了实际负荷曲线的变化过程,无法做到电热调度时间尺度内的实时功率平衡。为此,依据本文提出混合时间尺度调度方法,在混合尺度下调度人员分别对电热调度时间尺度下的调控设备分别给出4和1个控制指令,进行时序控制以满足电热功率在各自调度时间尺度内达到平衡。
混合时间尺度IES环境经济调度模型
在满足系统和单元运行约束的前提下,使得系统经济性调度目标和碳排放调度目标同时达到最优,给出以下环境经济调度的数学模型。
1)经济性调度目标
系统经济性调度目标函数为系统的最小运行成本。在风电、光伏机组运行成本为零的假设下,不考虑机组的启停成本和维护成本,只考虑与电网购电量成本和从天然气源的购气成本。则该模型的目标函数为:
式中:
2)碳排放调度目标
碳排放调度目标旨在最小化含碳污染气体排放总量,碳排放调度目标的目标函数为:
式中:
约束条件
1)能量平衡约束
式中:
2)风光出力上下限约束
式中:
电热系统调度时间尺度的不一致导致IES多时间尺度下的状态变量维度无法统 一,间接造成无法适应马尔可夫决策过程。因此,本发明将多时间尺度同步协调为混合时间 尺度,使得混合时间尺度下的电热系统状态变量维度一致,为DRL适应多时间尺度下的优化 调度提供了有效方法。通过观察环境状态,采取“试错”的动作不断地与环境进行交互,得到 下一步状态和奖励,并以最大化奖励为导向对强化学习模型参数不断更新,进而实现自我 学习。这种自我学习方式一般可通过马尔可夫决策过程(MDP)来进行描述,通常将马尔可夫 决策过程(MDP)定义为一个五元组
步骤三、分别定义混合时间尺度状态空间、混合时间尺度动作空间以及环境经济归一化奖励函数。
混合时间尺度状态空间
IES环境中已知的信息包含了各机组运行参数、风电、光伏、电热负荷的预测信息、分时电价和各动作机组的出力大小。混合时间尺度状态空间如式(11)所示。
式中,
混合时间尺度动作空间
动作机组的调度时间尺度分别与电热调度时间尺度相同,假设共有
式中,向量
本发明中动作机组设置为风电机组、光伏机组、热电联产机组和电锅炉。为了在动作设计上更好的切合IES环境的约束条件,对4种动作机组进行分类设计,且动作值的范围为[-1,1]。
对于风电机组和光伏机组,其下一时刻的出力值为对应动作的绝对值乘上状态中的预测信息,满足了风光出力上下限约束:
式中,
对于热电联产机组和电锅炉,下一时刻的出力为当前时刻的出力加上其动作值乘于爬坡率,在满足其爬坡约束的同时将其限制在机组出力上下限范围内,如式(14)所示。
式中:
环境经济归一化奖励函数
IES环境经济调度的目标为最小化成本和碳污染排放,首先将两个目标进行归一化处理,再采用加权法将多目标优化问题转化为单目标优化。为提升训练速度,在环境经济归一化奖励函数中加入热平衡机组越限惩罚,归一化后的环境经济归一化奖励函数为:
式中:
步骤四、采用近端策略优化算法实现基于混合时间尺度实时反馈的在线决策。
连续动作空间下的DRL算法可以分为确定性策略和随机性策略。本发明采用的近 端策略优化(PPO)算法是基于actor-critic框架的随机性策略算法,不同于确定性策略的 是,随机策略是根据状态
传统策略梯度优化算法的目标函数为:
式中,
PPO算法是策略梯度下降算法的改进算法。梯度下降算法在每一次参数更新时都要重新采用,导致算法参数更新缓慢。为解决此问题,PPO算法通过重要性采样方法,设定上一次迭代时的旧策略与环境互动,用旧策略收集到的轨迹去训练当前迭代的策略,使得训练更新时不会过于发散,重要性采样因子公式如下所示:
为了限制新旧策略更新距离,避免算法因为更新过大导致不稳定,PPO算法将
式中,第一项为原来的目标函数,第二项为裁剪后将重要采样因子作为优化目标,将重要采样因子限制在一定范围内从而降低优化目标的上下限。
本发明中PPO算法与IES环境进行交互,用历史数据来进行训练,训练过程中不断更新算法参数并存储在缓存库中,训练结束后保存DRL模型以提供混合时间尺度下的在线调度策略。
混合时间尺度下在线优化调度流程
DRL采用“离线训练,在线测试”的模式,为其应用在混合时间尺度下在线优化调度提供了可行性思路。基于混合时间尺度和PPO算法的在线优化调度流程如表1所示。
在“离线训练”环节,依托历史数据,不断更新actor网络和critic网络参数,训练结束后保存PPO算法智能体,以便实施“在线调度”环节;“在线调度”环节中,调度员输入混合时间尺度下当前时刻的实时负荷数据以及实时出力信息到DRL模型,DRL模型通过这些信息预见到调度日结束时各个时刻的状态,然后根据这一系列状态并以全局奖励最优为导向给出当前时刻的最佳调度方案。
基于混合时间尺度DRL的在线优化调度结合了日前优化调度的全局性和实时优化调度的最新信息,并在毫秒级给出调度方案,具有全局性、自适应不确定性和实时性的优点。
机译: 基于无线系统中的调度的深增强学习(DRL)的方法和系统
机译: CGMM MVDR一种MVDR波束形成器,使用基于基于递归最小二乘的在线复杂高斯混合模型的导引矢量估计器
机译: 一种用于在线市场的系统和方法,其利用定价模型和调度来将消费者与商业人士联系起来。