首页> 中国专利> 一种基于最大熵离线式的能源存储与负载的优化方法

一种基于最大熵离线式的能源存储与负载的优化方法

摘要

本发明公开了一种基于最大熵离线式的能源存储与负载的优化方法,包括创建行动者神经网络和评论家神经网络,并初始化行动者网络参数和评论家网络参数;通过行动者神经网络对能源系统的系统状态信息进行训练,得到能源调度方法;通过评论家神经网络对能源系统的运行反馈信息和能源调度方法进行训练,得到评估信息;在熵约束参数的约束下,根据评估信息对行动者网络参数、评论家网络参数及存储‑能效约束参数进行优化;基于优化后的行动者网络参数和评论家网络参数重复训练,直至得到的能源调度方法满足优化目标。本发明基于软行动者‑评论家方法能够自动与环境进行交互,动态优化更新能源调度方法,满足能源的存储与不同负荷的需求之间的负载均衡。

著录项

说明书

技术领域

本发明涉及能源领域,特别涉及一种基于最大熵离线式的能源存储与负载的优化方法。

背景技术

当前各种基础能源设备的利用率较低,不同种类负荷之间的需求存在明显的错峰现象。由于各个能源供应系统之间独立运行,各系统只能根据自身的峰值负荷进行设计和施工,导致设备利用率低,加大了运行维护费用,增加了社会的整体运行成本,同时也导致总体的能源效率降低,加重了对环境的污染。

构建清洁低碳、安全高效的综合能源体系是我国重点建设和发展的方向。综合能源体系既包含多样的能源供应体系,同时也包含消费端不同种类的能源需求。其中,综合的含义不仅意味着通过供能侧不同形式能源之间的互补协调来提升总体的能源效率,也意味着将能源设备与信息系统、调度中心相连接以实现相应的调度规划。同时,通过调度中心,能源系统得以与其它部门例如交通系统与经济系统相互协调,从而地提升各自的健壮性,保证总系统的安全性。

存储优化是提升能源系统效率的重要手段之一,它涉及到不同能源存储与释放的能效问题。传统的优化方法通常基于多目标优化或者线性规划,但一般只能应用于较小规模的能源系统中。随着整个能源网络规模的不断扩大,系统的复杂度也在急剧上升,传统的优化方法不再适用。具体来说,传统求解方法存在以下不足:

1.多目标优化的结果不唯一,无法确定不同目标之间的比重,可能无法得到符合要求的能源调度方法。

2.当能源系统网络的规模不断扩大,传统的线性规划模型将遇到维数灾难的问题。

3.传统的求解方法无法根据能源系统状态的变化动态调整生成的能源调度方法。

发明内容

鉴于以上内容,有必要提供一种基于最大熵离线式的能源存储与负载的优化方法,同时考虑了供能侧与用能侧,在满足能源系统各种存储能力约束的同时,能够根据不同的负荷需求状态动态地给出一个最优负载均衡方法,本发明提供的技术方案如下:

本发明提供了一种基于最大熵离线式的能源存储与负载的优化方法,用于对能源系统的能源调度方法进行优化,优化方法的主要目标是在能源剩余时加以存储避免浪费,在能源不足时利用其它形式存储的能源加以补充以满足用户要求,包括用电负荷、冷\热负荷以及天然气负荷等。方法中的约束包括系统的能源效率,调度时的能量损耗以及不同形式能源的装机容量等。利用拉格朗日方法将约束问题转化为等价的无约束问题,然后推导出响应的参数更新公式并将公式作为软行动者-评论家网络的目标函数对网络进行训练。

所述优化方法包括以下步骤:

S1、创建行动者神经网络和评论家神经网络,并初始化行动者网络参数和评论家网络参数;本发明采用软行动者-评论家方法,它是一种基于离线学习的最大熵强化学习方法,能够尽可能地学习到多样化的方法。标准的强化学习方法目标是最大化累计奖赏,而软行动者-评论家方法在奖励函数上加入了控制熵,且相对于一般的行动者-评论家方法,软行动者-评论家方法的采样效率更高,能够充分利用采集到的样本进行学习。

S2、通过行动者神经网络对能源系统的系统状态信息进行训练,得到能源调度方法,并通过能源系统运行该能源调度方法,得到运行反馈信息;

S3、通过评论家神经网络对所述运行反馈信息和能源调度方法进行训练,得到评估信息;

S4、在熵约束参数的约束下,根据评估信息对所述行动者网络参数、评论家网络参数以及存储-能效约束参数进行优化;基于优化后的行动者网络参数和评论家网络参数重复执行S2至S4,直至得到的能源调度方法满足优化目标。综合能源系统根据优化后的能源调度方法实施不同负荷间的负载均衡提升总体的能源效率,例如,夏日是用电的高峰期,热能的低谷期,此时可以将多余的热能通过热电转化设备将多余的热能转化为电能以减少能源的浪费。在冬日用热高峰期,利用额外存储的天然气利用燃气锅炉进行供热以减少供热压力。

进一步地,所述优化目标为优化表达式的极值点,所述优化表达式如下式:

式中,λ为存储-能效约束参数,θ为行动者网络参数,υ为评论家网络参数,π为能源调度方法,

进一步地,所述存储-能效约束参数与能源系统的存储能力和能源效率相关,所述存储-能效约束参数λ的优化公式如下:

式中,λ为存储-能效约束参数,η

式中,

进一步地,所述行动者网络参数θ的优化公式如下:

式中,θ为行动者网络参数,η

式中,

式中,

进一步地,所述评论家网络参数υ的优化公式如下:

式中,υ为评论家网络参数,η

式中,

优选地,0<η

进一步地,所述能源损耗及运行成本通过下式计算:

式中,C

所述能源损耗及运行成本C

进一步地,所述能源存储量通过下式计算:

式中,E

所述能源存储量E

进一步地,所述能源系统的系统状态信息包括不同种类能源的机组的有功出力、不同种类能源的能源存储量以及用户负荷。

优选地,S1还包括:

设置相关超参数,所述超参数包括行动者神经网络的隐藏层数和评论家神经网络的隐藏层数。

本发明具有下列优点:

a)基于软行动者-评论家深度神经网络的强化学习方法,能够自动与环境进行交互,从而动态优化更新能源调度方法,同时能够处理复杂的状态数据,满足能源的存储与不同负荷的需求之间的负载均衡;

b)进一步结合最大熵原理,使得行动者神经网络产生更加多样化的调度方法,且保证参数更新的幅度不会过大而产生较大波动;

c)可以在复杂的系统环境中得出一个较为理想的优化方法,以减少各种能源损耗,从而降低能源供应成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的能源系统的示意图;

图2为本发明实施例提供的优化方法的总体示意图;

图3为本发明实施例提供的优化方法的工作流程图;

图4为本发明实施例提供的神经网络的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,更清楚地了解本发明的目的、技术方案及其优点,以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。除此,本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明的一个实施例中,提供了一种基于最大熵离线式的能源存储与负载的优化方法,其将能源系统优化问题看作一个约束问题,根据给定的约束要求生成一个符合要求的能源调度方法。

对于能源调度方法来说,首要的要求是在任何时候满足用能侧的负荷要求。尤其是在夏日用电高峰期的时候提供足够的电负荷,在冬日热负荷的高峰期保障足够的供热等。如图1所示,综合能源系统包含着各种形式的能源来源即各种能源生产的来源,它们的装机容量都是有限的,因此进行能源调度时应当将装机容量作为一个限制参数,使得能源调度时供给的负荷不超过特定种类能源的装机容量。同时,在能源存储和运输过程中以及在电负荷、热负荷、燃气负荷间的负荷转移会产生能源损耗,能源调度方法应当尽可能减少各种能源损耗以降低能源供应成本。

如图2、3所示,所述优化方法包括以下步骤:

S1、创建行动者神经网络和评论家神经网络,设置相关超参数,并初始化行动者网络参数和评论家网络参数。其中,所述超参数包括行动者神经网络的隐藏层数和评论家神经网络的隐藏层数以及其他参数,不以此限定本发明的保护范围,神经网络的结构如图4所示。

S2、通过行动者神经网络对能源系统的系统状态信息进行训练,得到能源调度方法,并通过能源系统运行该能源调度方法,得到运行反馈信息。具体地,物理电力系统通过调度中心将能源系统的系统状态信息传输给行动者神经网络的输入层,并将行动者神经网络输出层输出的能源调度方法发送至能源系统运行,从而得到能源系统运行该能源调度方法后的运行反馈信息,其中,所述能源系统的系统状态信息包括不同种类能源的机组的有功出力、不同种类能源的能源存储量以及用户负荷,不以此限定本发明的保护范围。

S3、通过评论家神经网络对所述运行反馈信息和能源调度方法进行训练,得到评估信息。具体地,将所述能源调度方法和与其对应的运行反馈信息发送至评论家神经网络的输入层,经过评论家神经网络训练得到该能源调度方法的评估信息。

S4、在熵约束参数的约束下,根据评估信息对所述行动者网络参数、评论家网络参数以及存储-能效约束参数进行优化;基于优化后的行动者网络参数和评论家网络参数重复执行S2至S4,直至得到的能源调度方法满足优化目标。

需要说明的是,S2中能源系统运行的能源调度方法不仅限于由行动者神经网络对能源系统的系统状态信息训练得到,还可以在备选的能源调度方法∏中选择一个具体的能源调度方法π,其满足W

式中,

其中,C

式中,C

E

式中,E

所述优化目标对应的拉格朗日公式如下:

式中,λ为存储-能效约束参数,θ为行动者网络参数,υ为评论家网络参数,π为能源调度方法,

所述优化目标为优化表达式(1)的极值点,极值点对应着一个符合优化要求的能源调度方法。

所述存储-能效约束参数与能源系统的存储能力和能源效率相关,所述存储-能效约束参数λ的优化公式如下:

式中,λ为存储-能效约束参数,η

式中,

所述行动者网络参数θ的优化公式如下:

式中,θ为行动者网络参数,η

式中,

式中,

所述评论家网络参数υ的优化公式如下:

式中,υ为评论家网络参数,η

式中,

在本发明的一个实施例中,提供了一种基于最大熵离线式的能源存储与负载的优化方法的工作过程,包括以下步骤:

第一步,确定要优化的指标。

本方法的优化目标为寻找π∈∏使得W

需要说明的是,控制水电、风电、太阳能、化石能源以及天然气各自的存储量,除了因为各种能源存储的装置容量有限之外,还因为各种能源的存储成本与能源的存储量正相关,同时要存储的能源量高于存储装置的容量会使得多出来的能源被浪费,降低总体的能源效率。

第二步,构建优化表达式。

能源调度方法由行动者神经网络生成,网络的输入为能源系统当前的系统状态信息,包括水电、风电、太阳能、化石能源以及天然气机组的有功出力、各能源的存储量以及用户侧的用电负荷、热负荷以及燃气负荷。评论家神经网络的输入为能源调度方法和运行反馈信息,输出为能源调度方法的评价值。

行动者神经网络与评论家神经网络都由神经网络层的参数θ、υ所决定。为了同时考虑优化目标与相应的约束,将优化目标与约束进行线性加权求和,权重将作为优化参数。优化目标对应的拉格朗日公式如式(1)所示,此处不再赘述。优化的目标是寻找一个极值点,对应着一个符合要求的能源调度方法。

第三步,获取优化表达式的更新梯度。

软行动者-评论家属于离线学习方法,其生成能源调度方法与评估能源调度方法对应的策略是不同的,即在对能源调度方法进行评估时,会默认行动者在能源系统下一时刻的状态选择效率最高的方案,而在实际执行中行动者会有一定概率选择效率一般的方案。软行动者-评论家在传统的行动者-评论家方法的基础上增加了最大熵约束。(行动)熵决定了每次生成能源调度方法时的不确定程度,从而使得行动者神经网络产生更加多样化的能源调度方法,然后利用获得的梯度对参数进行更新,在更新的过程中使得每次更新的幅度不会过大以防止产生较大的波动。相关参数的更新公式已在上文详述,此处不再赘述。

第四步,训练深度神经网络。

输入能源系统的状态作为初始状态。创建行动者神经网络与评论家神经网络,选择合适的超参数,初始化网络的各种参数。将能源系统的状态向量输入到行动者神经网络获得相应的能源调度方案,将该能源调度方案应用到能源系统中,获得能源系统的反馈信息。评论家神经网络根据反馈信息对该能源调度方案进行评价并对自身网络参数进行更新,行动者神经网络利用该评价对参数进行更新。同时根据约束是否被满足,对存储-能效约束参数进行更新。不断重复以上过程直到获得最优的能源调度方法。

在本发明中,能源系统同时包含能源供应系统与需求响应系统。前者包括火电等传统能源以及水电、风电、太阳能等新能源,后者包含用电负荷、热负荷以及天然气负荷。优化过程中的约束涉及到各种能源的装机容量、能源效率以及用能侧的负荷均衡成本等。相比于传统的多目标优化模型,受限模型能够更好满足实际要求并且生成方法的效率更高。同时,因为模型是基于软行动者-评论家方法深度强化学习的,因此能够自动与环境进行交互从而动态更新生成的方案,同时能够处理复杂的状态数据。

以上所述仅为本发明的优选实施例,并非因此限制其专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号