技术领域
本发明涉及电力电网技术领域,更具体地说,涉及一种基于价格需求响应的确定方法及系统。
背景技术
智能电网是一种典型的信息物理系统,它将先进的检测、控制和通信技术集成到物理电力系统中,以提供可靠的能源供应,促进负载的主动参与,确保电网系统的稳定运行。基于智能电网信息物理融合的特征,电力需求响应(demand response)已经成为能源管理(energy management)领域的一个研究热点,其目的是根据时变的电价或奖励/惩罚激励来改变负载的能源使用模式,从而实现需求侧能源成本降低等目标。换句话说,电力需求响应是一种通过价格或激励手段重塑负载能源使用方式的手段,以实现更有效的能源管理。
目前,已有的研究工作主要关注需求响应的两个分支,即基于价格需求响应(price-based demand response)和基于激励需求响应(incentive-based demandresponse)。其中,基于价格需求响应作为一种常用的需求响应,期望通过根据与时间有关的电价定价机制,如分时定价机制和实时定价机制来改变终端用户的能源使用模式。
现有基于价格需求响应多是基于一个确定性的价格机制,比如分时电价定价机制、日前电价定价机制或线性价格模型等。然而确定性的价格机制无法真实地刻画动态电力市场的不确定性和灵活性,因此现有基于价格需求响应的准确性不高。
发明内容
有鉴于此,本发明公开一种基于价格需求响应的确定方法及系统,以实现真实的刻画动态电力市场的不确定性和灵活性,提高基于价格需求响应的准确性。
一种基于价格需求响应的确定方法,包括:
将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;
监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个所述当前时刻的目标零售电价制定动作;
计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;
基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数,所述基准动作值函数为上一次迭代得到的动作值函数;
判断当前时刻是否达到终端时刻;
如果是,则判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值;
如果是,则将所述目标动作值函数作为最优动作值函数,并根据所述最优动作值函数确定最优零售电价策略;
根据所述最优零售电价策略计算可调度负载的最优能源消耗量。
可选的,所述电价选取概率—贪婪策略的具体含义为:从行动集合中以ε的概率随机选取一个零售电价,或者以1-ε的概率选取与最大的动作值函数所对应的零售电价,ε表示电价选取概率。
可选的,所述收益立即回报r
r
式中,ρ∈[0,1]是权重参数,表示电力公司的收益和负载单元的综合成本的相对社会价值,U
可选的,t时刻电力公司的净收益U
式中,
t时刻负载侧的综合成本C
式中,
可选的,不满意程度
式中,
可选的,可调度负载
式中,
可选的,所述目标动作值函数的表达式如下:
式中,Q
可选的,所述最优零售电价策略的表达式如下:
式中,π
可选的,最优能源消耗量的表达式如下:
式中,
可选的,所述确定方法还包括:对所述动作值函数进行初始化,具体包括:
获取已知的先验参数数据,将所述先验参数数据带入预先确定的所述动作值函数,并对所述动作值函数进行初始化,所述动作值函数的初始值为0。
一种基于价格需求响应的确定系统,包括:
建模单元,用于将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;
动作选择单元,用于监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个所述当前时刻的目标零售电价制定动作;
回报计算单元,用于计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;
函数更新单元,用于基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数,所述基准动作值函数为上一次迭代得到的动作值函数;
第一判断单元,用于判断当前时刻是否达到终端时刻;
第二判断单元,用于在所述第一判断单元判断为是的情况下,判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值;
电价策略确定单元,用于在所述第二判断单元判断为是的情况下,将所述目标动作值函数作为最优动作值函数,并根据所述最优动作值函数确定最优零售电价策略;
能耗计算单元,用于根据所述最优零售电价策略计算可调度负载的最优能源消耗量。
从上述的技术方案可知,本发明公开了一种基于价格需求响应的确定方法及系统,将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,监测当前时刻所有负载单元的状态记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个当前时刻的目标零售电价制定动作,计算执行目标零售电价制定动作之后的收益立即回报,监测当前时刻的下一时刻的所有负载单元的状态并记为第二状态,基于第一状态、第二状态、目标零售电价制定动作和收益立即回报,将上一次迭代得到基准动作值函数更新为目标动作值函数,在当前时刻达到终端时刻,且目标动作值函数与基准动作值函数的差值绝对值不大于差值阈值时,将目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据最优动作值函数确定最优零售电价策略,进而根据最优零售电价策略计算可调度负载的最优能源消耗量,从而实现基于价格需求响应的确定。本发明将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,在根据最优动作值函数确定最优零售电价策略时,不仅考虑了当前电价对负载即时响应的影响,还考虑了未来一段时间内当前电价对负载响应的影响,因此可以真实地刻画动态电力市场的不确定性和灵活性,从而提高了基于价格需求响应的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种基于价格需求响应的确定方法流程图;
图2为本发明实施例公开的一种基于价格需求响应的确定系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于价格需求响应的确定方法及系统,将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,监测当前时刻所有负载单元的状态记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个当前时刻的目标零售电价制定动作,计算执行目标零售电价制定动作之后的收益立即回报,监测当前时刻的下一时刻的所有负载单元的状态并记为第二状态,基于第一状态、第二状态、目标零售电价制定动作和收益立即回报,将上一次迭代得到基准动作值函数更新为目标动作值函数,在当前时刻达到终端时刻,且目标动作值函数与基准动作值函数的差值绝对值不大于差值阈值时,将目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据最优动作值函数确定最优零售电价策略,进而根据最优零售电价策略计算可调度负载的最优能源消耗量,从而实现基于价格需求响应的确定。本发明将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,在根据最优动作值函数确定最优零售电价策略时,不仅考虑了当前电价对负载即时响应的影响,还考虑了未来一段时间内当前电价对负载响应的影响,因此可以真实地刻画动态电力市场的不确定性和灵活性,从而提高了基于价格需求响应的准确性。
需要特别说明的是,本发明所要保护的基于价格需求响应具体为:居民区零售电力市场的基于价格需求响应的问题。零售电力市场包含一个电力公司和有限集合
参见图1,本发明实施例公开的一种基于价格需求响应的确定方法流程图,该方法应用于电力公司中的处理器,该确定方法包括:
步骤S101、将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;
步骤S102、监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个所述当前时刻的目标零售电价制定动作;
由于初始状态s
本实施例中,监测初始状态s
步骤S103、计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;
本实施例中,在计算收益立即回报之后,还会监测当前时刻t的下一个时刻,即t+1时刻所有负载单元的状态s
其中,根据公式(1)计算收益立即回报,公式(1)如下:
r
式中,ρ∈[0,1]是权重参数,表示电力公司的收益和负载单元的综合成本的相对社会价值,U
U
式中,
C
式中,
步骤S104、基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数;
其中,基准动作值函数为上一次迭代得到的动作值函数;
目标动作值函数Q
式中,Q
步骤S105、判断当前时刻是否达到终端时刻,如果是,则执行步骤S106;
其中,在当前时刻t没有到达终端时刻T时,则返回步骤S102。
步骤S106、判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值,如果是,则继续执行步骤S107;
本实施例中,当|Q
步骤S107、将所述目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据所述最优动作值函数确定最优零售电价策略;
具体的,最优零售电价策略如公式(5)所示,公式(5)如下:
式中,π
步骤S108、根据所述最优零售电价策略计算可调度负载的最优能源消耗量。
其中,最优能源消耗量的表达式如公式(6)所示,公式(6)如下:
式中,
综上可知,本发明公开了一种基于价格需求响应的确定方法,将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,监测当前时刻所有负载单元的状态记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个当前时刻的目标零售电价制定动作,计算执行目标零售电价制定动作之后的收益立即回报,监测当前时刻的下一时刻的所有负载单元的状态并记为第二状态,基于第一状态、第二状态、目标零售电价制定动作和收益立即回报,将上一次迭代得到基准动作值函数更新为目标动作值函数,在当前时刻达到终端时刻,且目标动作值函数与基准动作值函数的差值绝对值不大于差值阈值时,将目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据最优动作值函数确定最优零售电价策略,进而根据最优零售电价策略计算可调度负载的最优能源消耗量,从而实现基于价格需求响应的确定。本发明将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,在根据最优动作值函数确定最优零售电价策略时,不仅考虑了当前电价对负载即时响应的影响,还考虑了未来一段时间内当前电价对负载响应的影响,因此可以真实地刻画动态电力市场的不确定性和灵活性,从而提高了基于价格需求响应的准确性。
另外,本发明利用强化学习算法在未知的电力市场环境(即零售电价以及负载能耗是不确定和随机的)中解决基于价格的需求响应问题。
为进一步优化上述实施例,在步骤S102之前,还需要对动作值函数进行初始化,对动作值函数进行初始化的过程包括:
获取已知的先验参数数据,将所述先验参数数据带入预先确定的动作值函数,并对所述动作值函数进行初始化。
其中,先验参数数据包括:负载单元的能源需求e
动作值函数的初始值为0,即Q
本实施例中,时刻t的取值范围为:t=1,2,...,T,T表示时间间隔的总个数。
动作值函数中的变量参数包括:s
需要说明的是,由于电力系统模型涉及到电力公司和负载单元之间的信息交互,因此,为便于理解本发明所要保护的技术方案,下面介绍电力公司和负载单元之间的数学模型。
根据用户的偏好以及负载的能耗特性,通常将负载分为两类,即可调度负载
(一)可调度负载:一般可调度负载的能耗表示如公式(7)所示,公式(7)如下:
式中,
公式(7)表示可调度负载的真实能耗不仅仅依赖于能源需求信息,还依赖于零售电价变化而导致的能源需求的减少量。当可调度负载单元n真实的能耗量为
为了刻画这种不满意程度,定义公式(8)所示的不满意函数,公式(8)如下:
式中,
公式(8)表明较大的需求减少会导致负载单元较高的不满意程度。
此外,可调度负载
式中,
(二)不可调度负载:一般来说,不可调度负载的能源需求是不可以被随意转移和削减的,所以这些负载的能源需求在任何时候都必须严格满足。
因此,对
式中,
因此,从负载的角度来看,其目标是通过决定所有负载的最优能耗组合以最大程度地降低负载侧的综合成本,即
其中,p表示所有参与负载单元在整个时间周期T内的能耗向量,
可以看出,上式由两部分组成,分别对应两种类型的负载。具体来说,第一项
为了后续讨论和书写方便,将t时刻负载侧的综合成本定义为C
电力公司作为终端用户和电力生产商之间的中间商,首先以批发价从电网运营商购买电能,然后以零售价格将所购买的电能出售给负载侧不同类型的负载单元。因此电力公司的目标是通过在批发和零售市场中进行交易来最大化收益,其数学模型可表述为:
其中,θ表示电力公司在整个时间周期T内为所有负载单元制定的零售电价向量;
通常在不考虑电能损耗并遵循功率平衡准则时,任意时刻,电力公司的总购买电能等于负载侧的总能耗,即如公式(11)所示,公式(11)如下:
在对电力公司和负载单元建模的过程中,可以发现基于价格的需求响应和电力公司的收益以及负载单元的成本紧密相关。因此从社会角度出发,系统的目标是最大化包含电力公司收益和负载综合成本的社会效益,即公式(12)所示,公式(12)如下:
其中,ρ∈[0,1]是权重参数,表示电力公司的收益和负载单元的综合成本的相对社会价值。ρ越大,意味着从社会角度出发,更关心电力公司的收益;反之,则更关心负载的综合成本对社会收益的影响。
为在未知的电力市场环境中制定一个能够适应负载灵活变化的动态零售电价,本发明首先利用强化学习框架对零售电力市场建模。
具体地,电力公司作为智能体;所有的负载单元作为环境;零售电价被作为智能体作用在环境上的动作;负载的能源需求、能源消耗以及时间作为状态;社会效益(即电力公司收益和负载单元综合成本的加权求和)作为回报。
其次,采用马尔可夫决策过程对动态零售电价定价问题建模,这通常也是使用强化学习算法的第一步。不失一般性,马尔可夫决策过程用一个五元组表示,其中每个元素的意义如下:
1)状态集合:S={s
2)行动集合:A={a
3)回报集合:R={r
4)状态转移矩阵:
表示在状态s采取动作a后,环境转移到下一时刻状态s′的概率。由于负载的能源需求和能源消耗受许多因素影响,因此很难获得其状态转移概率。在本发明中电力市场环境是未知的,因此采用无模型的Q-learning方法来解决动态零售定价问题。
5)折扣因子:γ∈[0,1]表示后续回报相对于当前回报的重要性。
定义策略π:S→A,即状态到动作的映射,则零售电价的定价问题转化为寻找一个最优的策略π
将电力公司的动态零售电价定价问题建模成马尔可夫决策过程以后,用Q-learning算法(一种无模型的强化学习算法)来分析电力公司如何在与所有负载单元交互的同时选择最优的零售电价从而实现电力系统目标。
Q-learning算法的基本原理是给每一个状态-动作对(s,a)分配一个动作值函数(action-value function)Q(s,a),然后在每一次迭代中更新该函数,从而获得最优的动作值函数Q
其中s′∈S,a′∈A分别表示下一时刻的状态和所采取的动作,r(s,a)表示从状态s出发,采取动作a之后的立即回报,Q
与上述方法实施例相对应,本发明还公开了一种基于价格需求响应的确定系统。
参见图2,本发明实施例公开的一种基于价格需求响应的确定系统的结构示意图,该系统应用于电力公司中的处理器,该系统包括:
建模单元201,用于将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;
动作选择单元202,用于监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个所述当前时刻的目标零售电价制定动作;
回报计算单元203,用于计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;
函数更新单元204,用于基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数,所述基准动作值函数为上一次迭代得到的动作值函数;
第一判断单元205,用于判断当前时刻是否达到终端时刻;
第二判断单元206,用于在所述第一判断单元205判断为是的情况下,判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值;
电价策略确定单元207,用于在所述第二判断单元206判断为是的情况下,将所述目标动作值函数作为最优动作值函数,并根据所述最优动作值函数确定最优零售电价策略;
能耗计算单元208,用于根据所述最优零售电价策略计算可调度负载的最优能源消耗量。
需要特别说明的是,系统实施例中各组成部分的具体工作原理,请参见方法实施例对应部分,此处不再赘述。
综上可知,本发明公开了一种基于价格需求响应的确定系统,将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,监测当前时刻所有负载单元的状态记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个当前时刻的目标零售电价制定动作,计算执行目标零售电价制定动作之后的收益立即回报,监测当前时刻的下一时刻的所有负载单元的状态并记为第二状态,基于第一状态、第二状态、目标零售电价制定动作和收益立即回报,将上一次迭代得到基准动作值函数更新为目标动作值函数,在当前时刻达到终端时刻,且目标动作值函数与基准动作值函数的差值绝对值不大于差值阈值时,将目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据最优动作值函数确定最优零售电价策略,进而根据最优零售电价策略计算可调度负载的最优能源消耗量,从而实现基于价格需求响应的确定。本发明将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,在根据最优动作值函数确定最优零售电价策略时,不仅考虑了当前电价对负载即时响应的影响,还考虑了未来一段时间内当前电价对负载响应的影响,因此可以真实地刻画动态电力市场的不确定性和灵活性,从而提高了基于价格需求响应的准确性。
需要特别说明的是,本发明所列的需求侧能源管理领域外,本发明还可以应用于智能电网中其他未知环境下的决策问题,如供需两侧电力平衡以及最优发电机组排程问题等。
本发明中马尔可夫决策过程中的状态空间、动作空间以及回报的定义不唯一,可以根据系统或个体的其他目标重新定义;此外Q-learning算法中学习速率的选取对算法的收敛性有很大影响,因此可以对学习速率的选取做进一步分析和讨论。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
机译: 用于基于分布式位置边际价格运行具有分布式发电和需求响应资源的电力系统的系统和方法
机译: 财务需求响应服务系统系统记录了财务需求响应服务的财务需求响应服务运营商服务器和计算机可读介质的程序,其中该软件可读取介质用于财务需求响应提供服务的程序
机译: 需求响应确定装置及其需求响应确定方法