首页> 中国专利> 一种基于深度强化学习算法的市场成员报价方法及其模块

一种基于深度强化学习算法的市场成员报价方法及其模块

摘要

本发明涉及电力技术领域,公开了一种基于深度强化学习算法的市场成员报价方法及其模块,市场成员包括发电商和购电商,模块包括:深度双Q网络构建模块,用于建立市场成员对应的深度双Q网络,输入状态向量为市场出清价格及市场负荷水平,输出动作为发电商或者购电商的基于基准报价的报价系数;探索性报价动作生成模块,用于建立市场成员在电能的市场竞价模型,并根据建立的市场竞价模型基于深度双Q网络算法生成报价;深度双Q网络算法训练模块,用于随机抽取样本数据训练深度双Q网络的参数。本发明通过深度强化学习的方法寻找市场成员在非完全信息下的动态报价策略,是一种高效的报价决策工具,有助于市场成员更加准确地在电力市场进行报价。

著录项

  • 公开/公告号CN113240459A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202110459612.7

  • 发明设计人 王蓓蓓;杨朋朋;

    申请日2021-04-27

  • 分类号G06Q30/02(20120101);G06Q50/06(20120101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11357 北京同辉知识产权代理事务所(普通合伙);

  • 代理人张恩慧

  • 地址 210024 江苏省南京市玄武区新街口街道四牌楼2号

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本发明涉及电力技术领域,具体的是一种基于深度强化学习算法的市场成 员报价方法及其模块。

背景技术

电力行业是国民经济的基础产业,也是重要的公用事业。自20世纪80年 代初以来,全世界一半以上的国家都经历了电力市场化改革。电力市场化改革 就是令市场在电力资源配置中发挥决定性作用,准确地发现电力的社会价值, 引导市场主体有效生产、有效消费和有效投资。新一轮电力体制改革的重点和 路径是:按照管住中间、放开两头的体制架构,有序放开输配以外的竞争性环 节电价,有序向社会资本开放配售电业务,有序放开公益性和调节性以外的发 用电计划;推进交易机构相对独立,规范运行。

在电力现货市场运行过程中,市场成员的报价行为会影响到市场的运行结 果,反过来市场运行结果也将影响到市场成员后续的报价决策,进一步影响到 市场的运行,因此,市场成员竞价行为的模拟也是开展电力现货市场运营仿真 研究的关键之一,目前关于电力现货市场中市场成员的智能报价技术也较为广 泛,其中强化学习算法是常见的算法之一,因此,提出一种基于深度强化学习 算法的市场成员报价方法及其模块。

发明内容

为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于深度 强化学习算法的市场成员报价方法及其模块。

本发明的目的可以通过以下技术方案实现:

一种基于深度强化学习算法的市场成员报价方法,所述方法包括如下步骤:

步骤1:建立由Online Network、Target Network和Experience Replay memory构成的深度双Q网络,并对网络参数进行初始化;

步骤2:基于Online Network计算的结果选择报价动作,将发电商或购电商 的报价提交给ISO进行出清,将智能体的当前状态、报价系数、奖励和新的状 态储存到Experience Replay memory中;

步骤3:当Experience Replay memory中储存的数据满了以后,随机抽取批 量的样本数据进行深度确定性策略梯度算法网络的训练。

进一步的,所述步骤1包括:

步骤1-1:建立Online Network、Target Network神经网络,建立ExperienceReplay memory,用于存储智能体报价以后得到的样本数据;

步骤1-2:设置网络的输入状态向量为市场出清价格,根据市场成员报价系 数的上下限,设置Target Network输出的限制;

步骤1-3:将步骤1-1中所述的Online Network、Target Network神经网络的 参数随机初始化。

进一步的,所述步骤2具体包括:

步骤2-1:基于深度双Q网络的Online Network选择报价动作;

步骤2-2:将报价提交给ISO进行出清,根据ISO反馈的电价以及中标电量, 计算收益r;

步骤2-3:将本次报价对应的智能体的当前状态、报价系数、奖励和新的状 态四条信息作为一条数据储存到Experience Replay memory中,并更新当前状态。

进一步的,所述步骤2-2中收益r的计算方法如下:

r

式中,r

进一步的,所述步骤3具体包括:

步骤3-1:当Experience Replay memory存储数据满了以后,从ExperienceReplay memory中随机抽取批量的样本数据用于Online Network、Target Network 的网络参数更新;

步骤3-2:将抽取的样本数据送入优化器,优化器按照损失函数最小化的原 则,自动对网络参数进行梯度下降训练;

步骤3-3:Online Network的网络参数更新每隔一段时间,将其参数拷贝给Target Network;

步骤3-4:判定网络更新次数是否达到预设最大次数;若是,则结束训练, 若没有达到,则从步骤2开始继续迭代更新深度深度强化学习网络。

进一步的,所述步骤3-2中的损失函数定义如下:

L(θ

式中,L(θ

一种基于深度强化学习算法的市场成员报价模块,包括如下模块:

深度双Q网络构建模块,用于建立市场成员对应的深度双Q网络,其输入 状态向量为市场出清价格及市场负荷水平,输出动作为发电商或者购电商的基 于基准报价的报价系数;

探索性报价动作生成模块,用于建立市场成员在电能的市场竞价模型,并 根据建立的市场竞价模型基于深度双Q网络算法生成报价;

深度双Q网络算法训练模块,用于随机抽取样本数据训练深度双Q网络的 参数。

进一步的,所述深度双Q网络构建模块具包括:

Online Network单元,用于建立Online Network神经网络;

Target Network单元,用于建立Target Network神经网络;

Experience Replay memory单元,用于存储市场成员报价以后得到的样本数 据,每条样本数据记录智能体的当前状态、报价系数、奖励和新的状态四个信 息。

进一步的,所述探索性报价动作生成模块包括:

动作选择单元,用于基于深度双Q网络算法选择报价动作;

报价提交单元,用于将报价提交给ISO进行出清;

收益计算单元,用于根据ISO反馈的电价以及中标电量,计算收益r。

进一步的,所述深度双Q网络算法训练模块包括:

Online Network更新单元,用于根据从Experience Replay memory中抽取的 样本数据更新Online Network的参数;

Target Network更新单元,用于Target Network拷贝Online Network的参数。 本发明的有益效果:

本发明与现有技术相比,其显著优点是:本发明考虑了在现实情况中,无 法获取市场中的完全信息,发电商和购电商不需要已知他人策略,利用深度学 习和强化学习选择最优报价,相比现有的报价决策方法,连续的报价决策有助 于发电商和购电商更加准确地在电力市场进行报价。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明提供的基于深度强化学习算法的市场成员报价方法的一个实 施例的模块示意图;

图2是五机五节点网络拓扑图;

图3是发电商报价策略学习过程示意图;

图4是各发电商的成交电量和收益情况示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

如图1所示,一种基于深度强化学习算法的市场成员报价模块,包括如下 模块:

深度双Q网络构建模块,用于建立市场成员对应的深度双Q网络,其输入 状态向量为市场出清价格及市场负荷水平,输出动作为发电商或者购电商的基 于基准报价的报价系数;

探索性报价动作生成模块,用于建立市场成员在电能的市场竞价模型,并 根据建立的市场竞价模型基于深度双Q网络算法生成报价;

深度双Q网络算法训练模块,用于随机抽取样本数据训练深度双Q网络的 参数。

进一步的,所述深度双Q网络构建模块具包括:

Online Network单元,用于建立Online Network神经网络;

Target Network单元,用于建立Target Network神经网络;

Experience Replay memory单元,用于存储市场成员报价以后得到的样本数 据,每条样本数据记录智能体的当前状态、报价系数、奖励和新的状态四个信 息。

进一步的,所述探索性报价动作生成模块包括:

动作选择单元,用于基于深度双Q网络算法选择报价动作;

具体选择方法为:使用Online Network计算出当前状态下的报价动作k;

报价提交单元,用于将报价提交给ISO进行出清;

收益计算单元,用于根据ISO反馈的电价以及中标电量,计算收益r。

所述收益r的计算方法如下:

r

式中,r

进一步的,所述深度双Q网络算法训练模块包括:

Online Network更新单元,用于根据从Experience Replay memory中抽取的 样本数据更新Online Network的参数;

Target Network更新单元,Target Network的参数与Online Network的参数 完全相同,唯一的区别是参数更新的频率不同,Current Network每一次训练都 会更新其网络参数,而Target Network每隔一段时间拷贝Current Network的参 数。

本发明还提供了一种基于深度强化学习算法的市场成员报价方法,所述方 法包括如下步骤:

步骤1:建立由Online Network、Target Network和Experience Replay memory构成的深度双Q网络,并对网络参数进行初始化;

步骤2:基于Online Network计算的结果选择报价动作,将发电商或购电商 的报价提交给ISO进行出清,将智能体的当前状态、报价系数、奖励和新的状 态储存到Experience Replay memory中;

步骤3:当Experience Replay memory中储存的数据满了以后,随机抽取批 量的样本数据进行深度确定性策略梯度算法网络的训练。

进一步的,所述步骤一包括:

步骤1-1:建立Online Network、Target Network神经网络,建立ExperienceReplay memory,用于存储智能体报价以后得到的样本数据;

步骤1-2:设置网络的输入状态向量为市场出清价格,根据市场成员报价系 数的上下限,设置Target Network输出的限制;

步骤1-3:将步骤1-1中所述的Online Network、Target Network神经网络的 参数随机初始化。

进一步的,所述步骤2具体包括:

步骤2-1:基于深度双Q网络的Online Network选择报价动作;

步骤2-2:将报价提交给ISO进行出清,根据ISO反馈的电价以及中标电量, 计算收益r;

步骤2-3:将本次报价对应的智能体的当前状态、报价系数、奖励和新的状 态四条信息作为一条数据储存到Experience Replay memory中,并更新当前状态。

进一步的,所述步骤3具体包括:

步骤3-1:当Experience Replay memory存储数据满了以后,从ExperienceReplay memory中随机抽取批量的样本数据用于Online Network、Target Network 的网络参数更新;

步骤3-2:将抽取的样本数据送入优化器,优化器按照损失函数最小化的原 则,自动对网络参数进行梯度下降训练;

对于Current Network,它的损失函数定义如下:

L(θ

式中,L(θ

步骤3-3:Online Network的网络参数更新每隔一段时间,将其参数拷贝给Target Network;

步骤3-4:判定网络更新次数是否达到预设最大次数;若是,则结束训练, 若没有达到,则从步骤2开始继续迭代更新深度深度强化学习网络。

系统测试

如图2所示,对电力市场中的发电商和购电商行为进行仿真分析。5节点测 试系统包含5个发电商和5个购电商。发电商的基本信息如表1所示,购电商 的信息如表2所示。

表1发电机组技术参数

表2用户需求及报价

案例设置仿真参数为:学习率α为0.01,γ为0.9,经验池的大小为2000,每 次取出的样本数为20,随机训练次数为2000次,贪婪过程设置为2000次,降 温系数δ为0.99,初始温度T0为10000。

表3展示了市场成员的报价策略情况,表4展示了购电商的成交电量情况, 图3展示了发电商采用深度双Q网络的报价动作训练情况,图4展示了各发电 商的成交电量和收益情况。由图中可知,市场成员采用深度双Q网络训练可以 获得比较高的收益。

表3市场成员报价策略

表4购电商成交电量

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业 的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中 描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明 还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号