首页> 中国专利> 一种基于人工神经网络及深度强化学习的AVC智能控制方法

一种基于人工神经网络及深度强化学习的AVC智能控制方法

摘要

本发明公开了一种基于人工神经网络及深度强化学习的AVC智能控制方法,包括,结合电网无功负荷的态势预测结果和新能源并网的点的无功负荷变化规律,将变电站分为不同的子控制区域;基于贝尔曼方程和最小化损失函数优化动作效用函数,并结合所述动作效用函数获得决策度量函数;通过利用所述决策度量函数的梯度优化智能体的决策模型参数,训练智能体;将所述不同子区域的态势预测结果和新能源无功变化规律输入到所述智能体,通过所述智能体计算电力系统的电压控制量控制电网无功电压。本发明通过结合人工神经网络和确定性策略的多智能体强化学习算法训练智能体,提高了对无功电压的主动控制能力。

著录项

说明书

技术领域

本发明涉及电力控制的技术领域,尤其涉及一种基于人工神经网络及深度强化学习的AVC智能控制方法。

背景技术

电力系统作为复杂的人工信息物理系统,其稳定运行离不开人们的监视和控制,近年来,世界各国在电力系统的运行控制过程中,因态势感知不足而发生的大规模停电事故日益增多,电力系统广域态势感知得到越来越多的关注;电力系统广域态势感知通过采集广域电网稳态和动态、电量和非电量信息,包括:设备状态信息、电网稳态数据信息、电网动态数据信息、电网暂态故障信息、电网运行环境信息等,采用广域动态安全监测、数据挖掘、动态参数辨识、超实时仿真、可视化等手段,进行分析、理解和评估,进而对电网发展态势进行预测;态势感知技术在电力系统中的应用尚处于起步阶段,美国联邦能源管理委员会及国家标准和技术学会等机构已将态势感知列为智能电网优先支持的技术领域之一。

随着大规模新能源接入和交直流混联电网的快速发展,源-荷双侧不确定性增强,系统无功电压问题日益突出,给电网安全运行带来挑战;目前无功优化控制属于短时间尺度下的系统全局优化,控制决策并不具备主动性和预见性,没有充分考虑到长时间尺度下的新能源、无功负荷的不确定性对无功电压控制的影响,从而导致无功设备的频繁调节,在长时间尺度下总体控制效果并不理想。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题,提出了本发明。

因此,本发明提供了一种基于人工神经网络及深度强化学习的AVC智能控制方法,能够避免无功电压风险,解决无功电压主动控制效果差的问题。

为解决上述技术问题,本发明提供如下技术方案:包括,结合电网无功负荷的态势预测结果和新能源并网的点的无功负荷变化规律,将变电站分为不同的子控制区域;基于贝尔曼方程和最小化损失函数优化动作效用函数,并结合所述动作效用函数获得决策度量函数;通过利用所述决策度量函数的梯度优化智能体的决策模型参数,训练智能体;将所述不同子区域的态势预测结果和新能源无功变化规律输入到所述智能体,通过所述智能体计算电力系统的电压控制量控制电网无功电压。

作为本发明所述的基于人工神经网络及深度强化学习的AVC智能控制方法的一种优选方案,其中:所述态势预测结果包括,基于深度人工神经网络构建深度神经网络回归模型,并将所述深度神经网络回归模型的多个回归负荷结果进行整合,进而获得所述无功负荷的态势预测结果。

作为本发明所述的基于人工神经网络及深度强化学习的AVC智能控制方法的一种优选方案,其中:所述构建深度神经网络回归模型包括,基于无功负荷数据特征,考虑气候环境、季节、地区分布、用户负荷和电网调度控制策略,构建所述回归模型结构:

其中,k为阶数;x

作为本发明所述的基于人工神经网络及深度强化学习的AVC智能控制方法的一种优选方案,其中:所述回归模型结构还包括,

其中,x

作为本发明所述的基于人工神经网络及深度强化学习的AVC智能控制方法的一种优选方案,其中:所述最小化损失函数包括,定义所述最小化损失函数:

其中,

作为本发明所述的基于人工神经网络及深度强化学习的AVC智能控制方法的一种优选方案,其中:所述估计的真实值包括,

其中,r

作为本发明所述的基于人工神经网络及深度强化学习的AVC智能控制方法的一种优选方案,其中:所述目标Critic网络的参数和目标Actor网络的参数包括,通过实际Actor网络的参数

通过实际Critic网络的参数

其中,τ控制更新速度。

作为本发明所述的基于人工神经网络及深度强化学习的AVC智能控制方法的一种优选方案,其中:所述决策度量函数包括,定义所述动作效用函数Q

作为本发明所述的基于人工神经网络及深度强化学习的AVC智能控制方法的一种优选方案,其中:所述决策度量函数的梯度包括,所述第i个区域智能体的决策函数参数

其中,

作为本发明所述的基于人工神经网络及深度强化学习的AVC智能控制方法的一种优选方案,其中:所述电压控制量包括,基于牛顿拉夫逊潮流计算,所述电压控制量的计算公式如下:

其中,U为所述电压控质量,M

本发明的有益效果:基于新能源和无功负荷的数据样本分析,形成无功电压未来态势预测,并将其通过智能体控制电网无功电压,同时结合人工神经网络和确定性策略的多智能体强化学习算法训练智能体,提高了无功电压主动控制能力。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:

图1为本发明第一个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的流程示意图;

图2为本发明第一个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的某变电站及其子站系统区域划分示意图;

图3为本发明第一个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的Actor网络结构示意图;

图4为本发明第一个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的Critic网络结构示意图;

图5为本发明第一个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的智能体训练流程示意图;

图6为本发明第一个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的智能体运行流程示意图;

图7为本发明第二个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的Actor网络的损失函数曲线示意图;

图8为本发明第二个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的Critic网络的损失函数曲线示意图;

图9为本发明第二个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的总奖励函数和动作次数随训练过程的变化示意图;

图10为本发明第二个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的某运行状态下智能体控制前后各节点电压幅值示意图;

图11为本发明第二个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的考虑新能源出力波动后的Actor网络的损失函数曲线示意图;

图12为本发明第二个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的考虑新能源出力波动后的Critic网络的损失函数曲线示意图;

图13为本发明第二个实施例所述的基于人工神经网络及深度强化学习的AVC智能控制方法的考虑新能源波动情况下的各智能体动作次数示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1~图6,为本发明的第一个实施例,该实施例提供了基于人工神经网络及深度强化学习的AVC智能控制方法,包括:

S1:通过结合电网无功负荷的态势预测结果和新能源并网的点的无功负荷变化规律,将变电站分为不同的子控制区域。

(1)基于深度人工神经网络构建深度神经网络回归模型,并将深度神经网络回归模型的多个回归负荷结果进行整合,进而获得无功负荷的态势预测结果。

需要说明的是,在构建深度神经网络回归模型前先对负荷数据进行预处理,包括去噪、归一化以及白化等方法,将海量无功负荷数据进行整合,清除错误负荷数据,生成结构完整、格式标准、错误率低的无功负荷数据集。

具体的,构建深度神经网络回归模型包括,

基于无功负荷数据特征,考虑气候环境、季节、地区分布、用户负荷和电网调度控制策略,构建回归模型结构,该结构中间层的输入信息包括输入层、输入承接层、中间承接层和输出承接层;输出层的输入包括中间层和中间承接层,回归模型对应的数学公式如下:

其中,k为阶数;x

k阶反馈状态向量

k阶反馈状态输入向量

k阶隐含层输出向量

其中,x

需要说明的是,本实施例中,g()使用线性函数,f()采用Sigmoid函数;

Sigmoid函数如下式所示:

进一步的,基于预处理数据集,将回归模型的多个回归负荷结果进行整合,得到无功负荷的态势预测值。

(2)由于不同新能源厂站装设的无功补偿装置不一样,其无功电压控制方法也不一样,所以首先基于新能源场站近区实际情况,分析不同无功源的无功特性;基于聚类分析方法,综合新能源出力和负荷特性,等效为系能源场站近区的等效负荷特性,获得等效负荷特性下节点电压的波动规律。

具体的,聚类分析(Clustering Analysis)是根据对象的最大化类别内相似性和最小化类别间相似性为原则进行分组的一种分析方法,也属于描述性挖掘任务。

本实施例采用K-means对数据进行划分聚类。

①将数据集D划分成K个类,用误差平方和评估簇的质量,定义如下:

其中,E表示数据集所有对象的误差的平方和;p表示空间上给定数据对象的点;dist(x,y)表示空间上点x到点y的欧几里得距离。

②采用肘方法,确定簇数k的取值。

通过SSE(sum of the squared errors,误差平方和)找到拐点,此时的K值即为所求;计算SSE:

其中,C

区域划分参照图2,分别由2个不同的智能体控制。

S2:基于贝尔曼方程和最小化损失函数优化动作效用函数,并结合动作效用函数获得决策度量函数。

定义最小化损失函数:

其中,

具体的,

其中,r

进一步的,对目标Critic网络的参数和目标Actor网络的参数进行更新:

本实施例采用Adam(Adaptive moment estimation,自适应性炬估计)优化算法进行参数更新;

其中需要说明的是:Adam优化算法中动量梯度下降部分(指数加权平均):

v

v

Adam优化算法中RMSprop部分(平方版本的指数加权平均):

S

S

其中,β

因此,①通过实际Actor网络的参数

②通过实际Critic网络的参数

其中,τ控制更新速度,通常满足τ<<1。

再进一步的,定义动作效用函数Q

Q

其中,r(s,a)为在系统状态s下,执行动作a后的回报值,Q

则决策度量函数为:

S3:通过利用决策度量函数的梯度优化智能体的决策模型参数,训练智能体。

通过决策度量函数的梯度优化第i个区域的智能体的决策模型,完成智能体的训练。

具体的,第i个区域智能体的决策函数参数

其中,

S4:将不同子区域的态势预测结果和新能源无功变化规律输入到智能体,通过智能体计算电力系统的电压控制量控制电网无功电压。

基于牛顿拉夫逊潮流计算,电压控制量的计算公式如下:

其中,U为电压控质量,M

实施例2

为了对本方法中采用的技术效果加以验证说明,本实施例选择新能源电站未发生出力波动和新能源电站发生出力波动进行电压控制对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。

(1)新能源电站未发生出力波动时电压控制结果分析

首先,在新能源电站出力比较稳定的条件下,分析本发明对电力系统电压控制的效果;在这种条件下,电力系统中各发电机组(包括新能源机组)有功出力、负荷在整个电压的实时控制过程中都保持在比较稳定的值附近,因此每一幕各智能体与电力系统环境交互的过程中,认为发电机有功出力和负荷保持不变,仅考虑发电机励磁调节导致机端电压发生的改变。

通过随机采样生成电力系统运行状态数据样本,并使用各节点负荷变化范围在额定负荷0.8~1.2倍的前70%组运行状态对两个区域的智能体进行训练,使用各节点负荷变化范围在额定负荷0.7~1.3倍的后30%组运行状态作为回归模型的验证集,由于使Actor网络损失函数最小等价于使动作-价值函数(Q函数)最大,因此可将Actor网络的损失函数定义为Q函数的相反数。

由图7和图8可知,随着训练过程的进行,智能体Actor网络的损失函数首先都明显上升,然后呈下降的趋势,最终收敛到一个稳定值;这说明了由于神经网络的参数初始化是随机的,在训练前期Actor网络的输出不能有效地调节发电机机端电压,因此会导致电力系统的电压发生越限,损失函数较高;但随着神经网络参数的不断更新,根据Actor网络的输出设定发电机机端电压后,电力系统的电压水平得到了有效控制,损失函数不断降低,表明本方法提出的训练算法可以有效训练回归模型。

对比两个智能体之间损失函数曲线可知,智能体1的Actor网络损失函数下降速度明显快于智能体2的Actor网络,且智能体1的Critic网络损失函数收敛时,其波动程度明显低于智能体2,这说明由于智能体1所控制的区域1节点数少于智能体2所控制的区域2,且智能体2的控制动作可同样用于区域1的节点电压控制,而区域2的节点电压只受智能体2控制,表明了对于本方法提出的训练策略而言,节点较少且可控节点电压机组越多的区域,其对应的智能体模型更容易训练。

在图9中,左图中的灰线是每一幕交互过程中,各智能体获得的总奖励曲线,黑线是平滑后的总奖励曲线,右图中的黑色散点表示每一幕交互过程中,各智能体控制电压到未越限时的所需动作次数;因此由图9可知,在训练的过程中,各智能体获得的总奖励不断增加,同时各智能体控制电压到未越限所需的动作次数不断减少,这说明各智能体经不断训练后,控制电压到未越限所需执行的动作次数会尽可能少,在训练完成进行测试时,智能体仅执行一次或两次动作来就可使电压不发生越限。

取测试中某一运行状态,计算控制前后各智能体控制区域内各节点电压和及其平均值,结果可视化展示如图10所示;在图10中,圆点虚线表示节点电压上下限,灰色散点表示控制前各节点电压,黑色虚线表示控制前各节点电压平均值,三角虚线表示控制后各节点电压平均值;控制前各节点电压整体偏高,个别节点出现电压越上限的情况;经智能体控制后各节点电压向电压参考值1.0方向移动,且电压平均值与1.0接近,说明节点电压越限得到了有效控制。

(2)考虑新能源电站出力波动时电压控制结果分析

考虑新能源波动的条件下,新能源机组出力的不确定性增强,因此,在实时电压控制的过程中,应该将新能源机组的出力视作变化量,即在每一幕各智能体与电力系统环境交互的过程中,认为新能源机组的有功出力是发生变化的,并同时考虑发电机励磁调节导致机端电压发生的改变。

同样的,通过随机采样生成电力系统运行状态数据样本,但是在智能体与环境的交互过程中,需要动态调节节点2的负荷功率和节点3的风电机组出力,互动中的每一步,随机生成的负荷和机组出力调节范围,相对于生成样本时也有所增大,为额定功率的0.5~1.3倍,体现了新能源机组出力更强的不确定性。

图11和图12展示了考虑新能源出力波动后Actor网络和Critic网络的损失函数曲线,对比图7、图8的损失函数收敛情况可以看出Actor网络的损失函数下降速度低于未考虑新能源波动时的情况,且损失函数的收敛值高于未考虑新能源波动时的情况;Critic网络的损失函数在训练一定次数后,会发生下降,但是损失函数难以收敛到稳定的数值,而是保持幅值较大的波动,说明考虑新能源波动的情况下,模型更加难以训练。

图13展示了考虑新能源波动情况下,各智能体控制区域的节点电压不发生越限时所需的动作次数,对比图9可知,各智能体所需的控制动作次数相对更多,最多可高达50次以上;但是随着训练过程的进行,控制电压至不越限所需的动作次数可以不断减少,最后基本可以控制在5次以下,表明了虽然考虑新能源波动时,模型训练的难度更大,但是最终仍能训练得到具有控制效果的模型。

应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号