首页> 中国专利> 紧急切机控制措施整定的智能体训练方法、预整定方法

紧急切机控制措施整定的智能体训练方法、预整定方法

摘要

本发明公开了一种紧急切机控制措施整定的智能体训练方法以及利用训练好的智能体进行预整定的方法,随机选择一个暂态失稳场景并将暂态失稳仿真数据输入智能体进行决策,得到切机控制集并仿真校验其有效性,若无效且决策次数未达到阈值,则将当前暂态仿真数据输入智能体重新决策;若有效或决策次数达到阈值,则存储经验样本,训练并更新智能体的网络参数;判断智能体是否达到训练轮次阈值,若否,则重新选择暂态失稳场景并重复上述过程,直至达到训练轮次阈值后输出智能体模型。面对新的暂态失稳场景,只要将对应的暂态失稳仿真数据输入训练好的智能体,参照上述经验样本获取阶段的过程,便能输出对应暂态失稳场景下的切机控制措施。

著录项

  • 公开/公告号CN114967649A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN202210589334.1

  • 发明设计人 姚伟;曾令康;李舟平;文劲宇;

    申请日2022-05-26

  • 分类号G05B23/02(2006.01);

  • 代理机构华中科技大学专利中心 42201;

  • 代理人汪洁丽

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G05B23/02 专利申请号:2022105893341 申请日:20220526

    实质审查的生效

说明书

技术领域

本发明属于电力系统紧急控制措施整定技术领域,更具体地,涉及一种用于紧急切机控制措施整定的智能体训练方法、紧急切机控制措施的智能预整定方法及计算机可读存储介质。

背景技术

作为我国电力系统安全稳定运行的第二道防线,紧急控制是在严重故障或扰动发生后,维持系统暂态安全稳定不可或缺的重要措施。目前,紧急切机控制是针对电力系统暂态失稳最有效和最常用的控制措施。而紧急切机控制最普遍的模式是:离线预决策与实时工况匹配。为了避免实时运行工况与控制措施整定时的运行工况严重不匹配,导致切机控制出现欠量或过量控制问题,在紧急切机控制措施的预决策阶段会尽可能多地考虑电力系统可能的运行工况与严重故障。

紧急切机控制措施的离线预决策一般由电网运行技术专家执行,他们结合领域知识和运行经验分析暂态仿真结果,通过不断试错与调整得到对应故障场景下有效的紧急切机控制措施。然而,由于现代大型互联复杂电力系统的典型运行工况和暂态失稳故障太多,人工离线预整定的工作模式已变得非常耗时耗力。同时,人工整定切机控制措施的方式对专家经验的依赖性太强。另一方面,基于优化算法自动搜索紧急切机控制措施的方法在电力系统可控发电机节点较多时,巨大的搜索空间导致所需的暂态仿真计算量会急剧增加,整定控制措施的效率不高。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种用于紧急切机控制措施整定的智能体训练方法、紧急切机控制措施的智能预整定方法及计算机可读存储介质,其目的在于解决电力系统紧急切机控制措施整定耗时耗力且效率不高的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种用于紧急切机控制措施整定的智能体训练方法,包括:

步骤S11:设置智能体训练参数并初始化所述智能体的网络参数;

步骤S12:随机选择一个新的暂态失稳场景,仿真得到无切机控制集的暂态失稳仿真数据,以暂态失稳仿真数据作为初始输入量输入所述智能体;

步骤S13:利用智能体进行决策,得到切机控制集;

步骤S14:仿真校验当前切机控制集的有效性,记录暂态仿真数据并计算奖励,若切机控制集无效且决策次数未达到决策次数阈值,则以当前暂态仿真数据作为输入量输入所述智能体,并返回步骤S13;若切机控制集有效或决策次数达到决策次数阈值,则执行步骤S15;

步骤S15:以当前暂态失稳场景下的暂态失稳仿真数据、每次决策的切机控制集以及对应的暂态仿真数据与奖励作为经验样本,训练并更新所述智能体的网络参数;

步骤S16:判断智能体是否达到训练轮次阈值,若否,则返回步骤S12;若是,保存并输出训练好的智能体模型。

在其中一个实施例中,当前输入所述智能体的输入量包括上一次决策得到的切机控制集、在上一次切机控制集作用下的电力系统拓扑结构、母线电压幅值、发电机相对功角。

在其中一个实施例中,所述智能体的决策网络采用了由图卷积神经网络、卷积神经网络与全连接神经网络组成的复合神经网络,其中,所述图卷积神经网络用于提取电力系统的母线电压幅值与拓扑结构的耦合特征,所述卷积神经网络用于提取发电机相对功角,所述全连接神经网络用于提取上一切机控制集。

在其中一个实施例中,所述智能体采用线性决策空间策略,采用线性决策空间策略的智能体在决策时,在一次决策中相对于前一次决策只调整一个发电机节点的切机量,其余发电机节点的切机量保持不变,以使智能体输出层神经元的维度为h*m,其中,m为发电机节点的数量,h为每个发电机节点的切机量选项数量。

在其中一个实施例中,

在步骤S14中,当切机控制集无效且决策次数未达到决策次数阈值时,执行:将当前切机控制集作为重复控制集存入无效动作集合;并,比较当前决策下和前一次决策下的电力系统暂态功角失稳时刻,当当前决策下的电力系统暂态功角失稳时刻提前,则获取当前决策中相较于上一次决策中的切机量发生变化的发电机节点以及对应的错误切机量,并将所获取的发电机节点的大于或等于所述错误切机量作为错误动作存入无效动作集合;

在步骤S13中,当智能体进行决策时,智能体屏蔽当前无效动作集合中的重复控制集以及错误动作后得到对应的切机控制集。

在其中一个实施例中,在步骤S13中,智能体在屏蔽当前无效动作集合中的重复控制集以及错误动作后的决策空间中,采用ε-贪婪策略确定当前切机控制集。

在其中一个实施例中,在步骤S14中,根据仿真结束时刻的系统中发电机节点的相对功角大小判断当前切机控制集的有效性,若存在两发电机节点之间的相对功角大于或等于180°,则认定为电力系统失稳,当前切机控制集无效;若任意两发电机节点之间的相对功角小于180°,则认定为电力系统稳定,当前切机控制集有效。

在其中一个实施例中,在步骤S14中,根据暂态仿真数据计算奖励的公式为:

其中,r

按照本发明的另一方面,提供了一种紧急切机控制措施的智能预整定方法,包括:

步骤S21:确定一个新的暂态失稳场景,仿真得到无切机控制集的暂态失稳仿真数据,以暂态失稳仿真数据作为初始输入量输入训练好的智能体,所述智能体为经过上述方法训练所得;

步骤S22:利用所述训练好的智能体进行决策,得到切机控制集;

步骤S23:仿真校验当前切机控制集的有效性,记录暂态仿真数据,若切机控制集无效且决策次数未达到决策次数阈值,则以当前暂态仿真数据作为输入量输入所述智能体,并返回步骤S22;若切机控制集无效且决策次数超过决策次数阈值,则提示无法得到所述失稳场景下的有效切机控制;若切机控制集有效,则输出所述切机控制集。

按照本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

本发明提出了一种用于紧急切机控制措施整定的智能体训练方法、以及利用训练好的智能体进行紧急切机控制措施的智能预整定方法。其中,智能体训练包括两个阶段,分别为经验样本获取阶段和网络参数训练阶段。其中,经验样本获取阶段包括:随机选择一个出现故障的暂态失稳场景并将通过仿真所得的暂态失稳仿真数据输入智能体,智能体基于其输入特征在决策空间中整定输出切机控制集,即,切机控制措施,同时通过暂态仿真验证该切机控制措施的有效性,当仿真发现此措施不能有效维持暂态稳定,则认定为无效措施,以该无效措施下所得到的仿真数据作为新的输入数据输入智能体,智能体根据上一次的暂态仿真验证结果调整切机控制措施后输出切机控制集,通过多次整定回合,直至达到整定次数阈值或得到有效切机控制措施,输出一个经验样本,该经验样本包括暂态失稳场景、以及在该暂态失稳场景下智能体所有整定回合输出的切机控制集、以及在每个切机控制集下的仿真结果。在获得经验样本后,进入网络参数训练阶段,即智能体根据前一阶段整定切机控制措施的经验进行学习并调整网络参数,提升寻找最佳输出结果的速度。经过多次训练之后,便能获取收敛的智能体模型。在得到训练好的智能体后,面对新的暂态失稳场景,只要将对应的暂态失稳仿真数据输入该智能体,并参照上述经验样本获取阶段的过程,便能输出对应暂态失稳场景下的切机控制措施,整定过程不再依靠人工完成,可以将电网技术专家从繁重的紧急控制措施整定工作中解放出来,大大提升了预整定的效率。

附图说明

图1为一实施例的用于紧急切机控制措施整定的智能体训练方法的步骤流程图;

图2为一实施例的智能体线性决策空间设计原理图;

图3为一实施例的智能体的负荷决策网络及知识融合框架;

图4为一实施例的智能体性能测试时的整定成功场景总数示意图;

图5为一实施例的智能体性能测试时的整定总奖励示意图;

图6为一实施例的智能体性能测试时的整定总次数示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示,在一实施例中,用于紧急切机控制措施整定的智能体训练方法包括以下步骤:

步骤S110:设置智能体训练参数并初始化智能体的网络参数。

其中,智能体训练参数包括:训练总轮次、训练样本批次大小、学习率、贪婪系数、折扣因子、决策次数上限,智能体决策网络规模及尺寸;网络参数包括:全连接神经网络的权值与偏置、卷积神经网络的卷积核与池化参数。

步骤S120:随机选择一个新的暂态失稳场景,仿真得到无切机控制集的暂态失稳仿真数据,以暂态失稳仿真数据作为初始输入量输入智能体。

当电力系统发生严重故障后,电力系统出现暂态失稳的潮流工况与故障信息组成的场景,获取该场景在未投入控制措施下的暂态失稳仿真数据。作为智能体决策切机控制措施所需的状态输入数据。

在一实施例中,每次输入智能体的状态输入数据包括:电力系统故障后的拓扑结构、母线电压幅值、发电机节点相对功角、当前投入的切机控制措施量。该多源异构特征量有利于更全面地分析电力系统的暂态失稳特征。

在一实施例中,得到智能体的状态输入数据中,针对暂态仿真数据V

(1)母线电压幅值V

(2)发电机节点相对功角δ

式中,

步骤S130:利用智能体进行决策,得到切机控制集。

其中,切机控制集即为切机控制措施。电力系统连接有m个发电机节点,每个发电机节点接入有h台相同的发电机,即每个节点具有h个切机量选项,所谓的切机控制,就是在出现故障后的暂态失稳场景下,切除若干发电机,以使电力系统恢复稳定。切机控制集

在一实施例中,当电力系统中发电机节点以及每个节点的切机量选项确定后,其决策空间的范围确定。此时,需要选择合适的决策空间策略。当电力系统中有m台可控发电机节点,每个发电机节点都有h个切机量选项时,如图2所示,在传统技术中,通常使用指数决策空间策略,对于指数决策空间,理论上至少只需一个决策回合即可获得近似最优解,但是,其神经元的维度为h

在一实施例中,如图3所示,智能体的决策网络采用了由图卷积神经网络(GCN)、卷积神经网络(CNN)与全连接神经网络(FCN)组成的复合神经网络,用于提取电力系统暂态仿真数据的多源异构状态特征。其中,图卷积神经网络能有效提取电力系统的母线电压幅值V

在一实施例中,在本步骤中,利用智能体进行决策时,还引入无效动作集合约束,该无效动作集合随着决策回合不断更新,且不同的暂态失稳场景对应不同的无效动作集合。该内容具体可见下文介绍。

在一实施例中,智能体在每次决策时,在考量无效动作集合约束屏蔽无效动作后,根据ε-贪婪原则,在屏蔽无效动作后的决策空间中,参考剩余动作的Q值整定当前采取的切机控制措施。

其中,智能体根据ε-贪婪策略在线性决策空间中整定切机控制措施时,动作整定表达式如下:

式中,ε

步骤S140:仿真校验当前切机控制集的有效性,记录暂态仿真数据并计算奖励,若切机控制集无效且决策次数未达到决策次数阈值,则以当前暂态仿真数据作为输入量输入智能体,并返回步骤S130;若切机控制集有效或决策次数达到决策次数阈值,则执行步骤S150。

其中,通过时域暂态仿真计算校验控制措施有效性的过程包含:设置严重故障、继电保护装置动作隔离故障、投入紧急切机控制措施等操作。

仿真过程中,依次设置严重故障、继电保护装置动作隔离故障、投入紧急切机控制措施等操作。例如,暂态仿真从t

在一实施例中,暂态稳定性(也即切机控制措施的有效性)可以根据仿真结束时的相对功角数据判断,根据仿真结束时刻的系统中发电机节点的相对功角大小判断电力系统是否保持暂态稳定性,若电力系统发生暂态功角失稳,则根据仿真数据计算系统最大相对功角差超过180度时的仿真时刻。

具体的,以

式中,

在一实施例中,还设有决策结束标志

式中,N

其中,在获取到暂态仿真数据后,还需要计算当前切机控制措施的奖励。具体的,设定第K决策回合的奖励为r

式中,λ

在一实施例中,还引入无效动作集合约束,该无效动作集合在步骤S140中进行更新。具体的,无效动作集合包括重复控制集与错误动作。

重复控制集(重复动作),将智能体针对该场景整定过的紧急切机控制措施存入重复控制集,用于下次整定控制措施时,约束智能体不再整定相同的控制措施。

具体的,利用措施清单存储从整定过程开始智能体在每次决策时制定的切机控制集。措施清单L

L

每当智能体决策并输出第k决策回合的控制措施a

式中,a

错误动作集,将仿真校验中发现电力系统暂态功角失稳时刻提前的紧急切机控制措施,以及比当前所切发电机节点的切机量更大的控制措施存入错误动作集合,在下次整定控制措施时,约束智能体不再整定过量控制的切机措施或切除不合适的发电机节点。

具体的,根据线性决策空间的设计思路,针对a

式中,

当返回步骤S130重新进行决策时,便通过以上更新的无效动作集合进行约束。在本实施例中,将电力系统紧急控制措施整定的知识规则以无效动作约束的形式作用于智能体的决策过程,能有效引导智能体规避重复或错误的动作,即不浪费整定次数与暂态仿真计算资源在无法维持系统暂态稳定的控制措施上,从而提高智能体整定紧急切机控制措施的效率。

步骤S150:以当前暂态失稳场景下的暂态失稳仿真数据、每次决策的切机控制集以及对应的暂态仿真数据与奖励作为经验样本,训练并更新智能体的网络参数。

存储上述过程措施整定过程中产生的经验样本,包括暂态失稳数据、切机控制措施、投入措施后的暂态仿真数据、奖励及结束标志,经验样本数据存入训练样本库,用于对智能体的网络参数进行训练。

具体的,融合知识与深度强化学习的智能体训练过程是通过更新策略网络参数以最小化时间差分误差,其式如下:

式中,Q和Q′分别表示策略网络与目标网络,θ

步骤S160:判断智能体是否达到训练轮次阈值,若否,则返回步骤S120;若是,保存并输出训练好的智能体模型。

其中,当未达到设定的训练轮次阈值时,跳转至步骤S120,重新选择一个新的暂态失稳场景,并针对该新的暂态失稳场景,重复执行上述过程,直至智能体达到训练轮次阈值,由此输出训练好的智能体模型。由于训练采用的暂态失稳场景源自不同的初始潮流工况与严重故障,能增加数据多样性,经过训练的智能体在面对新的暂态失稳场景时,整定紧急切机控制措施的泛化能力得到保障。

以上实施例融合了电力系统紧急控制相关知识规则与深度强化学习算法,结合时域暂态仿真计算,智能体可以针对暂态失稳场景自主地整定紧急切机控制措施。具体的,该整定方法基于双深度Q网络(DBQN)算法,根据不同暂态失稳场景下的仿真数据,观测得到状态输入信息,智能体评估各切机措施的Q值,在无效动作集合约束下,采用ε-贪婪策略确定切机控制措施。利用时域暂态仿真验证所整定的切机控制措施的有效性。接着,根据仿真验证结果,观测得到系统的下一状态输入信息函数,制定相应的奖励,并更新针对该暂态失稳场景的措施整定过程的结束标志。智能体不断调整所整定的紧急切机控制措施,直至能维持电力系统故障后的暂态稳定性。存储措施整定过程中的经验样本,定期从样本库中抽取定量的样本训练更新智能体的策略网络参数,得到能针对不同暂态失稳场景均能高效地整定有效切机控制措施的智能体。

以上实施例利用融合知识与DBQN算法的智能体,在经过训练后,能整定不同暂态失稳场景下的有效紧急切机控制措施,措施整定过程能自主完成,不依赖人工。其次,智能体采用了如图2所示的线性决策空间设计,有效减少智能体的参数、降低智能体的训练难度。另外,智能体采用了如图3所示的复合决策网络用于提取电力系统中多源异构状态特征。复合决策网络提升了智能体的表征能力,有利于加速之能力训练过程的收敛速度、提升措施整定质量与整定效率。最后,智能体采用了知识融合框架,整合重复动作与无效动作集合,并以无效动作集合约束的形式作用于智能体决策过程,避免智能体整定出无法维持电力系统暂态稳定性的切机控制措施、浪费整定次数,从而提升智能体的整定效率。

本发明还涉及一种紧急切机控制措施的智能预整定方法,其包括:

步骤S210:确定一个新的暂态失稳场景,仿真得到无切机控制集的暂态失稳仿真数据,以暂态失稳仿真数据作为初始输入量输入训练好的智能体。

其中,智能体为经过上文任一种方法训练所得。

步骤S220:利用训练好的智能体进行决策,得到切机控制集。

步骤S230:仿真校验当前切机控制集的有效性,记录暂态仿真数据,若切机控制集无效且决策次数未达到决策次数阈值,则以当前暂态仿真数据作为输入量输入智能体,并返回步骤S220;若切机控制集无效且决策次数超过决策次数阈值,则提示无法得到失稳场景下的有效切机控制;若切机控制集有效,则输出切机控制集。

在一实施例中,上述智能预整定方法也引入无效动作集合约束,即在步骤S230中,参考上文介绍更新无效动作集合,在步骤S220中,基于无效动作集合约束进行决策,其过程参考上文介绍,在此不再赘述。

利用上述离线训练好的智能体,面对新的暂态失稳场景,也能根据暂态失稳数据整定紧急切机控制措施,并根据暂态仿真计算验证结果,自主调整控制措施直至得到有效的控制措施,以维持电力系统在严重故障后的暂态稳定性。

在一实施例中,利用训练好的智能体进行预整定期间,可以将预整定过程获得的新的经验样本存入经验样本库,并定期从样本库中抽取定量的样本进一步训练更新智能体的策略网络参数,得到能针对不同暂态失稳场景均能高效地整定有效切机控制措施的智能体。存储不同暂态失稳工况下的经验样本,训练使得智能体参数得到更新,从而提升智能体的决策质量与决策效率,即,智能体能通过更少的整定次数得到有效维持系统暂态稳定的紧急切机控制措施,且切机量尽量小。同时,配合无效动作集合约束的知识融合机制,能有效减少存入经验样本库中的无效动作样本比例,进而加速智能体训练过程的收敛速度。

相应的,本发明还涉及一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任一项方法的步骤。存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

以下,以一具体的实施例进行说明。

例如,在IEEE标准新英格兰10机39母线系统中,仿真场景设置如表1所示,在仿真过程中,时间参数设置为:t

表1暂态稳定仿真场景设置

本实施例提供的电力系统紧急切机控制措施智能整定方法,其包括以下过程:

(1)GCN和CNN网络均包含两个卷积层和一个池化层。所有三个通道的输出神经元数量都设置为100。9个发电机节点中,每台发电机节点的切机量设定为[0,0.1,…,1.0],总计11个选择。因此,线性决策空间的维度设置为99。网络训练的超参数设置如下:训练轮次阈值N

(2)随机选择暂态失稳场景,获取无控制措施下的暂态失稳仿真数据,作为智能体决策切机控制措施所需的状态输入数据,状态输入数据包括:电力系统故障后的拓扑结构、母线电压幅值、发电机节点相对功角、当前投入的切机控制措施量;

(3)根据暂态失稳数据与无效动作集合约束整定切机控制措施;其包括:

(3-1)智能体根据暂态失稳的状态输入数据计算不同切机控制措施对应的Q值;

(3-2)智能体根据无效动作集合约束

(3-3)智能体根据ε-贪婪原则,在屏蔽无效动作后的决策空间中,参考剩余动作的Q值整定当前采取的切机控制措施;

(4)通过时域暂态仿真,验证在所选失稳场景的潮流与故障下,投入智能体整定的切机控制措施后,电力系统能否维持暂态稳定性,若能维持暂态稳定,则说明当前切机控制措施有效,若不能,则说明当前切机控制措施无效,其包括:

(4-1)观察投入当前切机控制措施后电力系统的暂态仿真数据,并作为下一次决策的输入状态,制定奖励信号,更新决策轮次的结束标志;

(4-2)根据当前的切机控制措施与暂态稳定性,更新无效动作集合,并作为下一次整定控制措施时的动作约束

(5)判断暂态稳定状态是否达到第一终止条件;

(51)若电力系统暂态稳定,则第一终止条件满足,针对该失稳场景的措施整定过程结束,输出智能体整定的紧急切机控制措施;

若电力系统暂态失稳且决策次数超过50次,则第一终止条件满足,针对该失稳场景的措施整定过程结束,输出“无法得到该故障场景下的有效切机控制措施”;

(52)若电力系统暂态失稳且决策次数未超过50次,则第一终止条件不满足,转至(3),继续针对该失稳场景的切机控制措施整定过程;

(6)存储经验样本,并定期通过经验回放机制训练更新智能体参数;其过程包括:

(6-1)存储本次措施整定过程中产生的经验样本,包括暂态失稳数据、切机控制措施、投入措施后的暂态仿真数据、奖励及结束标志,经验样本数据存入训练样本库;

(6-2)定期地从训练样本库中抽取一批切机控制措施整定的经验样本,用于训练更新智能体决策网络的参数;

(7)判断训练模型更新参数的迭代次数是否30000次,若未达到,则继续执行步骤(2),在训练场景集中随机抽取一种暂态失稳场景继续训练过程;若迭代次数达到30000次,输出训练过程中决策性能最优的智能体模型。

(8)针对测试集中的100种暂态失稳场景,参考上述智能体整定措施性能测试流程,在训练过程中,每间隔200个训练轮次就利用测试场景进行一次性能测试。对比5种不同程度知识融合与特征融合的智能体决策性能。5种智能体分别为:融合电压+拓扑特征,融合去重知识+避错知识,融合电压+拓扑+去重知识,融合电压+去重知识+避错知识,融合电压+拓扑+去重知识+避错知识。

(9)每种智能体的训练过程重复5次,统计各智能体在训练过程中的性能评估结果。性能包括:整定成功场景总数、整定总奖励、整定总次数,分别如图4、图5、图6所示。其中,整定成功场景总数越大,表明智能体能应对的暂态失稳场景越多,能力越强;整定总奖励越大,表明智能体所整定的切机控制措施的切机量越小,经济性越好;整定总次数越少,表明智能体整定切机控制措施所需的暂态仿真计算校验次数越少,整定效率更高。

由图4、图5、图6可以看出,一方面,重复动作屏蔽可以防止智能体重复无效的决策,节省的迭代次数用于探索其他可能有效的切机措施。因此,融合了去重知识的智能体成功制定有效GRS的测试场景数量显著增加;错误动作屏蔽避免了继续在错误方向上的决策,同时也避免了将错误决策的记忆保存到经验样本池中,从而进一步提高了训练初期的经验样本质量。因此,融合了去重+避错知识的智能体在训练初期的决策性能优于仅融合了去重知识的智能体,且收敛速度更快。

另一方面,融合电压并用CNN提取母线电压幅值特征的智能体决策性能显著提升。这是因为暂态仿真过程中母线电压幅值都能反映电力系统的稳定特性,也能一定程度反映母线内在的连接关系。然而,由于电压幅值是以矩阵方式表示的,不能直观反映拓扑特征,仅靠CNN的特征提取能力能挖掘的信息相对有限。反观融合了电压+拓扑特征的智能体,策略网络中的GCN能同时提取母线电压和拓扑的特征。这意味着该智能体的策略网络比使用CNN提取电压幅值特征的策略网络具有更强的表征学习能力。

因此,本方法提出的融合知识与深度强化学习智能体的训练收敛速度更快,决策性能更优。

本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号