公开/公告号CN112488871A
专利类型发明专利
公开/公告日2021-03-12
原文格式PDF
申请/专利号CN202011151906.5
申请日2020-10-23
分类号G06Q50/06(20120101);G06N3/08(20060101);
代理机构11334 北京国帆知识产权代理事务所(普通合伙);
代理人李增朝;徐爱萍
地址 530015 广西壮族自治区南宁市民主路6-2号
入库时间 2023-06-19 10:11:51
技术领域
本发明涉及电力技术领域,尤其涉及一种电网原始输入特征冗余数据剔除方法及系统。
背景技术
近年来,深度学习作为当前常见的人工智能方法之一,在特征提取、分类判别等方面取得跨越式发展,其对电网这类非线性系统具有非常强的拟合能力。由于电网原始输入特征的冗余度很高,若不加处理将会影响机器学习的训练效果,然而现阶段对电网原始输入特征的选择主要依靠人工来完成,这种方法受个人电网专业知识的限制,即不同的技术人员所选择的电网原始输入特征存在较大的差异性,导致无法有效地剔除冗余特征。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种电网原始输入特征冗余数据剔除方法及系统,排除人工选择方式,利用输入特征间的相关度可有效剔除其中的冗余特征,使得最终数据的稳定性较高。
为了解决上述问题,本发明提出了一种电网原始输入特征冗余数据剔除方法,所述方法包括:
获取电网原始输入特征数据集;
对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集;
基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集;
对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量。
可选的,所述电网原始输入特征数据集包括故障前的稳态特征数据以及故障后的暂态特征数据。
可选的,所述基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集包括:
基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集。
可选的,所述对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量包括:
获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值;
若判断第i个关联因子大于所述预设阈值,则将第i个关联因子所对应的离散特征量进行剔除处理;
判断i 若i 若i 可选的,在判断第i个关联因子是否大于预设阈值之后,还包括: 若判断第i个关联因子小于等于所述预设阈值,则将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,继续判断i 另外,本发明实施例还提供了一种电网原始输入特征冗余数据剔除系统,所述系统包括: 获取模块,用于获取电网原始输入特征数据集; 处理模块,用于对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集; 计算模块,用于基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集; 剔除模块,用于对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量。 可选的,所述电网原始输入特征数据集包括故障前的稳态特征数据以及故障后的暂态特征数据。 可选的,所述计算模块用于基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集。 可选的,所述剔除模块包括: 第一判断单元,用于获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值;若判断第i个关联因子大于所述预设阈值,则将第i个关联因子所对应的离散特征量进行剔除处理; 第二判断单元,用于判断i 可选的,所述第一判断单元还用于在判断第i个关联因子小于等于所述预设阈值之后,则将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,继续跳转至所述第二判断单元执行。 在本发明实施例中,通过对电网原始输入特征数据集中所包含的各个特征量进行离散化处理,可降低后续对输入特征间的关联性分析的复杂度,提高工作效率;利用输入特征间的相关度可有效剔除其中的冗余特征,相比于现阶段所采用的人工选择方式,可减少人员负担,同时可避免主观性因素存在,使得最终数据的稳定性较高。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。 图1是本发明实施例公开的一种电网原始输入特征冗余数据剔除方法的流程示意图; 图2是本发明实施例公开的一种电网原始输入特征冗余数据剔除系统的结构组成示意图。 具体实施方式 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。 图1示出了本发明实施例中的一种电网原始输入特征冗余数据剔除方法的流程示意图,所述方法包括如下: S101、获取电网原始输入特征数据集; 在本发明实施例中,通过电力技术人员从电网运行数据库中随机选择一部分电网原始输入特征值,且该电网原始输入特征值可以是故障前的稳态特征数据,也可以是故障后的暂态特征数据,以此构成电网原始输入特征数据集。其中,故障前和故障后主要是针对支路功率、母线电压以及发电机出力等可能出现的数据波动情况。 S102、对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集; 在本发明实施例中,由于所述电网原始输入特征数据集所包含的支路功率、母线电压以及发电机出力均为连续变量,若直接对这些连续变量进行异常数据的筛除处理,无异于将增加算法的复杂度和空间开销,此处对各个连续变量进行离散化处理的一般过程包括:对所述电网原始输入特征数据集中的每一个特征量按照从小到大的规则进行排序后,将每一个特征量定义为一个离散区间,在不改变原本样本数据大小的情况下,形成所述电网输入特征离散数据集。 S103、基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集; 在本发明实施例中,基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集,其中所述检验统计量X
式中,A 此外,对每两个离散特征量之间的检验统计量进行计算是采用按序交叉计算的方式进行,即先计算第一区间与第二区间之间的检验统计量、接着计算第二区间与第三区间之间的检验统计量、再计算第三区间与第四区间之间的检验统计量,以此类推并按序存储结果,可以保证各个区间的密切关联。 S104、对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量。 具体实施过程包括: (1)获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值; 在实施过程中,第i个关联因子即为第i个检验统计量,若判断第i个关联因子大于所述预设阈值时,继续执行步骤(2);若判断第i个关联因子小于等于所述预设阈值时,继续执行步骤(3)。其中,所述预设阈值是人为根据统计学知识所获取到的置信水平参数,且已由电力技术人员根据经验知识进行验证。 (2)将第i个关联因子所对应的离散特征量进行剔除处理; 在实施过程中,由于所述特征关联因子集中的每一个关联因子都是按序排列的,且每一个关联因子表示为相邻区间的两个离散特征量的相关性,当第i个关联因子大于所述预设阈值时,通过调用对第i-1个关联因子的判断结果来完成异常数据的剔除处理,再跳转至步骤(4)执行。其中,对异常数据的剔除处理包括:当第i-1个关联因子大于所述预设阈值时,剔除第i个关联因子所对应的两个离散特征量中的最小值;当第i-1个关联因子小于等于所述预设阈值时,剔除第i个关联因子所对应的两个离散特征量中的最大值。 (3)将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,即第i个关联因子所对应的两个离散特征量均为非冗余值,再跳转至步骤(4)执行; (4)判断i 图2示出了本发明实施例中的一种电网原始输入特征冗余数据剔除系统的结构组成示意图,所述系统包括: 获取模块201,用于获取电网原始输入特征数据集; 在本发明实施例中,通过电力技术人员从电网运行数据库中随机选择一部分电网原始输入特征值,且该电网原始输入特征值可以是故障前的稳态特征数据,也可以是故障后的暂态特征数据,以此构成电网原始输入特征数据集。其中,故障前和故障后主要是针对支路功率、母线电压以及发电机出力等可能出现的数据波动情况。 处理模块202,用于对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集; 在本发明实施例中,由于所述电网原始输入特征数据集所包含的支路功率、母线电压以及发电机出力均为连续变量,若直接对这些连续变量进行异常数据的筛除处理,无异于将增加算法的复杂度和空间开销,此处对各个连续变量进行离散化处理的一般过程包括:对所述电网原始输入特征数据集中的每一个特征量按照从小到大的规则进行排序后,将每一个特征量定义为一个离散区间,在不改变原本样本数据大小的情况下,形成所述电网输入特征离散数据集。 计算模块203,用于基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集; 在本发明实施例中,基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集,其中所述检验统计量X
式中,A 此外,对每两个离散特征量之间的检验统计量进行计算是采用按序交叉计算的方式进行,即先计算第一区间与第二区间之间的检验统计量、接着计算第二区间与第三区间之间的检验统计量、再计算第三区间与第四区间之间的检验统计量,以此类推并按序存储结果,可以保证各个区间的密切关联。 剔除模块204,用于对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量;其中,所述剔除模块204包括第一判断单元和第二判断单元。 进一步的,所述第一判断单元的具体实施过程包括如下: (1)获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值; 在实施过程中,第i个关联因子即为第i个检验统计量,若判断第i个关联因子大于所述预设阈值时,继续执行步骤(2);若判断第i个关联因子小于等于所述预设阈值时,继续执行步骤(3)。其中,所述预设阈值是人为根据统计学知识所获取到的置信水平参数,且已由电力技术人员根据经验知识进行验证。 (2)将第i个关联因子所对应的离散特征量进行剔除处理; 在实施过程中,由于所述特征关联因子集中的每一个关联因子都是按序排列的,且每一个关联因子表示为相邻区间的两个离散特征量的相关性,当第i个关联因子大于所述预设阈值时,通过调用对第i-1个关联因子的判断结果来完成异常数据的剔除处理,再跳转至所述第二判断单元执行。其中,对异常数据的剔除处理包括:当第i-1个关联因子大于所述预设阈值时,剔除第i个关联因子所对应的两个离散特征量中的最小值;当第i-1个关联因子小于等于所述预设阈值时,剔除第i个关联因子所对应的两个离散特征量中的最大值。 (3)将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,即第i个关联因子所对应的两个离散特征量均为非冗余值,再跳转至所述第二判断单元执行。 进一步的,所述第二判断单元用于判断i 在本发明实施例中,通过对电网原始输入特征数据集中所包含的各个特征量进行离散化处理,可降低后续对输入特征间的关联性分析的复杂度,提高工作效率;利用输入特征间的相关度可有效剔除其中的冗余特征,相比于现阶段所采用的人工选择方式,可减少人员负担,同时可避免主观性因素存在,使得最终数据的稳定性较高。 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。 以上对本发明实施例所提供的一种电网原始输入特征冗余数据剔除方法及系统进行了详细介绍,本文中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
机译: 在原始副本特征管理服务器设备和特定原始副本特征管理服务器设备为了管理原始副本特征信息处理方法信息处理系统而得到的信息之后,原始副本特征管理服务器设备进行内容管理
机译: 一种用于预测语音识别性能的计算机实现的方法,其特征在于,该方法包括以下步骤:至少接受输入,计算特征向量以引入这种输入,模型预测中所述特征向量中的至少一个,并获得对来自预测模型的入口的预测;系统;方法
机译: 一种将手掌或脚的组合输入图像的自动化医学和心理学特征与观察到的专家相结合的方法和系统,以及使用神经网络对人的解释进行自我特征化的方法和系统