技术领域
本发明涉及一种变电站故障数据诊断中的随机森林分类方法。
背景技术
现有技术中,当电网发生故障时,监控设备会及时产生报警信息并上传,例如开关跳闸、自动保护装置动作、欠电压、过电流、设备过负荷等这些信息。特别是当一些结构、规模巨大的电力系统出现故障时,一时间系统会产生大量的报警信息,而这些信息中包括大量的由保护或断路器误动、拒动,信道传输干扰错误,保护动作时间偏差等因素造成的不确定性的知识和数据。目前国内外提出了许多变电站故障数据诊断的技术和方法主要有专家系统、人工神经网络、优化算法技术、petri网络、模糊集理论、粗糙集理论等。以上智能技术在应用于故障诊断时各有不同优点,但同时也暴露出许多的问题。例如专家系统的维护难度高,容错性差;人工神经网络缺乏对自身行为的解释能力,同时需要大量训练样本等。目前已有的变电站故障数据诊断分类方法存在问题,无法同时保证准确率与效率,而在现实变电站故障诊断系统的使用中,对诊断速度与准确率的要求都较高。
发明内容
为了克服现有技术的不足,本发明提供一种变电站故障数据诊断项目中的随机森林分类方法,在决策树的基础上采用集成学习的思想,通过随机选择样本和随机选择特征进行训练生成随机森林,并通过随机森林对数据分类。
本发明解决其技术问题所采用的技术方案是:
一种变电站故障诊断项目中的随机森林分类方法,从变电站故障诊断系统中提取数据,对数据进行预处理,得到原始样本集,所述方法包括以下步骤:
(1)建立随机森林模型,过程如下:
(1.1)设T为原始样本集,其中总共有n个样例,则每轮从原始样本集T 中通过Bootstraping(有放回抽样)的方式抽取n个样例,得到一个大小为n的训练集T
(1.2)建立决策树;
(1.3)重复步骤(1.1)和(1.2),直到所有CART树都经过训练,组合所有决策树,构建成原始随机森林模型;
(2)对原始随机森林模型进行重要性分析,指定L=|sqrt(M)|选取排名前L 个特征;
(3)对原始样本集T进行处理,保留结果与所选出的特征,生成新的样本集Y,同时对测试集进行相同处理;
(4)使用新样本集Y,重复步骤(1),得到最终随机森林模型H;
(5)利用测试集对随机森林模型H进行测试,评估模型性能;
(6)用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定,并将分类结果储存到数据库中。
进一步,所述(1.2)的过程为:
(1.2.1)设每个样本有M个特征,指定一个数m=|log
(1.2.2)每个节点都按照(1.2.1)来分裂,直到不能够再分裂为止,利用CART 方法使每棵树最大限度地生长,不进行剪枝。
再进一步,所述变电站故障诊断系统为SCADA或EMS系统。
本发明的工作原理是:本发明提出了一种变电站故障诊断中的随机森林分类方法。从电网公司中获取数据,在建立决策树过程中,用基尼指数最小化准则,进行特征选择,生成二叉树;使用原始样本集建立原始随机森林模型,对其进行特征重要性分析,筛选出关键特征并处理原始样本集。使用新样本集建立最终随机森林模型,从而大量减少数据处理量;最终随机森林分类模型通过投票规则得出分类结果。
本发明的有益效果主要表现在:1、减少了大量的实时数据处理量,加快系统分类速度,保证决策系统实时性。2、分类性能好。3、避免过拟合。
附图说明
图1是变电站故障诊断项目中的随机森林分类方法的流程图。
图2是变电站故障数据的二层随机森林分类系统。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种变电站故障诊断项目中的随机森林分类方法,包括以下步骤:
第一步:从SCADA、EMS等系统中提取原始数据。
第二步:对原始数据进行数据预处理得到原始样本集T,预处理包括:
2.1)将非数值类型的数据转换为数值类型
2.2)若样本中含缺失值,删除该样本
2.3)若存在两个或多个样本,属性值与类别均完全相同,只存留一个,删除其余重复样本
2.4)若存在两个或多个样本,属性值完全相同但类别不同,删除这些无效样本
第三步:T为原始样本集,其中总共有n个样例,则每轮从原始样本集T中通过有放回抽样的方式抽取n个样例,得到一个大小为n的训练集T
第四步:依照训练集T
每个样本有M个特征,指定一个数m=|log2M|,满足条件m< 每个节点都按照以上步骤来分裂,直到不能够再分裂为止。利用CART算法使每棵树最大限度地生长,不进行剪枝。 第五步:将k个决策树组合起来,每一颗决策树权重相同,构建成原始随机森林模型。 第六步:对原始随机森林模型进行重要性分析,指定L=|sqrt(M)|选取排名前 L个特征。 第七步:对原始样本集T进行处理,保留结果与选出特征,生成新的样本集 Y,将未被包含的数据(袋外数据)作为测试数据。 第八步:使用新样本集Y,重复以上建立随机森林模型的步骤(即第三步至第五步),得到最终随机森林模型H。 第九步:利用测试集对随机森林模型H进行测试,分类结果按树分类器的投票多少而定,将所得分类结果与测试集结果对比,验证模型的可靠性。 第十步:用随机森林分类器对新的数据进行分类,并将分类结果储存到数据库中。 参照图2,应用本方法实现的变电站故障数据识别项目中的二层随机森林分类系统,主要包括:分类模块、用户交互模块。所述分类模块根据模型进行分类,计算分类正确率;所述用户交互模块,实现数据可视化展示,Web界面配置,应用程序配置。 本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。
机译: 一种内燃机故障的诊断和分类方法
机译: 故障,即偷偷摸摸的故障,例如诊断系统汽车,具有诊断探针,该探针与数据处理终端断开连接,用于记录机动车行驶中由数字控制器交换的数据
机译: 后处理系统,即氮氧化物阱,一种用于机动车的故障诊断方法,包括记录估计信息数据的比例与阈值的比较结果,从而建立故障诊断。