首页> 中国专利> 一种基于密度聚类和自组织网络的电网告警数据关联溯源系统的实现方法

一种基于密度聚类和自组织网络的电网告警数据关联溯源系统的实现方法

摘要

本发明公开了一种基于密度聚类和自组织网络的电网告警数据关联溯源系统的实现方法,包括:基于多个维度对多电站原始告警数据进行切分操作,并利用每个维度的特征关键词进行特征向量化;从向量化告警数据中抽取目标可疑告警数据,同时制定关联指数ConValue,使用DBSCAN对目标告警数据和各个电站的告警数据进行聚类操作,得到若干条关联数据;提取关联数据以及目标告警数据的告警开始时间和最新发生时间,以目标告警数据的时间为原点,定义关联数据的入港和出港,构建出两个时间维度的攻击传播图;对多电站的关联数据进行二次特征切分,并利用自组织网络进行二次特征挖掘,得到关联数据的细粒度特征描述。本发明能够保障电力监控系统安全稳固运行。

著录项

  • 公开/公告号CN114880380A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 国网青海省电力公司信息通信公司;

    申请/专利号CN202210597168.X

  • 发明设计人 王光辉;李海龙;苏生平;王云翔;

    申请日2022-05-30

  • 分类号G06F16/2458(2019.01);G06F16/9537(2019.01);G06K9/62(2022.01);G06Q50/06(2012.01);H04L41/0631(2022.01);

  • 代理机构南京锐恒专利代理事务所(普通合伙) 32506;

  • 代理人陈思

  • 地址 810000 青海省西宁市城西区盐湖巷5号

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06F16/2458 专利申请号:202210597168X 申请日:20220530

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种基于密度聚类和自组织网络的电网告警数据关联溯源系统的实现方法,属于电网信息安全技术领域。

背景技术

随着计算机技术和工业物联网的迅速发展,越来越多的领域开始进行信息化建设。作为关键信息基础设施的电力系统,在信息化、数字化的快速发展中,也采用了多种计算机技术来保障系统稳定的运行。与此同时,作为国家的支柱性能源,电力系统的安全性不容忽视。

电力监控系统作为保障电力系统安全性的重要组成部分,主要承担不同层级的电力设备的实时数据采集、开关状态检测以及远程控制等任务,能够及时捕获电力设备的多种异常状态,并及时上报给电力调度系统。由于接入的电力设备种类和数量快速增加,电力监控系统所受到的外部威胁也日益增多,如何对各种异常告警数据以及背后的攻击行为进行分析研究,是保障电力监控系统安全稳固的关键。现有的电力监控系统在网络安全行为分析方面还存在不足,数据处理能力和安全预判能力有限,主要表现在:(1)电力监控系统内网络安全事件分析能力差;(2)电力监控系统内攻击溯源定位能力差;(3)电力监控系统内安全状态判定能力缺失。

目前通过研究发现,电力监控系统的告警数据虽然纷繁复杂,但其中不乏一些存在内在关联的数据,例如违规的USB设备接入导致多个时间段内的多条告警数据、某个厂站违规访问互联网导致的多个厂站捕获多条告警数据等。攻击行为往往会被监控系统捕获并以告警数据的形式呈现,并且按照不同站点进行分类,因此目前亟需从多站点的海量告警数据中分析出可能的攻击行为,并进行溯源操作,分析出可疑攻击行为内在的行为特征,进而降低网络安全风险,保障电力监控系统的安全与稳定运行。

发明内容

本发明目的在于针对多电站海量告警数据难以提取有效的攻击行为、无法进行高效溯源操作的问题,提出了一种基于密度聚类和自组织网络的电网告警数据关联溯源系统的实现方法,该方法从电力监控系统所采集的告警数据出发,利用密度聚类算法,分析多站点的告警数据在时间和空间上的深层次关联性,尝试找到不同站点间在告警数据上的联系,挖掘某些异常告警数据的产生原因,定位特定告警事件的源头,从海量告警数据的多个维度,实现对可疑攻击行为的关联分析和溯源操作,同时采用自组织映射网络,对得到的关联数据进行二次特征划分,分析各个维度的特征在关联数据中所占比例,实现对攻击链路的进一步特征挖掘,最终获取可疑攻击行为的完整时空层面攻击链路与不同权重的攻击特征,能够有效加强电力监控系统分析与防御攻击事件的能力,实现对可疑攻击行为的深度研究与关联溯源。

本发明解决其技术问题所采取的技术方案是:一种基于密度聚类和自组织网络的电网告警数据关联溯源系统的实现方法,该方法对告警数据进行多维切分,利用密度聚类进行关联数据分析,并在特征二次处理的基础上采用自组织网络进行攻击链路构建与深层次特征描述,该方法包括以下步骤:

步骤1:收集多个电站告警数据,基于多个维度对原始数据进行切分操作,并利用每个维度的特征关键词进行特征向量化,形成多电站向量化告警数据;

步骤2:在步骤1的基础上,从向量化告警数据中抽取目标可疑告警数据,同时制定关联指数ConValue,表示目标可疑告警数据与其它数据之间的关联程度,并计算出DBSCAN算法的两个参数Eps和MinPts,使用DBSCAN对目标告警数据和各个电站的告警数据进行聚类操作,得到若干条关联数据;

步骤3:在步骤2的基础上,提取关联数据以及目标告警数据的告警开始时间和最新发生时间,以目标告警数据的时间为原点,定义关联数据的入港和出港,构建出两个时间维度的攻击传播图;

步骤4:在步骤2和步骤3的基础上,对多电站的关联数据进行二次特征切分,并利用自组织网络进行二次特征挖掘,得到关联数据的细粒度特征描述,最终给出更详细的攻击传播图。

进一步地,本发明收集多个电站告警数据,基于多个维度对原始数据进行切分操作,并利用每个维度的特征关键词进行特征向量化,形成多电站向量化告警数据,包括:

步骤1-1,维度划分:对多电站在一定时间范围内的所有原始告警数据,按照告警级别、告警内容、告警设备、上报设备、告警开始时间等11个维度,进行切分,实现对告警数据的具象化描述;

步骤1-2,特征向量化:针对维度切分后的文本型告警数据,采用关键词匹配法,对每个维度的内容进行关键词搜索,根据关键词存在与否来决定各个维度所转换为的具体向量,实现数据集从文本型转变为简单数值型数据;

步骤1-3,时间维度转换:针对告警数据中告警开始时间和最新发生时间两个维度的数据,直接采用时间戳转化的方法,将原始日期转化为规范的10位时间戳形式;

步骤1-4,数据汇总:对前述操作后的数据集进行汇总,将原始文本告警数据全部切分为多个维度的向量化数值数据,作为后续操作的目标数据集合。

进一步地,在本发明步骤1的基础上,从向量化告警数据中抽取目标可疑告警数据,同时制定关联指数ConValue,表示目标可疑告警数据与其它数据之间的关联程度,并计算出DBSCAN算法的两个参数Eps和MinPts,使用DBSCAN 对目标告警数据和各个电站的告警数据进行聚类操作,得到若干条关联数据,包括:

步骤2-1,基于切分后的多电站告警数据,选取告警内容较为可疑的条目作为目标可疑数据,将其向量化数据复制多份并放入各个电站的告警数据库中,从而将总数据集拆分为多个电站子数据集的形式;

步骤2-2,制定关联指数ConValue,用于表示目标可疑告警数据与多电站子数据集中数据的关联程度,一般该值取N×0.2,其中N为电站的告警数据总条目数;

步骤2-3,根据关联指数ConValue,计算DBSCAN聚类的参数Eps和 MinPts,其中Eps=ConValue×0.07+0.1, MinPts=Round(ConValue×0.2+2),其中Round为取整函数,即保证样本中距离为Eps的领域中样本个数为整数;

步骤2-4,基于参数Eps和MinPts,使用DBSCAN算法对每个电站内的告警数据进行聚类操作,得出目标可疑告警数据存在关联的若干条告警数据,汇总成为关联数据集。

进一步地,本发明步骤3中,在步骤2的基础上,提取关联数据以及目标告警数据的告警开始时间和最新发生时间,以目标告警数据的时间为原点,定义关联数据的入港和出港,构建出两个时间维度的攻击传播图,包括:

步骤3-1,对目前告警数据以及DBSCAN聚类得到的若干条关联数据,抽取每条数据的告警开始时间和最新发生时间,并直接对时间戳进行大小排序,得到所有数据在两个时间维度的先后顺序关系;

步骤3-2,以目标告警数据的时间为原点,定义入港关联数据为时间戳小于原点时间戳的关联数据,定义出港关联数据为时间戳大于原点时间戳的关联数据,以告警开始时间的时间戳和告警最新发生时间的时间戳为两个维度,根据入港和出港的定义将目标告警数据和关联数据进行划分;

步骤3-3,在电站的地图上,绘制两张图,一张为告警开始时间下的入港关联数据和出港关联数据,另一张为告警最新发生时间下的入港和出港关联数据,两张图作为针对目标告警数据在两个时间维度的攻击传播图。

进一步地,本发明步骤4中,在步骤2和步骤3的基础上,对多电站的关联数据进行二次特征切分,并利用自组织网络进行二次特征挖掘,得到关联数据的细粒度特征描述,最终给出更详细的攻击传播图,包括:

步骤4-1,基于步骤3获取到的关联数据集,选取告警数据的告警内容,制定更多维度的特征判决标准,例如是否涉及分区、分区名、是否接入USB设备、 USB设备厂商、串口名、串口协议等,利用这些判决标准,对关联数据进行二次特征量化;

步骤4-2,使用自组织网络(Self-Organizing Map,SOM)对二次特征量化后的关联数据和目标告警数据进行特征挖掘,得到这些数据更深层次的特征信息;

步骤4-3,将得到的特征信息添加到步骤3构建的两张攻击传播图中,实现对攻击传播图的进一步完善,同时给出占比较高的多维度特征,用来描述关联数据的共性信息。

有益效果:

1、本发明基于电站大量的原始告警数据,采用维度划分与特征向量化的操作,将原始文本数据转换为易于分析和处理的数值数据,大大降低了研究的难度,此外,该方法从单个电站推广到多个电站,实现了技术的可移植性,相比于其它方式,能有效节省分析的时间,提高研究的效率。

2、本发明通过定义关联指数来描述目标告警数据在多维度上与其它电站数据之间的关联程度,关联指数越大,则最终挖掘到的关联数据与目标数据越相似,同时通过关联指数来计算出DBSCAN聚类所需的两个核心参数,进而能够控制聚类的实际效果,避免了聚类准确率低或聚类标准不统一的情况出现,相比于其它的方式,实际效果更好,关联数据挖掘更准确。

3、本发明建立了关联数据在攻击传播过程中的先后顺序,并通过定义入港和出港来描述时间维度下的若干关联数据,同时制定二次特征挖掘标准,实现对特征的进一步挖掘与分析,不仅达到了对目标可疑告警数据的关联溯源操作,也为后期研究攻击行为内在特征与规律提供了解决思路,能在一定程度上保障电力监控系统运行的安全与稳定。

附图说明

图1是本发明的整体流程图。

图2是本发明中密度聚类的结构框图。

图3是本发明中攻击传播图构建的结构框图。

图4是本发明中二次特征挖掘的结构框图。

具体实施方式

以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。

如图1-4所示,本发明提供了一种基于密度聚类和自组织网络的电网告警数据关联溯源系统的实现方法,该方法基于原始告警数据进行多维度划分与关联聚类,并进行二次特征挖掘,对目标告警数据进行关联溯源,包括如下步骤:

步骤1:收集多个电站告警数据,基于多个维度对原始数据进行切分操作,并利用每个维度的特征关键词进行特征向量化,形成多电站向量化告警数据,具体包括:

(1)维度划分:对多电站在一定时间范围内的所有原始告警数据,按照告警级别、告警内容、告警设备、上报设备、告警开始时间等11个维度,进行切分,实现对告警数据的具象化描述;

(2)特征向量化:针对维度切分后的文本型告警数据,采用关键词匹配法,对每个维度的内容进行关键词搜索,根据关键词存在与否来决定各个维度所转换为的具体向量,实现数据集从文本型转变为简单数值型数据;

(3)时间维度转换:针对告警数据中告警开始时间和最新发生时间两个维度的数据,直接采用时间戳转化的方法,将原始日期转化为规范的10位时间戳形式;

(4)数据汇总:对前述操作后的数据集进行汇总,将原始文本告警数据全部切分为多个维度的向量化数值数据,作为后续操作的目标数据集合。

步骤2:在步骤1的基础上,从向量化告警数据中抽取目标可疑告警数据,同时制定关联指数ConValue,表示目标可疑告警数据与其它数据之间的关联程度,并计算出DBSCAN算法的两个参数Eps和MinPts,使用DBSCAN对目标告警数据和各个电站的告警数据进行聚类操作,得到若干条关联数据,如图2,具体为:

步骤2-1,基于切分后的多电站告警数据,选取告警内容较为可疑的条目作为目标可疑数据,将其向量化数据复制多份并放入各个电站的告警数据库中,从而将总数据集拆分为多个电站子数据集的形式;

步骤2-2,制定关联指数ConValue,用于表示目标可疑告警数据与多电站子数据集中数据的关联程度,一般该值取N×0.2,其中N为电站的告警数据总条目数;

步骤2-3,根据关联指数ConValue,计算DBSCAN聚类的参数Eps和 MinPts,其中Eps=ConValue×0.07+0.1, MinPts=Round(ConValue×0.2+2),其中Round为取整函数,即保证样本中距离为Eps的领域中样本个数为整数;

步骤2-4,基于参数Eps和MinPts,使用DBSCAN算法对每个电站内的告警数据进行聚类操作,得出目标可疑告警数据存在关联的若干条告警数据,汇总成为关联数据集。

步骤3:在步骤2的基础上,提取关联数据以及目标告警数据的告警开始时间和最新发生时间,以目标告警数据的时间为原点,定义关联数据的入港和出港,构建出两个时间维度的攻击传播图,如图3,具体包括:

(3-1)对目前告警数据以及DBSCAN聚类得到的若干条关联数据,抽取每条数据的告警开始时间和最新发生时间,并直接对时间戳进行大小排序,得到所有数据在两个时间维度的先后顺序关系;

(3-2)以目标告警数据的时间为原点,定义入港关联数据为时间戳小于原点时间戳的关联数据,定义出港关联数据为时间戳大于原点时间戳的关联数据,以告警开始时间的时间戳和告警最新发生时间的时间戳为两个维度,根据入港和出港的定义将目标告警数据和关联数据进行划分;

(3-3)在电站的地图上,绘制两张图,一张为告警开始时间下的入港关联数据和出港关联数据,另一张为告警最新发生时间下的入港和出港关联数据,两张图作为针对目标告警数据在两个时间维度的攻击传播图。

步骤4:在步骤2和步骤3的基础上,对多电站的关联数据进行二次特征切分,并利用自组织网络进行二次特征挖掘,得到关联数据的细粒度特征描述,最终给出更详细的攻击传播图,如图4,具体包括:

步骤4-1:基于步骤3获取到的关联数据集,选取告警数据的告警内容,制定更多维度的特征判决标准,例如是否涉及分区、分区名、是否接入USB设备、 USB设备厂商、串口名、串口协议等,利用这些判决标准,对关联数据进行二次特征量化;

步骤4-2:使用自组织网络对二次特征量化后的关联数据和目标告警数据进行特征挖掘,得到这些数据更深层次的特征信息;

步骤4-3:将得到的特征信息添加到步骤3构建的两张攻击传播图中,实现对攻击传播图的进一步完善,同时给出占比较高的多维度特征,用来描述关联数据的共性信息。

本发明通过对多电站原始告警数据进行分析,基于多维度进行切分,并采用关键词匹配法将文本数据转换为向量化数据,定义关联指数来描述目标可疑告警数据与多电站告警数据之间的关联程度,计算DBSCAN的参数并进行关联聚类操作,获取若干条关联告警数据,同时对告警数据进行二次特征挖掘,使用自组织网络获取更细粒度的数据特征,并基于两个时间维度进行攻击传播图的构建与描述,最终在多电站的背景下实现对目标可疑告警数据的关联溯源操作,有效提高电力监控系统防御攻击的能力,实现更加安全和稳固的运行。

以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号