公开/公告号CN108566306A
专利类型发明专利
公开/公告日2018-09-21
原文格式PDF
申请/专利权人 广东电网有限责任公司;广东电网有限责任公司电力调度控制中心;
申请/专利号CN201810405008.4
申请日2018-04-28
分类号H04L12/24(20060101);H04L29/06(20060101);
代理机构44102 广州粤高专利商标代理有限公司;
代理人林丽明
地址 510050 广东省广州市越秀区东风东路757号
入库时间 2023-06-19 06:32:48
法律状态公告日
法律状态信息
法律状态
2020-08-04
授权
授权
2018-10-23
实质审查的生效 IPC(主分类):H04L12/24 申请日:20180428
实质审查的生效
2018-09-21
公开
公开
技术领域
本发明涉及电力网络安全实时异常检测技术领域,更具体地,涉及一种基于数据均衡技术的网络安全实时异常检测方法。
背景技术
近些年来,随着网络安全问题持续高热,全球重大网络攻击和信息窃取事件层出不穷,国家基础网络和重要系统屡遭攻击,各类新型网络攻击以及技术漏洞和隐患的威胁急剧攀升。作为国家主体的智能电网也收到了类似的威胁,智能电网是建立在集成的、高速双向通信网络的基础上,通过先进的传感和测量技术、先进的设备技术、先进的控制方法以及先进的决策支持系统技术的应用,其更容易收到此类安全的威胁。而且电力行业面临着一个不断演变的网络威胁环境。最初的黑客攻击是为了获得影响力及自我满足去攻击媒体网站;而现在已演变成为了经济、政治等目的的攻击。攻击者能够通过窃取知识产权来直接获取利益,也可以入侵、窃取电力企业的客户信息,更有甚者破坏电力企业的服务以至国家的基础设施。APT攻击可以避开传统的基于特征的安全检测机制,例如绕过防火墙、入侵防御系统、防病毒网关以及网闸等传统的安全机制,并且无法被侦测出来,悄无声息的从企业获取高级机密资料。
传统的网络安全方法在面对出现概率较小的异常事件时,难以在较短时间内给出可靠的预测结果,给网络安全带来安全隐患。
发明内容
本发明为解决以上现有技术存在的网络安全方法在面对出现概率较小的异常事件时,难以在较短时间内给出可靠的预测结果,给网络安全带来安全隐患的技术缺陷,提供一种基于数据均衡技术的网络安全实时异常检测方法。
为实现以上发明目的,采用的技术方案是:
一种基于数据均衡技术的网络安全实时异常检测方法,包括以下步骤:
S1:从电力通信网络的数据库中提取网络数据,选择相应数据特征进行预处理理,得到预处理后的数据;
S2:对预处理过的数据,基于Adasyn的数据均衡算法对数据进行平衡处理;
S3:通过平衡处理过的数据,建立网络安全异常检测模型;
S4:将数据特征导入网络安全异常检测模型,实现网络安全异常的实时检测。
其中,所述步骤S1包括以下步骤:
S21:从电力通信网络中收集的元数据中,选取以下数据特征:
时间信息:数据采集时间collect_time,异常发生时间event_time;访问账户特征信息:用户今日登录次数login_num,用户权限等级user_level,用户今日操作次数user_operation_num,用户IP地址user_ip,用户端口user_port;被访问机器信息:被访问机器等级server_level,被访问机器今日被访问次数request_num,被访问机器今日操作次数server_operation_num,被访问机器IP server_ip,被访问机器端口server_port;事件IDevent_id,是否为异常事件event_class;
S22:将选取的数据特征进行数据清洗,去除含有缺失值的数据及数据异常的记录,清洗后的数据用x表示;
S23:将数值型数据进行归一化处理,其计算公式为:
其中,X表示归一化之后的数据,Xmax表示参数的最大值,Xmin表示参数的最小值。
其中,所述步骤S2包括以下步骤:
S31:将归一化后的数据按照是否为异常事件进行分类并标注,其中所有事件集合为S=Sabnorm∪Snorm,异常事件集合定义为Sabnorm,正常事件定义为Snorm,定义特征空间为Y;
S32:计算各个异常点到所有其他事件点之间的距离,然后将计算结果进行从小到大进行排序,并取前K(K为奇数)个作为最近邻,距离计算公式为:
其中,
S33:设某个异常点的个近邻K中有N个异常点,定在该异常点周围生成人工异常点的数目Gnum,其计算公式为:
其中α为超参数,默认值为3;
S34:生成人工异常点,具体公式为:
其中,所述步骤S3包括以下步骤:
S31:初始化特征数据权重,有:
其中M表示集合S中元素的数量,W1表示所有样本点的权重;
S32:设总迭代次数为L,对于l=1,2,...,L,每轮迭代结束时,判断分类误差em是否满足要求或者迭代次数是否满足要求,如果满足要求或者迭代次数到达L次时,迭代终止,否则迭代继续;每轮迭代的具体过程如下:
计算基本分类器Ql(x)的分类误差em:
更新权重系数αl:
更新权值分布Dl+1:
Dl+1=(wl+1,1,…,wl+1,M),
其中,Zl表示归一化参数;
S33:构建线性组合并带入符号函数获得模型fo(x),计算公式为:
其中,fo(x)为-1时表示此访问为异常访问,为1时表示此访问为正常访问。
其中,所述步骤S4具体为:将数据特征导入模型fo(x)中,得到其输出值
上述方案中,所述方法首先从电网的数据库中提取网络数据,并选择相应特征进行预处理,通过基于ADASYN的数据均衡算法对数据进行平衡处理,并在此基础之上构建了网络安全异常检测模型,最后实现电力通信网络安全异常的实时检测。
与现有技术相比,本发明的有益效果是:
本发明提供的一种基于数据均衡技术的网络安全实时异常检测方法,充分考虑传统的方法没有对数据进行均衡,从而导致相应算法预测准确率较低,而且本算法在对数据进行均衡的同时,充分的考虑到了数据点的区别,按照数据的特点进行数据的均衡,从而有效的对数据进行了均衡,提高的检测的进度和效率。
附图说明
图1为一种基于数据均衡技术的网络安全实时异常检测方法流程图。
图2为本发明的方法在数据进行正常事件和异常事件的比例为1:1均衡的情况下的预测结果和未进行数据均衡的决策树和支持向量机的预测结果对比。
图3为本发明的方法在数据进行正常事件和异常事件的比例为2:1均衡的情况下的预测结果和未进行数据均衡的决策树和支持向量机的预测结果对比。
图4为本发明的方法在数据进行正常事件和异常事件的比例为1:1均衡的情况下的预测结果和相同数据均衡情况下的决策树和支持向量机的预测结果对比。
图5为本发明的方法在数据进行正常事件和异常事件的比例为2:1均衡的情况下的预测结果和相同数据均衡情况下的决策树和支持向量机的预测结果对比。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,一种基于数据均衡技术的网络安全实时异常检测方法,包括以下步骤:
S1:从电力通信网络的数据库中提取网络数据,选择相应数据特征进行预处理理,得到预处理后的数据;
S2:对预处理过的数据,基于Adasyn的数据均衡算法对数据进行平衡处理;
S3:通过平衡处理过的数据,建立网络安全异常检测模型;
S4:将数据特征导入网络安全异常检测模型,实现网络安全异常的实时检测。
更具体的,所述步骤S1包括以下步骤:
S21:从电力通信网络中收集的元数据中,选取以下数据特征:
时间信息:数据采集时间collect_time,异常发生时间event_time;访问账户特征信息:用户今日登录次数login_num,用户权限等级user_level,用户今日操作次数user_operation_num,用户IP地址user_ip,用户端口user_port;被访问机器信息:被访问机器等级server_level,被访问机器今日被访问次数request_num,被访问机器今日操作次数server_operation_num,被访问机器IP server_ip,被访问机器端口server_port;事件IDevent_id,是否为异常事件event_class;
S22:将选取的数据特征进行数据清洗,去除含有缺失值的数据及数据异常的记录,清洗后的数据用x表示;
S23:将数值型数据进行归一化处理,其计算公式为:
其中,X表示归一化之后的数据,Xmax表示参数的最大值,Xmin表示参数的最小值。
更具体的,所述步骤S2包括以下步骤:
S31:将归一化后的数据按照是否为异常事件进行分类并标注,其中所有事件集合为S=Sabnorm∪Snorm,异常事件集合定义为Sabnorm,正常事件定义为Snorm,定义特征空间为Y;
S32:计算各个异常点到所有其他事件点之间的距离,然后将计算结果进行从小到大进行排序,并取前K(K为奇数)个作为最近邻,距离计算公式为:
其中,
S33:设某个异常点的个近邻K中有N个异常点,定在该异常点周围生成人工异常点的数目Gnum,其计算公式为:
其中α为超参数,默认值为3;
S34:生成人工异常点,具体公式为:
其中,
更具体的,所述步骤S3包括以下步骤:
S31:初始化特征数据权重,有:
其中M表示集合S中元素的数量,W1表示所有样本点的权重;
S32:设总迭代次数为L,对于l=1,2,...,L,每轮迭代结束时,判断分类误差em是否满足要求或者迭代次数是否满足要求,如果满足要求或者迭代次数到达L次时,迭代终止,否则迭代继续;每轮迭代的具体过程如下:
计算基本分类器Ql(x)的分类误差em:
更新权重系数αl:
更新权值分布Dl+1:
Dl+1=(wl+1,1,…,wl+1,M),
其中,Zl表示归一化参数;
S33:构建线性组合并带入符号函数获得模型fo(x),计算公式为:
其中,fo(x)为-1时表示此访问为异常访问,为1时表示此访问为正常访问。
更具体的,所述步骤S4具体为:将数据特征导入模型fo(x)中,得到其输出值
在具体实施过程中,首先针对获取的电力通信网络数据进行数据预处理,去除有缺失值及异常的数据,然后基于ADASYN的数据均衡算法对数据进行均衡,之后基于均衡过的数据建立基于AdaBoost算法建立网络安全异常检测模型。本项目所用的数据集包括150天的电力通信网络数据,并将其中的100天的数据用于训练,50天的数据用于测试。数据中正常事件和异常事件的比例为4:1,通过步骤2的算法对异常数据进行增加,增加后正常事件和异常事件的数据比例为2:1,1:1,然后基于AdaBoost算法建立网络安全异常检测模型。本发明结果主要和决策树(Decision Tree,DT)及支持向量机(Support Vector Machine,SVM)进行比较。
在具体实施过程中,如图2、图3所示,本实验模型结果和在未进行均衡的数据上建立的决策树和支持向量机的模型预测结果进行比较,可以看出在没有实现数据均衡的情况下,本发明提供的算法准确率远远超过了决策树算法和支持向量机算法。
在具体实施过程中,如图4、图5所述,本实验模型结果和在均衡过后的数据上建立的决策树和支持向量机的模型预测结果进行比较,可以看出即使决策树和支持向量机添加部分数据均衡算法,本发明提出的算法依旧有较大提升。
在具体实施过程中,所述方法首先从电网的数据库中提取网络数据,并选择相应特征进行预处理,通过基于ADASYN的数据均衡算法对数据进行平衡处理,并在此基础之上构建了网络安全异常检测模型,最后实现电力通信网络安全异常的实时检测。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
机译: 一种基于实时模型的结构异常检测方法
机译: 一种基于实时模型的结构异常检测方法
机译: 一种基于实时模型的结构异常检测方法