首页> 中国专利> 基于遗传算法过采样支持向量机的网络入侵检测方法

基于遗传算法过采样支持向量机的网络入侵检测方法

摘要

本发明涉及一种基于遗传算法过采样支持向量机的网络入侵检测方法,该方法包括以下步骤:获取由历史网络数据组成的训练数据集;根据入侵检测结果的类别对所述训练数据集进行分类;比较各样本集的样本个数,对样本个数小于设定值的样本集进行过采样处理;从经过采样处理后的训练数据集中选取设定样本个数组成一训练集;利用SVM模型对训练集进行交叉验证,确定SVM参数;利用的R‑SVM模型对训练集进行训练,筛选出贡献度高的数据组成一特征向量;根据所述特征向量对训练集进行特征提取,以经特征提取后的训练集对SVM模型进行训练;对实时采集的网络数据进行网络入侵分类检测。与现有技术相比,本发明具有不平衡数据分类准确度高等优点。

著录项

  • 公开/公告号CN106973038A

    专利类型发明专利

  • 公开/公告日2017-07-21

    原文格式PDF

  • 申请/专利权人 同济大学;

    申请/专利号CN201710107626.6

  • 发明设计人 康琦;黄鑫;王雪松;

    申请日2017-02-27

  • 分类号H04L29/06(20060101);

  • 代理机构31225 上海科盛知识产权代理有限公司;

  • 代理人翁惠瑜

  • 地址 200092 上海市杨浦区四平路1239号

  • 入库时间 2023-06-19 02:53:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-27

    授权

    授权

  • 2017-08-15

    实质审查的生效 IPC(主分类):H04L29/06 申请日:20170227

    实质审查的生效

  • 2017-07-21

    公开

    公开

说明书

技术领域

本发明属于机器学习中的分类领域,涉及一种对于不平衡数据的分类方法,尤其是涉及一种基于遗传算法过采样支持向量机的网络入侵检测方法。

背景技术

计算机网络具有连接形式多样、不均匀的特点,其安全问题时刻受到层出不穷的入侵威胁。目前,用来对付网络入侵有效的方法就是按照一定的安全机制策略为网络系统建立起相应的安全辅助系统。入侵检测系统(Intrusion Detection System,简称IDS)就是这样的系统。该系统假设入侵者所使用的系统模式与正常用户的系统模式不同,受保护的系统可以通过对网络监控的跟踪记录分辨出入侵者的异常使用模式,从而检测出入侵者违反系统安全的情形,以便及早采取相应措施。由于各种入侵模式的样本数量差异很大,对入侵模式的分类属于典型的不平衡分类问题。目前的IDS受这一不平衡特性影响,自身的健壮性和主动防御能力还比较弱,因此,开发一种提高分辨入侵者的系统模式的准确率,尤其能准确分辨出现次数较少的入侵模式的入侵检测方法对于网络的安全维护至关重要。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于遗传算法过采样支持向量机的网络入侵检测方法。

本发明的目的可以通过以下技术方案来实现:

一种基于遗传算法过采样支持向量机的网络入侵检测方法,该方法包括以下步骤:

1)获取由历史网络数据组成的训练数据集T;

2)根据入侵检测结果的类别对所述训练数据集T进行分类,记为T=T0∪T1…∪Ti…∪Tn,T0表示正常样本集,Ti表示第i类入侵模式对应的样本集,n表示入侵模式总数;

3)比较步骤2)中各样本集的样本个数,对样本个数小于设定值的样本集进行过采样处理;

4)从经过采样处理后的训练数据集T中选取设定样本个数组成一训练集Tx

5)利用SVM模型对训练集Tx进行交叉验证,确定SVM参数;

6)利用带有所述SVM参数的R-SVM模型对训练集Tx进行训练,筛选出贡献度高的数据组成一特征向量E;

7)根据所述特征向量E对训练集Tx进行特征提取,并以经特征提取后的训练集Tx对SVM模型进行训练;

8)采用经步骤7)训练后的SVM模型对实时采集的网络数据进行网络入侵分类检测。

所述入侵模式包括拒绝服务入侵、远端未经授权访问入侵、未经授权提升权限入侵以及探测与扫描入侵。

所述步骤1)中,训练数据集经归一化处理,每一维数值归一化为[0,1]中的数。

所述步骤3)中,对某一样本集Tj进行过采样处理具体为:

a、定义迭代次数N、每次种群大小M、交叉概率Pc和变异概率Pm,令i=0;

b、计算Tj中每一个样本到其他样本的总平均距离,将最大值赋予Max;

c、根据轮盘赌的方法,依据总平均距离越小、适应度越大的原则,从Tj中随机抽取M个样本,放入Tq

d、按照交叉率Pc随机选择Tq中样本两两进行单点交叉,产生的子代代替父代放入Tq

e、按照变异率Pm对Tq样本中进行变异,产生的子代代替父代放入Tq

f、将Tq放入Tj中,计算Tq中每个样本到其他样本的总平均距离,若某样本的总平均距离大于Max,用该样本的一个父代代替该样本;

g、i=i+1,如果i<N,返回步骤b。

所述步骤6)中,利用R-SVM模型进行特征向量筛选时,所述贡献度取决于每个特征在分类器上的权重以及某两类样本在每一个特征上的均值差别。

与现有技术相比,本发明具有以下优点:

1、在识别实际的网络入侵模式时,各种入侵方式的样本数目(少类)与正常用户样本数目(多类)相比有显著的差异,本发明将基于遗传算法(Genetic Algorithm,GA)的过采样方法引入到支持向量机中,提高了少类样本的数量,进而提高了少数入侵样本的分辨准确率。

2、本发明利用递归支持向量机(Recursive SVM,R-SVM)筛选出样本数据中的重要属性,从而提高支持向量机对不平衡数据的分类准确度。

3、本发明能有效提高分辨入侵者的系统模式的准确率,尤其能准确分辨出现次数较少的入侵模式。

附图说明

图1为本发明的流程示意图;

图2为入侵检测系统IDS的模型结构示意图;

图3为本发明方法与其他算法的准确度比较结果示意图,其中,(3a)为总检测精度比较图,(3b)为Normal检测精度比较图,(3c)为DoS检测精度比较图,(3d)为R2L检测精度比较图,(3e)为U2L检测精度比较图,(3f)为Probe检测精度比较图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

在机器学习的分类模型中,支持向量机(Support Vector Machines,SVMs)方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,首先用一个高维平面划分开不同类的数据样本,得到一个评估该平面优良性的损失函数,然后采用梯度下降法最小化损失函数,求得最佳的划分平面作为各类样本的界限。在识别实际的网络入侵模式时,各种入侵方式的样本数目(少类)与正常用户样本数目(多类)相比有显著的差异,为了提高少数入侵样本(少类)的分辨准确率,本方法将基于遗传算法(Genetic Algorithm,GA)的过采样方法引入到支持向量机中,提高少类样本的数量,同时利用递归支持向量机(RecursiveSVM,R-SVM)筛选出样本数据中的重要属性,从而提高支持向量机对不平衡数据的分类准确度。

本发明引入GA过采样的递归支持向量机(GR-SVM)算法的思路为:样本属性的数值化和归一化;样本类别的集合;少类样本的过采样;样本数据的重组;模型参数的预训练;有效特征的筛选;模型的训练与预测。具体过程如图1所示:

如图1所示,本发明的一种基于遗传算法过采样支持向量机的网络入侵检测方法包括以下步骤:

1)样本属性的数值化和归一化:获取由历史网络数据组成的训练数据集T,该训练数据集经归一化处理,每一维数值归一化为[0,1]中的数;

2)样本类别的集合:根据入侵检测结果的类别对所述训练数据集T进行分类,记为T=T0∪T1…∪Ti…∪Tn,T0表示正常样本集,Ti表示第i类入侵模式对应的样本集,n表示入侵模式总数,入侵模式包括拒绝服务入侵(DoS)、远端未经授权访问入侵(R2L)、未经授权提升权限入侵(U2L)以及探测与扫描入侵(Probe)等;

3)少类样本的过采样:比较步骤2)中各样本集的样本个数,对样本个数小于设定值的样本集进行过采样处理,对某一样本集Tj进行过采样处理具体为:

a、定义迭代次数N、每次种群大小M、交叉概率Pc和变异概率Pm,令i=0;

b、计算Tj中每一个样本到其他样本的总平均距离,将最大值赋予Max;

c、根据轮盘赌的方法,依据总平均距离越小、适应度越大的原则,从Tj中随机抽取M个样本,放入Tq

d、按照交叉率Pc随机选择Tq中样本两两进行单点交叉,产生的子代代替父代放入Tq

e、按照变异率Pm对Tq样本中进行变异,产生的子代代替父代放入Tq

f、将Tq放入Tj中,计算Tq中每个样本到其他样本的总平均距离,若某样本的总平均距离大于Max,用该样本的一个父代代替该样本;

g、i=i+1,如果i<N,返回步骤b;

4)数据样本的重组:从经过采样处理后的训练数据集T中选取设定样本个数组成一训练集Tx

5)模型参数的预训练:利用SVM模型对训练集Tx进行交叉验证,确定SVM参数;

6)有效特征的筛选:利用带有所述SVM参数的R-SVM模型对训练集Tx进行训练,筛选出贡献度高的特征组成一列特征向量,可以选择前20~30个特征放入特征向量E中。R-SVM特征选择的依据:找出能够使得两类样本在SVM上分离距离最大的特征,用两类样本的平均的SVM输出值作为代表,由此可知各个特征对SVM分类器的贡献不仅取决于每个特征在分类器上的权重,也取决于两类样本在每一个特征上均值差别。

7)模型的训练:根据所述特征向量E对训练集Tx进行特征提取,并以经特征提取后的训练集Tx对SVM模型进行训练;

8)模型的检测:采用经步骤7)训练后的SVM模型对实时采集的网络数据进行网络入侵分类检测。

以上述方法于一现有侵检测系统IDS中的应用为例说明上述方法。图1是入侵检测系统IDS的基础模型。入侵检测系统模型假设入侵者所使用的系统模式与正常用户的系统模式不同,受保护的系统可以通过对网络监控的跟踪记录分辨出入侵者的异常使用模式,从而检测出被入侵者利用的违反系统安全的情形。该模型由事件产生器模块、行为特征模块和规则模块组成:

1)事件产生器模块

该模块主要产生来自网络数据包、审计记录和应用程序记录的事件,这些事件用是入侵检测的基础。

2)行为特征模块

该模块主要包含活动特征变量,这些变量为多次数据记录及更新的结果,如果该变量值偏离了正常操作行为,则认定该行为异常,并采取相应的措施。

3)规则模块

该模块由入侵模式以及安全策略构成,根据行为特征模块中的事件记录、异常记录等控制,更新其他模块的状态,为入侵的判断提供参考的机制。

表1.1-1.4介绍了数据集输入属性。作为行为特征模块中的特征变量,入侵检测系统采用的基准数据来自于DARPA为1999年的KDD(Knowledge Discovery and Data Mining)竞赛所准备的,用来评估入侵检测系统性能。该数据集是由DARPA从一个模拟军用局域网上采集的9个星期的网络链接数据构成的,主要分为训练数据集以及测试数据两个部分。在KDD99数据集中,每一条记录都包括了41个特征值以及1个标记,一共有42项。特征值属性有连续特征(continuous)以及离散特征(discrete)。按各特征在数据集中的顺序,表1.1-1.4将解释各个特征的含义及其所属类型,其中C表示连续,D表示离散:

1)TCP连接的基本特征(共9种,1-9)。

2)TCP连接内容特征(共13种,10-22)。

3)基于时间的网络流量的统计特征(共9种,23-31)。

4)基于主机的网络流量的统计特征(共10中,32-41)。

表1.1TCP连接基本特征(C:连续型,D:离散型)

表1.2TCP连接内容特征

表1.3基于时间的网络流量统计特征

表1.4基于主机的网络流量统计特征

表2介绍了样本所属的入侵模式,也就是模型输出的类型。总共分为4大类,并细分为39小类,其中各类的名称和其在总体样本中所占的比例已在表中给出。可见,正常样本与异常的攻击类型样本数目差别很大,属于高不平衡度问题。

表2KDD样本集中正常样本与攻击样本的条数与比例

从上述描述可得,本发明网络入侵检测方法的算法输入为:训练数据集Test={(x1,y1),(x2,y2),...,(xN,yN)},其中是第i个样本的第j个特征,共有41个特征,ajl是第j个特征可能取得第l个值,j=1,2,...,n,l=1,2,...,Sj;算法输出为:实例x所属的入侵或者正常模式,包括一种正常用户模式(多类)和四种入侵模式(少类)。

由于以上41种属性有连续取值和离散取值两种,为了后续在算法模型中计算样本中间的距离,引入了异构数据集上的距离度量函数HVDM数值化样本属性。经本发明提出的基于遗传过采样的支持向量机的网络入侵算法学习后,得到分类结果的准确率。

为了比较本发明所提出的基于GA过采样的递归SVM算法(GR-SVM)在网络入侵检测的有效性,本发明将其与经典SVM算法,R-SVM算法以及随机过采样的递归SVM算法(RR-SVM)作为对比。图(3a)-(3e)分别为在整体样本与正常样本以及入侵样本上各个算法的准确度,横坐标为四种不同样本大小的测试数据集,坐标数值越大,测试样本数越多。

表3将各个算法在测试集中的表现做了对比,指标为准确度、误报率和计算时间。

表3各算法在测试集上的表现比较

表4给出了GR-SVM算法在整个测试集的混淆矩阵。该矩阵可以看出实际的用户模式有多少比例被预测正确,错误的情况被预测为其它何种类型。

表4GR-SVM分类混淆矩阵

综合图3和表3、表4的结果可以看出,GR-SVM算法相较于其他算法,在总的检测精度,R2L的检测精度以及Probe的检测精度上都有了提高。其中,R2L检测精度从0~7%附近提升到了25%以上,Probe检测精度从80%~85%附近提升到98%以上,这个提升是可观的。在Normal检测精度,DoS检测精度以及U2L检测精度有所下降,但是下降的比例不大。从混淆矩阵中可以看出,GR-SVM算法在Normal检测精度,DoS检测精度以及U2L检测精度的下降是由于GR-SVM算法对R2L和Probe分类的学习能力增强过大,使得部分Normal和DoS以及U2L被分为R2L和Probe所造成的。在网络入侵检测中,考虑到对于DoS以及Probe攻击类型来说,很多条连接才可能为一次入侵,而对于R2L以及U2L攻击来说,一条连接有可能就等于一次入侵,尽管GR-SVM算法在U2L的检测精度不高,但是并没有将其识别为正常操作,在以检测出入侵攻击行为为主要目的入侵检测系统中,但这是值得的。综上所述,GR-SVM算法在入侵检测上的表现要优于其他算法。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号