首页> 中国专利> 一种信息分类模糊模型的网络入侵检测分类方法

一种信息分类模糊模型的网络入侵检测分类方法

摘要

一种信息分类模糊模型的网络入侵检测分类方法。该方法通过构造的模糊规则库来进行入侵检测分类。模糊规则的构造包括前提和结论两部分,其中前提部分的构造基于硬聚类算法(Hard Clustering Method,简称HCM),结论部分的构造则基于最小二乘法(Ordinary Least Square,简称OLS)。信息分类模糊模型在一定程度上解决了传统入侵检测方法耗时长、检测率低等问题。该方法在国际标准数据上进行模拟测试,并同其它两种入侵检测方法进行比较,实验结果显示本发明提供的方法优于其它两种入侵检测方法。

著录项

  • 公开/公告号CN113839916A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 天津科技大学;

    申请/专利号CN202010602175.5

  • 发明设计人 王丹;熊聪聪;张贤坤;

    申请日2020-06-23

  • 分类号H04L29/06(20060101);G06F16/2458(20190101);G06K9/62(20060101);

  • 代理机构

  • 代理人

  • 地址 300456 天津市经济技术开发区第十三大街29号

  • 入库时间 2023-06-19 13:48:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-05

    实质审查的生效 IPC(主分类):H04L29/06 专利申请号:2020106021755 申请日:20200623

    实质审查的生效

说明书

技术领域

本发明属于入侵检测技术领域,特别涉及一种信息分类模糊模型的网络入侵检测分类方法。

背景技术

入侵检测是对潜在的有预谋的未经授权的访问信息、操作信息以及致使系统不可靠、不稳定或无法使用的企图的检测和监视。它能够从计算机网络系统中的若干关键点收集信息,并进行相应的分析,以检查网络中是否有违反安全策略的行为和操作袭击的迹象。

根据入侵检测模型,入侵检测原理可以分为两种:异常检测原理和误用检测原理。目前入侵检测有很多种方法:如基于概率统计的检测、基于神经网络的检测。但是,目前基于入侵检测模型存在检测率低、经常出现过拟合问题。

发明内容

本发明的目的是为克服上述现有技术存在的缺点和不足,提供一种信息分类模糊模型的网络入侵检测分类方法。通过在国际标准数据集(10%KDDCup99实验数据集)上测试,和其他两种入侵检测算法进行对比,该算法的整体检测效果较优于其它两种入侵检测算法。

本发明技术方案:

一种信息分类模糊模型的网络入侵检测分类方法,包括以下步骤:

第1步、设计多项式模糊模型的表示形式;

第2步、对国际标准数据集10%KDDCup99进行预处理,将预处理后的数据集分为训练集和测试集两部分;

第3步、将训练集中的数据输入硬聚类算法(Hard Clustering Method,简称HCM)得到模糊规则库中所有模糊规则的前提;

第4步、通过最小二乘法(Ordinary Least Square,简称OLS)估计多项式系数获得模糊规则库中所有模糊规则的结论;

第5步、对于测试集中的数据,根据构造出的模糊规则库,对数据进行识别,并输出结果。

第1步中所述的设计多项式模糊模型的表示形式具体过程:

给定一个多项式模糊模型包含n条模糊规则,则它的模糊规则库的表示形式如下:

R

R

……

R

其中,R

模型的最终输出多项式表达式z=f(x

f=a

其中f(x

第2步中所述的数据预处理包含以下步骤:

第2.1步、文本数值化:由于10%KDDCup99原始数据集中,protocol(协议)、service(服务)、flag(连接状态)三个属性是符号型变量,因此,在实验中需要将符号类型的数据换成数值类型的数据,以满足硬聚类算法(Hard Clustering Method,简称HCM)的数据要求;

第2.2步、随机选择80%的数据作为训练集,其余20%的数据作为测试集;

第3步中所述的硬聚类算法(Hard Clustering Method,简称HCM)得到模糊规则库中所有模糊规则的前提包含以下步骤:

第3.1步、选择模糊模型的输入变量x

第3.2步、利用硬聚类算法(Hard Clustering Method,简称HCM)对数据集中每个选出的输入变量x

第3.2.1步、初始化聚类中心点的个数c(2≤c<m),m是数据点的个数;

第3.2.2步、初始化硬聚类算法(Hard Clustering Method,简称HCM)划分矩阵U

其中,U

第3.2.3步、计算每个子类的中心点向量v

其中,r表示迭代次数,

第3.2.4步、计算欧几里德距离,并更新矩阵U

d

第3.2.5步、判断终止条件。如果||U

其中,U

第3.3步、获得模糊规则的前提部分。对每个输入变量获得模糊规则进行总结,就可以获得整个模糊模型的所有模糊规则前提部分。

第4步中所述的最小二乘法(Ordinary Least Square,简称OLS)估计多项式系数获得模糊规则库中所有模糊规则的结论具体过程:

估算多项式表达式的系数。此时,对于多项式表达式的系数可以采用最小二乘法(Ordinary Least Square,简称OLS)来估算。SA模糊模型的输出和实验数据之间系数的优化值是通过如下公式来决定:

a=(X

其中X表示输入数据矩阵,X

根据信息分类模糊模型的网络入侵检测分类方法进行分类,并将最终的分类结果作为最终的识别结果。所述的方法是:根据构造出的模糊规则库,输入测试集中的数据,对数据进行识别,并输出最终的识别结果。

本发明的优点和有益效果:

本发明首先将构造的模糊规则库来进行入侵检测分类。模糊规则的构造包括前提和结论两部分,其中前提部分的构造基于硬聚类算法(Hard Clustering Method,简称HCM),结论部分的构造则基于最小二乘法(Ordinary Least Square,简称OLS)。在测试集上进行分类并识别出最终结果。该发明能有效避免过拟合和维数灾难等问题,具有较强的鲁棒性和检测效果。

附图说明

图1是本发明信息分类模糊模型的网络入侵检测分类方法的算法流程图;

图2是10%KDDCup99数据集预处理流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

下面用模糊规则的构造包括前提和结论两部分对本发明的方法做具体说明。其中前提部分的构造基于硬聚类算法(Hard Clustering Method,简称HCM),结论部分的构造则基于最小二乘法(Ordinary Least Square,简称OLS)。

图1对本发明提供的信息分类模糊模型的网络入侵检测分类方法进行了详细步骤说明,本发明提供的方法包括以下步骤:

第1步、设计多项式模糊模型的表示形式;

给定一个多项式模糊模型包含n条模糊规则,则它的模糊规则库的表示形式如下:

R

R

……

R

其中,R

模型的最终输出多项式表达式z=f(x

f=a

其中f(x

第2步、对国际标准数据集10%KDDCup99进行预处理,将预处理后的数据集分为训练集和测试集两部分;

如图2所示,本发明中10%KDDCup99数据集预处理主要包括以下步骤:

第2.1步、文本数值化:将符号类型数据变换为数值类型。在10%KDDCup99数据集中,protocol(协议)、service(服务)、flag(连接状态)三个属性是符号型变量,为了满足本发明分类算法的数据要求,需要对这些符号型变量进行数值化,变换为数值类型数据;

每条10%KDDCup99数据的符号类型数据,都有相应的数值类型数据进行数值化替换,对于协议类型(protocal_type)数据,共有3种:icmp,tcp,udp。分别赋值:1-icmp,2-tcp,3-udp。其它协议类型赋值4-others;

对于目标主机网络服务(service)数据,共有70种,如下所示:aol,auth,bgp,courier,csnet_ns,ctf,daytime,discard,domain,domain_u,echo,eco_i,ecr_i,efs,exec,finger,ftp,ftp_data,gopher,harvest,hostnames,http,http_2784,http_443,http_8001,imap4,IRC,iso_tsap,klogin,kshell,ldap,link,login,mtp,name,netbios_dgm,netbios_ns,netbios_ssn,netstat,nnsp,nntp,ntp_u,other,pm_dump,pop_2,pop_3,printer,private,red_i,remote_job,rje,shell,smtp,sql_net,ssh,sunrpc,supdup,systat,telnet,tftp_u,tim_i,time,urh_i,urp_i,uucp,uucp_path,vmnet,whois,X11,Z39_50。

对于其中的19种数据,分别赋值:domain-u 1,ecr_i 2,eco-i 3,finger 4,ftp-data 5,ftp 6,http 7,hostnames 8,imap4 9,login 10,mtp 11,netstat 12,other 13,private 14,smtp 15,systat 16,telnet 17,time 18,uucp 19。对于其它的51种数据,统一赋值:others 20;

对于连接状态(flag)数据,共有11种,如下所示:OTH,REJ,RSTO,RSTOS0,RSTR,S0,S1,S2,S3,SF,SH;

对于其中的7种数据分别进行赋值:1-REJ,2-RSTO,3-RSTR,4-S0,5-S3,6-SF,7-SH。其余4种数据统一赋值:8-OTHERS。

第2.2步、将10%KDDCup99数据集随机选择其中的80%的数据作为训练集,其余20%的数据作为测试集;

如图1所示,图1为本发明提供信息分类模糊模型的网络入侵检测分类方法的算法流程图。通过训练集,构造模糊规则库的前提部分和结论部分;

第3步、将训练集中的数据输入硬聚类算法(Hard Clustering Method,简称HCM)得到模糊规则库中所有模糊规则的前提;

模糊规则的前提的构造主要包含以下步骤:

第3.1步、选择模糊模型的输入变量x

第3.2步、利用硬聚类算法(Hard Clustering Method,简称HCM)对数据集中每个选出的输入变量x

第3.2.1步、初始化聚类中心点的个数c(2≤c<m),m是数据点的个数;

第3.2.2步、初始化硬聚类算法(Hard Clustering Method,简称HCM)划分矩阵U

其中,U

第3.2.3步、计算每个子类的中心点向量v

其中,r表示迭代次数,

第3.2.4步、计算欧几里德距离,并更新矩阵U

d

第3.2.5步、判断终止条件。如果||U

其中,U

第3.3步、获得模糊规则的前提部分。对每个输入变量获得模糊规则进行总结,就可以获得整个模糊模型的所有模糊规则前提部分。

第4步、通过最小二乘法(Ordinary Least Square,简称OLS)估计多项式系数获得模糊规则库中所有模糊规则的结论;

模糊规则的结论的构造过程是:

估算多项式表达式的系数,此时,对于多项式表达式的系数可以采用最小二乘法(Ordinary Least Square,简称OLS)来估算,SA模糊模型的输出和实验数据之间系数的优化值是通过如下公式来决定:

a=(X

其中X表示输入数据矩阵,X

第5步、根据构造出的模糊规则库,输入测试集中的数据,对数据进行识别,并输出最终的识别结果。

其中,信息分类模糊模型的参数设置如下:模糊规则的数量设定为10,模糊隶属度函数个数设定为2;

我们将本发明所提供的方法的入侵检测准确率与C-支持向量机分类器(C-SVM)、K-means+C-SVM两种方法进行对比,实验结果如表1所示。本实验中,我们采取随机取样的方法采样,作为训练数据,SAMPLE_NUM(X)表示:

NUM:第NUM次随机抽样;

X%:抽样比例。

实验结果表明,本发明的入侵检测准确率在多数情况下优于其他两种入侵检测方法。

表1.在国际标准数据集10%KDDCup99上正确检测率的比较

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号