首页> 中国专利> 一种动态评估网络连接可信度的方法及系统

一种动态评估网络连接可信度的方法及系统

摘要

本发明提供了一种动态评估网络连接可信度的方法,所述方法包括如下步骤:对不同类型的网络连接数据,进行数据预处理和特征提取;根据所提取的特征,通过广义回归神经网络结合模糊聚类算法进行迭代和训练得出的聚类结果;根据所述聚类结果,通过设置可信度权重向量和网络连接可信度算法计算相应分类的可信度估值;通过改进的关联属性判定算法计算网络入侵规则的可信度,作为入侵检测系统中规则库动态调整的依据。通过广义回归神经网络结合模糊聚类算法迭代学习和训练,使得网络入侵连接的分类更加准确。根据置信度的评估值对关联规则所包含的属性集进行动态更新,适应了网络环境的变化。

著录项

  • 公开/公告号CN104539484A

    专利类型发明专利

  • 公开/公告日2015-04-22

    原文格式PDF

  • 申请/专利权人 深圳先进技术研究院;

    申请/专利号CN201410855655.7

  • 申请日2014-12-31

  • 分类号H04L12/26(20060101);H04L29/06(20060101);

  • 代理机构44224 广州华进联合专利商标代理有限公司;

  • 代理人吴平

  • 地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号

  • 入库时间 2023-12-18 08:25:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-26

    授权

    授权

  • 2015-05-20

    实质审查的生效 IPC(主分类):H04L12/26 申请日:20141231

    实质审查的生效

  • 2015-04-22

    公开

    公开

说明书

技术领域

本发明属于计算机网络领域,特别是涉及一种动态评估网络连接可信度的 方法及系统。

背景技术

TCG(Trusted Computing Group,可信计算组织)开创性地提出了将可信计算 机制引入网络访问控制中,研究如何对TNC(trusted network connection)进行 扩展,使得可信概念能够进一步与网络相融合,并制定了可信网络连接规范, 将传统的网络安全技术与可信计算技术相结合,从终端入手构建可信网络,将 不信任的访问操作控制在源端。而可信度评估是可信网络的重要环节,通过入 侵检测的手段对网络连接可信度进行评估,可以为网络安全防御策略的实施提 供依据。随着网络传输速度和海量数据的增长,入侵检测越来越缺乏对未知攻 击的检测能力。

目前,通过综合分析现有入侵检测和可信评估的技术特点,可以看出大多 数网络入侵检测要么多着重于入侵数据的分类和识别,要么是对网络节点的可 信度进行计算,但缺乏网络连接可信度的评估。基于可信计算平台架构,硬件 要求高,整个系统配置复杂,而且所用的度量方法仅是完整性度量,做不到预 测效果。引入多种信任度参数,考察用户和移动网络之间的互操作关系,但信 任度的计算比较简单(仅是时间戳和直接信任度的乘积),无法应对更广泛、 更复杂的网络数据变化情况。

发明内容

本发明实施例提供一种动态评估网络连接可信度的方法和系统,旨在解决 缺乏对网络入侵有效分类和网络连接可信度评估,做不到预测效果的问题,提 供评估结果,作为动态调整入侵规则依据。

本发明实施例是这样实现的,一种动态评估网络连接可信度的方法,所述 方法包括如下步骤:

对不同类型的网络连接数据,进行数据预处理和特征提取;

根据所提取的特征,通过广义回归神经网络结合模糊聚类算法进行迭代和 训练得出的聚类结果;

根据所述聚类结果,通过设置可信度权重向量和网络连接可信度算法计算 相应分类的可信度估值;

通过改进的关联属性判定算法计算网络入侵规则的可信度,作为入侵检测 系统中规则库动态调整的依据。

本发明实施例还提供,一种动态评估网络连接可信度的系统,所述系统包 括:特征提取模块,用于对不同类型的网络连接数据,进行数据预处理和特征 提取;

网络数据分类模块,用于根据所提取的特征,通过广义回归神经网络结合 模糊聚类算法进行迭代和训练得出的聚类结果;

可信度估值模块,用于根据所述聚类结果,通过设置可信度权重向量和网 络连接可信度算法计算相应分类的可信度估值;

动态调整模块,用于通过改进的关联属性判定算法计算网络入侵规则的可 信度,作为入侵检测系统中规则库动态调整的依据。

在本发明实施例中,通过GRNN对FCM聚类结果的迭代学习和训练,使 得网络入侵连接的分类更加准确,而且GRNN由于只使用了单层隐函数的结 构,比其他普通的多层神经网络运行时间更短。将网络连接的置信度与连接的 分类信息直接关联起来,为评估系统威胁提供了基础。针对已有的入侵检测规 则库,改进了经典的Apriori算法,降低了其时间复杂度,根据置信度的评估值 对关联规则所包含的属性集进行动态更新,适应了网络环境的变化。

附图说明

图1是本发明实施例提供的动态评估网络连接可信度方法的实现流程图;

图2是本发明实施例提供的数据预处理和特征提取的实现流程图;

图3是本发明实施例提供的模糊聚类算法和广义神经网络方法的结合的实 现流程图;

图4是本发明实施例提供的网络连接可信度计算的实现流程图;

图5是本发明实施例提供的改进的关联属性判定算法计算入侵规则的实现 流程图;

图6是本发明实施例提供的改进的关联属性判定算法结果图;

图7是本发明实施例提供的动态评估网络连接可信度系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。

除非上下文另有特定清楚的描述,本发明中的元件和组件,数量既可以单 个的形式存在,也可以多个的形式存在,本发明并不对此进行限定。本发明中 的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说 明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次 序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的 所列项目中的一者或一者以上的任何和所有可能的组合。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

图1示出了本发明实施例提供的动态评估网络连接可信度方法的实现流 程,详述如下:

在步骤S101中,对不同类型的网络连接数据,进行数据预处理和特征提取;

在本发明实施例中,主要是对不同类型的网络连接数据,如TCP、UDP协 议、连接属性值等进行数值标准化和归一化操作。网络连接信息用网络连接记 录表示,每条记录有4类(基本、内容、流量、主机)属性集,共有41种不同 属性,取值也均不相同,最后还有一个标识属性表示此连接是正常连接(normal) 还是异常连接(abnormal),由于连接记录值既有连续值(32个属性)也有离 散值(9个属性),因此,针对连续值先进行标准化操作,以避免不同度量单 位给值域所造成的差异,而影响到聚类效果。

在步骤S102中,根据所提取的特征,通过广义回归神经网络结合模糊聚类 算法进行迭代和训练得出的聚类结果;

模糊聚类也称为模糊c均值聚类算法(FCM,Fuzzy C-Mean),是通过定 义隶属度函数来确定每个元素属于某个类别程度的一种聚类算法,特别适用于 属性信息量较小,值差别不明显的样本数据(比如网络入侵数据)。模糊聚类 分析适用于所涉及事物界限是模糊的、或非数值计算情况下比较有效,其大粒 度的特征,对于入侵检测来说,由于入侵特征维数较多、不同入侵类别间的数 据差别较小,不少入侵模式不能准确分类,因此还需要对模糊聚类的结果做进 一步的优化。

采用广义回归神经网络(General Regression Neural Network,GRNN)的方法 实现对模糊聚类结果的分类修正,以期获得更加准确的入侵模式类别信息。广 义回归神经网络是一种径向基神经网络,具有很强的非线性映射能力和柔性网 络结构,可以达到高度容错和鲁棒性,即使样本数据较少也可获得很好的预测 结果。

在步骤S103中,根据聚类结果,通过设置可信度权重向量和网络连接可信 度算法计算相应分类的可信度估值;

对于网络连接最终可信度的计算取决于对入侵类型的正确识别,因此得到 聚类结果后,可对不同类别的入侵连接数据可行度进行评估,评判其对系统的 影响。具体评估指标为:正检率、误检率、假阴率、假阳率和可信权重。

在步骤S104中,通过改进的关联属性判定算法计算网络入侵规则的可信 度,作为入侵检测系统中规则库动态调整的依据。

改进的关联属性判定算法,利用可信度权重向量更新规则库的置信度,达 到入侵检测规则数据库自动调整的目的。

关联属性判定算法是利用关联规则进行属性相关性判定的经典方法。一个 关联规则是形如X→Y的蕴涵式,这里I是全体属性集,并且XY= Φ。规则X→Y在事务数据库D中的支持度(support)是事务集中包含X和Y 的事务数与所有事务数之比,记为support(XY),即support(XY)=P(XY),规则X →Y在事务集中的可信度(confidence)是指包含X和Y的事务数与包含X的 交易数之比,记为confidence(XY),即confidence(XY)=P(X|Y),给定一个事务集 D,挖掘关联规则问题就是寻找支持度和可信度分别大于用户给定的最小支持 度(minsupp)和最小可信度(minconf)的关联规则。

改进的算法在利用原始算法对数据集进行挖掘之前首先对数据库进行分段 操作,因为在整个数据库上的频繁项目集至少在数据库的一个分段上是频繁的, 因此,可以利用每个分段上的频繁项集的并集就是整个数据库上的潜在的频繁 项目集的集合,其时间复杂度为O(n2)/k,k是分段个数。虽然在渐进意义上时 间复杂度没有变化,但在频度上有所降低,总的执行效率也有所提高。通过改 进的关联属性判定算法获得的频繁项集结果如图6所示。

图2示出了本发明实施例提供的数据预处理和特征提取的实现流程,详述 如下:

在步骤S201中,取网络连接记录作为训练集,将训练集内数据标准化;

在本发明实施例中,取n条记录作为训练集,第i条记录的连续属性值作 为一个向量Xi=<xi1,xi2,…,xij>,i=1..n,j=1..32,标准化计算公式如下:

xij=xij-AVGjSTDj,

其中,AVGj=1nΣi=1nxij,STDj=1nΣi=1n|xij-AVGj|

n为训练集的记录条数,j为属性列,AVGj和STDj分别为一个训练集中, 第j列属性的平均值和标准差,x’ij为每一属性的值。

在步骤S202中,通过属性计算公式将每一属性值归一化。

通过属性计算公式将x’ij归一化到[0,1]区间,x”ij作为最终样本属性的取值, 具体公式为:

其中,minj为训练集中第j列属性的最小值,MAXj为训 练集中第j列属性的最大值。

作为本发明的优选实施例,为提高计算效率,可选择方差分析,

S2j=1nΣi=1n(xij-AVGj)2

若则将对应属性列j的值删除,以达到属性约减的效果,这类方差 为零的属性对分类的影响不大。

图3示出了模糊聚类算法和广义神经网络方法的结合的实现流程,详述如 下:

在步骤S301中,根据模糊聚类算法将入侵数据进行分类,并计算每类的聚 类中心;

FCM把n个向量xk分为c个模糊类,并求每类的聚类中心ci,从而使模糊 目标函数最小。

模糊聚类的目标函数为:J(U,c1,...,cc)=Σi=1cJi=Σi=1cΣjnuijmdij2.

其中,dij=||ci-xj||,为样本向量距离中心点的欧式距离,ci是第i类的中心,, m为样本个数,j为属性列。每一聚类中心的计算公式为:

ci=Σj=1nuijmxjΣj=1nuijm

在步骤S302中,通过隶属度函数计算隶属度值,构成模糊矩阵;

隶属度函数为:

uij=1Σk=1c(dijdik)2/(m-1)ifdik01ifdik=0,k=j0ifdik=0,kj

在步骤S303中,从模糊矩阵中选择训练样本,作为广义神经网络的训练输 入;

在本发明实施例中,在模糊矩阵中选择距离中心值最小的m个样本作为训 练样本,然后,通过n*m组数据作为广义神经网络的训练输入。其中,n为根 据模糊聚类算法将入侵数据分类的个数,m可以为1~5之间的数据。

在步骤S304中,根据广义神经网络的训练输入,预测输出入侵数据类别;

广义神经网络由输入层、模式层、求和层和输出层四级结构组成,具体计 算如下:

对于非独立变量Y相对于独立变量X的回归分析实际上是计算具有最大概 率值的y,通过公式①即为在输入X的条件下,Y的 预测输出。其中:f(x,y)为随机变量x和随机变量y的联合概率密度函数。其 估算值可由样本数据集{xi,yi},i=1..n根据Parzen非参估计来近似: f^(X,y)=1n(2π)p+12σp+1Σi=1nexp[-(X-Xi)T(X-Xi)2σ2]exp[-(X-Yi)22σ2]②式中,Xi,Yi为随机 变量x和y的样本观测值;n为样本容量;p为随机变量x的维数;σ为高斯函 数的宽度系数,亦称光滑因子。将②式替换①中f,交换积分与加和顺序: Y^(X)=Σi=1nexp[-(X-Xi)T(X-Xi)2σ2]-yexp[-(X-Yi)22σ2]dyΣi=1nexp[-(X-Xi)T(X-Xi)2σ2]-exp[-(X-Yi)22σ2]dy③而-ze-z2dz=0,故最后的 网络输出为:Y^(X)=Σi=1nYiexp[-(X-Xi)T(X-Xi)2σ2]Σi=1nexp[-(X-Xi)T(X-Xi)2σ2]④。

在步骤S305中,将上述步骤S301至S304进行迭代,输出聚类结果。

在本发明实施例中,迭代法也称辗转法,是一种不断用变量的旧值递推新 值的过程。具体为,将入侵数据重新分为n类,找出最靠近每类中心值的样本 作为训练样本。然后通过上述公式得出最终的聚类结果。

在本发明实施例中,通过模糊聚类算法和广义神经网络方法的结合对网络 入侵连接数据库进行了测试,效果符合预期。实验首先筛选了带有5类标签的 4500个数据进行训练,使用FCM方法作为对照。模糊聚类之前,对实验数据 进行基本的均值、方差分析,约减掉其中的12列特征属性,然后用FCM聚类 进行分析。FCM相关参数设置为:模糊系数a=2,目标函数收敛误差为1e-5, 迭代次数最多为100次。广义神经网络训练时,每一类取了距离中心最近的20 个进行训练,迭代10次以后重新获取各类中心,统计获得每类中的样本数量。 表1、表2是不同算法的混淆表统计结果。

表1 FCM分类结果混淆表

从表1可以看出FCM聚类没有将类别2到类别5进行有效区分。

表2 FCM-GRNN分类结果混淆表

上表2为统计的广义神经网络分类样本在实际类别中的分布数量,从表中 可以看出FCM-GRNN比FCM聚类结果有所改进,FCM-GRNN将类别1与类 别2,类别4与类别5进行了有效区分。

经过对网络连接数据的有效分类,我们还需要对不同类型的网络连接进行 可信度的评估,以便调整入侵检测规则库的置信区间。

图4示出了网络连接可信度计算的实现流程,详述如下:

在步骤S401中,设置正检率和误检率计算混淆表;

正检率是被系统正确判断所属类别的实例数目与总实例数目之比。误检率 是未被系统正确判断所属类别的实例数目与总实例数目之比。正检率R可由式 ⑤进行计算,相应的误检率Re由⑥式可得出:

R=Σk=1NCkkΣi=1NΣj=1NCij    ⑤

Re=1-R    ⑥

其中,Cij是混淆表(i行为真实分类,j列为算法分类)中各分量值,N为 分类总数。

在这里FCM结果分类1中1496个,分类2中2097个被正确识别,其误 检率为20.16%;FCM-GRNN结果分类1中1454个,分类2中2097个,分类 4中658个被正确识别,其误检率为6.47%。方法改进以后,误检率有所降低。 与文献[1]中的算法也作了对比,结果如下表所示:

表3 算法检测率比较

误检率 9.7% 20.16% 6.47%

在步骤S402中,设置假阳率和假阴率,将入侵检测的性能评价简化;

为综合判断系统的性能,分类正确率并非唯一的评价准则,定义入侵数据 属于阳性数据,正常数据为阴性数据。

设评判矩阵为J(混淆表的二类(正常normal,异常abnormal)形式), 则:

假阳率(Positive False Rate,PFR):正常数据被错误标记为入侵数据的 个数与正常数据总数的比值:

PFR=Jnormal,abnormalJnormal,normal+Jnormal,abnormal

假阴率(Negative False Rate,NFR):入侵数据被错误标记为正常数据的 个数与入侵数据总数的比值:

NFR=Jabnormal,normalJabnormal,normal+Jabnormal,abnormal

可计算出不同算法对应的假阳率和假阴率,结果如下表所示:

表4 算法性能比较

由以上比较可以看出,FCM-GRNN方法比其他方法在正检率上有所提高, 假阳率虽然比FCM高些,但假阴率比FCM方法有所降低,所以,从保障网络 安全性的角度看,采用FCM-GRNN进行分类识别和可信估算属于更加保守的 方法。

在步骤S403中,设置可信度权重向量,根据可信度权重向量计算网络连接 可信度估值。

在本发明实施例中,定义分类算法的可信权重如下:可信度权重向量 wt=v×Cn×n,其中wt为n维向量,在[0,1]取值,v是预定义的各类连接可信度估 值,如v=(0.99,0.01,0.3,0.2,0.1),可用来表示相应类别的网络连接数据对系统 安全的置信值(值越大,连接可信度越高,对系统威胁越小)。Cn×n为n阶方 阵,且cij=mij/S,mij是混淆表M中的分量,S是测试集实例总数,可以得到分 类结果下新的可信度权重向量wt

定义分类算法的可信权重如下:

可信度权重向量wt=v×Cn×n,其中wt为n维向量,在[0,1]取值,v是预定义的 各类连接初始可信度估值。Cnxn为n阶方阵,且cij=mij/S,mij是混淆表M中的 分量,S是测试集实例总数。因此,本文中v=(0.99,0.01,0.3,0.2,0.1),根据混 淆表M,分别计算出FCM和FCM-GRNN的

CFCM=0.332400.00200.01020.002700.46600000.2889000000.146200000.1156000,

CFCM-GRNN=0.323100.00330.00510.015800.46600000.00640.01890.00040.00200.00110000.146200.01130000.0002

由此得wFCM=(0.4157,0.0455,0.0020,0.0101,0.0027),wFCM-GRNN=(0.3229, 0.0103,0.0034,0.0349,0.0160),它分别代表了使用入侵分类检测算法后各类网 络连接新的可信度权重向量,可以看出,由于第二个方法对2-5类连接的有效 区分,其对应可信度权重将有所提高。

图5示出了改进的关联属性判定算法计算入侵规则的实现流程,详述如下:

在步骤S501中,对数据库进行分段;

将数据库中的数据分成若干个小段。

在步骤S502中,对每个分段选取随机样本进行挖掘,读取频繁项集;

在步骤S503中,根据频繁项集生成候选项集;

具体为根据频繁项集K生成候选K+1项集。

在步骤S504中,扫描数据库,确定每一候选集的支持度,删除支持度小于 阈值的候选项集;

在本发明实施例中,阈值设定为0.02。

在步骤S505中,合并分段样本的频繁项集,并扫描验证;

在步骤S506中,根据对应类别属性的可信度权重向量,再次调整规则的可 信度。

针对获得了不同类别属性的可信度权重向量,对于规则库中X→Y的属性 集合X,Y,按照其所属类别的可信度估值,取值范围为(0,1),按如下方式重 新调整规则的可信度:

Trust(XY)=Trust(X)×Trust(Y)Trust(XY)

其中,Trust()为可信度值,Trust为规则的原始可信度,Trust’为调整值。

本领域普通技术人员可以理解:实现上述方法实施例的步骤或部分步骤可 以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储 介质中,该程序在执行时,执行包括上述方法实施例的步骤,而前述的存储介 质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明实施例中,通过GRNN对FCM聚类结果的迭代学习和训练,使 得网络入侵连接的分类更加准确,而且GRNN由于只使用了单层隐函数的结 构,比其他普通的多层神经网络运行时间更短。将网络连接的置信度与连接的 分类信息直接关联起来,为评估系统威胁提供了基础。针对已有的入侵检测规 则库,改进了经典的Apriori算法,降低了其时间复杂度,根据置信度的评估值 对关联规则所包含的属性集进行动态更新,适应了网络环境的变化。

图7示出了本发明实施例提供的动态评估网络连接可信度的系统的结构, 为了便于说明,仅示出了与本发明实施例相关的部分。

该装置可以用于各种模式识别系统,这些模式识别系统可以装载于电子设 备,例如计算机、个人数码助理(Personal Digital Assistant,PDA)等,该动态 评估网络连接可信度系统可以是运行于这些电子设备内的软件单元、硬件单元 或者软硬件相结合的单元,也可以作为独立的挂件集成到这些电子设备中或者 运行于这些电子设备的应用系统中,还可以为集成在一个芯片上的微电子系统 (SoC,System on Chip),其中:

网络连接可信度系统1包括:特征提取模块11、网络数据分类模块12、可 信度估值模块13和动态调整模块14。

其中,特征提取模块11对不同类型的网络连接数据,进行数据预处理和特 征提取。在本发明实施例中,主要是对不同类型的网络连接数据,如TCP、UDP 协议、连接属性值等进行数值标准化和归一化操作。网络连接信息用网络连接 记录表示,每条记录有4类(基本、内容、流量、主机)属性集,共有41种不 同属性,取值也均不相同,最后还有一个标识属性表示此连接是正常连接 (normal)还是异常连接(abnormal),由于连接记录值既有连续值(32个属 性)也有离散值(9个属性),因此,针对连续值先进行标准化操作,以避免 不同度量单位给值域所造成的差异,而影响到聚类效果。

特征提取模块11包括:数据标准化单元111和属性值归一化单元112。

数据标准化单元111取网络连接记录作为训练集,将训练集内数据标准化。 在本发明实施例中,取n条记录作为训练集,第i条记录的连续属性值作为一 个向量Xi=<xi1,xi2,…,xij>,i=1..n,j=1..32,标准化计算公式如下:

xij=xij-AVGjSTDj,

其中,AVGj=1nΣi=1nxij,STDj=1nΣi=1n|xij-AVGj|

n为训练集的记录条数,j为属性列,AVGj和STDj分别为一个训练集中, 第j列属性的平均值和标准差,x’ij为每一属性的值。

属性值归一化单元112通过属性计算公式将每一属性值归一化。

通过属性计算公式将x’ij归一化到[0,1]区间,x”ij作为最终样本属性的取值, 具体公式为:

其中,minj为训练集中第j列属性的最小值,MAXj为训 练集中第j列属性的最大值。

作为本发明的优选实施例,为提高计算效率,可选择方差分析,

S2j=1nΣi=1n(xij-AVGj)2

若S2j=0,则将对应属性列j的值删除,以达到属性约减的效果,这类方差 为零的属性对分类的影响不大。

通过网络数据分类模块12根据所提取的特征,通过广义回归神经网络结合 模糊聚类算法进行迭代和训练得出的聚类结果。

模糊聚类也称为模糊c均值聚类算法(FCM,Fuzzy C-Mean),是通过定 义隶属度函数来确定每个元素属于某个类别程度的一种聚类算法,特别适用于 属性信息量较小,值差别不明显的样本数据(比如网络入侵数据)。模糊聚类 分析适用于所涉及事物界限是模糊的、或非数值计算情况下比较有效,其大粒 度的特征,对于入侵检测来说,由于入侵特征维数较多、不同入侵类别间的数 据差别较小,不少入侵模式不能准确分类,因此还需要对模糊聚类的结果做进 一步的优化。

采用广义回归神经网络(General Regression Neural Network,GRNN)的方法 实现对模糊聚类结果的分类修正,以期获得更加准确的入侵模式类别信息。广 义回归神经网络是一种径向基神经网络,具有很强的非线性映射能力和柔性网 络结构,可以达到高度容错和鲁棒性,即使样本数据较少也可获得很好的预测 结果。

网络数据分类模块12包括:聚类中心计算单元121、矩阵构成单元122、 训练输入单元123、预测类别单元124和聚类输出单元125。

聚类中心计算单元121根据模糊聚类算法将入侵数据进行分类,并计算每 类的聚类中心。FCM把n个向量xk分为c个模糊类,并求每类的聚类中心ci, 从而使模糊目标函数最小。

模糊聚类的目标函数为:J(U,c1,...,cc)=Σi=1cJi=Σi=1cΣjnuijmdij2.

其中,dij=||ci-xj||,为样本向量距离中心点的欧式距离,ci是第i类的中心,, m为样本个数,j为属性列。每一聚类中心的计算公式为:

ci=Σj=1nuijmxjΣj=1nuijm

矩阵构成单元122通过隶属度函数计算隶属度值,构成模糊矩阵。隶属度 函数为:

uij=1Σk=1c(dijdik)2/(m-1)ifdik01ifdik=0,k=j0ifdik=0,kj

训练输入单元123从模糊矩阵中选择训练样本,作为广义神经网络的训练 输入。在本发明实施例中,在模糊矩阵中选择距离中心值最小的m个样本作为 训练样本,然后,通过n*m组数据作为广义神经网络的训练输入。其中,n为 根据模糊聚类算法将入侵数据分类的个数,m可以为1~5之间的数据。

预测类别单元124根据广义神经网络的训练输入,预测输出入侵数据类别。 广义神经网络由输入层、模式层、求和层和输出层四级结构组成,具体计算如 下:

对于非独立变量Y相对于独立变量X的回归分析实际上是计算具有最大概 率值的y,通过公式①即为在输入X的条件下,Y的 预测输出。其中:f(x,y)为随机变量x和随机变量y的联合概率密度函数。其 估算值可由样本数据集{xi,yi},i=1..n根据Parzen非参估计来近似: f^(X,y)=1n(2π)p+12σp+1Σi=1nexp[-(X-Xi)T(X-Xi)2σ2]exp[-(X-Yi)22σ2]②式中,Xi,Yi为随机 变量x和y的样本观测值;n为样本容量;p为随机变量x的维数;σ为高斯函 数的宽度系数,亦称光滑因子。将②式替换①中f,交换积分与加和顺序: Y^(X)=Σi=1nexp[-(X-Xi)T(X-Xi)2σ2]-yexp[-(X-Yi)22σ2]dyΣi=1nexp[-(X-Xi)T(X-Xi)2σ2]-exp[-(X-Yi)22σ2]dy③而-ze-z2dz=0,故最后的 网络输出为:Y^(X)=Σi=1nYiexp[-(X-Xi)T(X-Xi)2σ2]Σi=1nexp[-(X-Xi)T(X-Xi)2σ2]④。

聚类输出单元125在本发明实施例中,迭代法也称辗转法,是一种不断用 变量的旧值递推新值的过程。具体为,将入侵数据重新分为n类,找出最靠近 每类中心值的样本作为训练样本。然后通过上述公式得出最终的聚类结果。

在本发明实施例中,通过模糊聚类算法和广义神经网络方法的结合对网络 入侵连接数据库进行了测试,效果符合预期。实验首先筛选了带有5类标签的 4500个数据进行训练,使用FCM方法作为对照。模糊聚类之前,对实验数据 进行基本的均值、方差分析,约减掉其中的12列特征属性,然后用FCM聚类 进行分析。FCM相关参数设置为:模糊系数a=2,目标函数收敛误差为1e-5, 迭代次数最多为100次。广义神经网络训练时,每一类取了距离中心最近的20 个进行训练,迭代10次以后重新获取各类中心,统计获得每类中的样本数量。 表1、表2是不同算法的混淆表统计结果。

表1 FCM分类结果混淆表

从表1可以看出FCM聚类没有将类别2到类别5进行有效区分。

表2 FCM-GRNN分类结果混淆表

上表2为统计的广义神经网络分类样本在实际类别中的分布数量,从表中 可以看出FCM-GRNN比FCM聚类结果有所改进,FCM-GRNN将类别1与类 别2,类别4与类别5进行了有效区分。

经过对网络连接数据的有效分类,我们还需要对不同类型的网络连接进行 可信度的评估,以便调整入侵检测规则库的置信区间。

可信度估值模块13根据所述聚类结果,通过设置可信度权重向量和网络连 接可信度算法计算相应分类的可信度估值。

对于网络连接最终可信度的计算取决于对入侵类型的正确识别,因此得到 聚类结果后,可对不同类别的入侵连接数据可行度进行评估,评判其对系统的 影响。具体评估指标为:正检率、误检率、假阴率、假阳率和可信权重。

可信度估值模块13包括:混淆表计算单元131、简化性能评价单元132和 可信度权重单元133。

混淆表计算单元131设置正检率和误检率计算混淆表。正检率是被系统正 确判断所属类别的实例数目与总实例数目之比。误检率是未被系统正确判断所 属类别的实例数目与总实例数目之比。正检率R可由式⑤进行计算,相应的误 检率Re由⑥式可得出:

R=Σk=1NCkkΣi=1NΣj=1NCij    ⑤

Re=1-R    ⑥

其中,Cij是混淆表(i行为真实分类,j列为算法分类)中各分量值,N为 分类总数。

在这里FCM结果分类1中1496个,分类2中2097个被正确识别,其误 检率为20.16%;FCM-GRNN结果分类1中1454个,分类2中2097个,分类 4中658个被正确识别,其误检率为6.47%。方法改进以后,误检率有所降低。 与文献[2]中的算法也作了对比,结果如下表所示:

表3 算法检测率比较

简化性能评价单元132设置假阳率和假阴率,将入侵检测的性能评价简化。 为综合判断系统的性能,分类正确率并非唯一的评价准则,定义入侵数据属于 阳性数据,正常数据为阴性数据。

设评判矩阵为J(混淆表的二类(正常normal,异常abnormal)形式), 则:

假阳率(Positive False Rate,PFR):正常数据被错误标记为入侵数据的 个数与正常数据总数的比值:

PFR=Jnormal,abnormalJnormal,normal+Jnormal,abnormal

假阴率(Negative False Rate,NFR):入侵数据被错误标记为正常数据的 个数与入侵数据总数的比值:

NFR=Jabnormal,normalJabnormal,normal+Jabnormal,abnormal

可计算出不同算法对应的假阳率和假阴率,结果如下表所示:

表4 算法性能比较

由以上比较可以看出,FCM-GRNN方法比其他方法在正检率上有所提高, 假阳率虽然比FCM高些,但假阴率比FCM方法有所降低,所以,从保障网络 安全性的角度看,采用FCM-GRNN进行分类识别和可信估算属于更加保守的 方法。

通过可信度权重单元133设置可信度权重向量,根据可信度权重向量计算 网络连接可信度估值。

在本发明实施例中,定义分类算法的可信权重如下:可信度权重向量 wt=v×Cn×n,其中wt为n维向量,在[0,1]取值,v是预定义的各类连接可信度估 值,如v=(0.99,0.01,0.3,0.2,0.1),可用来表示相应类别的网络连接数据对系统 安全的置信值(值越大,连接可信度越高,对系统威胁越小)。Cn×n为n阶方 阵,且cij=mij/S,mij是混淆表M中的分量,S是测试集实例总数,可以得到分 类结果下新的可信度权重向量wt

定义分类算法的可信权重如下:

可信度权重向量wt=v×Cn×n,其中wt为n维向量,在[0,1]取值,v是预定义的 各类连接初始可信度估值。Cnxn为n阶方阵,且cij=mij/S,mij是混淆表M中的 分量,S是测试集实例总数。因此,本文中v=(0.99,0.01,0.3,0.2,0.1),根据混 淆表M,分别计算出FCM和FCM-GRNN的

CFCM=0.332400.00200.01020.002700.46600000.2889000000.146200000.1156000,

CFCM-GRNN=0.323100.00330.00510.015800.46600000.00640.01890.00040.00200.00110000.146200.01130000.0002

由此得wFCM=(0.4157,0.0455,0.0020,0.0101,0.0027),wFCM-GRNN=(0.3229, 0.0103,0.0034,0.0349,0.0160),它分别代表了使用入侵分类检测算法后各类网 络连接新的可信度权重向量,可以看出,由于第二个方法对2-5类连接的有效 区分,其对应可信度权重将有所提高。

需要说明的是:上述实施例提供的动态评估网络连接可信度的系统在时, 仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上 述功能分配由不同的功能模块完成,以完成以上描述的全部或者部分功能。

动态调整模块14通过改进的关联属性判定算法计算网络入侵规则的可信 度,作为入侵检测系统中规则库动态调整的依据。

改进的关联属性判定算法,利用可信度权重向量更新规则库的置信度,达 到入侵检测规则数据库自动调整的目的。

关联属性判定算法是利用关联规则进行属性相关性判定的经典方法。一个 关联规则是形如X→Y的蕴涵式,这里I是全体属性集,并且XY= Φ。规则X→Y在事务数据库D中的支持度(support)是事务集中包含X和Y 的事务数与所有事务数之比,记为support(XY),即support(XY)=P(XY),规则X →Y在事务集中的可信度(confidence)是指包含X和Y的事务数与包含X的 交易数之比,记为confidence(XY),即confidence(XY)=P(X|Y),给定一个事务集 D,挖掘关联规则问题就是寻找支持度和可信度分别大于用户给定的最小支持 度(minsupp)和最小可信度(minconf)的关联规则。

改进的算法在利用原始算法对数据集进行挖掘之前首先对数据库进行分段 操作,因为在整个数据库上的频繁项目集至少在数据库的一个分段上是频繁的, 因此,可以利用每个分段上的频繁项集的并集就是整个数据库上的潜在的频繁 项目集的集合,其时间复杂度为O(n2)/k,k是分段个数。虽然在渐进意义上时 间复杂度没有变化,但在频度上有所降低,总的执行效率也有所提高。通过改 进的关联属性判定算法获得的频繁项集结果如图6所示。

动态调整模块14包括:数据分段单元141、频繁项挖掘单元142、候选项 集生成单元143、候选项集确定单元144、频繁项集合并单元145和可信度调整 单元146。

数据分段单元141对数据库进行分段,将数据库中的数据分成若干个小段。 频繁项挖掘单元142对每个分段选取随机样本进行挖掘,读取频繁项集。候选 项集生成单元143根据频繁项集生成候选项集,具体为根据频繁项集K生成候 选K+1项集。候选项集确定单元144扫描数据库,确定每一候选集的支持度, 删除支持度小于阈值的候选项集。在本发明实施例中,阈值设定为0.02。频繁 项集合并单元145合并分段样本的频繁项集,并扫描验证。最后通过可信度调 整单元146根据对应类别属性的可信度权重向量,再次调整规则的可信度。

针对获得了不同类别属性的可信度权重向量,对于规则库中X→Y的属性 集合X,Y,按照其所属类别的可信度估值,取值范围为(0,1),按如下方式重 新调整规则的可信度:

Trust(XY)=Trust(X)×Trust(Y)Trust(XY)

其中,Trust()为可信度值,Trust为规则的原始可信度,Trust’为调整值。

在本发明实施例中,通过GRNN对FCM聚类结果的迭代学习和训练,使 得网络入侵连接的分类更加准确,而且GRNN由于只使用了单层隐函数的结 构,比其他普通的多层神经网络运行时间更短。将网络连接的置信度与连接的 分类信息直接关联起来,为评估系统威胁提供了基础。针对已有的入侵检测规 则库,改进了经典的Apriori算法,降低了其时间复杂度,根据置信度的评估值 对关联规则所包含的属性集进行动态更新,适应了网络环境的变化。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号