首页> 中国专利> 基于特征自适应层次聚类的网络流量图像安全分类方法

基于特征自适应层次聚类的网络流量图像安全分类方法

摘要

本发明公开了一种基于特征自适应层次聚类的网络流量图像安全分类方法,利用自适应层次聚类方法对网络流量特征进行聚类,所生成的聚类的网络流量图像在不损失网络流量特征信息的前提下,加强了网络流量特征之间的关联性,增加了网络流量相关特征的强度,从而提高了网络流量安全分类的准确性。所述方法对网络流量特征进行自底而上的凝聚法聚类,具有一定的自适应性,并提出最优聚类数选取的方法,增强了流量特征图像聚类效果,对种类复杂多样的网络流量安全分类问题普遍适用。

著录项

  • 公开/公告号CN112688961A

    专利类型发明专利

  • 公开/公告日2021-04-20

    原文格式PDF

  • 申请/专利权人 北京科技大学;

    申请/专利号CN202110015140.6

  • 发明设计人 陈红松;孙学洁;

    申请日2021-01-06

  • 分类号H04L29/06(20060101);H04L12/24(20060101);G06N3/08(20060101);G06N3/04(20060101);G06K9/62(20060101);

  • 代理机构11237 北京市广友专利事务所有限责任公司;

  • 代理人张仲波;邓琳

  • 地址 100083 北京市海淀区学院路30号

  • 入库时间 2023-06-19 10:40:10

说明书

技术领域

本发明涉及网络流量安全技术领域,特别涉及一种基于特征自适应层次聚类的网络流量图像安全分类方法。

背景技术

网络流量安全分类作为网络安全管理和网络安全分析的基础,是网络安全领域的研究重点。随着人工智能的发展,机器学习技术在网络流量安全分类应用中愈加广泛,然而机器学习分类模型的识别性能往往过于依赖特征选择,在某种程度上,特征选择的优劣直接决定了网络流量分类模型性能的上限。

现有技术通过改进网络流量特征选择方法或优化机器学习算法来提高网络流量安全分类的效果,然而利用特征选择方法求得对机器学习模型分类特征组合,会不同程度地损失网络流量的原始特征信息,甚至陷入局部最优,使得整体分类结果不稳定、不准确,并且由于机器学习算法自身的局限性,实现多种类复杂网络流量安全分类仍然存在一定的难度。

现有的技术方案主要有以下几种:

(1)中国科学技术大学的Wei Wang认为数据流前面字段部分是包含连接数据和内容数据,可以很好地反映数据流的固有特征,因此通过截取原始网络流量数据中每条数据流的前784B(长度不够,用0x00填充),然后转换为28×28的图像对网络流量特征信息进行选择,最后使用了类似于LeNet-5的CNN体系结构,对网络流量进行分类。

(2)中国科学院信息工程研究所的吴迪同方案1一样,只是截取原始网络流量数据中每条数据流的前1024B,然后转换为32×32的图像对网络流量特征信息进行统计。

(3)国家计算机网络与信息安全管理中心的刘纪伟提出一种基于统计排序的特征选择方法(Feature Selectionbased on Statistic and Ranking,FSSR),该方法根据特征的重要性权重值进行特征选择。首先根据特征选择系数大小选取相关性强、类别区分度高的特征组成初始特征子集,然后根据特征影响系数大小按序对初始特征子集进行二次选择,再次进行降维寻优操作,从而获得最优特征子集,有效提升分类的效率和效果。

(4)FahadA提出一种全局优化方法(Global OptimizationAlgorithm,GOA),首先结合了多种的特征选择技术,产生跨不同流量数据集的初始特征子集,然后基于信息熵来提取稳定和准确特征,并使用一种基于随机森林的过滤方法,获得最优特征子集。

(5)康奈尔大学的Ongun T设定一个长度为T的时间间隔,在这个时间间隔上,对通过所有连接节点的网络数据流的特征进行聚合,定义为节点间通信时间T内流量特征分布的平均值、标准差、中位数、最小值和最大值等,最终采用随机森林和梯度增强方法对网络流量进行安全分类。

(6)国家数字交换系统工程技术研究中心的许倩提出一种基于层次聚类的流量异常分类(Traffic Anomaly Classification Based on Hierarchical Clustering,TAC—HC)算法,通过训练已标记的异常流量构建分类树,利用特征属性的学习过程建立网络流量分类模型。

上述方案中,方案(1)和方案(2)分别截取了原始网络流量数据中每条数据流的前784B和前1024B并转成图像,作为网络流量特征的信息提取,并用CNN和LSTM网络学习特征,进而分类网络流量。这种方法网络流量特征只进行规定字节数量的截断处理,单纯地统计了网络流量样本特征,以上方法会造成信息量大的网络数据流量损失特征信息,信息量小的网络数据流量信息冗余,进而造成网络流量数据的不稳定性。

方案(3)利用特征选择系数来衡量特征和某种流量之间的相关性,如下:

其中,|t

方案(4)首先结合多种特征选择技术,得到初始特征子集,然后使用标准化熵确定稳定性特征,如下所示,获得稳定的特征子集。

其中X为随机变量类别,H(X)为X熵值,H

该方法使用标准化熵度量特征稳定性,由信息熵计算方法可知该方法使用标准化熵度量特征稳定性,会造成小信息量流量数据样本的特征信息丧失。

方案(5)通过设定一个大小为T的时间窗口来对节点之间的流量特征进行聚合。该方法只对特定时间T内的网络流量特征进行统计,时间窗口T的设定将直接关系到特征选取的稳定性,造成非时间T内流量特征信息损失。

以上方案(3)-(5)均会造成网络流量特征信息不同程度的损失,从而导致分类准确率降低。

方案(6)首先通过训练已标记的网络流量样本构建层次分类树,利用特征属性的学习过程逐步建立分类模型,该方法只是对单一数据流样本聚类,忽视同类网络流量样本与样本之间的关联信息,且聚类类别数量未经优化选取,聚类效果不佳。

因此,需要对现有技术进行一定的创新与改进,达到提高网络流量安全分类的准确率的目的。

发明内容

本发明的目的在于提供一种基于特征自适应层次聚类的网络流量图像安全分类方法,以解现有技术所存在的上述问题,为网络安全分类模型提供特征差异性更加明显的网络流量图像数据集,进而提高网络流量安全分类的效果。

为解决上述技术问题,本发明的实施例提供如下方案:

一种基于特征自适应层次聚类的网络流量图像安全分类方法,包括以下步骤:

S1、输入原始网络流量数据,提取网络流量特征,为每条网络流量特征标注类别标签,得到原始网络流量特征数据集;

S2、读取所述原始网络流量特征数据集的前W列,记为矩阵A

S3、基于自适应层次聚类算法优化选取聚类数量n_cluster,使得类间距离大于第一预设值,类内距离小于第二预设值;

S4、采用最优的n_cluster值对网络流量图像的特征进行聚类,得到对应的网络流量特征聚类结果;

S5、根据网络流量特征的类别标签重新排列网络流量特征,得到矩阵B

S6、分别对矩阵A'

S7、将原始网络流量切割图像放入原始数据集,将聚类网络流量切割图像放入切割数据集,并将原始数据集和切割数据集带入分类模型进行分类;

S8、对分类预测的准确率进行测试。

优选地,所述步骤S1具体包括:

输入原始网络流量pcap数据包,通过CICFlowMeter网络流量特征提取工具提取网络流量特征,对提取的网络流量特征进行规范化处理:为每条网络流量特征标注类别标签i,其中i=0、1、2、3、…,获得原始网络流量特征数据集D

优选地,所述步骤S2具体包括:

读取原始网络流量特征数据集D

优选地,所述步骤S3具体包括:

基于自适应层次聚类算法,将网络流量图像特征的每一列设定为一类,计算两两之间的曼哈顿距离,当满足类间距离大于第一预设值且类内距离小于第二预设值时,则合并为一类,通过凝聚法层层合并,直至2

优选地,所述步骤S3还包括:

利用类间类内距离比J和轮廓系数SC评估不同聚类数n_cluster下聚类模型的聚类效果,SC∈[-1,1],其中SC趋近于1时,聚类效果最好,此时对应的n_cluster值为最优。

优选地,所述步骤S6具体包括:

设定网络流量切割图像大小为H’×W,其中高度H’代表每个切割窗口包含网络数据流数量,宽度W代表网络流量特征数量;设定切割阈值为δ,从B'

优选地,所述步骤S7具体包括:

将对矩阵B'

优选地,所述步骤S8具体包括:

利用基于LeNet-5的CNN网络结构,通过卷积层提取网络流量特征图像有效特征,利用全连接层对网络流量特征进行分类,进一步调整卷积层参数,采用传统机器学习分类模型对聚类后网络流量图像数据集进行训练和测试,得到分类预测的准确率。

本发明实施例提供的技术方案带来的有益效果至少包括:

(1)本发明通过对网络流量的特征进行自适应层次聚类,将同类型特征聚合,强化了网络流量图像特征,加大不同种类网络流量之间的差异性,从而提高了网络流量安全分类的准确率。

(2)本发明采用自适应层次聚类的方法对网络流量特征进行自底而上的凝聚法聚类,具有一定的自适应性,并提出最优聚类数选取的方法,增强了流量特征图像聚类效果且优于其他聚类方法。

(3)本发明所生成的聚类的网络流量图像,不会造成网络流量特征信息的损失,并且保留了连续流量之间关联信息,为网络流量安全分类模型提供了更高质量的网络流量图像数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于特征自适应层次聚类的网络流量图像安全分类方法的流程图;

图2a和图2b是本发明实施例提供的原始正常流量和恶意流量灰度图像示意图;

图3a和图3b是本发明实施例提供的聚类后正常流量和恶意流量灰度图像示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例提供了一种基于特征自适应层次聚类的网络流量图像安全分类方法,如图1所示,该方法包括以下步骤:

S1、输入原始网络流量数据,提取网络流量特征,为每条网络流量特征标注类别标签,得到原始网络流量特征数据集;

本步骤中,输入原始网络流量pcap数据包,通过CICFlowMeter网络流量特征提取工具提取网络流量特征,对提取的网络流量特征进行规范化处理:为每条网络流量特征标注类别标签i,其中i=0、1、2、3、…,获得原始网络流量特征数据集D

S2、读取所述原始网络流量特征数据集的前W列,记为矩阵A

本步骤中,读取原始网络流量特征数据集D

S3、基于自适应层次聚类算法优化选取聚类数量n_cluster,使得类间距离大于第一预设值,类内距离小于第二预设值;

n_cluster的选取直接关系到聚类效果的好坏,n_cluster的值设置过大,会导致分类结果趋于分散且不稳定,n_cluster的值设置过小,会导致分类效果不明显,因此需要通过自适应算法对n_cluster进行优化选取。

本步骤中,基于自适应层次聚类算法,将网络流量图像特征的每一列设定为一类,计算两两之间的曼哈顿距离,当满足类间距离大于第一预设值且类内距离小于第二预设值时,则合并为一类,通过凝聚法层层合并,直至层停止,对相似的网络流量特征进行聚合。

利用类间类内距离比J和轮廓系数SC评估不同聚类数n_cluster下聚类模型的聚类效果,SC∈[-1,1],其中SC趋近于1时,聚类效果最好,此时对应的n_cluster值为最优。

具体算法参考下表所示:

表1

S4、采用最优的n_cluster值对网络流量图像的特征进行聚类,得到对应的网络流量特征聚类结果;

S5、根据网络流量特征的类别标签重新排列网络流量特征,得到矩阵B

S6、分别对矩阵A'

本步骤中,设定网络流量切割图像大小为H’×W,其中高度H’代表每个切割窗口包含网络数据流数量,宽度W代表网络流量特征数量;设定切割阈值为δ,从B'

S7、将原始网络流量切割图像放入原始数据集,将聚类网络流量切割图像放入切割数据集,并将原始数据集和切割数据集带入分类模型进行分类;

本步骤中,将对矩阵B'

针对ISCX网络流量数据集,采用本发明所述方法得到正常流量、恶意流量的原始和聚类后的切割灰度图像集(每张图像的宽度为77,高度为10),如图2a-图2b、图3a-图3b所示。从图中可以直观看出,网络流量聚类后得到的灰度图像差异性更加明显,因此相较于原始流量图像,可以更加明显区分不同类别流量。

S8、对分类预测的准确率进行测试。

利用基于LeNet-5的CNN网络结构,通过卷积层提取网络流量特征图像有效特征,利用全连接层对网络流量特征进行分类,进一步调整卷积层参数,采用传统机器学习分类模型对原始网络流量图像数据集进行训练和测试,得到分类预测的准确率达到81.64%;对采用本发明方法得到的聚类后网络流量图像数据集进行训练和测试,分类预测准确率达到99.28%。因此,采用本发明提出的基于特征层次聚类的网络流量图像安全分类方法适用于网络流量安全分类。

本发明提出基于特征自适应层次聚类的网络流量图像安全分类方法,利用自适应层次聚类方法对网络流量特征进行聚类,生成聚类的图像在不损失网络流量特征信息的前提下,加强了流量特征之间的关联性,增加了网络流量相关特征的强度,从而提高了网络流量安全分类的准确性,对种类复杂多样的网络流量安全分类问题普遍适用。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号