首页> 中国专利> 基于小样本学习的服务器运行网络流量异常数据检测方法

基于小样本学习的服务器运行网络流量异常数据检测方法

摘要

本发明公开了一种基于小样本学习的服务器运行网络流量异常数据检测方法,该方法首先通过对网络流量出现的频次筛选切分出小样本训练数据,然后对小样本训练数据添加异常类型标记;带有标记的异常网络浏览数据采用CNN方法进行学习获得小样本异常元素;最后对小样本异常元素进行相似度和流量概率计算以此表征出样本是否为异常。采用网络流量出现频次的筛选方式用来解决服务器运行期间出现的异常网络流量数据与正常网络流量数据相差巨大的问题。本发明异常检测方法可以更好地应用于复杂多变的服务器所处的网络服务环境。

著录项

  • 公开/公告号CN112565301A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 北京航空航天大学;

    申请/专利号CN202011569465.0

  • 发明设计人 栾钟治;黄绍晗;刘轶;杨海龙;

    申请日2020-12-26

  • 分类号H04L29/06(20060101);G06N3/04(20060101);G06K9/62(20060101);

  • 代理机构11121 北京永创新实专利事务所;

  • 代理人冀学军

  • 地址 100191 北京市海淀区学院路37号

  • 入库时间 2023-06-19 10:22:47

说明书

技术领域

本发明涉及服务器网络服务环境的异常检测,更特别地说,涉及样本量不平衡的网络服务环境下的基于小样本学习的服务器运行网络流量异常数据检测方法。在本发明中,将异常网络流量数据采用小样本的学习训练过程称为构建ADMSS模型。

背景技术

随着云计算、大数据技术的快速发展,网络安全已经逐渐成为人们越来越关心的问题。网络异常检测作为重要的防护手段,是网络服务管理研究中的热点之一,也越来越受广大学者和工程人员的重视。如图1所示的一种网络入侵环境,攻击者通过僵尸主机向目标主机进行攻击。对于目标主机可以通过查询网络流量(network flow)来提取日志,从而判断出哪些网络流量数据(network traffic data)是存在风险的。

服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。在网络环境下,根据服务器提供的服务类型不同,分为文件服务器,数据库服务器,应用程序服务器,WEB服务器等。

机器学习技术被广泛地应用于异常检测领域。该技术主要以监督学习为主,通过训练机器学习模型,完成对网络入侵的检测。模型通过足够多的异常数据,完成对异常特征的抽取,根据抽取到的所述异常特征对异常情况进行分类。在机器学习模型训练过程中,需要足够多有标注的数据,当数据不足时,模型很难得到有效的训练。常见的网络异常检测模型有朴素贝叶斯模型、支持向量机模型,在近期的研究中,越来越多的神经网络模型被应用到网络异常检测领域。

传统的机器学习模型需要足够多的异常数据进行训练,当新的网络入侵环境出现时,很难提供足够多的异常标注数据。同时在新的网络环境中,往往也会产生分布不同的网络攻击,甚至会产生未知类型的网络攻击,传统的机器学习模型面对的网络环境,往往不能达到预期目标。

发明内容

为了解决服务器在面对新型的、异常的、小样本网络流量数据信息出现时,无法通过已有的检测模型来保障网络安全,从而造成服务器成为了被攻击目标的技术问题,本发明提出了一种基于小样本学习的服务器运行网络流量异常数据检测方法。

本发明提出的一种基于小样本学习的服务器运行网络流量异常数据检测方法,该方法应用于网络服务器中的异常检测。当服务器网络流量数据新出现或较少出现的情况时,在这些网络流量数据中往往会存在异常的网络流量,已有的服务器网络流量数据的异常检测方法将不能检测这些异常数据。本发明第一方面用出现频次切分来解决服务器运行期间出现的异常网络流量数据与正常网络流量数据在数据量相差巨大的问题;该频次切分能够有效的帮助ADMSS模型从带有标记为异常的网络流量数据中学习更多新的服务器网络服务环境的特征;第二方面通过服务器运行管理人员(server manager)给新出现的服务器网络流量异常数据添加标签,然后对标签后的异常网络流量数据进行小样本训练;第三方面应用本发明方法能够在新出现的服务器网络流量异常的环境下有效检测服务器异常。本发明所构建的小样本网络流量数据的异常检测方法,能够更好地应用于复杂多变的服务器所处的网络服务环境。

本发明的一种基于小样本学习的服务器运行网络流量异常数据检测方法,其特征在于包括有下列步骤:

步骤一,使用WireShark工具获取流量发生器的网络流量数据;

使用WireShark过滤器过滤由流量发生器产生的多个网络流量数据,得到正常的网络流量数据集合,记为正常-流集合FW,且FW={fw

步骤二,使用WireShark工具获取攻击主机的网络流量数据;

使用WireShark过滤器过滤由攻击主机产生的多个网络流量数据,得到异常的网络流量数据集合,记为异常-流集合HW,且HW={hw

步骤三,网络流量数据中正常-特征提取;

服务器的WireShark过滤器中是存在有多个特征向量的,为了实现对网络流量数据包中信息的提取,选取WireShark过滤器中已有的41个特征来对正常-流集合FW={fw

所述的41个特征构成一个一维特征向量;

步骤31,将步骤一得到的正常-流集合FW={fw

步骤32,依据一维特征向量提取所述

步骤四,网络流量数据中异常-特征提取;

步骤41,将步骤二得到的异常-流集合HW={hw

步骤42,依据一维特征向量提取所述

步骤五,记录下所有网络流量数据的特征;

将步骤三得到的FV与步骤四得到的HV进行求并集,得到全特征集合VFH=FV∪HV;则

步骤六,小样本集合与多样本集合的划分;

步骤61,异常类型标记;

设置的异常类型标记集合,记为ANO,且ANO={ano

步骤62,建立支持样本;

从步骤四得到的异常-特征集合

步骤63,支持样本异常划分;

依据步骤61得到的ANO={ano

步骤64,选取小样本异常元素;

若将类型-支持样本集合

步骤七,训练相似度、流量概率;

步骤71,采用卷积神经网络CNN进行样本编码;

使用卷积神经网络CNN对属于ano

使用卷积神经网络CNN对属于ano

使用卷积神经网络CNN对属于ano

使用卷积神经网络CNN对属于ano

步骤72,训练样本选取;

从步骤五中得到的

步骤73,训练样本编码;

使用卷积神经网络CNN对训练样本ts

步骤74,求取小样本相似度;

基于小样本的相似度为

步骤75,求取多样本相似度;

多样本的相似度为

步骤76,求取网络流量数据异常的概率;

计算元素x为异常网络流量的概率,记为y,且y=sigmoid(W·f

本发明基于小样本学习的服务器运行网络流量异常数据检测方法的优点在于:

①当新出现或较少出现的服务器运行网络流量数据的情况下,通过对网络流量标注异常类型为网络流量异常数据,并完成对这些异常数据的小样本学习训练,在下一次运行服务器时,服务器网络服务环境将取得较好的异常检测效果。

②本发明用出现频次切分来解决小样本与原有多数样本在数据量上不平衡的问题,帮助ADMSS模型从小样本中学习更多新型的服务器运行出现的网络流量异常的特征。

③本发明采用相似度和流量概率表征出样本是否异常,更能准确地从服务器运行的网络服务环境中检测出攻击内容。

④本发明ADMSS模型检测是辅助原有的异常检测模型(简称ABD模型)的,经初始化下异常检测的结果存储添加至异常网络流量行为资源库中,在下一次服务器运行时,也将作为ABD模型的检测项,故本发明的迭代小样本方式能够快速进行服务器的异常检测,降低攻击。

附图说明

图1是传统网络攻击的网络环境图。

图2是本发明基于小样本学习的服务器运行网络流量异常数据的检测流程图。

具体实施方式

为了更加明晰的阐述本发明的技术方案和内容,下面结合附图对本发明做进一步详细描述。

在本发明中,服务器运行期间已经记录的网络流量数据包括正常的网络流量数据和Satan类型、Ipsweep类型两种异常数据。使用WireShark过滤器过滤流量发生器中的多个网络流量数据,记为正常-流集合FW,且FW={fw

fw

fw

fw

fw

hw

hw

hw

hw

在本发明中,服务器运行期间已经记录的网络流量数据(network traffic data)包括正常的网络流量数据和Satan类型、Ipsweep类型的异常网络流量数据(abnormalnetwork traffic data),原有的异常检测模型(简称ABD模型)是在这些网络流量数据上训练得到的。所述Satan类型、Ipsweep类型的异常网络流量数据也称为图2的大样本网络异常网络流量数据。当网络服务环境发生变化时,产生了新型的Smuf和新型的Portsweep两种服务器网络流量异常,则所述ABD模型很难对新型异常进行判断和检测。服务器运行管理人员(server manager)在这两种类型网络流量异常数据中,选择对新出现的或较少出现的网络流量异常数据进行人工添加一个类别标记ANO。人工添加类别标记的小样本数据一方面用来构建一个异常的服务器网络流量小样本训练数据,即构建新的ADMSS模型;另一方面人工添加类别标记的小样本数据交给服务器流量数据异常检测的组合模型;所述组合模型为ABD模型和ADMSS模型组成。

Satan类型是指美国林肯实验室建立的模拟美国空军局域网的网络环境收集的勒索信息数据异常类型。

Ipsweep类型是指美国林肯实验室建立的模拟美国空军局域网的网络环境收集的端口监视数据异常类型。

在本发明中,构建ADMSS模型是指对异常网络流量数据(abnormal networktraffic data)采用小样本的学习训练过程。异常网络流量数据是指服务器运行期间,采用出现频次切分后的较少出现过的或者新出现的异常网络流量数据(abnormal networktraffic data)。

将本发明构建得到的ADMSS模型存储于服务器的硬盘中。所述的硬盘中至少还存储有原有的异常检测模型(简称ABD模型)。参见图2所示,服务器初始化后进入工作状态,当服务器运行一段时间后,服务器会记录下一段时间以来的网络流量数据(network trafficdata)。通过对网络流量数据出现的频次筛选,第一方面能够获得大样本-异常网络流量实测数据;第二方面能够获得较少出现的异常网络流量数据;第三方面能够获得新出现的异常网络流量数据;第二方面和第三方面的网络流量数据统称为小样本-异常网络流量实测数据。

对于大样本-异常网络流量实测数据采用ABD模型进行网络实测大样本数据特征抽取,生成大样本-实测特征向量。

对于小样本-异常网络流量实测数据采用ADMSS模型进行网络实测小样本数据特征抽取,生成小样本-实测特征向量。

在本发明中,小样本-异常网络流量实测数据同时也将保存于异常网络流量行为资源库中。经初次处理后形成的异常网络流量行为资源库也将作为下一次网络流量异常数据切分的筛选信息。本发明对异常网络流量行为资源库为迭代更新,迭代小样本方式能够快速地进行服务器的异常检测,降低攻击。

本发明基于小样本学习的服务器运行网络流量异常数据检测方法,包括有下列步骤:

步骤一,使用WireShark工具获取流量发生器的网络流量数据;

使用WireShark过滤器,过滤由流量发生器产生的多个网络流量数据,得到正常的网络流量数据集合,记为正常-流集合FW,且FW={fw

步骤二,使用WireShark工具获取攻击主机的网络流量数据;

使用WireShark过滤器,过滤由攻击主机产生的多个网络流量数据,得到异常的网络流量数据集合,记为异常-流集合HW,且HW={hw

步骤三,网络流量数据中正常-特征提取;

服务器的WireShark过滤器中是存在有多个特征向量的,在本发明中,为了实现对网络流量数据包中信息的提取,选取WireShark过滤器中已有的41个特征来对正常-流集合FW={fw

步骤31,将步骤一得到的正常-流集合FW={fw

步骤32,依据一维特征向量提取所述

步骤四,网络流量数据中异常-特征提取;

步骤41,将步骤二得到的异常-流集合HW={hw

步骤42,依据一维特征向量提取所述

步骤五,记录下所有网络流量数据的特征;

将步骤三得到的FV与步骤四得到的HV进行求并集,得到全特征集合VFH=FV∪HV。则

步骤六,小样本集合与多样本集合的划分;

步骤61,异常类型标记;

在本发明中,设置的异常类型标记集合,记为ANO,且ANO={ano

ano

ano

ano

ano

Satan类型是指美国林肯实验室建立的模拟美国空军局域网的网络环境收集的勒索信息数据异常类型。

Ipsweep类型是指美国林肯实验室建立的模拟美国空军局域网的网络环境收集的端口监视数据异常类型。

Smurf类型是指美国林肯实验室建立的模拟美国空军局域网的网络环境收集的拒绝服务攻击数据异常类型。

Portsweep类型是指美国林肯实验室建立的模拟美国空军局域网的网络环境收集的端口扫描数据异常类型。

步骤62,建立支持样本;

从步骤四得到的异常-特征集合

步骤63,支持样本异常划分;

依据步骤61得到的ANO={ano

步骤64,选取小样本异常元素;

在本发明中,若将类型-支持样本集合

比如,若将

步骤七,训练相似度、流量概率;

在本发明中,基于小样本的相似度为

sim

sim

x

在本发明中,多样本的相似度为

sim

sim

x

在本发明中,计算元素x为异常网络流量的概率,记为y,且y=sigmoid(W·f

步骤71,采用卷积神经网络CNN进行样本编码;

在本发明中,将类型-支持样本集合

使用卷积神经网络CNN对属于ano

使用卷积神经网络CNN对属于ano

使用卷积神经网络CNN对属于ano

使用卷积神经网络CNN对属于ano

在本发明中,卷积神经网络CNN参考了2017年7月出版的《浓度学习》第201-203页,作者(美)伊恩·古德费洛著;赵申剑,黎彧君,符天凡,李凯译。

步骤72,训练样本选取;

从步骤五中得到的

比如,选取的训练样本是

步骤73,训练样本编码;

使用卷积神经网络CNN对训练样本ts

比如,使用卷积神经网络CNN对

步骤74,求取小样本相似度;

在本发明中,基于小样本的相似度为

比如,选取的训练样本是

比如,小样本异常元素是

步骤75,求取多样本相似度;

在本发明中,多样本的相似度为

比如,选取的训练样本是

比如,多样本异常元素是

依据

步骤76,求取网络流量数据异常的概率;

在本发明中,计算元素x为异常网络流量的概率,记为y,且y=sigmoid(W·f

计算

表1,训练样本与任意样本元素之间的指数计算

在本发明中,

在本发明中,

在本发明中,

在本发明中,

比如,

在本发明中,WireShark过滤器中已有的41个特征分别是:

本发明网络异常检测方法的关键是让ADMSS模型学会如何通过数量较少的服务器异常网络流量数据进行学习。该ADMSS模型的训练方法跟传统的异常检测模型的训练方法不同,在使用有类别标签的服务器网络流量数据对异常检测模型进行训练时,将原有服务器网络流量数据按照异常的类别标签进行随机划分,将其中一些较少出现或新出现的异常网络流量数据,称这些数据为小样本数据,其它服务器网络流量数据称为多数样本数据。通过这种方式让ADMSS模型在训练过程中就学习到如何处理这些小样本数据。小样本数据与原有多数样本数据存在数据不平衡的问题,本发明采用出现频次切分的作用是用来调节和学习小样本数据和多数样本数据之间的权重,该结构可以帮助ADMSS模型从小样本中学习更多服务器网络流量数据中新出现的异常特征。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号