首页> 中国专利> 一种基于机器学习的流量异常预测方法

一种基于机器学习的流量异常预测方法

摘要

本发明涉及一种基于机器学习的流量异常预测方法,采用全新设计策略,综合考虑网络流量的多维特征属性,并结合特征属性之间的相关性,设计迭代循环的特征属性筛选策略,确定流量所对应的各个目标特征属性,再基于目标特征属性与网络流量明确的异常标签,针对指定分类网络进行训练,获得异常流量预测模型,并最终针对目标流量,实现其是否存在异常的检测,能够有效提高网络流量异常预测的工作效率。

著录项

说明书

技术领域

本发明涉及一种基于机器学习的流量异常预测方法,属于网络流量异常侦测技术领域。

背景技术

随着网络技术突飞猛进的发展,网络应用五花八门,企业不得不面对越来越多的恶意网络攻击与黑客入侵。目前,企业网络安全综合使用防火墙、入侵监测、漏洞扫描、补丁分发等安全产品,致力于建设集访问控制、流量监测、带宽管理及终端管理等功能于一体的安全管理平台。通过对网络流量的监测,及时发现流量异常的设备,或者根据系统设置的阈值提前预警,从而有效检测内网网络安全威胁。所以,网络流量监测是实现对企业运行状况管理的有效手段。随着互联网规模的不断扩大和业务量的急剧增长,网络所面临的安全问题日益突出。网络故障和恶意攻击都会造成网络流量异常,如何对互联网流量进行实时有效地监测,及时发现网络流量异常,并发出报警通知,使得网络管理人员能够及时地采取措施以保证网络正常运行,对提高网络可控性和可管性具有重要意义。

发明内容

本发明所要解决的技术问题是提供一种基于机器学习的流量异常预测方法,采用全新控制策略,能够提高网络流量异常侦测的工作效率。

本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于机器学习的流量异常预测方法,执行如下步骤i至步骤v,获得异常流量预测模型,以及执行如下步骤A,应用异常流量预测模型,实现目标流量是否存在异常的检测;

步骤i.基于预设数量个样本网络流量,以及各样本网络流量分别对应是否异常的分类标签结果,提取各样本网络流量分别所对应的各指定待选特征属性的特征值,然后进入步骤ii;

步骤ii.基于各样本网络流量分别所对应的各指定待选特征属性的特征值,针对各个待选特征属性进行缺失删减处理,更新为各个初选特征属性,以及针对各样本网络流量分别对应各初选特征属性的特征值进行数据预处理,然后进入步骤iii;

步骤iii.基于各样本网络流量分别对应各初选特征属性的特征值,根据各初选特征属性之间的相关性,筛选获得各个中级特征属性,即获得各样本网络流量分别对应各中级特征属性的特征值,然后进入步骤iv;

步骤iv.根据中级特征属性的数量是否满足预设特征属性数范围,基于全部初选特征属性中除中级特征属性以外的各个初选特征属性,针对各个中级特征属性通过特征属性衍生、删除的循环方式,更新各个中级特征属性为各个目标特征属性,进而获得各样本网络流量分别对应各目标特征属性的特征值,然后进入步骤v;

步骤v.基于各样本网络流量分别对应各目标特征属性的特征值,以及各样本网络流量分别对应是否异常的分类标签结果,以样本网络流量对应各目标特征属性的特征值为输入,样本网络流量对应是否异常的分类标签结果为是输出,针对指定分类网络进行训练,获得异常流量预测模型;

步骤A.获得目标流量对应各目标特征属性的特征值,并应用异常流量预测模型,获得目标流量对应是否存在异常的分类标签结果,实现目标流量是否存在异常的检测。

作为本发明的一种优选技术方案:所述步骤ii包括如下步骤ii-1至步骤ii-2;

步骤ii-1.基于各样本网络流量分别所对应的各待选特征属性的特征值,获得各待选特征属性分别所对应的数值缺失率,并删除数值缺失率大于预设阈值缺失率的各个待选特征属性,更新剩余各个待选特征属性为各个初选特征属性,然后进入步骤ii-2;

步骤ii-2.针对各样本网络流量分别对应各初选特征属性的特征值,针对其中的缺失值进行补0操作,更新各样本网络流量分别对应各初选特征属性的特征值,然后进入步骤iii。

作为本发明的一种优选技术方案:所述步骤iii包括步骤iii-1至步骤iii-3;

步骤iii-1.基于各样本网络流量分别对应各初选特征属性的特征值,结合特征值至向量的转换,获得各初选特征属性分别所对应特征值序列的特征向量序列,然后进入步骤iii-2;

步骤iii-2.根据各初选特征属性分别所对应特征值序列的特征向量序列,按马式距离计算方式,获得两两初选特征属性之间的相关性,然后进入步骤iii-3;

步骤iii-3.将各相关性按由大至小的顺序进行排序,并选择前

作为本发明的一种优选技术方案:所述步骤iv包括步骤iv-1至步骤iv-6;

步骤iv-1.判断中级特征属性的数量是否低于预设特征属性数范围,是则进入步骤iv-2,否则进入步骤iv-4;

步骤iv-2.分别针对各个中级特征属性,基于全部初选特征属性中除中级特征属性以外的各个初选特征属性,获得中级特征属性分别与该各个初选特征属性之间的相关性,并选择其中最大相关性所对应的初选特征属性,作为该中级特征属性所关联的初选特征属性;进而获得各中级特征属性分别所关联的初选特征属性,然后进入步骤iv-3;

步骤iv-3.将各中级特征属性分别与其所关联初选特征属性之间的相关性,按由大至小排序,并选择前

步骤iv-4.判断中级特征属性的数量是否高于预设特征属性数范围,是则进入步骤iv-5,否则进入步骤iv-6;

步骤iv-5.获得两两中级特征属性之间的相关性,并将该各个相关性按由低至高排序,选择前

步骤iv-6.更新各个中级特征属性为各个目标特征属性,进而获得各样本网络流量分别对应各目标特征属性的特征值,然后进入步骤v。

作为本发明的一种优选技术方案:所述目标流量为通过流量探针获取指定终端之间的网络流量。

本发明所述一种基于机器学习的流量异常预测方法,采用以上技术方案与现有技术相比,具有以下技术效果:

本发明所设计一种基于机器学习的流量异常预测方法,采用全新设计策略,综合考虑网络流量的多维特征属性,并结合特征属性之间的相关性,设计迭代循环的特征属性筛选策略,确定流量所对应的各个目标特征属性,再基于目标特征属性与网络流量明确的异常标签,针对指定分类网络进行训练,获得异常流量预测模型,并最终针对目标流量,实现其是否存在异常的检测,能够有效提高网络流量异常预测的工作效率。

附图说明

图1是本发明所设计基于机器学习的流量异常预测方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明设计了一种基于机器学习的流量异常预测方法,如图1所示,执行如下步骤i至步骤v,获得异常流量预测模型。

步骤i.基于预设数量个样本网络流量,以及各样本网络流量分别对应是否异常的分类标签结果,提取各样本网络流量分别所对应的各指定待选特征属性的特征值,然后进入步骤ii。

步骤ii.基于各样本网络流量分别所对应的各指定待选特征属性的特征值,针对各个待选特征属性进行缺失删减处理,更新为各个初选特征属性,以及针对各样本网络流量分别对应各初选特征属性的特征值进行数据预处理,然后进入步骤iii。

实际应用中,上述步骤ii包括如下步骤ii-1至步骤ii-2。

步骤ii-1.基于各样本网络流量分别所对应的各待选特征属性的特征值,获得各待选特征属性分别所对应的数值缺失率,并删除数值缺失率大于预设阈值缺失率的各个待选特征属性,更新剩余各个待选特征属性为各个初选特征属性,然后进入步骤ii-2。

步骤ii-2.针对各样本网络流量分别对应各初选特征属性的特征值,针对其中的缺失值进行补0操作,更新各样本网络流量分别对应各初选特征属性的特征值,然后进入步骤iii。

步骤iii.基于各样本网络流量分别对应各初选特征属性的特征值,根据各初选特征属性之间的相关性,筛选获得各个中级特征属性,即获得各样本网络流量分别对应各中级特征属性的特征值,然后进入步骤iv。

实际应用中,上述步骤iii包括步骤iii-1至步骤iii-3。

步骤iii-1.基于各样本网络流量分别对应各初选特征属性的特征值,结合特征值至向量的转换,获得各初选特征属性分别所对应特征值序列的特征向量序列,然后进入步骤iii-2。

步骤iii-2.根据各初选特征属性分别所对应特征值序列的特征向量序列,按马式距离计算方式,获得两两初选特征属性之间的相关性,然后进入步骤iii-3。

步骤iii-3.将各相关性按由大至小的顺序进行排序,并选择前

步骤iv.根据中级特征属性的数量是否满足预设特征属性数范围,基于全部初选特征属性中除中级特征属性以外的各个初选特征属性,针对各个中级特征属性通过特征属性衍生、删除的循环方式,更新各个中级特征属性为各个目标特征属性,进而获得各样本网络流量分别对应各目标特征属性的特征值,然后进入步骤v。

实际应用中,上述步骤iv包括步骤iv-1至步骤iv-6。

步骤iv-1.判断中级特征属性的数量是否低于预设特征属性数范围,是则进入步骤iv-2,否则进入步骤iv-4。

步骤iv-2.分别针对各个中级特征属性,基于全部初选特征属性中除中级特征属性以外的各个初选特征属性,获得中级特征属性分别与该各个初选特征属性之间的相关性,并选择其中最大相关性所对应的初选特征属性,作为该中级特征属性所关联的初选特征属性;进而获得各中级特征属性分别所关联的初选特征属性,然后进入步骤iv-3。

步骤iv-3.将各中级特征属性分别与其所关联初选特征属性之间的相关性,按由大至小排序,并选择前

步骤iv-4.判断中级特征属性的数量是否高于预设特征属性数范围,是则进入步骤iv-5,否则进入步骤iv-6。

步骤iv-5.获得两两中级特征属性之间的相关性,并将该各个相关性按由低至高排序,选择前

步骤iv-6.更新各个中级特征属性为各个目标特征属性,进而获得各样本网络流量分别对应各目标特征属性的特征值,然后进入步骤v。

关于步骤iv中,针对各个中级特征属性通过特征属性衍生、删除,实际应用中,还可按如下设计执行。

特征选择:对特征进行特征选择,用Pearson correlation Coefficient进行计算,找出相关性较高的特征,把这些特征作为入模特征(X,Y代表两个变量)

特征衍生:特征选择之后所剩特征较少,所以基于已有时间等特征作为一级特征衍生出一些二级特征,再进行特征选择和特征删除,直到合适的特征进行入模训练。

特征删除:进行特征删除,用Variance Inflation Factor进行判断(

例如将衍生特征引入Variance Inflation Factor对其进行判断,如果010,该特征的共线性就比较严重,需要将该特征删除。

步骤v.基于各样本网络流量分别对应各目标特征属性的特征值,以及各样本网络流量分别对应是否异常的分类标签结果,以样本网络流量对应各目标特征属性的特征值为输入,样本网络流量对应是否异常的分类标签结果为是输出,针对指定分类网络进行训练,获得异常流量预测模型。

对于这里的指定分类网络、以及针对其的训练,应用设计如下:

模型训练:差分自回归移动平均模型(ARIMA)是一个由自回归模型、移动平均模型和差分法三部分组成模型。一般分为三个阶段,模型识别和定阶、参数估计和模型检验。

1.模型识别和定阶,主要是确定p,d,q三个参数,d是时间序列达到平稳时所做的差分次数,p为相应的自回归项,q是移动平均项数。差分的阶数d一般为1阶或2阶。p和q的值通常使用偏自相关函数PACF(partial autocorrelation function)来确定。偏自相关函数PACF描述的是在给定中间观测值的条件下,时间序列观测值与其过去的观测值之间的线性相关性。

(1)根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其季节性变化规律,对序列的平稳性进行识别。

(2)对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降趋势,则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。

取对数log的方法可以使时间序列的方差变平稳,差分通过消除时间序列的变化量,从而使时间序列的平均值变平稳,从而达到消除趋势性和周期性。

(3)根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。

p阶AR模型可以写成:

我们限制AR模型只用于平稳的数据:

·对于AR(1)模型:

·对于AR(2)模型:

MA模型不像AR模型中使用过去的预测变量,MA模型使用过去的预测误差。

如果我们组合AR和MA模型并差分,我们可以得到ARIMA模型。模型可以写成:

常数c在长期预测中十分重要:

·如果c=0并且d=0,长期预测值会趋向于0

·如果c=0并且d=1,长期预测值会趋向于非零常数

·如果c=0并且d=2,长期预测值会变成一条直线

·如果c≠0并且d=0,长期预测值会趋向于数据的平均值

·如果c≠0并且d=1,长期预测值会变成一条直线

·如果c≠0并且d=2,长期预测值会变成二次抛物线

2.参数估计,检验是否具有统计意义。

3.模型检验,诊断残差序列是否为白噪声。

4.利用已通过检验的模型进行预测分析。

模型调优:在相同的预测误差情况下,根据Occam's Razor,Ockham's Razor(奥斯卡姆剃刀准则),模型越小越好。平衡预测误差和参数个数,我们可以根据信息准则函数法,来确定模型的阶数。预测误差通常用平方误差即残差平方和来表示。信息准则函数

ACI=2*(模型参数个数)-2ln(模型的极大似然函数)

模型评估:通过采集交换机实时网络流量进行解析,使用模型构建模块训练确立的模型,对模型进行验证。

ARIMA模型的基本思想是将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归建立模型,ARMIA模型有四种形式:移动平均模型-MA(q)、自回归模型-AR(p)、自回归移动平均模型ARMA(p,q)以及差分自回归移动平均模型ARIMA(p,d,q),在条件允许的情况下,我们可以选择参数较少的模型。

基于上述方法,获得异常流量预测模型,则进一步在实际应用中,执行如下步骤A,实现目标流量是否存在异常的检测。

步骤A.通过流量探针获取指定终端之间的网络流量,作为目标流量,并获得目标流量对应各目标特征属性的特征值,并应用异常流量预测模型,获得目标流量对应是否存在异常的分类标签结果,实现目标流量是否存在异常的检测。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号