首页> 中国专利> 基于可调节分段Tsallis熵的网络流量异常检测方法

基于可调节分段Tsallis熵的网络流量异常检测方法

摘要

本发明公开一种基于可调节分段Tsallis熵的网络流量异常检测方法,主要提供一种可适应大规模网络的异常检测需求的基于可调节分段熵的网络流量异常检测方法。本发明所述的检测方法包括如下具体步骤:选取原样本空间;基于可调节分段熵的实现方法,得到高概率样本空间的高概率熵值和低概率样本空间低概率熵值;分别判断高概率熵值和低概率熵值的是否异常,若高概率熵值小于高概率熵阈值,则高概率熵值异常,否则,高概率熵值正常;若低概率熵值大于低概率熵阈值,则低概率熵值异常,否则,低概率熵值正常;确定异常熵值对应的样本空间即为网络流量异常样本空间,即判定此时发生了网络流量异常。

著录项

  • 公开/公告号CN104539488A

    专利类型发明专利

  • 公开/公告日2015-04-22

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN201510031006.X

  • 申请日2015-01-21

  • 分类号H04L12/26;

  • 代理机构北京中伟智信专利商标代理事务所;

  • 代理人张岱

  • 地址 100084 北京市海淀区清华园1号

  • 入库时间 2023-12-18 08:25:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-29

    授权

    授权

  • 2015-05-20

    实质审查的生效 IPC(主分类):H04L12/26 申请日:20150121

    实质审查的生效

  • 2015-04-22

    公开

    公开

说明书

技术领域

本发明涉及一种基于可调节分段Tsallis熵的网络流量异常检测方法。

背景技术

基于Tsallis熵进行网络流量异常检测是一种简单有效的方法,但是由于 Tsallis熵本身特性的影响,使其在网络流量异常检测中存在三大问题:一是不 能克服样本空间数量剧烈波动对熵值的影响,导致检测不准确;二是需要计算 全部样本才能得到熵值,导致对大样本空间的检测不敏感;三是混合异常在熵 值存在抵消问题,导致对有些混合攻击不能够检测出来。因此,基于Tsallis 熵的网络流量异常检测很难应用于终端数目巨大、流量波动明显的网络。而且 目前随着网络规模、数据量的不断增大,单机的流量异常检测系统也遇到了网 络流量的处理能力的挑战,尤其是对大量历史流量数据的分析上存在困难。

发明内容

针对上述问题,本发明提供一种克服了传统熵用于网络流量异常检测存在 的问题,适应大规模网络的异常检测需求的基于可调节分段Tsallis熵的网络 流量异常检测方法。

为达到上述目的,本发明基于可调节分段Tsallis熵的网络流量异常检测 方法,所述方法包括:

获取流量数据,将所述流量数据划分为均匀的时间片,在所述的时间片内 选取至少一个元素集合为参考样本空间;

各参考样本空间基于可调节分段Tsallis熵的方法,得到参考样本空间对 应的高概率熵值和低概率熵值;

判断所述的时间片是否异常,

若所述的时间片内各参考样本空间对应的高概率熵值和低概率熵值均正 常,则该时间片为网络正常时间片;

若所述的时间片内至少一个参考样本空间对应的高概率熵值和/或低概率 熵值为异常,则该时间片为网络异常时间片;

其中,所述的可调节分段Tsallis熵的方法具体为:

对一个所述参考样本空间内的元素按照概率阈值分为高概率集合和低概率 集合,所述高概率集合和虚拟不重复元素集合组成高概率样本空间,所述低概 率集合组成低概率样本空间;

对所述的高概率样本空间用Tsallis熵计算得到高概率熵值,对所述的低 概率样本空间用Tsallis熵计算得到低概率熵值。

进一步地,所述的用Tsallis熵计算得到高概率熵值和低概率熵值的具体 公式如下:

S-H=kq-1·(1-Σi=1ND+Npbiq)=kq-1·(1-Σi=1ND(niDΣi=1NDniD+N)q-N(Σi=1NDniD+N)q)

S-L=kq-1·(1-Σi=1NCpciq)=kq-1·(1-Σi=1NC(niCΣi=1NCniC)q);

其中,S-H为高概率熵值,S-L为低概率熵值;

参考样本空间A中有NA个互不相同元素,A={a1,a2,...,ai,...,aNA},任意元素 ai∈A且表示A中的第i个互不相同的元素,表示元素在参 考样本空间A中出现的次数;

虚拟的不重复元素集合E中有N个互不相同元素且E={e1,e2,...,ei,...,eN},任意元素ei∈E且表示E中的第i个互不相同 的元素,1表示元素在虚拟的不重复元素集合E中出现的次数;

低概率样本空间C中有NC个互不相同元素,C={c1,c2,...,ci,...,cNC},任意元素 ci∈C且表示C中的第i个互不相同的元素,表示元素在C 中出现的次数;

高概率元素集合D中有ND个互不相同元素,D={d1,d2,...,di,...,dND},任意元 素di∈D且表示D中的第i个互不相同的元素,表示元素在 D中出现的次数;

表示高概率样本空间B中第i个元素在高概率样本空间B中出现的概率, 表示低概率样本空间C中第i个元素在低概率样本空间C中出现的概率。

具体地,判断参考样本空间对应的高概率熵值和低概率熵值是否异常的方 法为:

若所述的高概率熵值小于高概率熵阈值,则高概率熵值异常,否则,高概 率熵值正常;

若所述的低概率熵值大于低概率熵阈值,则低概率熵值异常,否则,低概 率熵值正常。

优选地,在所述时间片内选取的参考样本空间具体为:源IP组成的源IP 样本空间、目的IP组成的目的IP样本空间、源端口组成的源端口样本空间和/ 或目的端口组成的目的端口样本空间。

进一步地,所述的概率阈值、虚拟不重复元素集合中元素的数目、高概率 熵阈值、低概率熵阈值均为用户设定值。

为达到上述目的,本发明实现可调节分段Tsallis熵的方法,所述方法包 括:

对样本空间内的元素按照概率阈值分为高概率集合和低概率集合,在所述 高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概率集合组成低 概率样本空间;

对所述的高概率样本空间用Tsallis熵计算得到高概率熵值,对所述的低 概率样本空间用Tsallis熵计算得到低概率熵值;

其中,分段熵通过所述的概率阈值和虚拟不重复元素的数目实现可调节。

本发明克服了传统熵用于网络流量异常检测存在的三大问题,适应了大规 模网络的异常检测需求,可以根据网络流量的实际情况实现参数的设定与调节。

附图说明

图1是可调节分段熵模式原理图;

图2是基于可调节分段熵的异常检测判别方法。

具体实施方式

下面结合说明书附图对本发明做进一步的描述。

一、可调节分段Tsallis熵(Adjustable Piecewise Tsallis Entropy, 简称APTE)

APTE的原理如图1所示:首先,按照用户设定的概率阈值(T)将原样本空 间(A)内元素分成高概率元素集合和低概率元素集合;然后将高概率元素集合 (D)和用户设定数目(N)的虚拟的不重复元素集合(E)结合形成新的高概率 样本空间(B),将低概率元素集合单独形成低概率样本空间(C);最后对高概 率样本空间和低概率样本空间分别用Tsallis熵计算熵值,高概率样本空间得 到高概率熵值(S-H),低概率样本空间得到低概率熵值(S-L)。APTE通过T和N 两个参数实现可调节的目的。

假设:

①样本空间A中有NA个互不相同元素,A={a1,a2,...,ai,...,aNA},任意元素ai∈A 且表示A中的第i个互不相同的元素,表示元素在A中出 现的次数;

②样本空间E中有N个互不相同元素且E={e1,e2,...,ei,...,eN},任意 元素ei∈E且表示E中的第i个互不相同的元素,1表示元素在 E中出现的次数;

那么可以得到:

①若niAT×Σi=1NAniA,那么ai∈C;

②若niA>T×Σi=1NAniA,那么ai∈D;

③样本空间B=D∪E;

假设:

①样本空间C中有NC个互不相同元素,C={c1,c2,...,ci,...,cNC},任意元素ci∈C 且表示C中的第i个互不相同的元素,表示元素在C中出 现的次数;

②样本空间D中有ND个互不相同元素,D={d1,d2,...,di,...,dND},任意元素di∈D 且表示D中的第i个互不相同的元素,表示元素在D中出 现的次数;

那么,根据Tsallis熵公式APTE可表示为:

S-APTE=<S-H,S-L>,其中,

S-H=kq-1·(1-Σi=1ND+Npbiq)=kq-1·(1-Σi=1ND(niDΣi=1NDniD+N)q-N(Σi=1NDniD+N)q)

S-L=kq-1·(1-Σi=1NCpciq)=kq-1·(1-Σi=1NC(niCΣi=1NCniC)q);

其中,表示B中第i个元素在B中出现的概率,表示C中第i个元素 在C中出现的概率。

二、基于APTE的网络流量异常检测方法

基于APTE的网络流量异常检测原理为:首先对流量样本空间根据APTE公 式得到高概率熵值S-H和低概率熵值S-L,然后判断得到的熵值是否存在异常。如 图2所示,若S-H小于预先设定的阈值T1,则判定S-H值为异常;若S-L大于预先 设定的阈值T2,则判定S-L值为异常。异常熵值对应的样本空间即为网络流量异 常样本空间,即此时发生了网络流量异常。

实施例1

本实施例基于可调节分段熵的网络流量异常检测方法,所述方法包括:

获取流量数据,将所述流量数据划分为均匀的时间片,在所述的时间片内 选取源IP元素集合为参考样本空间也即为源IP样本空间;

对所述的源IP样本空间内的元素按照概率阈值分为高概率集合和低概率集 合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概率 集合组成低概率样本空间;

对所述的高概率样本空间用Tsallis熵计算得到高概率熵值,对所述的低 概率样本空间用Tsallis熵计算得到低概率熵值;

判断所述的高概率熵值、低概率熵值是否异常,

所述的高概率熵值小于高概率熵阈值,则所述的高概率熵值异常;

所述的低概率熵值小于低概率熵阈值,则所述的低概率熵值正常;

判断所述的时间片是否异常,

所述的时间片内有至少一个高概率样本空间熵值异常,则所述的时间片为 网络异常时间片。

实施例2

本实施例基于可调节分段熵的网络流量异常检测方法,所述方法包括:

获取流量数据,将所述流量数据划分为均匀的时间片,在所述的时间片内 选取目的IP元素集合为参考样本空间也即为目的IP样本空间;

对所述的目的IP样本空间内的元素按照概率阈值分为高概率集合和低概率 集合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概 率集合组成低概率样本空间;

对所述的高概率样本空间用Tsallis熵计算得到高概率熵值,对所述的低 概率样本空间用Tsallis熵计算得到低概率熵值;

判断所述的高概率熵值、低概率熵值是否异常,

所述的高概率熵值大于高概率熵阈值,则所述的高概率熵值正常;

所述的低概率熵值大于低概率熵阈值,则所述的低概率熵值异常;

判断所述的时间片是否异常,所述的时间片内有一个低概率样本空间熵值 异常,则所述的时间片为网络异常时间片。

实施例3

本实施例基于可调节分段熵的网络流量异常检测方法,所述方法包括:

获取流量数据,将所述流量数据划分为均匀的时间片,在所述的时间片内 选取源端口元素集合为参考样本空间也即为源端口样本空间;

对所述的源端口样本空间内的元素按照概率阈值分为高概率集合和低概率 集合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概 率集合组成低概率样本空间;

对所述的高概率样本空间用Tsallis熵计算得到高概率熵值,对所述的低 概率样本空间用Tsallis熵计算得到低概率熵值;

判断所述的高概率熵值、低概率熵值是否异常,

所述的高概率熵值大于高概率熵阈值,则所述的高概率熵值正常;

所述的低概率熵值小于低概率熵阈值,则所述的低概率熵值正常;

判断所述的时间片是否异常,所述的时间片内全部高、低概率样本空间熵 值正常,则所述的时间片为网络正常时间片。

实施例4

本实施例基于可调节分段熵的网络流量异常检测方法,所述方法包括:

获取流量数据,将所述流量数据划分为均匀的时间片,在所述的时间片内 选取目的端口元素集合为参考样本空间也即为目的端口样本空间;

对所述的目的端口样本空间内的元素按照概率阈值分为高概率集合和低概 率集合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低 概率集合组成低概率样本空间;

对所述的高概率样本空间用Tsallis熵计算得到高概率熵值,对所述的低 概率样本空间用Tsallis熵计算得到低概率熵值;

判断所述的高概率熵值、低概率熵值是否异常,

所述的高概率熵值等于高概率熵阈值,则所述的高概率熵值异常;

所述的低概率熵值等于低概率熵阈值,则所述的低概率熵值异常;

判断所述的时间片是否异常,所述的时间片内全部高、低概率样本空间熵 值异常,则所述的时间片为网络异常时间片。

上述各实施例中,上述各实施例中的高概率熵阈值和低概率熵阈值不是一 个具体的值,将参考样本空间的高概率样本空间判断熵值是否异常的熵值的概 率值,统称为高概率熵阈值,将参考样本空间的低概率样本空间判断熵值是否 异常的熵值的概率值,统称为低概率熵阈值,高概率熵阈值和低概率熵阈值的 具体值要根据实际情况确定。

说明:下述各实施例中选择了至少两个元素各自组成参考样本空间,这些 元素为:源IP、目的IP、源端口、目的端口等,每个元素独自构成一个参考样 本空间,每个参考样本空间分出来的高概率样本空间、低概率样本空间与其他 参考样本空间的高概率样本空间、低概率样本空间各自独立,同时,每一个参 考样本空间分别对应各自的高概率熵阈值和低概率熵阈值,为了方便区分,将 各参考样本空间的高概率样本空间判断熵值是否异常的熵值的概率值,统称为 高概率熵阈值,将各参考样本空间的低概率样本空间判断熵值是否异常的熵值 的概率值,统称为低概率熵阈值,各参考样本空间实际上的高概率熵阈值和低 概率熵阈值的具体值要基于实际情况而定。同时未在本说明书中列举的其他至 少两个元素各自组成参考样本空间判断元素各自组成参考样本空间的实施例也 适用上述说明。

实施例5

本实施例基于可调节分段熵的网络流量异常检测方法,所述方法包括:

获取流量数据,将所述流量数据划分为均匀的时间片,在所述的时间片内 选取源IP元素集合、目的IP元素集合分别组成两个参考样本空间,也即源IP 样本空间、目的IP样本空间;

对所述的源IP样本空间内的元素按照概率阈值分为高概率集合和低概率集 合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概率 集合组成低概率样本空间;

对所述的目的IP样本空间内的元素按照概率阈值分为高概率集合和低概率 集合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概 率集合组成低概率样本空间;

对源IP样本空间对应的高概率样本空间和低概率样本空间分别用Tsallis 熵计算熵值得到高概率熵值和低概率熵值;

对目的IP样本空间对应的高概率样本空间和低概率样本空间分别用 Tsallis熵计算熵值得到高概率熵值和低概率熵值;

判断所述的两个高概率熵值、两个低概率熵值是否异常,

所述的源IP样本空间对应的高概率熵值大于高概率熵阈值,则所述的高概 率熵值正常;

所述的源IP样本空间对应的低概率熵值小于低概率熵阈值,则所述的低概 率熵值正常;

所述的目的IP样本空间对应的高概率熵值小于高概率熵阈值,则所述的高 概率熵值异常;

所述的目的IP样本空间对应的低概率熵值小于低概率熵阈值,则所述的低 概率熵值正常;

判断所述的时间片是否异常,所述的时间片内有一个高概率熵值异常,则 所述的时间片为网络异常时间片。

实施例6

本实施例基于可调节分段熵的网络流量异常检测方法,所述方法包括:

获取流量数据,将所述流量数据划分为均匀的时间片,在所述的时间片内 选取源IP元素集合、目的IP元素集合、源端口元素集合分别组成三个参考样 本空间,也即源IP样本空间、目的IP样本空间、源端口样本空间;

对所述的源IP样本空间内的元素按照概率阈值分为高概率集合和低概率集 合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概率 集合组成低概率样本空间;

对所述的目的IP样本空间内的元素按照概率阈值分为高概率集合和低概率 集合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概 率集合组成低概率样本空间;

对所述的源端口样本空间内的元素按照概率阈值分为高概率集合和低概率 集合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概 率集合组成低概率样本空间;

对源IP样本空间对应的高概率样本空间和低概率样本空间分别用Tsallis 熵计算熵值得到高概率熵值和低概率熵值;

对目的IP样本空间对应的高概率样本空间和低概率样本空间分别用 Tsallis熵计算熵值得到高概率熵值和低概率熵值;

对源端口样本空间对应的高概率样本空间和低概率样本空间分别用 Tsallis熵计算熵值得到高概率熵值和低概率熵值;

判断所述的三个高概率熵值、三个低概率熵值是否异常,

所述的源IP样本空间对应的高概率熵值大于高概率熵阈值,则所述的高概 率熵值正常;

所述的源IP样本空间对应的低概率熵值小于低概率熵阈值,则所述的低概 率熵值正常;

所述的目的IP样本空间对应的高概率熵值大于高概率熵阈值,则所述的高 概率熵值正常;

所述的目的IP样本空间对应的低概率熵值小于低概率熵阈值,则所述的低 概率熵值正常;

所述的源端口样本空间对应的高概率熵值大于高概率熵阈值,则所述的高 概率熵值正常;

所述的源端口样本空间对应的低概率熵值小于低概率熵阈值,则所述的低 概率熵值正常;

判断所述的时间片是否异常,所述的时间片内全部高、低概率样本空间熵 值均正常,则所述的时间片为网络正常时间片。

实施例7

本实施例基于可调节分段熵的网络流量异常检测方法,所述方法包括:

获取流量数据,将所述流量数据划分为均匀的时间片,在所述的时间片内 选取源IP元素集合、目的IP元素集合、源端口元素集合、目的端口元素集合 分别组成四个参考样本空间,也即源IP样本空间、目的IP样本空间、源端口 样本空间、目的端口样本空间;

对所述的源IP样本空间内的元素按照概率阈值分为高概率集合和低概率集 合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概率 集合组成低概率样本空间;

对所述的目的IP样本空间内的元素按照概率阈值分为高概率集合和低概率 集合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概 率集合组成低概率样本空间;

对所述的源端口样本空间内的元素按照概率阈值分为高概率集合和低概率 集合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概 率集合组成低概率样本空间;

对所述的目的端口样本空间内的元素按照概率阈值分为高概率集合和低概 率集合,在所述高概率集合和虚拟不重复元素集合组成概率样本空间,所述低 概率集合组成低概率样本空间;

对源IP样本空间对应的高概率样本空间和低概率样本空间分别用Tsallis 熵计算熵值得到高概率熵值和低概率熵值;

对目的IP样本空间对应的高概率样本空间和低概率样本空间分别用 Tsallis熵计算熵值得到高概率熵值和低概率熵值;

对源端口样本空间对应的高概率样本空间和低概率样本空间分别用 Tsallis熵计算熵值得到高概率熵值和低概率熵值;

对目的端口样本空间对应的高概率样本空间和低概率样本空间分别用 Tsallis熵计算熵值得到高概率熵值和低概率熵值;

判断所述的四个高概率熵值、四个低概率熵值是否异常,

所述的源IP样本空间对应的高概率熵值小于高概率熵阈值,则所述的高概 率熵值异常;

所述的源IP样本空间对应的低概率熵值小于低概率熵阈值,则所述的低概 率熵值正常;

所述的目的IP样本空间对应的高概率熵值大于高概率熵阈值,则所述的高 概率熵值正常;

所述的目的IP样本空间对应的低概率熵值小于低概率熵阈值,则所述的低 概率熵值正常;

所述的源端口样本空间对应的高概率熵值大于高概率熵阈值,则所述的高 概率熵值正常;

所述的源端口样本空间对应的低概率熵值小于低概率熵阈值,则所述的低 概率熵值正常;

所述的目的端口样本空间对应的高概率熵值大于高概率熵阈值,则所述的 高概率熵值正常;

所述的目的端口样本空间对应的低概率熵值小于低概率熵阈值,则所述的 低概率熵值正常;

判断所述的时间片是否异常,所述的时间片内目的IP样本空间对应的低概 率熵值异常,则所述的时间片为网络异常时间片。

在上述实施例7的基础上的扩展,

基于APTE的网络流量异常检测具体实施方法如下:

步骤1:选取样本空间:选取流量数据,将流量数据划分为均匀时间片并提 取时间片内每条流对应的源IP、目的IP、源端口和目的端口,形成源IP样本 空间、目的IP样本空间、源端口样本空间和目的端口样本空间;

步骤2:计算APTE:将上述4个样本空间表示成上文所描述的 “A={a1,a2,...,ai,...,aNA},任意元素ai∈A且的形式,,然后对每个样 本空间按照APTE公式计算熵值,得到高概率熵S-H和低概率熵S-L

步骤3:APTE熵异常判定:若S-H小于预先设定的阈值T1,则判定该熵值为 异常,标记为“-”,若S-L大于预先设定的阈值T2,则判定该熵值为异常,标记 为“+”;

步骤4:组成APTE熵值表:将每个时间片对应的8个APTE熵组合成APTE 熵值表,进而可以形成30个主要的熵值异常表现,如表1网络流量异常熵值对 照表所示;

步骤5:流量异常判定:判定符合表1中特征的时间片为网络流量异常时间 片。也即该时间片内至少有一个高概率熵值S-H和低概率熵值S-L异常,则该时间 片异常。

表1

实施例8

本实施例实现可调节分段熵的方法,所述方法包括:

对样本空间内的元素按照概率阈值分为高概率集合和低概率集合,在所述 高概率集合和虚拟不重复元素集合组成概率样本空间,所述低概率集合组成低 概率样本空间;

对所述的高概率样本空间用Tsallis熵计算得到高概率熵值,对所述的低 概率样本空间用Tsallis熵计算得到低概率熵值;

其中,分段熵通过所述的概率阈值和虚拟不重复元素的数目实现可调节。

上述各实施例中,判断参考样本空间对应的高概率熵值和低概率熵值是否 异常的方法为:

若所述的高概率熵值小于高概率熵阈值,则高概率熵值异常,否则,高概 率熵值正常;

若所述的低概率熵值大于低概率熵阈值,则低概率熵值异常,否则,低概 率熵值正常。

上述各实施例中,在所述时间片内选取的参考样本空间具体为:源IP组成 的源IP样本空间、目的IP组成的目的IP样本空间、源端口组成的源端口样本 空间和/或目的端口组成的目的端口样本空间。

上述各实施例中,所述的概率阈值、虚拟不重复元素的数目、高概率熵阈 值、低概率熵阈值均为用户设定值,且每一个参考样本空间均有各自单独设定 的概率阈值、虚拟不重复元素的数目、高概率熵阈值、低概率熵阈值,这些值 的取值根据具体情况具体决定。

以上,仅为本发明的较佳实施例,但本发明的保护范围并不局限于此,任 何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化 或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以 权利要求所界定的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号