首页> 中国专利> 基于后验特征的流识别方法

基于后验特征的流识别方法

摘要

本发明涉及一种基于后验特征的流识别方法,含有下列步骤:1:设置后验策略;2:设置派生策略及老化时间T

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-09

    授权

    授权

  • 2014-08-20

    实质审查的生效 IPC(主分类):H04L12/26 申请日:20140423

    实质审查的生效

  • 2014-07-23

    公开

    公开

说明书

(一)、技术领域:本发明涉及一种流识别方法,特别是涉及一种基于后验 特征的流识别方法。

(二)、背景技术:利用业务流识别与分类技术实现对不同业务流的分类处 理在现有网络设备中有着非常普遍的应用。当前网络设备中,实时的流识别与 分类技术的实现均基于特定的先验策略进行,即,策略匹配发生后,提取流量 特征,再对随后的流量进行处理。

这种先验策略的处理逻辑,在需要提取完整的流数据时,对于策略匹配发 生前已经到达的流内分组无法进行有效的识别与分类。从而无法获取完整的流 数据或无法对完整的流数据采取动作。

(三)、发明内容:

本发明要解决的技术问题是:提供一种基于后验特征的流识别方法,该方法 可实现对数据流的完整报文分组进行回溯处理,且实现简单、可靠性高。

本发明的技术方案:

一种基于后验特征的流识别方法,含有下列步骤:

步骤1:设置后验策略;

步骤2:设置派生策略及老化时间Tr,老化时间Tr对应派生策略的有效作用 时间;

步骤3:构建派生流表;

步骤4:构建回溯数据池;

步骤5:对进入识别系统的报文分组进行后验策略的匹配,如果有一个报文 分组P匹配命中,则表明此时的数据流符合后验策略条件,标记并输出该数据 流的所有报文分组;

步骤6:提取出命中后验策略的报文分组所含的流特征信息,对流特征信息 进行hash运算,将hash值设置为检索关键字并建立派生流表的表项,在表项中存 储完整的流特征信息和匹配发生时的时间戳Tm,将表项写入派生流表;

步骤7:将进入识别系统的报文分组写入回溯数据池,在回溯数据池的存储 器内进行时长为Td的延时处理,然后读出延时后的报文分组Pd,提取延时后的报 文分组Pd的流特征信息,根据该流特征信息的hash值检索派生流表,并记录当前 时间为Tn,如果派生流表中流特征信息与延时后的报文分组的流特征信息匹配, 则比较时间戳Tm,若满足Tn-Tm<Tr,则标记当前的报文分组为命中报文分组。

后验策略有如下特征:数据流持续周期内的一个时刻,一个报文分组与该 后验策略的特征匹配时,匹配成功后的处理动作要求是对该数据流之前到达的 分组进行回溯;

派生策略是由命中后验策略的报文分组提取并派生出来的,派生策略对应 一条唯一的数据流以及数据流内任意报文分组;

派生流表中含有N个派生策略,N为大于等于1的自然数,派生流表的索引 项为派生流特征信息的hash值,派生流表中含有派生流的完整特征信息和派生策 略的生成时间;

回溯数据池采用双存储器乒乓方式分别存储和读取报文分组。

步骤5中的所有报文分组含有匹配命中前进入识别系统的报文分组。

步骤6中的流特征信息含有五元组。

步骤7中的时长Td根据识别系统的设计能力、数据流的平均时长、数据输 入速率大小这些指标动态确定,或者指定为固定值,该固定值小于识别系统的 设计能力能承受的时长。延时处理是实现后验的关键手段,保证了在报文分组 到达前先行生成派生策略。

为解决hash冲突问题,可设置hash桶深度大于2,当有冲突产生时,通过 比较不同表项的时间戳Tm来确定对较早的表项进行覆盖。

一种基于后验特征的流识别系统,该系统基于FPGA/CAM/SRAM/DDR-II 实现,其中CAM为内容可寻址存储器的简称。该系统包括:

预筛选引擎:该模块采用基于CAM的查表逻辑实现,用于根据已知条件对 特定流进行预筛选,降低进入后验策略流识别系统的数据流量,从而为系统提 供更长的特定时长Td

后验策略匹配引擎:该模块采用基于CAM的查表逻辑实现,用于进行后验 策略的匹配;

派生流表维护模块:该模块用于后验策略匹配后生成的派生流表项的维护, 并将流表项写入SRAM进行存储;

回溯数据池模块:该模块基于双DDR-II存储/读取切换的方式实现对报文分 组的延时,为系统提供回溯能力;

派生流表搜索引擎:该模块用于对延时后的报文分组进行流表项匹配,并 根据匹配结果队报文进行标记。

本发明的有益效果:

1、本发明可以在数据流的任意报文分组中进行后验策略匹配,后验策略 匹配发生后提取出流的特征信息,并将提取出的特征作用于之前一段时间内到 达的流内报文分组,实现对数据流的完整报文分组进行回溯处理,该回溯处理 可以利用后验策略对之前到达的报文进行识别分类,较大程度上确保命中流的 完整程度。

2、本发明实现简单,不需要大规模的外部存储设备,所有功能可在单电 路板上实现,因此,可靠性高。

3、本发明灵活性好,通过动态调整预筛选策略以及策略老化时间等参数, 可以动态调整对流回溯时间的支持能力。

(四)、附图说明:

图1为基于后验特征的流识别系统的结构示意图;

图2为基于后验特征的流识别系统中后验策略匹配的关键字提取示意图;

图3为基于后验特征的流识别系统中后验策略关键字的表项内容示意图;

图4为基于后验特征的流识别系统中后验策略匹配引擎生成的流表内容示 意图;

图5为基于后验特征的流识别系统中采用双存储器乒乓延时结构的回溯数 据池示意图。

(五)、具体实施方式:

基于后验特征的流识别方法含有下列步骤:

步骤1:设置后验策略;

步骤2:设置派生策略及老化时间Tr,老化时间Tr对应派生策略的有效作用 时间;

步骤3:构建派生流表;

步骤4:构建回溯数据池;

步骤5:对进入识别系统的报文分组进行后验策略的匹配,如果有一个报文 分组P匹配命中,则表明此时的数据流符合后验策略条件,标记并输出该数据 流的所有报文分组;

步骤6:提取出命中后验策略的报文分组所含的流特征信息,对流特征信息 进行hash运算,将hash值设置为检索关键字并建立派生流表的表项,在表项中存 储完整的流特征信息和匹配发生时的时间戳Tm,将表项写入派生流表;

步骤7:将进入识别系统的报文分组写入回溯数据池,在回溯数据池的存储 器内进行时长为Td的延时处理,然后读出延时后的报文分组Pd,提取延时后的报 文分组Pd的流特征信息,根据该流特征信息的hash值检索派生流表,并记录当前 时间为Tn,如果派生流表中流特征信息与延时后的报文分组的流特征信息匹配, 则比较时间戳Tm,若满足Tn-Tm<Tr,则标记当前的报文分组为命中报文分组。

后验策略有如下特征:数据流持续周期内的一个时刻,一个报文分组与该 后验策略的特征匹配时,匹配成功后的处理动作要求是对该数据流之前到达的 分组进行回溯;

派生策略是由命中后验策略的报文分组提取并派生出来的,派生策略对应 一条唯一的数据流以及数据流内任意报文分组;

派生流表中含有N个派生策略,N为大于等于1的自然数,派生流表的索引 项为派生流特征信息的hash值,派生流表中含有派生流的完整特征信息和派生策 略的生成时间;

回溯数据池采用双存储器乒乓方式分别存储和读取报文分组。

步骤5中的所有报文分组含有匹配命中前进入识别系统的报文分组。

步骤6中的流特征信息含有五元组。

步骤7中的时长Td根据识别系统的设计能力、数据流的平均时长、数据输 入速率大小这些指标动态确定,或者指定为固定值,该固定值小于识别系统的 设计能力能承受的时长。延时处理是实现后验的关键手段,保证了在报文分组 到达前先行生成派生策略。

为解决hash冲突问题,可设置hash桶深度大于2,当有冲突产生时,通过 比较不同表项的时间戳Tm来确定对较早的表项进行覆盖。

一种基于后验特征的流识别系统,该系统基于FPGA/CAM/SRAM/DDR-II 实现,其中CAM为内容可寻址存储器的简称。该系统包括:

预筛选引擎:该模块采用基于CAM的查表逻辑实现,用于根据已知条件对 特定流进行预筛选,降低进入后验策略流识别系统的数据流量,从而为系统提 供更长的特定时长Td

后验策略匹配引擎:该模块采用基于CAM的查表逻辑实现,用于进行后验 策略的匹配;

派生流表维护模块:该模块用于后验策略匹配后生成的派生流表项的维护, 并将流表项写入SRAM进行存储;

回溯数据池模块:该模块基于双DDR-II存储/读取切换的方式实现对报文分 组的延时,为系统提供回溯能力;

派生流表搜索引擎:该模块用于对延时后的报文分组进行流表项匹配,并 根据匹配结果队报文进行标记。

为了更好地理解本发明,下面结合本发明所提出的基于后验特征的流识别 系统,对本发明的技术方案作具体说明。

如图1所示,进入系统的报文首先经过预筛选引擎进行过滤。预筛选的目 的是减少进入系统的数据流量大小,从而利用有限的存储器提供更长的回溯时 间。预筛选可以通过存放在CAM中的流特征关键字进行,也可以通过直接指定 原始数据中某个接口/支路或者符合某种特征的数据来进行。

预筛选模块送出的数据分别送入报文延时模块进行延时,送入后验特征匹 配引擎进行匹配。

后验特征匹配引擎完成数据流的后验策略匹配。

后验策略通常是数据流正文中的敏感字,多以字符串的形式出现。本系统 采用CAM芯片来实现报文分组中敏感字的查找。如图2所示,设支持的敏感字 宽度为CL字节,表项宽度为PL字节,则从数据报文的正文开始,间隔PL-CL+ 1字节进行查表关键字提取并送至CAM芯片进行查找。针对一个敏感字,根据 其在查表关键字中可能出现的偏移位置,在CAM芯片中应该派生出PL-CL条 带掩码表项。如图3所示。

后验特征匹配引擎将当前正在查表处理的数据分组的流特征信息进行 HASH。当检测到报文中含有后验策略的敏感字后,CAM芯片返回命中指示以 及命中的策略ID。后验特征匹配引擎根据命中指示,以HASH值为索引读取流 表,流表的结构如图4所示。流表中存有完整的流特征信息,以及上次匹配命 中时的时间戳。设HASH桶深度为2的话,从流表的两个表项中寻找到一个空 表项并将本数据分组的流特征信息和命中时间写入表项;如果没有空表项,则 选取两个表项中最先生成的表项进行覆盖。随后进行流表更新。

报文延时模块完成对数据报文分组进行延时的功能。本系统采用双存储器 乒乓方式分别存储/读取报文。如图5所示,设数据报文注入至单存储器为满的 时间为t1,系统可接受的最大报文输出延时为t2,则当计时到Min(t1,t2)时,对存 储器进行读写切换。假设数据满速注入时,单存储器最多能存储T0时间,并且 t2>T0,则显然,Min(t1,t2)>T0。即,系统最少可以提供T0时间的延时。事实上, 由于前端预筛选引擎的作用,系统可以提供的延时时长远大于T0。系统可以提 供的延时时长对应于对数据分组的回溯支持能力。

流表检索引擎负责基于流表对延时后的报文分组进行基于流的匹配。将延 时后的报文分组按照同前所述一致的HASH算法进行计算,随后在根据HASH 之读出流表,并与表项中存储的流特征信息进行精确比对。如果一致,取出对 应表项的生成时间Tm,以当前时间为Tn,派生策略老化时间为Tr,则如果满足 Tn–Tm<Tr,即判定该数据分组命中流表,并进行相应标记后输出。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号