首页> 中国专利> 一种状态化应用的盲识别方法

一种状态化应用的盲识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明揭示一种状态化应用的盲识别方法，用于在没有先验知识的情况下对当前和未来的各种状态化应用的描述、分类和识别，以及发现新的应用模式和新型网络攻击，其特征在于提供一种通用的隐马尔可夫模型建模方法和自动识别方法对已知和未知的各种状态化应用及其隐含的状态化协议进行分析、建模、识别和控制。

著录项

公开/公告号CN101022403A

专利类型发明专利
公开/公告日2007-08-22

原文格式PDF
申请/专利权人中山大学;
展开▼

申请/专利号CN200610037598.7
发明设计人余顺争;
展开▼

申请日2006-09-08
分类号
代理机构广州粤高专利代理有限公司;
代理人禹小明
地址 510275 广东省广州市新港西路135号
入库时间 2023-12-17 18:59:03

法律信息

法律状态公告日

法律状态信息

法律状态
2015-10-28

未缴年费专利权终止 IPC(主分类):H04L12/56 授权公告日:20100512 终止日期:20140908 申请日:20060908

专利权的终止
2010-05-12

授权

授权
2007-10-17

实质审查的生效

实质审查的生效
2007-08-22

公开

公开

说明书

技术领域

本发明属于网络技术领域，特别是涉及对网络中的应用层数据流的分类控制技术。

背景技术

传统的对网络中的数据流进行控制的方式，都是基于在网络层和传输层上的流的分类。最近已经发展到在应用层上的基于应用、内容和用户的分类。基于这种应用层的分类技术，可以对关键应用、关键内容和关键用户提供带宽保证，对抢占带宽型的应用和用户加以带宽限制，对非关键性应用进行动态带宽分配，以改善网络服务质量，并防范网络攻击。另一个重要发展是，在对协议的深层次分析的基础上，进行有状态的跟踪，即通过重新构建应用层流的状态，来跟踪分析各种复杂的协议，由此可以识别与传统的基于静态服务器端口的方式不同的动态端口应用(例如Smart Tunnel)、与传统的客户机-服务器方式不同的P2P应用、采用隧道方式的VPN/MPLS/L2TP应用、以及包含了IP话音(VoIP)和多媒体流协议等复杂关系的应用等。第三个重要发展是，提供专门的编程语言，使得可以对匹配规则进行定义，以适用于各种类型的应用以及将这种应用层的分类和控制技术扩展到新的协议和新的领域。

关键的技术是规则的定义和规则匹配技术。这些规则的定义主要依赖于厂家的预设和后续升级，适用于对标准通用的应用层协议的跟踪与识别。特殊类型的应用，则完全依赖于网络管理员对应用的理解和设置。由于主干网上的应用模式很多，且经常变化，许多非标准通用的应用模式无法事先获知，也不容易借助已有的规则来发现它们并提取其特征。因而这种工厂或人工预设的(也即静态的)规则定义和匹配方式，不适用于主干网上未知应用模式的发现、识别和分类。其次，现有的状态化跟踪技术，是建立在对现有600多种应用层协议的深刻理解的基础之上的，它必须能够预见协议过程中各种可能的情况，并找到其关键特征来实施状态化跟踪。但由于会话过程中的数据包来回路径可能不同，加上网络上各级缓存的影响(例如Web Proxy可能会响应部分请求)和数据包的丢失等，中间的监控设备可能无法观测到协议的全过程，因而有可能失去对状态的同步跟踪。在这种情况下，要求一个普通的网络管理人员，通过专门的编程语言来实现对某种新应用的状态化跟踪，显然是不现实的或者是高成本的。这种状态化跟踪方法更不适用于在主干网上对未知应用模式的状态化跟踪，因为主干网管理人员相比于企业网的管理人员，对新型非标准的应用更缺乏先验知识。

在现行的基于IPv4的Internet，特别是正在发展中的基于IPv6的下一代Internet上，新协议和新应用层出不穷。要有效地对这些新型业务流进行分析、分类、识别和控制，我们就需要有一个通用的方法来描述各种状态化的协议和应用，包括已知的和未知的，以适用于当前的和未来的各种业务，并可以将它应用于企业网和主干网，降低应用层协议分析的复杂性和设备的成本，减少人工管理的开销。它还要能够用通用的量来对各种协议过程和应用流进行统一的测量，以避免对不同协议过程的不同评估方法。

发明内容

本发明的目的在于提出一种通用的方法来描述各种状态化的协议和应用所产生的应用层的数据流，用于对当前的和未来的各种状态化协议和应用的识别，降低状态化协议和应用分析的复杂性；利用这种通用的识别方法，在没有先验知识的情况下，发现新的应用模式和新型网络攻击。

为了实现发明目的，采用的技术方案为：

构建一种状态化应用的盲识别方法，用于在没有先验知识的情况下对当前和未来的各种状态化应用的描述、分类和识别，以及发现新的应用模式和新型网络攻击，其特征在于采用应用层数据流的聚类分析方法、隐马尔可夫模型建模方法和自动识别方法对所述状态化应用及其隐含的状态化协议进行分析、建模、识别和控制。

所述状态化协议是任何能够用状态转移关系描述的网络协议，所述状态化应用是任何可以用状态转移过程来描述的网络应用。

具体来说，上述各种方法的技术方案如下：

所述应用层数据流的聚类分析方法具体如下：

(1)通过数据包重组应用层数据，并将会话过程中发送和接收这两个方向传输的应用层数据，按照它们出现的时间顺序交叉在一起组成应用层数据流；

(2)利用会话过程中的交互关系、和/或时间间隔、和/或文件结尾标志将应用层数据流分割成段；

(3)采用生物信息学中通用的最佳序列相似性分析方法计算任意两个段所包含的字符序列的相似度；

(4)将一个数据流的段与另一个数据流的段的相似度组成一个m×n矩阵，设m≤n，并把矩阵每行的最大值的平均值作为这两个数据流的相似度；然后，按照这个相似度对数据流进行聚类分析，从而得到一至多个数据流类，每个数据流类代表一个不同的状态化应用类型；

(5)对每个数据流类中的段的集合，按照段的相似度再进行聚类分析，形成一至多个段类；然后按照生物信息学中通用的序列相似性查询技术，对每个段进行频率变换；把每个段类中所有段的频率向量的平均向量作为该段类的参考中心；采用序列相似性查询技术定义段与段类参考中心的距离。

所述应用层数据流的聚类分析方法还包括对新采集到的应用层数据流进行模式识别，具体方法如下：

(A)对于新采集到的应用层数据流，采用上述步骤(2)所述分段方法将其分段；

(B)通过步骤(5)计算新采集的段与任一数据流类TS中每一个段类的参考中心的距离；

(C)将新采集倒的数据流的m个段与数据流类TS的n个段类的参考中心的距离组成一个m×n矩阵，把每行的最小值的平均值，作为该数据流与数据流类TS的距离；把该数据流分类归入到与它的距离最小的数据流类里面；

所述隐马尔可夫模型建模方法，具体如下：

(a)将每个数据流类所包含的所有数据流作为其训练集，记为TS；统计TS中段类的个数M₀、段类m的成员个数m₀、从段类m中的段到段类n中的段的转移频率g_mn、以及它们之间到达的时间间隔τ的分布f_mn(τ)，段w与段类m参考中心的距离d_w的分布f_m(d_w)；

(b)令M是隐马尔可夫模型的状态数，a_mn代表从状态m到n的转移概率，p_mn(τ)代表从状态m到n的转移时间为τ的概率，b_m(w)代表在状态m时观测到段w的概率，π_m代表初始状态概率分布；然后，给所有这些模型参数赋初值：令M＝M₀，a_mn＝g_mn，p_mn(τ)＝f_mn(τ)，b_m(w)＝f_m(d_w)，π_m＝m₀，最后，对a_mn、b_m(w)、p_m(d)、π_m进行归一化处理，使得 $>>>Σ>n>>>a>mn>>=>1>,>>>$

获取专利

客服邮箱：kefu@zhangqiaokeyan.com

客服微信
服务号