首页> 中文学位 >基于服务角色的P2P节点识别方法研究
【6h】

基于服务角色的P2P节点识别方法研究

代理获取

目录

文摘

英文文摘

声明

1 绪 论

2 P2P 节点行为表现与建模方法

3 大流量环境下的数据采样方法

4 P2P 节点服务角色特征识别方法

5 多支持向量机识别方法

6 P2P 应用特征码自动提取方法

7 P2P 识别及特征码自动提取系统原型设计

8 总结与展望

致 谢

参考文献

附录

展开▼

摘要

对等(Peer-to-Peer,P2P)网络在因特网上蓬勃发展,在方便用户的同时也占用了大量的网络带宽。为保证资源利用的公平性,必须对过大的P2P流量进行控制。P2P识别作为P2P流量控制的前提已成为一个重要的、开放的研究问题。目前,基于端口的检测方法不能识别采用动态端口机制的P2P应用。深层数据包检测方法虽已较成熟但既不能识别内容加密的P2P应用,也不适用于大流量环境。而基于行为的检测方法,不是通过端口号或数据包内容,而是通过传输层统计特征识别P2P节点,是当前研究的热点。但是,相关算法存在四个主要问题:一是主要基于P2P节点的客户角色,不能识别那些仅做数据上传的扮演纯服务角色的P2P节点;二是仅能区分P2P与非P2P应用,而不能识别具体应用类型;三是不能满足大流量环境下实时P2P应用识别的要求;四是一些识别方法未考虑国内P2P应用及其网络环境。
   归纳出P2P服务角色的六个特征。P2P网络的本质在于对等与直连,P2P节点既是服务器又是客户端,其服务角色的基本特征为:(1)存在监听端口和大量反向连接,且监听端口大多为高号端口;(2)存在大量重负载、长持续时间的反向连接;(3)活跃节点具有较高的服务率;(4)其对端节点的不同IP(Internet Protocol,因特网协议)地址数与不同端口数大致相等;(5)正向与反向连接共存;(6)存在大量同时上传与下载的反向连接。上述特征通常表现为传输层的连接行为。对服务角色的上述特征进行量化和形式化描述,用概率统计方法预测其理论分布。根据特征随机变量的试验样本,采用似然估计方法计算出相应的分布参数,并通过柯尔莫诺夫—斯米尔诺夫检测选择出一个理想的拟合分布。
   设计出处理连接的流水并行方法。采用连接构建与更新算法,实现P2P高速采样,满足大流量环境下实时处理的需求。提出了一种连接哈希表构建与更新算法,平衡新到的 连接与超时丢弃的连接,使内存中存储的连接数量趋于稳定。将数据处理分为连接构建与连接分析两个阶段,采用并行流水的方式提高了计算效率。充分利用P2P节点在线时间的分布特点,分别从时间、空间两个角度对网络数据进行有选择采样,以削减后续的数据处理量。实验结果表明,上述方法在30秒(速率1Gbps)采样间隔内,能识别出92%左右的P2P节点。但随着采样间隔时间的增大,P2P节点识别的准确率会随之降低,这是由于P2P节点在线时间分布的重尾特性所决定的。
   提出一种基于服务角色特征的P2P节点识别算法—PN-Detector。首先,服务角色节点具有大量客户节点及反向连接,且连接模式与客户角色节点有较大不同。基于以上特征识别出具有服务角色的网络节点。接着,采用时间序列检验算法,分别利用连接持续时间、连接负载、正向与反向连接比、反向连接中的上传下载比及服务率等进行P2P节点识别,并根据识别的准确率为以上各连接属性赋予权值,准确率越高权值越大。进而设计出改进的时间序列检验算法。综合利用赋予权值后的连接属性,可较准确的识别出P2P节点。最后,根据P2P服务端口中正向反向连接共存,其对端节点的不同IP地址数与不同端口数相近等特征识别出了P2P服务端口。实验结果表明,PN-Detector算法能较准确实时地识别出P2P节点及其服务端口,特别对仅做数据上传的P2P节点仍然能准确识别。
   提出一种多支持向量机P2P连接识别算法—Multi-SVM。通过对P2P应用分片机制的分析发现,在其连接的传输中,长数据包与短数据包常常有规律出现,且各分片之间在传输过程中存在较长的时间间隔。Multi-SVM算法分别采用不同的向量来描述数据包长度、连续传输的长数据包数、长数据包时间间隔等连接属性,进而构建了一个识别P2P连接的多支持向量机。同时,Multi-SVM算法采用离线与在线相结合的训练模式,以减小网络环境对检测结果的影响。进一步,不同应用层协议产生的连接具有不同的统计特征集,基于这些应用特征集,提出了P2P连接分类算法—FCP。它采用一种标准化的阈值计算方法来判断P2P连接的具体类型,克服了人工设置阈值的缺点。实验表明,采用上述算法不仅能准确识别出P2P连接,还能对P2P连接根据应用类型进行分类。
   提出一种基于滑动窗口的P2P应用特征码自动提取算法—SWE。它将P2P应用中的每个数据包均看作一个二进制序列,首先用定宽窗口以单字节为滑动步长把每个二进制序列划分为若干子序列,然后计算各子序列在不同数据包的相同偏移位置处出现的频率。改变窗口宽度,重复以上过程,并把出现频率及长度均满足预定条件的子序列作为P2P应用的特征码。实验结果表明SWE算法能够较准确有效地提取P2P应用特征码。
   基于以上方法,还设计出P2P识别及特征码自动提取原型系统,主要包括数据采集及过滤模块,P2P识别模块,特征码自动提取和反馈模块。原型系统已投入试运行,其识别率在90%以上。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号