首页> 中国专利> 基于新型特征选择方法的网络浏览与视频分类方法

基于新型特征选择方法的网络浏览与视频分类方法

摘要

本发明公开了基于新型特征选择方法的网络浏览与视频分类方法,该方法的特征选择是通过计算类别内部以及类别之间的变异系数判断特征的重要程度。该方法相对于现有方法具有更低的计算复杂度,能有效地减少特征选择过程的时间和空间复杂度。同时,将本发明方法运用于Skype语音、在线视频观看(即非直播)、在线视频直播、HTTP下载、网页浏览(即网页内容为文字和图片)、网页浏览(即含视频)六种业务分类。实验结果表明,本发明方法可以比现有方法获得更好的分类性能,证明了本发明方法的有效性以及合理性。另外,本发明考虑网页浏览内容因素对于QoS的影响,首次对网页浏览进行了细粒度的分类,能为用户提供更好的QoS保障。

著录项

  • 公开/公告号CN105787512A

    专利类型发明专利

  • 公开/公告日2016-07-20

    原文格式PDF

  • 申请/专利权人 南京邮电大学;

    申请/专利号CN201610113179.0

  • 发明设计人 董育宁;王凯;

    申请日2016-02-29

  • 分类号G06K9/62(20060101);

  • 代理机构32207 南京知识律师事务所;

  • 代理人汪旭东

  • 地址 210003 江苏省南京市鼓楼区新模范马路66号

  • 入库时间 2023-06-19 00:08:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-02

    授权

    授权

  • 2016-08-17

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20160229

    实质审查的生效

  • 2016-07-20

    公开

    公开

说明书

技术领域

本发明涉及模式识别与分类技术领域,特别涉及一种基于新型特征选择方法的网络浏览与视频分类方法。

背景技术

网络业务流的准确识别在网络管理、云计算和大数据中心架构、QoS保障等方面扮演着不可或缺的角色。随着基于HTTP的网络业务(如网页浏览、网络音频、视频等)的不断增长,网络业务流识别与分类面临这巨大的挑战。基于HTTP协议的网页不再是简单的静态文本,而是包含着大量的图片、视频的信息载体,以及承载着各种各样应用的网络平台。随着云计算的兴起,基于HTTP协议的浏览器也为任何设备访问云端数据提供了一种快捷的手段。丰富的网络应用、方便的访问方式极大地提高了用户体验质量,但也给网络流识别与分类带来了巨大的挑战。

传统的分类方法主要有基于端口的方法和基于有效负载的方法。基于端口的方法主要是根据互联网数字分配机构(IANA)建议的端口映射来区分不同的网络应用。但是由于动态端口号和基于HTTP隧道技术的广泛使用,导致基于端口号的分类方法变得不再可靠,识别率降低和分类的准确率不高。为了克服基于端口号的方法的缺点,研究人员提出了基于有效负载的方法,又称为深度包检测(DeepPacketInspection,DPI)。基于载荷内容特征匹配的分类方法通过检测包的载荷,与已知协议中特定的签名进行比较,从而实现业务流的分类。但是该方法容易侵犯用户隐私,并且随着加密和新型应用的出现,深度包检测方法的有效性逐渐下降。研究人员发现,使用业务流的统计特征进行业务流识别与分类,既可以避免传统方法的缺陷,又具有较高的稳定性和准确率。

随着机器学习算法应用到业务流识别领域,基于统计特征的机器学习分类被广泛采用。许多研究表明,合理的行为特征是实现高准确率的关键所在。因此,如何提高分类器的效率,降低计算开销和时延,合理地减少特征数量是非常有必要的,简单、易获取的特征对于提高分类器的性能也起着重要的作用。而本发明能够很好地解决上面的问题、

发明内容

本发明目的在于针对网络业务流的统计特征选择以及网络视频和网页浏览业务进行识别分类的问题,提出了一种基于新型特征选择方法的网络浏览与视频分类方法,该方法针对Skype语音、在线视频观看(即非直播)、在线视频直播、HTTP下载、网页浏览(即网页内容为文字和图片)、网页浏览(含视频)六种业务进行分析研究,提出了一种基于变异系数的新型特征选择方法。通过对比不同的特征选取方法所得到的特征的分类效果,结果表明该方法可以比现有方法获得更高的总体正确率。同时,本发明从QoS角度首次对网页浏览使用了细粒度划分。对于采用HTTP协议的网络业务的分类,大部分文献都将网页浏览视为一个类别。但是随着网络应用的发展,网页内容变得更加复杂,例如包含有视频的网页浏览,单纯地将网络浏览作为一个业务类,变得不再合适。所以对网页浏览进行细粒度的分析是可行的,也是必要的。实验结果证明对网页浏览进行一定程度上的细粒度分类是合理的。。

本发明解决其技术问题所采取的技术方案是:一种基于变异系数的新型特征选择方法,该方法能选择出简单、有效的QoS特征子集,并利用K近邻分类器对网络浏览和视频进行有效的分类。本发明首次对网页浏览进行了细粒度划分,为用户提供更好的QoS保障。

方法流程:

步骤1:在互联网环境中使用网络数据包获取工具获得实验数据,在数据量过大的情况下可以对数据包采样,然后对数据包进行过滤,最后计算这些网络业务流的统计特征,具体步骤为:

i.通过网络数据包分析工具wireshark进行网页浏览和网络视频业务流的数据获取,然后对获取的数据进行格式处理,转换成标准的五元组格式,即数据包到达时间、源IP地址、目的IP地址、协议、数据分组大小;

ii.数据包采样不是一个必不可少的过程。但是由于网络中获取的数据量非常大,如果直接对如此庞大的数据进行特征计算,势必会造成巨大的计算资源耗费。此时可以对数据包进行采样处理以降低分类器的处理压力;

iii.数据包过滤是指对滤除不感兴趣并且不会对分类结果产生影响的数据包。例如大部分网络流量分类指对TCP和UDP数据包感兴趣,那么该系统就可以将其他类型的数据包过滤;

iv.利用gawk和perl等文本处理工具对标准五元组网络流数据进行处理获得网络业务流的统计特征,比如下/上行包大小的信息熵、包到达时间间隔的最大/最小值/均值/方差、数据包大小的三阶中心矩、下行字节速率等统计特征。

步骤2:对业务流的统计特征进行分析,并使用本发明提出的基于变异系数的新型特征选择方法进行特征筛选,具体步骤为:

i.对所有业务流的的统计特征值进行离散化操作,以降低在特征选择过程中的计算复杂度;

ii.计算每类业务的每个特征的变异系数IN_CVij,表示第i类业务的第j个特征的变异系数;其中,变异系数描述了一组数据相对于均值的标准偏差,是反映数据离散程度的统计量。一般情况下,变异系数可以反映数据的变化程度。变异系数越大,说明该组数据分布越分散;反之,则分布越集中。它能对数据集中不同类型的数据进行比较,因为它与数据的量纲无关;

iii.计算每类业务每个特征的均值Mij,然后利用Mij计算所有业务之间的变异系数OUT_CVj,表示所有业务之间的第j个特征的变异系数;

iv.定义重要程度系数,并计算重要程度系数其中CIij代表第i类业务的第j个特征的重要程度系数,OUT_CVj代表业务之间的变异系数,IN_CVij代表业务内部的变异系数;

v.对于固定的每个特征j,计算所有业务的重要程度系数的均值CIj=MEAN(CIij),其中MEAN代表求均值,CIj代表第j个特征的重要程度系数,CIij代表第i类业务的第j个特征的重要程度系数;

vi.对CIj进行排序,得到特征对于该数据集的重要程度顺序。

vii.采用分装器的方式,统计特征按重要程度顺序输入K近邻分类器,以分类器的分类结果作为最优特征子集的评价标准,最后获得的具有区分度的QoS统计特征有四个:

1)平均下行字节速率

属于HTTP下载的http_dload的平均下行字节速率最高,对于cbox_sopcast和youku_iqiyi来说,二者都属于网络在线视频,二者的平均下行字节速率仅次于http_dload的平均下行字节速率。对于sina_NG和csdn_times来说,二者属于都网页浏览,对网络资源占用率再次之。最后,Skype属于网络语音会话,对于网络资源的带宽需求最小。

2)数据包大小均值

数据包大小均值是用来反映业务数据包的整体情况。http_dload和youku_iqiyi的平均数据包大小最大,由于http_dload是HTTP下载业务,所以在带宽充足的情况下它会尽可能地利用带宽。而youku_iqiyi属于非直播的在线视频观看,youku_iqiyi的平均数据包大小相对于http_dload略小一点。虽然sina_NG和csdn_times都属于网页浏览业务,但是前者的平均数据包大小会大于后者。cbox_sopcast属于视频直播,由于视频直播要满足实时性的要求,所以整体上的平均数据包大小基本在500至1000字节之间。而Skype的平均数据包大小最小。

3)下上行分组数之比

youku_iqiyi的下上行分组数之比大约为2,而cbox_sopcast的下上行分组数之比小于等于1,由于cbox_sopcast属于直播类型的视频业务,所以客户端和服务器的数据交互明显会多于属于视频观看(非直播)业务的youku_iqiyi。sina_NG的下上行分组数之比大于1,而csdn_times的下上行分组数之比大约为1。Skype的下上行分组数之比基本维持在1左右,因为Skype属于交互式音频,所以上下行分组数基本是相等的。

4)数据包间隔时间均值

数据包到达间隔时间均值也是网络流的基本特征属性。http_dload和cbox_sopcast的平均包到达间隔时间最小。而对属于视频直播类型的cbox_sopcast来说,由于视频直播必须满足实时性的要求,所以具有较小数据包到达间隔时间。而对于Skype语音来说,不同时间段获取的数据流的平均包到达时间间隔基本一致,都保持在0.02秒左右。虽然youku_iqiyi和sina_NG属于不同类型的业务,但是二者在数据包平均间隔时间上比较相似,因为二者业务中都含有视频。csdn_times属于只含有图片和文字的网页浏览,不同时间段获取的数据在平均数据包间隔时间波动比较大。

步骤3:以特征选择方法获得的统计特征作为表示业务流的特征向量,然后利用K近邻分类器对未知业务流进行分类,得到分类结果,具体步骤为:

i.利用本发明提出的特征选择方法对已知流的QoS统计特征进行特征提取,然后用带标签的特征向量表示已知流,并使用特征向量对K近邻分类器进行训练;

ii.同样,获取未知流的统计特征向量,并作为分类器的输入,对未知流进行分类识别。

有益效果:

1、本发明提出的基于变异系数的新型特征选择方法相较于其他常用的特征选取方法具有更低的计算复杂度,能过降低特征选择过程中的时间以及空间开销,提高特征选择的效率。

2、本发明同时从类别内部的变异系数和类之间的变异系数两个角度综合考虑,相较于传统的特征选择方法考虑的因素更全面,所以能够提取到合理、高效、稳定的特征组合,提高分类器的分类性能。

附图说明

图1是本发明基于新型特征选择方法的网络浏览与视频的分类流程图。

图2是本发明提出的特征选择方法所选取特征的二维分布图。

其中,图2(a)表示数据包间隔时间均值和数据包大小均值的二维分布,图2(b)表示数据包大小均值和下行字节速率的二维分布图,图2(c)表示数据包间隔时间均值和下上行分组数之比的二维分布。

图3是本发明与现有技术的性能比较图。

具体实施方式

以下结合说明书附图对本发明创造作进一步的详细说明。

如图1所示,本发明提出的一种基于新型特征选择方法的网络浏览与视频的分类方法,该方法包括网络业务流获取与统计特征计算、基于变异系数的QoS特征选择与分析、基于K近邻分类器的网络业务流分类等,包括如下步骤:

步骤1,网络业务流获取与统计特征计算:通过网络数据包分析工具wireshark获取网页浏览和网络视频业务流的数据,主要包括Skype语音、在线视频观看(即非直播)、在线视频直播、HTTP下载、网页浏览(即网页内容为文字和图片)、网页浏览(含视频)六种业务。然后将获取的数据转换成标准的五元组格式,即数据包到达时间、源IP地址、目的IP地址、协议、数据分组大小。最后通过网络数据分析平台计算六种网络业务的QoS统计特征。

步骤2,基于变异系数的QoS特征选择与分析:首先计算每类业务内部每个特征的变异系数,然后计算每类业务之间每个特征的变异系数,并将后者与前者的比值定义为重要程度系数,作为判断特征重要性的依据。最后,采用分装器的方式,统计特征按重要程度顺序输入K近邻分类器,以分类器的分类结果作为最优特征子集的评价标准,最后获得的具有区分度的QoS统计特征有四个:数据包大小均值、数据包达到时间间隔均值、下行字节速率、下上行字节数之比。

首先从宏观上分析,结合图2(a)和图2(b)我们可以看出,HTTP下载对于网络资源占用率最高。因为http_dload的数据包平均间隔时间最小,但平均数据包大小却是最大,所以HTTP下载会尽可能多地利用网络带宽,网络时延最小,因此该类业务在这六类业务中对网络可用资源占用率最高。对于cbox_sopcast和youku_iqiyi来说,二者都属于网络在线视频,从图2(b)可以看到,二者的平均下行字节速率仅次于http_dload的平均下行字节速率,而且对于网络时延的要求也比较小,所以对于网络资源的占用率次之。对于sina_NG和csdn_times来说,二者属于都网页浏览,对网络资源占用率再次之,对属于网络浏览业务的二者来说,网络资源占用率低于在线视频也是合乎常理的。最后,Skype属于网络语音会话,对于网络资源的带宽需求最小。

进一步细分,对于cbox_sopcast和youku_iqiyi来说,cbox_sopcast是属于在线视频直播,youku_iqiyi是属于在线视频观看(非直播)。从图2(a)可以看到,youku_iqiyi的包间隔时间均值要大于cbox_sopcast的包间隔时间均值。从图2(b)可以看到,youku_iqiyi的平均包大小基本保持在1400字节左右,而cbox_sopcast的平均包大小在400-1100字节左右。从图2(c)可以看出,youku_iqiyi的下上行分组数之比大约为2,而cbox_sopcast的下上行分组数之比小于等于1。导致这些差异的原因是:1)由于两者业务的应用层协议不一样,youku和iqiyi的应用层采用的是HTTP协议,而cbox_sopcast中CBox和Sopcast的应用层采用的是应用内部私有协议;2)由于youku和iqiyi的传输层采用的是TCP协议,而CBox和Sopcast的传输层采用的是UDP协议。TCP协议是面向连接的协议,在会话发起阶段有“三次握手”机制,在数据传输过程中有丢失重传、拥塞控制、发送确认等机制;而UDP是面向无连接的协议,不存在发送确认等循环过程,所以就会导致youku_iqiyi的包间隔时间均值明显要大于cbox_sopcast的包间隔时间均值;3)由于cbox_sopcast属于直播类型的视频业务,所以客户端和服务器的数据交互明显会多于属于视频观看(非直播)业务的youku_iqiyi,甚至上行请求分组数可能超过下行分组数。

对于sina_NG和csdn_times来说,前者属于含有文字、图片和视频的网页浏览,而后者属于只含有文字、图片的网页浏览。从图2(a)可以看出,sina_NG的平均数据包大小大于csdn_times的平均包大小,且sina_NG的包间隔时间均值小于csdn_times的包间隔时间均值;从图2(b)可以看到,sina_NG的平均下行字节速率高于csdn_times的平均下行字节速率。从图2(c)可以看到,sina_NG的下上行分组数之比大于1,而csdn_times的下上行分组数之比大约为1。这可能是由于sina_NG业务中包含的视频内容,且视频类型的数据包明显要大于其他业务类型的数据包,所以会导致sina_NG的平均数据包大小大于csdn_times的平均数据包大小;另外,视频的数据量远大于文字或图片的数据量,所以sina_NG的下上行分组数之比大于csdn_times的下上行分组数之比。对于Skype来说,从图2(a)可以看到,其平均数据包大小基本保持在150字节到180字节之间,平均间隔时间基本在0.02s左右,所以Skype的网络带宽需求并不高。从图2(b)也可以看出,Skype的网络带宽需求是这六类业务中比较低的。从图2(c)可以看到,Skype的下上行分组数之比基本维持在1左右,因为Skype属于交互式音频,所以上下行分组数基本是相等的。

从上述分析中可以看出,基于变异系数的特征选择方法选取的特征可以较明显地将这六类业务区分,证明了该方法的有效性。

步骤3,基于K近邻分类器的网络业务流分类:利用本发明提出的特征选择方法对已知流的QoS统计特征进行特征提取,然后用带标签的特征向量表示已知流,并使用特征性向量对K近邻分类器进行训练;同样,获取未知流的统计特征向量,并作为分类器的输入,对未知流进行分类识别。

本发明的实验结果:

为了进一步验证本发明提出的基于变异系数的特征选择方法的有效性,将对六种网络业务流的统计特征利用本发明方法进行筛选,然后使用获得的特征子集利用K近邻分类器进行分类识别。利用综合性能指标F测度来衡量不同特征选择方法的性能。图3中表示了四种特征选择方法(本发明方法,基于相关性,基于信息增益、基于卡方检验)的F测度。sina_NG和youku_iqiyi在某些特征上(如包时间间隔均值、数据包大小均值和下行字节速率等)会发生部分“混叠”,所以对于sina_NG和youku_iqiyi,本发明方法的F测度略低于其他方法。但是,基于本发明的F测度在整体上是高于基于其他三种方法的,这是因为本发明方法获取到了更加有效、合理的QoS统计特征。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号