首页> 中文学位 >基于一类SVM的网络不良信息过滤算法研究
【6h】

基于一类SVM的网络不良信息过滤算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景和意义

1.2论文的主要工作

1.3本文的组织结构

第二章 网络协议分析

2.1现状分析

2.2网络协议基础

2.3 TCP/IP协议的作用和分析

2.4应用层内容复原理论基础

2.5技术局限

2.6本章小结

第三章 网络内容识别与抓取

3.1常见网络协议识别与抓取

3.2私有网络协议分析与抓取

3.3本章小结

第四章 改进的一类SVM算法

4.1 SVM介绍

4.2算法改进思路

4.3算法改进

4.4本章小结

第五章 系统实现

5.1系统架构

5.2系统具体实现

5.3系统训练

5.4本章小结

第六章 实验及分析

6.1特征词选取的比较

6.2不同特征简约算法效果的比较

6.3不良信息过滤效果

6.4本章小结

第七章 总结与展望

7.1本文工作总结

7.2研究展望

参考文献

致谢

攻读硕士学位期间已发表或录用的论文

攻读硕士学位期间参加的课题与项目

展开▼

摘要

互联网的高速发展使得通过网络传输的文件监控和过滤成为一个热门课题。这些文件中可能包含了不良信息。网络流量中的信息包含着各种网络协议,可能被分片,编码。机器无法直接识别其中的需要监控的内容。而对于内容过滤,使用传统的基于字符串匹配的算法显然无法满足呈几何爆炸级别的信息增长的监管需求。虽然使用SVM确实可以提高分类效率,但依然存在维数过大,导致存储资源和计算能力浪费的现象。
  本文首先分析如何在众多网络协议中,根据协议本身的特点和协议状态机,对协议中包含的传输内容进行自动识别匹配,然后对数据流部分进行重组还原,并且进行必要的解码操作,以获得需要过滤的文本信息。本文重点研究了主流的应用层HTTP协议,FTP协议,SMTP协议和POP3协议,以及主流的私有应用飞信协议,QQ协议和MSN协议。然后本文提出了一种针对如何有效减少 SVM的维数的改进算法,提出通过使用三种特征简约对向量机的维数进行约束。这种算法的改进达到加快运算速度,节省存储空间、提高准确率的作用。
  实验表明在选用相同数量的特征词的前提下,基于文档频率,基于信息增益和开方拟合算法取舍向量机的特征值各有优缺点。在仅仅选取500个特征值的情况下,改进算法使得不良信息分类和过滤的正确率达到了80%以上。在选取超过1000个特征值的情况下,DF算法的正确率超过了90%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号