首页> 中文学位 >基于内容的网络监视和信息分类系统
【6h】

基于内容的网络监视和信息分类系统

代理获取

目录

文摘

英文文摘

第一章引言

1.1对邮件进行监视的必要性

1.2基于内容分类的意义

1.3当前研究现状

1.3.1网络监视的研究现状

1.3.2基于内容文本分类的研究现状

1.4我们要解决的问题

第二章网络监视技术

2.1传统网络监视方法遇到的困难

2.1.1网络接口处的瓶颈

2.1.2计算机总线处的瓶颈

2.1.3数据处理上的困难

2.1.4数据存储方面的困难

2.2分布式网络监视的提出

第三章文本分类技术

3.1文本的预处理

3.2文本的表示

3.2.1方法一:TF*IDF

3.2.2方法二:TFC

3.2.3方法三:LTC

3.2.4方法四:信息熵

3.3 降维

3.3.1Document Frequency(DF)

3.3.2Information Gain(IG)

3.3.3 x2statistic(CHI)

3.3.4 Term Strength(TS)

3.4分类方法

3.4.1简单向量距离分类法

3.4.2朴素贝叶斯分类

3.4.3 kNN(K最近邻居)算法

3.4.4基于神经网络的方法

3.4.5支持向量机的分类方法

第四章系统的整体设计

4.1系统所处的网络环境

4.2开发环境

4.3系统的实现目标

4.4系统的组成和各部分功能

4.4.1信息采集

4.4.2信息分拣

4.4.3信息提取

4.4.4数据库模块

4.4.5信息分类模块

第五章模块设计与实现

5.1数据收集模块的设计与实现

5.1.1介绍Netfilter

5.1.2介绍ip_queue

5.1.3数据采集模块的设计

5.2数据分拣模块的设计与实现

5.2.1进程任务的划分和它们各自的功能

5.2.2进程之间的关系

5.2.3数据的处理过程

5.2.4监听进程的设计和实现

5.2.5主进程的设计和实现

5.3数据提取模块的设计与实现

5.3.1传输层协议处理子模块的设计与实现

5.3.2应用层协议处理子模块的设计与实现

5.4数据库模块的设计与实现

5.5信息分类模块的设计与实现

5.5.1定义分类器的接口的依据

5.5.2分类器接口的定义

5.5.3分类器调度程序的设计与实现

第六章系统中使用的分类器

6.1多关键字匹配分类器

6.1.1关键字读取模块

6.1.2规则生成模块

6.1.3查询匹配模块

6.2归纳学习分类器

6.2.1文本的表示

6.2.2中文分词

6.2.3特征选择

第七章总结与前瞻

7.1系统的特点

7.2系统的进一步研究方向

参考文献

展开▼

摘要

随着Internet的飞速发展,电子信息的数量不断增加.如何监视这些信息内容,以及如何在这些内容中迅速准确地发现某一特征的信息,对于方便互联网用户的使用和互联网本身的健康发展都具有重要意义.传统的网络监视手段受到网络接口速度和计算机处理能力等方面的限制,无法与不断增长的网络速度相适应.分布式的网络监视方法可以在很大程度上解决这一问题,充分利用网络的计算资源,可以有效地对应用层协议的内容进行跟踪监视.该文依据分布式网络监视思想,结合实际的应用情况,提出了一套在企业、学校和政府机关的网络环境中可以得到有效应用的网络监视解决方案,并对实现的方法进行了详细的描述.在这个网络监视系统的实现中,论文还探讨了利用Linux下ip_queue机制来获取网络信息内容的方法,并对这一方法的利弊加以分析.文本分类是近年来发展较快的一个研究领域.该文在研究网络监视方法的基础上,设计出一套易于扩展的信息内容处理机制,可以将文本分类技术的研究成果迅速有效地应用到网络信息监视中.论文中提出了一套简洁严谨的文本分类器接口定义,在实现中采用动态链接机制对文本分类器进行管理和调用.这一方法不仅有利于系统的扩展,也为进一步研究文本分类算法奠定了基础.在分类系统的实现中采用了将多关键字匹配分类器与归纳学习分类器级联的方法.系统中使用了决策树方法实现多关键字匹配分类器,使用k最近邻居法实现归纳学习分类器.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号