首页> 中文学位 >基于适应概念漂移的垃圾邮件过滤系统设计与实现
【6h】

基于适应概念漂移的垃圾邮件过滤系统设计与实现

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 论文的背景

1.2 国内外垃圾邮件的过滤技术

1.3 论文的目的和意义

1.4 论文的主要工作和创新点

1.5 论文的章节安排

第二章 文本过滤基础理论和研究方法

2.1 文本型垃圾邮件的过滤要点

2.1.1 中文文本分词

2.1.2 词语字典数据结构

2.1.3 过滤模型的精度

2.1.4 过滤模型的适应性

2.1.5 其它

2.2 贝叶斯分类方法

2.2.1 贝叶斯数学理论基础

2.2.2 朴素贝叶斯分类算法

2.2.3 朴素贝叶斯分类算法的缺点

2.3 邮件分类算法中常用的性能评价标准

2.4 概念漂移的基础理论

2.4.1 概念漂移的定义

2.4.2 概念漂移的类型和理想模型

2.5 本章小结

第三章 反垃圾邮件适应概念漂移系统的整体架构和功能

3.1 反垃圾邮件项目系统整体架构及功能

3.2 反垃圾邮件系统适应概念漂移模块与其它模块关系

3.3 反垃圾邮件适应概念漂移模块整体架构与功能

3.3.1 实例选择-分类器加权集成分类预测架构与功能

3.3.2 实例选择-分类器加权集成分类训练架构与功能

3.4 本章小结

第四章 反垃圾邮件适应概念漂移系统设计与实现

4.1 反垃圾邮件项目背景与结构

4.2 反垃圾邮件适应概念漂移系统平台

4.3 反垃圾邮件适应概念漂移系统的设计和实现

4.3.1 适应概念漂移模块整体设计和实现

4.3.2 适应概念漂移模块的详细设计和实现

4.4 本章小结

第五章 测试与分析

5.1 邮件语料库

5.1.1 英文语料库

5.1.2 中文语料库

5.2 概念漂移语料库

5.3 实验环境搭建

5.4 基于系统的测试说明及结果

5.4.1 bogofilter阈值D

5.4.2 单一分类器对比邮件集

5.4.3 概念漂移数据集及测试

5.4.4 单一分类器对比测试结果

5.5 实验结果分析

5.6 本章小结

第六章 总结与展望

6.1 工作总结

6.1 下一步工作及展望

致谢

参考文献

攻硕士期间区间取得的研究成果

展开▼

摘要

电子邮件作为当今一种方便、快捷的互联网信息交流方式,受到越来越多人的青睐。但是垃圾邮件的出现,并且日益严峻,使这种便利的方式给人带来了烦恼。反垃圾邮件技术已成为互联网信息领域的一个研究热点,基于内容的反垃圾邮件过滤技术更是一种成熟而且有效的技术方案。
   基于朴素贝叶斯的垃圾邮件过滤方法是当前基于文本内容过滤方法的有效算法之一。随着时间的变化,垃圾邮件的特征也在不断的改变,然而传统的训练模型必须重新进行训练才能适应新的邮件特征的改变。因此,传统的朴素贝叶斯过滤方法必须与其它技术结合才能有效的适应新特征的变化。本文提出的实例选择-分类器加权集成算法,是采用数据挖掘领域的流问题解决方案来适应邮件流的问题的解决思路,成为当前的研究热点。本方法是在研究朴素贝叶斯的基本原理,分析其优缺点的基础上,基于传统分类器的静态特性,将概念漂移的思想应用到垃圾邮件过滤系统上,在中文的CCERT“2005-Jul”数据集上,取得了不错的效果,不仅在从精度上,更重要的适应性上,从不适应到适应,从精度低到精度高,完成了一个动态的适应过程。
   1)本文首先分析了中文词语的特点和常见的词典结构,解读了朴素贝叶斯算法的基本原理,概念漂移的基本思想,同时给出了通用分类算法评价标准。
   2)在第三章,描述了整个系统的总体目标,以及本模块的总体架构,并给予了模块概括性的描述。
   3)在第四章,阐释模块内部各个功能点的详细设计和实现,提供了伪代码级的说明了详述。
   4)在测试和分析章节,首先详述了中文和英文的语料集,并就该模块系统的参数和数据集选取给予了详细的说明,在概念漂移发生或未发生时,同传统分类器,在精度和适应性上的对比,并做出了详细的分析。
   综上所述,本系统提出对传统领域的垃圾邮件过滤模型的适应性研究是一个有实践价值、理论意义的尝试。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号