首页> 中文学位 >基于改进K最近邻模型的反馈学习垃圾邮件过滤系统的设计与实现
【6h】

基于改进K最近邻模型的反馈学习垃圾邮件过滤系统的设计与实现

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 研究背景

1.2 垃圾邮件系统介绍

1.2.1 垃圾邮件的定义

1.2.2 垃圾邮件的特征

1.1.3 垃圾邮件的危害

1.1.4 垃圾邮件的现状

1.3 当前主要邮件服务器的反垃圾邮件策略

1.4 论文内容及结构

1.5 本章小结

第二章 当前反垃圾邮件技术

2.1 基于黑白名单的垃圾邮件过滤技术

2.2 基于手工制定规则的垃圾邮件过滤技术

2.3 基于内容的垃圾邮件过滤技术

2.3.1 基于规则的方法

2.3.2 基于统计的方法

2.4 本章小结

第三章 电子邮件预处理技术

3.1 文本表示方法

3.2 中文分词方法

3.3 特征提取方法

3.4 本章小结

第四章 基于合法属性和垃圾属性的垃圾邮件过滤算法研究

4.1 算法的提出

4.2 算法的基本思想

4.3 算法的具体过程

4.4 反馈学习方法

4.5 小结

第五章 垃圾邮件过滤系统设计与实现

5.1 系统背景

5.2 系统设计

5.3 系统实现

5.4 小结

第六章 系统测试与结果分析

6.1 测试环境

6.2 语料集

6.3 垃圾邮件过滤技术评价标准

6.4 测试结果分析

6.5 小结

第七章 总结与展望

7.1 总结

7.2 展望

致谢

参考文献

攻读硕士期间取得的研究成果

展开▼

摘要

电子邮件技术已经成为一种快捷、经济的现代通信手段,几乎每个网络用户都有自己的邮件信箱。然而电子邮件也日益成为商业广告、病毒、木马等内容的重要载体,垃圾邮件的泛滥成灾给人们的正常生活带来了极大的危害和不便,同时极坏地影响了网络安全,占用了宝贵的带宽资源,占用了邮件服务器大量的存储空间。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,研究新型高效的邮件过滤系统仍具有特别重要的现实意义。在垃圾邮件过滤研究领域已有的算法中,都是基于规则或基于内容的,其中基于规则的过滤算法需要用户长期定制和维护规则,其实质还是生硬的二值判断,局限在二维空间内进行处理,缺少可信度;基于内容的过滤算法大多数是基于向量空间模型的算法,其中广泛使用的是朴素贝叶斯算法和K最近邻(KNN)算法。虽然朴素贝叶斯邮件过滤器计算简便,但召回率和正确率都难以进一步提高。由于KNN算法计算复杂度太高而不适用于大规模场合和实时性要求高的场合。为此,提出邮件的合法属性和非法属性的概率,提出新的分类算法一基于邮件合法属性和非法属性的分类算法SEAFS算法。SEAFS垃圾邮件过滤算法结合KNN模型和朴素贝叶斯模型的优点,克服了KNN模型和朴素贝叶斯模型的缺点,将普通垃圾邮件过滤方法的线性过滤转化为非线性过滤,既提高了过滤准确度,又达到了令人满意的过滤效率,适用于大规模场合和实时性要求高的场合,有利于大规模邮件内容进行实时在线的垃圾邮件过滤。电子邮件的内容是随时间而变化的,用户的个性化需求也在不断改变,所以在对垃圾邮件的研究中加入了反馈学习过程,以捕捉这些变化,解决这一问题。本文设计并实现了一个实用、高效的垃圾邮件过滤系统,进行了大量实验,获得了良好的过滤效果,实验论证了SEAFS算法在垃圾邮件过滤中的可行性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号