首页> 中文学位 >基于内容的反垃圾邮件方法研究与实现
【6h】

基于内容的反垃圾邮件方法研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1课题的背景

1.2 垃圾邮件定义与危害

1.3 论文的主要研究内容

2 邮件过滤技术研究

2.1 邮件过滤的层次

2.2 常用的垃圾邮件过滤方法

2.3 邮件过滤中常用的文本分类算法

2.4 常用垃圾邮件语料库简介

2.5 本章小结

3基于改进贝叶斯算法的垃圾邮件过滤

3.1 理论基础

3.2 贝叶斯模型

3.3 朴素贝叶斯分类器

3.4 最小风险的朴素贝叶斯算法

3.5 分词技术

3.6 特征提取技术

3.7 本章小结

4系统设计与实现

4.1 系统设计

4.2 透明代理设计与实现

4.3 邮件预处理

4.4 邮件缓存队列

4.5 分词模块设计与实现

4.6 邮件训练与特征提取

4.7 贝叶斯分类器的实现

4.8 本章小结

5 实验结果及分析

5.1 评价标准

5.2 测试环境和数据源

5.3 实验结果和分析

5.4 系统运行结果

5.5 本章小结

6 总结展望

致谢

参考文献

展开▼

摘要

日益泛滥的垃圾邮件,既浪费用户时间、消耗了网络传输资源以及邮件服务器存储空间,也是病毒、僵尸网络等恶意代码的策源地。目前,应对垃圾邮件的主要方法和技术手段有很多,其中,基于内容分析的文本分类技术已经成为当前的研究热点,最为典型的是基于贝叶斯模型的过滤方法。
  结合文本分类技术以及贝叶斯(Bayes)理论,构造基于贝叶斯分类的垃圾邮件过滤模型,该模型采用代理的原理,工作在邮件服务器和客户端之间,可以有效的过滤和分离用户的垃圾邮件。模型主要包括邮件代理、邮件解析、邮件过滤等模块,邮件过滤模块采用改进的贝叶斯算法来识别垃圾邮件,着重对贝叶斯算法中需要的中文分词、特征提取、邮件训练过程进行设计和实现。邮件代理模块采用Socket通信方式,利用代理服务器的工作原理,实现对邮件的接收和过滤,采用包过滤和NAT技术很好的做到了对用户的完全透明。这两部分也是该过滤系统的关键。
  对贝叶斯过滤算法进行研究并给出该算法的一个C/C++的实现,在此基础上,为减少垃圾邮件误判造成的影响,对传统的贝叶斯算法提出了相应的改进措施:引入损失因子来评估将正常邮件误判为垃圾邮件时带来的风险,通过理论推导、假设和实验验证,得出损失因子的最佳值,改善正常邮件的误判问题。通过实验测试和分析,结果表明基于改进的贝叶斯算法用于实现垃圾邮件过滤是有效的方法之一。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号