首页> 中文学位 >基于内容的中文垃圾邮件过滤系统的研究与实现
【6h】

基于内容的中文垃圾邮件过滤系统的研究与实现

代理获取

目录

文摘

英文文摘

图目录

表目录

第一章 绪论

1.1 引言

1.2 垃圾邮件的概念

1.3 垃圾邮件危害

1.4 垃圾邮件现状

1.5 论文研究内容

1.6 论文结构

第二章 反垃圾邮件相关技术简介

2.1 邮件过滤的模型

2.1.1 MTA过滤

2.1.2 MDA过滤

2.1.3 MUA过滤

2.2 文本分类简介

2.3 文本表示

2.3.1 向量空间模型

2,3.2 文本预处理

2.3.3 中文分词

2.3.4 特征选择

2.4 常用反垃圾邮件技术

2.4.1 词语过滤

2.4.2 基于规则的评分系统

2.4.3 贝叶斯过滤器

2.4.4 Boosting方法

2.4.5 IP黑名单

2.4.6 RBLs(实时黑名单)

2.5 小结

第三章 反垃圾邮件技术的研究与改进

3.1 特征选择方法的研究

3.1.1 影响特征选择方法的因素

3.1.2 传统特征选择方法规律研究

3.2 一种新的特征选择方法

3.2.1 Logistic方程

3.2.2 Logistic方程的回归计算

3.2.3 拟合优度度量

3.2.4 a和b的估计量的显著性检验

3.3 传统过滤方法的研究分析

3.4 正向过滤方法的提出

3.4.1 正向过滤方法特征库的构建

3.4.2 正向过滤方法贝叶斯算法的改动

3.4.3 正向过滤方法与传统过滤方法比较

3.4.4 两种方法相结合

3.5 贝叶斯方法的研究

3.5.1 一般贝叶斯模型

3.5.2 朴素贝叶斯模型

3.5.3 两种事件模型

3.5.4 算法具体步骤

3.5.5 参数选择

3.6 贝叶斯方法的改进

3.6.1 特征选择范围的改进

3.6.2 spam_hash和ham_hash的改进

3.7 小结

第四章 过滤系统的设计与实现

4.1 实验样本集

4.2 中文分词

4.3 空间降维

4.3.1 去除停用词

4.3.2 Zip法则

4.4 实验结果衡量指标

4.5 过滤器的设计

4.5.1 特征库的生成

4.5.2 特征项选择方法比较

4.6 改进后贝叶斯方法比较

4.7 正向选择特征项

4.8 两种方法相结合

4.8.1 规则一

4.8.2 规则二

4.8.3 规则三

4.9 过滤结果

4.10 小结

第五章 结论与展望

5.1 论文总结

5.2 进一步的工作

参考文献

致 谢

攻读硕士学位期间发表的学术论文

展开▼

摘要

随着互联网的发展,计算机网络与通讯技术的发展与广泛应用,电子邮件已经成为必不可少的通讯方式,但是随之而来的垃圾邮件却成为互联网上一个日益严重的安全问题。因此,解决好此类问题具有十分重要的现实意义。
   本文对中文垃圾邮件的特点进行了比较系统的分析和研究。首先研究的是有关特征选择的内容,根据影响特征选择方法的因素,研究几种常用的特征选择方法,分析各选择方法所构建的特征库的不足之处,从而提出一种新的特征选择方法。这种方法将影响因素组合起来表征特征项对于分类的强弱,并用logistic方程表示由组合因素表征出的特征权值,根据权值的大小选择对分类影响大的特征。实验表明这种方法构建的特征库可以明显提高过滤的精度。
   除此之外,本文提出一种新的正向过滤方法,正向过滤方法利用特征选择方法选择基于正常邮件的特征项,从而可以大幅度的提高对正常邮件的识别力,这也是传统过滤方法的瓶颈所在。但是,正向方法同样存在对垃圾邮件误判的问题,因此,本文提出结合传统过滤方法和正向过滤方法来合成过滤器,以弥补各自的不足,并归纳出结合两种方法的三种模式,最后根据这三种模式合成过滤器。正向方法对正常邮件的识别力和传统方法对垃圾邮件的识别力同时制约着合成过滤器的精度,各自的识别力越高那么合成过滤器整体效果越好,据此,本文对贝叶斯算法提出改进,缩小特征项的选取范围并改进spam_hash和ham_hash表的内容,使之更准确表示特征项所携带的信息量,以达到提升过滤精度的目的。
   实验结果表明,合成过滤器同时提高了系统对正常邮件和垃圾邮件的识别能力,召回率和正确率分别达到了97%和98%,用F值评价整体性能达到97%,根据此评价结果说明了本文对过滤器所作的改进应用在垃圾邮件过滤的实用性和可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号