文摘
英文文摘
图目录
表目录
第一章 绪论
1.1 引言
1.2 垃圾邮件的概念
1.3 垃圾邮件危害
1.4 垃圾邮件现状
1.5 论文研究内容
1.6 论文结构
第二章 反垃圾邮件相关技术简介
2.1 邮件过滤的模型
2.1.1 MTA过滤
2.1.2 MDA过滤
2.1.3 MUA过滤
2.2 文本分类简介
2.3 文本表示
2.3.1 向量空间模型
2,3.2 文本预处理
2.3.3 中文分词
2.3.4 特征选择
2.4 常用反垃圾邮件技术
2.4.1 词语过滤
2.4.2 基于规则的评分系统
2.4.3 贝叶斯过滤器
2.4.4 Boosting方法
2.4.5 IP黑名单
2.4.6 RBLs(实时黑名单)
2.5 小结
第三章 反垃圾邮件技术的研究与改进
3.1 特征选择方法的研究
3.1.1 影响特征选择方法的因素
3.1.2 传统特征选择方法规律研究
3.2 一种新的特征选择方法
3.2.1 Logistic方程
3.2.2 Logistic方程的回归计算
3.2.3 拟合优度度量
3.2.4 a和b的估计量的显著性检验
3.3 传统过滤方法的研究分析
3.4 正向过滤方法的提出
3.4.1 正向过滤方法特征库的构建
3.4.2 正向过滤方法贝叶斯算法的改动
3.4.3 正向过滤方法与传统过滤方法比较
3.4.4 两种方法相结合
3.5 贝叶斯方法的研究
3.5.1 一般贝叶斯模型
3.5.2 朴素贝叶斯模型
3.5.3 两种事件模型
3.5.4 算法具体步骤
3.5.5 参数选择
3.6 贝叶斯方法的改进
3.6.1 特征选择范围的改进
3.6.2 spam_hash和ham_hash的改进
3.7 小结
第四章 过滤系统的设计与实现
4.1 实验样本集
4.2 中文分词
4.3 空间降维
4.3.1 去除停用词
4.3.2 Zip法则
4.4 实验结果衡量指标
4.5 过滤器的设计
4.5.1 特征库的生成
4.5.2 特征项选择方法比较
4.6 改进后贝叶斯方法比较
4.7 正向选择特征项
4.8 两种方法相结合
4.8.1 规则一
4.8.2 规则二
4.8.3 规则三
4.9 过滤结果
4.10 小结
第五章 结论与展望
5.1 论文总结
5.2 进一步的工作
参考文献
致 谢
攻读硕士学位期间发表的学术论文