首页> 中文学位 >基于数据驱动的垃圾邮件检测技术研究
【6h】

基于数据驱动的垃圾邮件检测技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题的研究背景

1.2 垃圾邮件检测技术的研究现状

1.3 论文的主要研究工作和内容安排

第二章 基于数据驱动的垃圾邮件检测流程

2.1 引言

2.2 基于数据驱动的垃圾邮件检测的步骤

2.3 邮件文本内容预处理

2.4 特征降维

2.5 文本分类

2.6 性能评价

2.7 本章小节

第三章 基于Boosting Tree垃圾邮件检测方法

3.1 引言

3.2 Boosting Tree算法基本原理

3.3 垃圾邮件检测系统建模

3.4 仿真与分析

3.5 本章小结

第四章 基于随机森林的垃圾邮件检测技术研究

4.1 前言

4.2 随机森林原理与性质

4.3 基于随机森林算法的垃圾邮件建模

4.4 仿真与分析

4.5 本章小节

第五章 基于Elastic Net-Decision Tree两步垃圾邮件检测研究

5.1 前言

5.2 Elastic Net和Decision Tree算法

5.3 基于ED-DT算法垃圾邮件检测系统建模

5.4 仿真结果与分析

5.5 本章小节

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

个人简历 在读期间发表的学术论文

致谢

展开▼

摘要

垃圾邮件作为电子邮件的副产品,已经给人们生活、工作等多个方面带来严重的影响。如何有效地检测出垃圾邮件已经成为急需解决的一个难题。因此本文针对常见的垃圾邮件文本检测进行了深入研究。具体描述如下:
  (1)提出了基于Boosting Tree算法的垃圾邮件检测方法。Boosting Tree算法基本原理是以Decision Tree分类算法作为Boosting算法框架中的基分类方法,利用Boosting算法框架对历史邮件文本(训练集)进行训练以获得多个不同的训练样本子集。然后应用Decision Tree分类算法对这些样本子集进行训练生成Decision Tree基分类器,经过T轮的训练后产生T个Decision Tree基分类器。再将T个Decision Tree基分类器进行加权融合成一个最终结果的分类器。最后利用这个最终结果的分类器对电子邮件进行检测分类。传统贝叶斯算法、Decision Tree算法和Boosting Tree算法的对比结果充分说明了基于Boosting Tree算法的垃圾邮件分类器的性能明显优于其它。
  (2)提出了基于随机森林的垃圾邮件检测方法。随机森林以Decision Tree算法为基分类器,通过bagging抽样方法从训练样本集中重复抽取多个训练样本子集,再对每个训练样本子集分别进行建立Decision Tree算法数学模型,然后根据分类结果对每个决策树进行“投票”,获得票数最多的作为最优分类树。随机森林和Decision Tree算法仿真实验结果表明基于随机森林的垃圾邮件分类器的分类效率大幅度提高。
  (3)提出了一种新型的Elastic net-Decision Tree两步垃圾邮件分类算法。该算法弥补了单独使用一些算法进行特征降维或回归分析时分类的效果不足的缺陷。第一步运用Elastic Net算法对历史邮件文本数据进行特征降维;第二步将特征降维产生的结果输入到Decision Tree算法中进行分类,即筛选出哪些邮件是垃圾邮件,哪些是合法邮件。与PLS、PCA和Lasso算法的仿真结果相比,Elastic net-Decision Tree两步分类算法的分类结果明显更好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号