基于数据驱动的垃圾邮件检测技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

垃圾邮件作为电子邮件的副产品，已经给人们生活、工作等多个方面带来严重的影响。如何有效地检测出垃圾邮件已经成为急需解决的一个难题。因此本文针对常见的垃圾邮件文本检测进行了深入研究。具体描述如下：
　　(1)提出了基于Boosting Tree算法的垃圾邮件检测方法。Boosting Tree算法基本原理是以Decision Tree分类算法作为Boosting算法框架中的基分类方法，利用Boosting算法框架对历史邮件文本(训练集)进行训练以获得多个不同的训练样本子集。然后应用Decision Tree分类算法对这些样本子集进行训练生成Decision Tree基分类器，经过T轮的训练后产生T个Decision Tree基分类器。再将T个Decision Tree基分类器进行加权融合成一个最终结果的分类器。最后利用这个最终结果的分类器对电子邮件进行检测分类。传统贝叶斯算法、Decision Tree算法和Boosting Tree算法的对比结果充分说明了基于Boosting Tree算法的垃圾邮件分类器的性能明显优于其它。
　　(2)提出了基于随机森林的垃圾邮件检测方法。随机森林以Decision Tree算法为基分类器，通过bagging抽样方法从训练样本集中重复抽取多个训练样本子集，再对每个训练样本子集分别进行建立Decision Tree算法数学模型，然后根据分类结果对每个决策树进行“投票”，获得票数最多的作为最优分类树。随机森林和Decision Tree算法仿真实验结果表明基于随机森林的垃圾邮件分类器的分类效率大幅度提高。
　　(3)提出了一种新型的Elastic net-Decision Tree两步垃圾邮件分类算法。该算法弥补了单独使用一些算法进行特征降维或回归分析时分类的效果不足的缺陷。第一步运用Elastic Net算法对历史邮件文本数据进行特征降维；第二步将特征降维产生的结果输入到Decision Tree算法中进行分类，即筛选出哪些邮件是垃圾邮件，哪些是合法邮件。与PLS、PCA和Lasso算法的仿真结果相比，Elastic net-Decision Tree两步分类算法的分类结果明显更好。

著录项

作者
刘庆雄;
展开▼
作者单位

华东交通大学;

展开▼
授予单位华东交通大学;
学科控制工程
授予学位硕士
导师姓名衷路生;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.098;
关键词
垃圾邮件检测; 数据驱动; Boosting Tree算法; 分类器; 随机森林;

相似文献

中文文献
外文文献
专利

1. 基于SVM的检测图像型垃圾邮件技术研究 [J] . 徐磊 ,陈家琪 . 信息技术 . 2015,第003期
2. 基于数据驱动的航天器故障检测技术研究 [J] . 潘丹 ,宋世民 ,韩小军 . 信息工程期刊：中英文版 . 2016,第002期
3. 图像型垃圾邮件检测技术研究 [J] . 刘合安 . 电脑知识与技术 . 2012,第008期
4. 智慧煤矿数据驱动检测技术研究 [J] . 潘红光 ,裴嘉宝 ,侯媛彬 . 工矿自动化 . 2020,第010期
5. 基于IMI-WNB算法的垃圾邮件过滤技术研究 [J] . 刘洁 ,王铮 ,王辉 . 计算机工程 . 2020,第012期
6. 反垃圾邮件产品检测技术研究及检测工具开发 [C] . 李毅 ,顾健 . 第20次全国计算机安全学术交流会 . 2005
7. 基于分类及相似性的图像型垃圾邮件检测技术研究 [A] . 杨波 . 2011

基于数据驱动的垃圾邮件检测技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅