首页> 中文学位 >基于深度学习的垃圾邮件文本分类方法
【6h】

基于深度学习的垃圾邮件文本分类方法

代理获取

目录

声明

摘要

第一章绪论

1.1研究背景及意义

1.2主要研究内容及创新点

1.3论文的结构

第二章邮件文本分类方法

2.1文本分类简介

2.2文本预处理

2.2.1过滤非法字符

2.2.2分词

2.2.3去除停用词

2.2.4替换相关词

2.3词向量方法研究

2.3.1词袋模型

2.3.2 Hash Trick

2.3.3 Distributed Representation

2.3.4随机初始化

2.4邮件文本分类的模型

2.4.1朴素贝叶斯分类

2.4.2决策树

2.4.3支持向量机分类

2.4.4逻辑回归

2.4.5 FastText分类

2.4.6卷积神经网络

2.4.7循环神经网络

2.4.8 LSTM与GRU分类

2.5本章小结

第三章基于深度学习的邮件分类方法研究

3.1.1 Conv-BIGRU结构设计

3.1.2 Inception的改进

3.1.3改进Inception卷积结构与双向GRU的结合

3.1.4防止过拟合方法及激活函数选择

3.1.5模型训练

3.1.6 Embedding层特征扩展

3.1.7基于特征扩展的模型变种设计

3.2基于深度学习的Stacking模型设计

3.2.1集成学习方法

3.2.2 Stacking模型设计

3.2.3基于深度学习的Stacking模型改进

3.3本章小结

第四章邮件文本分类系统的实现与分析

4.1邮件文本系统概述

4.1.1邮件文本分类系统架构

4.1.2邮件文本分类系统框架

4.2文本数据处理分析

4.2.2数据预处理

4.3分类的评价标准

4.3.1分类的交叉验证

4.3.2分类的性能评估指标

4.4实验与结果分析

4.4.1实验设计

4.4.2实验环境

4.4.3实验结果分析

4.5本章小结

第五章总结与展望

5.1本文总结

5.2未来展望

参考文献

攻读硕士期间发表的论文及取得的研究成果

致谢

展开▼

摘要

随着电子邮件的广泛应用,邮件成为了商业广告、恶意软件和非法文件的传播载体,人们平均接受的垃圾邮件数量远远超于正常邮件数量,严重影响着人们的生活和网络安全,如何能够精确的将垃圾邮件过滤出来成为了急需解决的问题。目前常用的垃圾邮件过滤方法一般包括基于邮件来源的识别技术和基于内容的识别技术两种类型,例如白名单与黑名单机制、关键词匹配和朴素贝叶斯模型文本识别。电子邮件的数量与样式在不断的增多,垃圾邮件的特征关键词也在发生巨大的变化,所以基于规则的识别方式要不间断的进行邮件特征规则库的更新,这将需要耗费大量的人力。基于内容的方法已经初具成效,但是传统的朴素贝叶斯模型识别垃圾邮件,在文本分类上性能已落后于深度学习模型,为此本文基于深度学习模型研究垃圾邮件分类。
  本毕业论文从电子邮件文本内容入手,使用深度学习文本分类算法,建立了一个垃圾邮件识别模型。具体研究工作及贡献包括:
  (1)提出了基于卷积神经网络与循环神经网络的深度学习模型(Conv-BiGRU Model),结合卷积神经网络的局部特征提取优势和循环神经网络的上下文学习优势,有效提高了垃圾邮件文本分类的正确率;
  (2)结合深度学习模型改进了Stacking模型,将初学习器模型的概率输出改为深度学习模型最后全连接层的输出,增加了次学习器的特征表达,提出了基于深度学习的Stacking模型,并且实现了垃圾邮件文本分类系统。通过与现有模型的实验对比,Stacking模型提高了分类性能;
  (3)实现了本文提出的Conv-BiGRU模型及基于深度学习的Stacking模型,针对不同的模型方法、Embedding层输入、模型改进前后效果和深度学习模型超参数在收集的67万个样本的垃圾邮件文本数据集进行了多组对比实验。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号