首页> 中文学位 >高校办公系统垃圾邮件过滤DTFS算法的设计与实现
【6h】

高校办公系统垃圾邮件过滤DTFS算法的设计与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及研究意义

1.1.1 垃圾邮件的定义

1.1.2 高校办公邮件系统中垃圾邮件的危害

1.1.3 本文研究的意义

1.2 国内外研究现状

1.2.1 常见的特征降维算法

1.2.2 新兴的特征选择方法

1.3 主要研究内容及组织结构

1.3.1 主要研究内容

1.3.2 本文结构

第2章 高校办公系统垃圾邮件过滤关键算法及技术分析

2.1 基于内容的垃圾邮件检测

2.1.1 垃圾邮件过滤的实质

2.1.2 高校办公系统垃圾邮件过滤

2.2 高校办公邮件文本的预处理

2.2.1 分词处理

2.2.2 去停用词

2.2.3 词干提取

2.2.4 文本表示模型

2.3 高校办公邮件内容特征降维

2.3.1 特征提取

2.3.2 特征选择

2.4 分类算法

2.4.1 朴素贝叶斯分类器

2.4.2 K最近邻分类器

2.4.3 支持向量机

2.5 性能评估

2.5.1 评估方法

2.5.2 评估指标

2.6 总结

第3章 高校办公系统垃圾邮件过滤DTFS算法设计

3.1 高校办公系统垃圾邮件过滤的文本特征降维算法研究

3.1.1 特征提取

3.1.2 特征选择及其目的

3.2 高校办公系统垃圾邮件过滤的特征选择算法

3.2.1 文档频率

3.2.2 信息增益

3.2.3 互信息

3.2.4 卡方统计

3.3 高校办公系统垃圾邮件过滤DTFS算法动机与基本思想

3.3.1 传统的信息增益算法

3.3.2 传统算法的不足

3.3.3 DTFS算法的核心思想

3.4 高校办公系统垃圾邮件过滤DTFS算法设计

3.4.1 类内分散度

3.4.2 类间集中度

3.4.3 DTFS特征选择算法

3.5 总结

第4章 高校办公系统垃圾邮件过滤DTFS算法性能分析

4.1 实验准备

4.1.1 实验环境

4.1.2 垃圾邮件语料库

4.1.3 Weka数据挖掘平台

4.2 仿真高校垃圾邮件过滤系统的建立

4.2.1 邮件样本的预处理

4.2.2 特征选择处理

4.2.3 邮件分类器建模及实验设计

4.3 高校垃圾邮件过滤实验结果分析

4.3.1 高校垃圾邮件过滤效率对比实验

4.3.2 高校垃圾邮件过滤算法性能研究

4.3.3 高校垃圾邮件过滤算法对比实验

4.4 高校办公系统垃圾邮件过滤实现界面

4.4.1 正常邮件发送及接收

4.4.2 垃圾邮件的发送及接收

4.5 总结

第5章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

展开▼

摘要

近些年来,有一些不法分子利用电子邮件进行了广告信息和不良信息的传播,这种传播为社会带来了很大危害,在高校内部办公网络中,高校办公邮件系统中收到垃圾邮件的现象也十分普遍,不仅造成了严重的不良影响,同时也给用户带来了消极体验,影响了人们的日常生活,而且还可能会对社会的和谐带来不良的影响。因此,高校办公过程巾,垃圾邮件的过滤和处理已经成为了一个不容忽视的问题,业已成为高校应用软件开发者关注的重点问题。
  本文就是基于该研究背景,对基于信息增益的垃圾邮件特征选择算法进行了研究,设计了高校办公系统垃圾邮件过滤DTFS算法。首先分析了一个完整的高校垃圾邮件过滤模型的组成部分与各部分的功能,整个模型包括:文本预处理模型、特征降维模型、文本表示模型、分类器模型和结果评估模型等五部分。在详细分析了各部分模型的构成原理与主流技术以外,对特征降维算法进行了深入的研究,分析了特征降维对于文本分类的重要性,并且设计了一种改进的特征选择DTFS算法。在对文本分类模型进行细致分析的基础上,本文发现特征降维对于一个分类系统来讲是必不可少的组成部分,由于巨大的特征空间不仅会为计算机的处理带来沉重的负担,并且在特征空间当中仍然包含了许多冗余信息,这些信息严重的影响了最终的分类结果,特征降维的目的就是在不降低分类器性能的基础上,将特征空间的维度尽可能的减小。传统的特征降维方法有两种:特征提取和特征选择。前者是一种基于特征空间变化,将原始特征空间通过某种特定规则映射到新的低维特征空间,并且在这一过程当中尽可能的减少特征信息的损失;后者则是利用一定的规则从原始特征集合当中提取出一个特征子集合,这个子集合在最大程度上代表原始特征集合。通过验证发现,本文采用的特征降维算法不仅可以在很大程度上降低特征空间的维度,并且可以在一定程度提高分类器的分类性能。
  在设计了改进算法的基础上,本文将该DTFS算法运用到某高校办公系统垃圾邮件过滤特征选择模型中进行性能分析,该特征选择模型包括分词处理、去停用词处理、词干提取以及特征选择等功能。在文本分类过程当中,采用数据挖掘软件Weka,利用Weka输出分类结果,与传统的特征选择算法进行对比分析。在分析了高校垃圾邮件过滤实验结果的基础上,对本文设计的算法进行时间复杂度以及空间复杂度的分析,发现本文的时间复杂度与空间复杂度均未超过传统的特征选择算法。本文所对应的高校垃圾邮件过滤在运用文档频率、互信息、信息增益和卡方统计时与运用设计的DTFS算法进行比较,在查全率、查准率和F1值等评价指标上来衡量算法的优劣,本文设计的DTFS算法不仅性能占优,而且计算复杂度更小。应用到高校办公系统垃圾邮件过滤中后发现该系统能够有效对垃圾邮件进行拦截。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号