高校办公系统垃圾邮件过滤DTFS算法的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近些年来，有一些不法分子利用电子邮件进行了广告信息和不良信息的传播，这种传播为社会带来了很大危害，在高校内部办公网络中，高校办公邮件系统中收到垃圾邮件的现象也十分普遍，不仅造成了严重的不良影响，同时也给用户带来了消极体验，影响了人们的日常生活，而且还可能会对社会的和谐带来不良的影响。因此，高校办公过程巾，垃圾邮件的过滤和处理已经成为了一个不容忽视的问题，业已成为高校应用软件开发者关注的重点问题。
　　本文就是基于该研究背景，对基于信息增益的垃圾邮件特征选择算法进行了研究，设计了高校办公系统垃圾邮件过滤DTFS算法。首先分析了一个完整的高校垃圾邮件过滤模型的组成部分与各部分的功能，整个模型包括:文本预处理模型、特征降维模型、文本表示模型、分类器模型和结果评估模型等五部分。在详细分析了各部分模型的构成原理与主流技术以外，对特征降维算法进行了深入的研究，分析了特征降维对于文本分类的重要性，并且设计了一种改进的特征选择DTFS算法。在对文本分类模型进行细致分析的基础上，本文发现特征降维对于一个分类系统来讲是必不可少的组成部分，由于巨大的特征空间不仅会为计算机的处理带来沉重的负担，并且在特征空间当中仍然包含了许多冗余信息，这些信息严重的影响了最终的分类结果，特征降维的目的就是在不降低分类器性能的基础上，将特征空间的维度尽可能的减小。传统的特征降维方法有两种:特征提取和特征选择。前者是一种基于特征空间变化，将原始特征空间通过某种特定规则映射到新的低维特征空间，并且在这一过程当中尽可能的减少特征信息的损失;后者则是利用一定的规则从原始特征集合当中提取出一个特征子集合，这个子集合在最大程度上代表原始特征集合。通过验证发现，本文采用的特征降维算法不仅可以在很大程度上降低特征空间的维度，并且可以在一定程度提高分类器的分类性能。
　　在设计了改进算法的基础上，本文将该DTFS算法运用到某高校办公系统垃圾邮件过滤特征选择模型中进行性能分析，该特征选择模型包括分词处理、去停用词处理、词干提取以及特征选择等功能。在文本分类过程当中，采用数据挖掘软件Weka，利用Weka输出分类结果，与传统的特征选择算法进行对比分析。在分析了高校垃圾邮件过滤实验结果的基础上，对本文设计的算法进行时间复杂度以及空间复杂度的分析，发现本文的时间复杂度与空间复杂度均未超过传统的特征选择算法。本文所对应的高校垃圾邮件过滤在运用文档频率、互信息、信息增益和卡方统计时与运用设计的DTFS算法进行比较，在查全率、查准率和F1值等评价指标上来衡量算法的优劣，本文设计的DTFS算法不仅性能占优，而且计算复杂度更小。应用到高校办公系统垃圾邮件过滤中后发现该系统能够有效对垃圾邮件进行拦截。

著录项

作者
于洋;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科软件工程
授予学位硕士
导师姓名陈光军,刘立国;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 G647.2;TP311.52;
关键词
高等院校; 办公系统; 垃圾邮件; 过滤算法; 特征选择; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现 [J] . 范仕伦 ,薛天俊 ,夏玮 . 信息网络安全 . 2012,第009期
2. 基于多项式朴素贝叶斯算法的垃圾邮件过滤器的设计与实现 [J] . 李腾飞 . 科技资讯 . 2018,第033期
3. 基于CART算法的垃圾邮件过滤模型设计与实现 [J] . 孔颖 ,裘彬强 ,徐从富 . 计算机应用 . 2009,第002期
4. 基于主题模型的垃圾邮件过滤系统的设计与实现 [J] . 寇晓淮 ,程华 . 电信科学 . 2017,第011期
5. 基于SpamAssassin的中文垃圾邮件过滤系统的设计与实现 [J] . 李玉峰 . 内蒙古农业大学学报：自然科学版 . 2012,第3期
6. 高校办公自动化系统的设计与实现 [C] . . 西安教育技术与网络学会成立20周年暨2003年学术年会 . 2003
7. 基于模拟退火算法的高校办公系统的设计与实现 [A] . 柯林 . 2013

高校办公系统垃圾邮件过滤DTFS算法的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅