首页> 中文学位 >基于文本挖掘的垃圾邮件过滤技术研究
【6h】

基于文本挖掘的垃圾邮件过滤技术研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第一章 绪论

1.1 研究背景

1.2 垃圾邮件的历史

1.3 垃圾邮件的定义

1.4 垃圾邮件的危害

1.5 垃圾邮件的解决

1.6 本文的主要研究内容

1.7 本文的结构安排

第二章 电子邮件系统

2.1 电子邮件传送过程

2.2 SMTP 协议

2.3 POP3 协议

2.4 IMAP 协议

2.5 邮件格式

2.6 MIME 协议

第三章 垃圾邮件过滤技术概述

3.1 基于角色区分的过滤技术

3.2 内容过滤技术

3.3 接入过滤技术

3.4 行为过滤技术

3.5 最新过滤技术

3.6 文本挖掘与垃圾邮件过滤

第四章 基于判别模型的垃圾邮件过滤方法

4.1 邮件预处理模块设计

4.2 特征选择模块设计

4.3 邮件分类模块设计

4.4 邮件过滤模型

4.5 实验结果

4.6 小结

第五章 基于文本区域特征的图像垃圾邮件过滤及分类算法研究

5.1 基于文本区域特征的图像垃圾邮件过滤方法

5.2 基于层次分析法(AHP)的分类算法研究

5.3 运用 Expert Choice 进行层次分析的步骤

5.4 实验结果

第六章 总结与展望

6.1 工作总结

6.2 未来研究计划

参考文献

攻读学位期间发表的学术论文及科研情况

1. 学术论文

2. 科研情况

致谢

展开▼

摘要

伴随着互联网的普及,电子邮件作为一种高效、经济的现代通信技术手段,己成为互联网上最常用的应用之一。但电子邮件在给人们带来巨大便利的同时,也给人们带来了造成很大困扰垃圾邮件。大量无用甚至有害的信件在网络传播,不仅消耗了大量的网络资源,而且还严重威胁到用户信息的安全。因此如何有效地治理垃圾邮件问题是全世界共同面临的一道难题。
  现实世界中,知识不仅以传统的结构化数据形式出现,而更多的是以非结构化或半结构化的形式出现,因此文本挖掘技术应运而生。将文本挖掘技术应用于垃圾邮件过滤过程中,对于防止垃圾邮件骚扰、减少垃圾信息等具有重要的现实意义。
  本文首先介绍了垃圾邮件的发展历史、定义,分析了其危害性以及为解决垃圾邮件所带来的各种问题所采取的措施。进一步介绍了与电子邮件紧密相关的SMTP、POP3、IMAP、MIME协议。阐述了常用的垃圾邮件过滤技术,包括基于角色区分的、基于内容的、基于接入的及基于行为的等过滤技术,同时归纳了目前最新出现的过滤技术,比如发件人特征识别技术、信誉评分技术等。
  本文所做的主要工作如下:
  1.归纳总结了当前比较流行的垃圾邮件过滤的方法和手段。垃圾邮件发送者为了躲避各种过滤,不断变化更新欺骗的方法和手段,简单的过滤方法已经无法有效地过滤垃圾邮件,必须抓住当前垃圾邮件的主要特征,以进行有针对性的过滤。
  2.提出了一种基于判别模型的垃圾邮件过滤方法。在特征选择问题上,本文创新地引入了差分互信息的概念;在邮件分类过程中,本文对于特征项权值的更新采取了梯度下降搜索算法;并建立了垃圾邮件过滤的模型。实验证明,基于判别模型的过滤方法能收到很好的效果。
  3.提出了一种图像垃圾邮件文本区域特征的提取方法。针对彩色图像易受边缘干扰的特点,借助于Color Roberts算子以及形态学算法,设计了文本区域特征提取方案,通过实验证明,对于图像垃圾邮件的过滤取得了不错的效果;同时在分类算法的选择上引入了AHP来进行评价,提供了解决决策性问题的另一新鲜思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号