首页> 中文学位 >基于贝叶斯算法的垃圾邮件过滤方法的研究
【6h】

基于贝叶斯算法的垃圾邮件过滤方法的研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1问题的提出及其研究意义

1.2反垃圾邮件技术的研究现状

第二章电子邮件知识及过滤原理

2.1电子邮件基本原理

2.2电子邮件系统有关协议

2.2.1 RFC822文本式邮件报文

2.2.2 MIME格式的邮件报文

2.3邮件内容的解析

2.3.1 Base64

2.3.2邮件内容的解析算法

2.4电子邮件过滤原理

2.4.1邮件的过滤模型

2.5 JavaMail API及其应用

2.5.1 JavaMail API

第三章贝叶斯过滤算法

3.1贝叶斯定理

3.2贝叶斯分类

3.3贝叶斯算法的主要思想

3.4算法的具体步骤

第四章基于句法分类方法的贝叶斯算法

4.1基于句法分类方法的贝叶斯算法的研究背景

4.2垃圾邮件的特点

4.2.1垃圾邮件的预处理

4.2.2邮件的数字特征和文本特征

4.3句子分类方法

4.3.1句子分类方法的原理

4.3.2可能性分析

4.3.3垃圾邮件带来的种种困扰和相应的解决办法

4.3.4段落的分类方法

4.4系统的实现

4.4.1系统体系结构的实现

4.4.2实验

4.5结论

4.5.1贝叶斯算法的不足与改进

第五章基于贝叶斯算法的客户端个性化垃圾邮件过滤系统的实现

5.1总体设计

5.1.1贝叶斯算法的实现过程

5.1.2系统总体设计分析

5.1.3数据库的设计

5.2基于JavaMail的邮件内容解析模块

5.2.1邮件内容解析算法

5.2.2实现邮件解析和获取邮件内容

5.2.3 HTML邮件的内容解析

5.3关键句子提取模块

5.3.1汉语词法分析系统ICTCLAS的应用

5.3.2中文文本的关键句子提取

5.3.3中英混合文本关键句子提取

5.4分类器实现模块

5.4.1贝叶斯分类字典的建立

5.4.2对新邮件的判断

5.5数据库连接模块

结论

参考文献

攻读硕士学位期间取得的研究成果

致谢

展开▼

摘要

在近20多年的时间里随着互联网的迅速发展,电子邮件成了人们相互之间交流的主要方式之一。随着电子邮件给大家带来巨大便利的同时,垃圾邮件也在疯狂的涌入到用户的信箱,带来了巨大的危害,因此研究和设计高效率的垃圾邮件过滤系统有着重大的现实意义。 本文首先对垃圾邮件进行了的概述,并对国内外垃圾邮件过滤技术进行了综合介绍。其次,对电子邮件原理、相关协议、过滤原理以及贝叶斯算法进行了深入的分析与研究。垃圾邮件过滤的主要技术方案包括服务器端过滤和客户端过滤,本文重点对客户端中文垃圾邮件的过滤方法进行研究。垃圾邮件过滤本质上是文本分类问题,而贝叶斯算法广泛应用于文本分类等领域。本文对贝叶斯算法进行了比较深入的研究,发现贝叶斯算法所依赖的特征串一般都是单个的字或词。因此,如果在邮件中放进大量的随意组成的常见单词和短语,传统的过滤方法无法有效过滤这一类垃圾邮件。另一方面,我们发现垃圾邮件发送者最终还是要把自己的主要意思表达出来,而表达主要意思一般通过不穿插杂乱无章的词语的完整的句子来表达,其目的是为了让读者能够知道他所要表达的主要意思。当然该句子可能放在许多添加的无意义的词语中间。所以在详细研究了该算法的基础上,提出基于句法分类方法的贝叶斯算法。 本论文在Windows环境下,基于Java平台设计了一个具有渐增学习能力的个性化客户端过滤软件,根据用户手动分类结果智能学习垃圾邮件各项特征,建立用户个人的知识库,基于用户个人的知识库对新邮件进行判断是否为垃圾邮件,然后对该新邮件进行学习,更新知识库。实验表明,基于句子分类技术算法SDA在一定层度上要优于依赖单个字或词特征串的算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号