首页> 中文学位 >基于粗糙集的最小风险贝叶斯垃圾邮件过滤算法的研究
【6h】

基于粗糙集的最小风险贝叶斯垃圾邮件过滤算法的研究

代理获取

目录

文摘

英文文摘

声明

第一章概述

第一节垃圾邮件的文化与历史概述

1.1.1垃圾邮件的定义

1.1.2垃圾邮件泛滥的原因和危害

第二节反垃圾邮件研究现状

第三节论文章节安排

第二章贝叶斯技术研究

第一节文本自动分类技术研究

第二节贝叶斯(Bayesian)基础理论

2.2.1贝叶斯定理

2.2.2极大后验假设与极大似然假设

第三节几种贝叶斯分类模型

2.3.1一般贝叶斯模型

2.3.2朴素贝叶斯分类模型(NBC)

2.3.3最小风险贝叶斯算法

第三章粗糙集理论研究

第一节粗糙集理论的产生和发展

第二节粗糙集理论概述

第三节粗糙集属性约简

3.3.1粗糙集属性约简

3.3.2几种常见的约简算法

第四章基于粗糙集的最小风险贝叶斯垃圾邮件过滤算法

第一节算法的提出

第二节基于粗糙集的最小风险贝叶斯垃圾邮件过滤算法

4.2.1决策表离散化

4.2.2基于数据库的属性约简方法

4.2.3 RMRB垃圾邮件过滤算法理论依据

第三节算法的实现

4.3.1测试数据集简介

4.3.2算法实现

第四节实验结果与分析

4.4.2评价体系

4.4.3实验步骤

4.4.4实验结果分析

第五章结论与展望

第一节结论

第二节展望

参考文献

致谢

展开▼

摘要

随着因特网的迅猛发展,在线的可用电子信息也迅速增加,电子邮件作为一种最快捷、最经济的通讯方式,也得到飞速发展。但是同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器的大量存储空间,用户往往要花费大量时间去删除这些垃圾邮件。因此,研究有效的过滤算法具有重要的意义。 邮件的自动过滤主要有基于规则和基于概率两种方式。基于概率的朴素贝叶斯算法具有方法简单、运算速度快、分类精确度高等优点,在邮件过滤中得到广泛应用。但是,在邮件过滤过程中,合法邮件被误判为垃圾邮件将可能给用户带来巨大的损失。 本文介绍了当前邮件过滤的国内外研究现状,分析了传统贝叶斯算法在邮件过滤过程中存在的局限性,传统的朴素贝叶斯算法在对邮件进行分类与过滤时,没有充分考虑到合法邮件与垃圾邮件具有这一不同的特性,因此用于邮件过滤时有一定的局限性。同时,朴素贝叶斯分类模型中的类条件独立假设也是它的先天不足所在,独立性假设在许多实际问题中不能够成立,如果在这些问题中忽视这一点,会引起分类的误差。 针对朴素贝叶斯的不足,本文提出了基于粗糙集的最小风险贝叶斯邮件过滤算法,该算法通过粗糙集属性约简在保持分类一致的前提下简化数据,从而削减冗余对象与属性、寻求属性的最小子集,满足属性间的相互独立条件;在传统的将邮件分类为正常邮件以及垃圾邮件的基础上,提出将邮件分为三类,即正常邮件,垃圾邮件以及可疑邮件,从而降低正常邮件的误判率。在实现粗糙集属性约简时,提出基于数据库的属性约简方法,提升了约简效率。实验结果表明,该算法能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。 本文的基于粗糙集的最小风险贝叶斯邮件过滤算法以及计算过程中采用的基于数据库的处理方法对垃圾邮件的过滤系统具有一定的参考作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号