首页> 中文学位 >基于文本分类技术的垃圾邮件过滤研究
【6h】

基于文本分类技术的垃圾邮件过滤研究

代理获取

目录

声明

摘要

第一章 绪论

一、垃圾邮件概述

(一)垃圾邮件的定义

(二)垃圾邮件的特征

(三)垃圾邮件的危害

二、选题背景和研究意义

三、国内外研究现状

(一)基于信件源的垃圾邮件过滤技术

(二)基于规则的垃圾邮件过滤技术

(三)基于统计的垃圾邮件过滤技术

四、主要研究内容及组织安排

(一)研究内容

(二)组织安排

五、本文的创新点

第二章 文本分类的关键技术

一、文本预处理

二、文本特征提取

三、基于互信息的特征提取方法的改进

四、文本表示方法

五、垃圾邮件过滤中常用的文本分类技术

(一)决策树

(二)朴素贝叶斯分类

(三)支持向量机分类

(四)K近邻(K-Nearst Neighbour)分类

(五)K均值聚类方法

第三章 朴素贝叶斯的理论概述及改进

一、贝叶斯定理

二、朴素贝叶斯分类

三、朴素贝叶斯分类模型参数估计

四、朴素贝叶斯模型选择

五、伯努利朴素贝叶斯在垃圾邮件分类中的示例

六、隐朴素贝叶斯

第四章 垃圾邮件过滤的实证研究

一、语料库

(一)英文语料库

(二)中文语料库

(三)研究样本选择

二、分类结果的性能评价

(一)评价方法

(二)性能评价标准

三、模型的建立与分析

四、模型结果分析

(一)实验一

(二)实验二

(三)实验三

(四)实验四

(五)实验五

第五章 总结及展望

参考文献

附录

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

随着互联网广告技术的发展和E-mail的普及,垃圾邮件广告越来越严重,如何准确过滤垃圾邮件直接影响用户体验。本论文是在前人的理论与研究基础上,系统的学习了垃圾邮件分类的方法,主要分析的重点是朴素贝叶斯分类方法在垃圾邮件过滤上的研究。本文首先从定义、特征以及危害等方面对垃圾邮件进行了一个概述,分析了国内外垃圾邮件研究的现状,介绍了基于信件源以及基于内容的两种垃圾邮件过滤方法。其中基于内容统计的朴素贝叶斯分类方法其比较高效、经济并且易于实现的优点,而在垃圾邮件过滤的研究中得到了广泛的应用。接着介绍了文本分类的关键技术,有文本预处理、文本特征选择、文本表示方法以及文本分类算法。最后用实验证明本文在传统的朴素贝叶斯分类的基础上提出的几大改进地方使分类性能得到了提高。
  鉴于保证邮件准确分类的重要性以及数据的真实性以及权威性,本文利用Apache SpamAssassin Project数据设计了五组对比实验。实验一用没有经过任何处理的数据直接建立伯努利朴素贝叶斯分类模型,由于词典单词量大,从而联合概率分布计算量大,超出了计算机现有的计算能力,在计算文本被判为某类别的概率的过程中很容易超出浮点数的范围,使计算结果为零,影响分类准确率。故本文优化了计算过程,转而计算文本被判为正常邮件概率与被判为垃圾邮件概率之比,将分类正确率从88.3%提升到92.3%。虽然经过巧妙的比值计算处理,最大限度的利用了浮点数的存取范围,但该概率的比值还是会出现为零和为无穷大的情况,故需要降低文本特征维度。实验二首先是按照传统方法去除停用词,结果发现准确率反而降低了,说明有些停用词对文本分类还是有一定的贡献的,进而转向特征提取方法。实验三根据互信息特征提取方法作出了改进,提出“相对依存度、分类能力、综合分类能力”等概念,提出另一种分类依据,并将其与互信息方法进行对比,发现当都选取一万左右的特征词时,准确率从87.8%提高到了96.6%。改进后的方法可以提取出综合分类能力最大的特征集,但是对于给定的测试邮件,它的分类能力并不是最大的。故本文在此基础上进行了深入探讨,实验四对特征选择的计算方法又作出了改进,并称之为自适应特征选择,实验结果是分类准确率普遍得到了提高。在特征集维度合适的情况下,实验五为了降低朴素贝叶斯中各属性特征间相互独立这一严格的假设,通过为每个属性建立一个隐藏的父节点来描述该属性与其他属性间的一种依赖关系,并称之单隐朴素贝叶斯,最后在该模型的计算方法又提出了略小的改进,实验结果表面,分类准确率得到了提高。为提高准确性,所有实验均采取的是十折交叉验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号