首页> 中文学位 >基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用
【6h】

基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用

代理获取

摘要

无论是日常生活中,还是商务活动中,电子邮件都已成为重要的沟通工具之一,但电子邮件的日益发展,人们饱受垃圾邮件的骚扰,严重影响了正常的通信沟通。随着互联网时代信息的大发展,垃圾邮件在内容上有了许多新变化,这些新型的垃圾邮件使得旧有的过滤系统防不胜防,识别率不够高的过滤系统无法阻挡新型垃圾邮件,但过度严格的过滤系统却可能将正常信件误判为垃圾邮件。因此,邮件过滤系统仍有很大的改进空间,目前垃圾邮件过滤技术的瓶颈已不在于提升拦截率,而是应该思考如何在保持高拦截率的同时,也能降低过滤系统对正常信件的误判率。
   通过观察发现,邮件用户所保留的正常信件中,具有一些重要特征可供邮件过滤系统学习,因此本文分别从垃圾邮件与正常信件中挖掘一部份特征,提高贝叶斯模型知识获取的效率,从而改善贝叶斯挖掘算法的分类效果,并结合马尔科夫链处理法,提出一个以邮件内容为基础的垃圾邮件过滤方法。此外,特征值的数量大小会影响分类器的过滤效能,但以固定数量选取特征却不一定是最佳的,因此本文提出基于信息增益的特征选择方法,并以此改进贝叶斯模型,通过信息增益计算来决定最佳特征数量,以找出最适当的特征值数量,达到垃圾邮件过滤效果的最佳化。论文以TREC2006所提供的中文语料库设计了实验论证,实验结果表明本文方法可明显区别垃圾邮件与正常信件的不同,可以有效对中文垃圾邮件进行过滤。

著录项

  • 作者

    张倩;

  • 作者单位

    浙江工业大学;

  • 授予单位 浙江工业大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 张敏霞;
  • 年度 2011
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.098;
  • 关键词

    垃圾邮件; 贝叶斯分类; 邮件过滤系统;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号