首页> 中文学位 >基于贝叶斯理论的中文垃圾邮件过滤算法研究
【6h】

基于贝叶斯理论的中文垃圾邮件过滤算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 反垃圾邮件概述

1.2 电子邮件的工作原理

1.3 目前主要的反垃圾邮件技术

1.4 本文研究的目的和意义

1.5 论文的主要工作

2 中文邮件文本信息预处理

2.1 电子邮件的格式

2.2 邮件解析

2.3 中文分词

2.4 特征项提取

3 最小风险贝叶斯邮件过滤算法

3.1 贝叶斯理论

3.2贝叶斯算法在邮件过滤中的应用

3.3 贝叶斯算法的优点和局限性

3.4 最小风险贝叶斯邮件过滤算法

4 改进的基于用户反馈的贝叶斯增量学习算法

4.1 算法思想

4.2 算法描述

4.3 部分关键步骤说明

4.4 算法评价

5 模型的设计及实验结果分析

5.1 邮件过滤模型设计

5.2 系统实现

5.3 性能评价标准

5.4 实验及结果分析

结论

致谢

参考文献

攻读学位期间的研究成果

展开▼

摘要

随着互联网的迅速普及,电子邮件已经成为现代通信的主要手段之一。然而垃圾邮件的泛滥也引起了人们的高度重视,垃圾邮件不仅耗费用户的时间和精力、占用大量的网络带宽和存储资源,而且带来了网络和信息安全隐患。因此,研究垃圾邮件过滤技术具有重要的现实意义。
  基于内容的垃圾邮件过滤技术是反垃圾邮件的重要技术,目前主要有关键词过滤技术、基于规则的过滤技术和基于统计学习的过滤技术。基于概率统计的朴素贝叶斯算法因其简单、高效、分类精确度高等优点,被广泛应用于垃圾邮件过滤系统中,然而它也也有缺点,例如不能很好地应用于中文邮件过滤、没有考虑到误判风险、不能进行增量学习等。
  分析了中英文邮件在分类处理上的差异,讨论了中文邮件预处理技术,包括邮件解析、中文分词和特征选取,并给出了朴素贝叶斯中文邮件过滤算法。邮件过滤中,合法邮件误判为垃圾邮件会给用户带来更大的损失,传统贝叶斯算法没有考虑到这种差异。在朴素贝叶斯算法基础上,引入了损失最小化的思想,提出了最小风险贝叶斯邮件过滤算法,该算法能根据用户的需求通过调整损失因子的大小,达到相应的过滤效果。
  在训练集数据不完备的情况下,贝叶斯分类器容易对新邮件产生分类错误,若这些分类错误的邮件过早地加入到分类器中会降低其分类性能。传统贝叶斯分类器要想学习新样本所包含的信息,必须重新学习全部样本,这样每学习一次,都要耗费大量的时间。为解决这些问题,提出了基于用户反馈的贝叶斯增量学习算法,在最小风险贝叶斯分类器的基础上,自主选择学习新样本修正分类器,并给出了增量学习计算公式。
  使用JAVA语言实现了本文提出的算法,在中国教育科研网的中文邮件语料上测试了中文邮件过滤中特征数、损失因子等参数和过滤效果间的关系,得出了较优的参数设定。实验结果也表明改进的基于用户反馈的最小风险贝叶斯增量学习算法在性能上优于传统的贝叶斯邮件过滤算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号