基于贝叶斯理论的中文垃圾邮件过滤算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅速普及,电子邮件已经成为现代通信的主要手段之一。然而垃圾邮件的泛滥也引起了人们的高度重视,垃圾邮件不仅耗费用户的时间和精力、占用大量的网络带宽和存储资源,而且带来了网络和信息安全隐患。因此,研究垃圾邮件过滤技术具有重要的现实意义。
　　基于内容的垃圾邮件过滤技术是反垃圾邮件的重要技术,目前主要有关键词过滤技术、基于规则的过滤技术和基于统计学习的过滤技术。基于概率统计的朴素贝叶斯算法因其简单、高效、分类精确度高等优点,被广泛应用于垃圾邮件过滤系统中,然而它也也有缺点,例如不能很好地应用于中文邮件过滤、没有考虑到误判风险、不能进行增量学习等。
　　分析了中英文邮件在分类处理上的差异,讨论了中文邮件预处理技术,包括邮件解析、中文分词和特征选取,并给出了朴素贝叶斯中文邮件过滤算法。邮件过滤中,合法邮件误判为垃圾邮件会给用户带来更大的损失,传统贝叶斯算法没有考虑到这种差异。在朴素贝叶斯算法基础上,引入了损失最小化的思想,提出了最小风险贝叶斯邮件过滤算法,该算法能根据用户的需求通过调整损失因子的大小,达到相应的过滤效果。
　　在训练集数据不完备的情况下,贝叶斯分类器容易对新邮件产生分类错误,若这些分类错误的邮件过早地加入到分类器中会降低其分类性能。传统贝叶斯分类器要想学习新样本所包含的信息,必须重新学习全部样本,这样每学习一次,都要耗费大量的时间。为解决这些问题,提出了基于用户反馈的贝叶斯增量学习算法,在最小风险贝叶斯分类器的基础上,自主选择学习新样本修正分类器,并给出了增量学习计算公式。
　　使用JAVA语言实现了本文提出的算法,在中国教育科研网的中文邮件语料上测试了中文邮件过滤中特征数、损失因子等参数和过滤效果间的关系,得出了较优的参数设定。实验结果也表明改进的基于用户反馈的最小风险贝叶斯增量学习算法在性能上优于传统的贝叶斯邮件过滤算法。

著录项

作者
包理群;
展开▼
作者单位

兰州交通大学;

展开▼
授予单位兰州交通大学;
学科计算机软件与理论
授予学位硕士
导师姓名伍忠东;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.098;
关键词
中文垃圾邮件; 过滤算法; 贝叶斯理论; JAVA语言;

相似文献

中文文献
外文文献
专利

1. 基于朴素贝叶斯的中文垃圾邮件过滤 [J] . 张培 ,纪鸿旭 ,李璐 . 信息与电脑 . 2017,第007期
2. 基于短语的贝叶斯中文垃圾邮件过滤方法 [J] . 王青松 ,魏如玉 . 计算机科学 . 2016,第004期
3. 基于改进的贝叶斯中文垃圾邮件过滤方法研究 [J] . 马威 ,褚红丹 ,高哲 . 电脑知识与技术 . 2008,第0z2期
4. 基于贝叶斯理论的垃圾邮件过滤技术综述 [J] . 孟兆玲 ,赵轶群 . 现代计算机（专业版） . 2007,第011期
5. 一种基于贝叶斯理论实现垃圾邮件过滤的方法 [J] . 庞雅静 ,朱金钧 . 电脑知识与技术 . 2007,第002期
6. 贝叶斯理论在垃圾邮件过滤中的应用分析 [C] . 周立兵 ,柳景超 . 中国造船工程学会电子技术学术委员会第七届会员代表大会暨电子技术2006年学术年会 . 2006
7. 基于贝叶斯的中文垃圾邮件过滤系统的设计与实现 [A] . 黄志刚 . 2007

基于贝叶斯理论的中文垃圾邮件过滤算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅