首页> 中文学位 >基于最小风险的主动贝叶斯邮件过滤算法研究
【6h】

基于最小风险的主动贝叶斯邮件过滤算法研究

代理获取

目录

文摘

英文文摘

华南理工大学学位论文原创性声明及学位论文版权使用授权书

第一章绪论

1.1论文研究的背景和意义

1.1.1研究意义

1.1.2国内外贝叶斯研究简介

1.1.3垃圾邮件的定义

1.2垃圾邮件过滤的主要方法

1.2.1基于规则的邮件过滤方法

1.2.2基于概率的贝叶斯邮件过滤算法

1.3本文的研究内容

第二章贝叶斯过滤器的基本类型及其实现过程

2.1贝叶斯网络过滤器

2.2基于朴素的贝叶斯过滤器

2.3主动贝叶斯邮件过滤器

2.4贝叶斯邮件过滤的实现过程

2.5本章小结

第三章邮件文本信息处理

3.1向量空间模型

3.2训练样本集与测试集的选择

3.3特征项

3.3.1特征项及权值

3.3.2特征的提取

3.3.3特征项的选择

3.4向量空间的降维处理

3.4.1建立禁用词库

3.4.2 Zipf法则

3.5本章小结

第四章垃圾邮件过滤的基本方法及性能分析

4.1一般贝叶斯算法

4.2基于朴素的贝叶斯邮件过滤法

4.3基于最小风险的贝叶斯邮件过滤法

4.3.1过滤规则

4.3.2邮件过滤算法

4.4主动学习算法的基本方法

4.5实验与性能分析

4.5.1邮件过滤系统的评价准则

4.5.2训练集和特征的选择

4.5.3基于最小风险主动贝叶斯邮件过滤阀值的选择

4.5.4两种邮件过滤方法实验结果比较

4.5.5最小风险主动贝叶斯与最大熵模型邮件过滤算法比较

4.6本章小结

第五章垃圾邮件过滤器的设计与实现

5.1邮件过滤系统的设计

5.1.1邮件过滤系统的基本组成

5.1.2邮件过滤的程序流程

5.1.3邮件过滤的环境要求

5.2邮件过滤系统的系统结构

5.3邮件过滤系统的实现

5.4基于最小风险主动贝叶斯的邮件过滤系统的联机测试结果

5.5本章小结

结论

参考文献

在学期间发表与学位论文内容相关的学术论文

致谢

展开▼

摘要

邮件自动过滤主要有基于规则和基于概率两种形式.基于概率的朴素贝叶斯算法具有方法简单、运算速度快、分类精度高等优点,在文本分类中得到广泛的应用.但是,传统的朴素贝叶斯算法在对邮件进行分类与过滤时,没有充分考虑合法邮件被误判为垃圾邮件将可能给用户带来的巨大损失,本文研究的基于最小风险主动贝叶斯算法弥补了这方面的不足.本文讨论最小风险主动贝叶斯邮件过滤算法,使用N-gram分词法提取特征,利用Delphi6.0开发环境构造一个新的邮件过滤系统.分别取邮件数为20、40、60、80、100、120、140、160、180的训练样本集进行测试,实验结果表明,该系统具有较好的学习能力和学习效果.通过数据分析测定,可用邮件数为160的训练集作测试样本集,并通过测试确定,当阀值取8时,在邮件过滤应用中,能获得较高的查全率、准确率和综合测试值.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号