首页> 中文学位 >基于SVM的智能邮件过滤系统研究与设计
【6h】

基于SVM的智能邮件过滤系统研究与设计

代理获取

目录

文摘

英文文摘

华南理工大学学位论文原创性声明及学位论文版权使用授权书

第一章绪论

第二章统计学习理论及支持向量机简介

第三章中文分词处理

第四章支持向量机算法在邮件过滤中的应用

第五章智能邮件过滤系统的设计与实现

结论

参考文献

攻读学位期间发表论文

致谢

展开▼

摘要

随着电子邮件的广泛应用,垃圾邮件越来越对系统的安全和人们的生活造成很大的不便,反垃圾邮件问题已经成为具有重要现实意义的课题。 本文介绍了垃圾邮件的背景知识理论,并简要介绍了目前现有的邮件过滤手段以及其它相关的理论知识。对文本分类的相关技术,包括中文文本分词、文本特征提取、文本分类算法的性能评估方法等,进行探讨研究。 本文的主要工作: 1、对中文文本分词进行研究,并初步实现了一个汉语分词测试系统 本文在汉语自动分词方面,我们研究了分词系统实现的基本思想和组成框架,包括词语粗切分、未登录词识别、词性标注排歧等技术。在词语粗切分的研究中,综合最短路径方法与全切分方法,提出了一种基于N-最短路径一元统计的粗分模型对中文词语进行粗分,句子粗分召回率比常用方法有较大幅度的提高。在词性标注排歧的研究中,我们采用了CLAWS算法的思想,结合每个词的各个词性标记具有不同概率的特点,基于隐马尔科夫模型进行词性的标注排歧。 2、比较三种分类算法在垃圾邮件过滤的情况 本文阐明了邮件的特征表示方法和支持向量机理论,讨论了基于支持向量机的邮件过滤算法,并通过实验比较了支持向量机算法与简单向量距离法、贝叶斯算法在垃圾邮件过滤中的情况。结果表明,支持向量机算法的过滤效果明显优于另外两种算法。 3、本文设计并初步实现了一个基于支持向量机的智能邮件过滤系统 该系统位于邮件客户端,能对邮件样本进行自动学习,并自动登录服务器检测新邮件。本文所实现系统的特点在于:采用两级过滤方式,从而在过滤速度与效果上有较优的表现;在第一级过滤中不仅能按好友列表、地址黑名单过滤,还能按邮件主题的相似性过滤;在第二级过滤中不仅考虑邮件内容特征词条,还综合考虑了邮件的专项特征,因此,其过滤效果优于单纯的规则过滤和内容统计过滤;系统还采取了多项措施来减少因误判而带给用户的损失,如,保存可疑邮件,发送回执信息等。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号