首页> 中文学位 >基于最大熵模型的垃圾邮件过滤系统研究
【6h】

基于最大熵模型的垃圾邮件过滤系统研究

代理获取

目录

文摘

英文文摘

苏州大学学位论文独创性声明及使用授权声明

第一章引言

第二章垃圾邮件过滤技术研究的现状

第三章邮件预处理

第四章最大熵模型在垃圾邮件过滤中的应用

第五章基于最大熵的垃圾邮件过滤插件的设计与开发

第六章总结与展望

参考文献

攻读学位期间公开发表的论文

致 谢

展开▼

摘要

电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。 近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑/8名单技术、规则过滤等,但由于垃圾邮件的特征在不断地变化,规则难以维护、准确率不高等原因,这些方法都具有一定的局限性。目前,把垃圾邮件过滤与机器学习、文本分类和信息过滤技术结合起来,对邮件正文内容进行分析,成为研究的热点。基于内容的分析能够自动获得垃圾邮件的特征,是一种更为精确的垃圾邮件过滤技术。 本文首先介绍了垃圾邮件过滤技术的研究背景,重点对目前常用的基于内容的垃圾邮件过滤算法进行了分析、比较。在此基础上,对邮件进行预处理,将其表示成XML格式,为面向邮件的应用程序开发提供了统一的结构化表示。 最大熵模型是一个比较成熟的统计模型,其计算模型独立于特定的任务,具有简洁、通用和易于移植等特点,近年来在自然语言处理领域得到了广泛应用。 本文的重点工作是将最大熵方法应用到垃圾邮件过滤中,提出了基于最大熵的垃圾邮件过滤系统的基本框架;结合邮件的半结构化特性,提取邮件的结构特征、正文特征,对邮件内容进行初步的信息抽取,将邮件表示成邮件特征向量,并对使用不同特征集情况下的过滤性能进行了对比实验;改进传统最大熵模型中的特征函数定义,实验结果表明词频特征函数具有较好的过滤性能;引入N-gram中性能较好的平滑算法对最大熵模型进行平滑,解决“稀疏”事件问题,对绝对折扣和高斯先验两种平滑算法进行了对比;提出了过滤模型的自适应调整和学习算法,以适应邮件特征的变化,满足用户的个性化过滤要求;将最大熵方法与其它常用的垃圾邮件过滤方法进行了性能比较,实验结果表明,这种方法在召回率、正确率、Fl值、错误率等方面表现出了良好的过滤性能。 最后,将基于最大熵的垃圾邮件过滤方法与Outlook提供的PIA相结合,开发出一个垃圾邮件过滤插件,在客户端用最大熵方法实现了基于内容的垃圾邮件过滤,较好地帮助用户解决了垃圾邮件泛滥的问题。

著录项

  • 作者

    司广涛;

  • 作者单位

    苏州大学;

  • 授予单位 苏州大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 朱巧明;
  • 年度 2006
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.098;
  • 关键词

    垃圾邮件过滤; 最大熵模型; 平滑技术;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号