首页> 中文学位 >基于LSA和MD5算法的垃圾邮件过滤系统研究
【6h】

基于LSA和MD5算法的垃圾邮件过滤系统研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章绪论

1.1研究的背景及意义

1.2研究现状及面临的挑战

1.2.1反垃圾邮件技术

1.2.2目前垃圾邮件的过滤方式

1.2.3目前垃圾邮件过滤的主要方法

1.2.4垃圾邮件反过滤的新方法

1.2.5面临的挑战

1.3论文主要研究内容、创新工作及组织结构安排

第2章电子邮件系统工作原理

2.1邮件传送过程

2.2电子邮件系统的组成与工作模式

2.3几个重要协议和编码标准

2.3.1TCP/IP

2.3.2 SMTP

2.3.3 POP3/IMAP

2.3.4电子邮件的三种编码标准

2.4本章小结

第3章潜在语义分析的邮件过滤技术研究

3.1潜在语义分析法(LSA)概述

3.1.1理想的潜在语义分析模型

3.1.2潜在语义分析的基本原理

3.2奇异值分解(SVD)

3.2.1奇异值分解理论

3.2.2奇异值分解在潜在语义分析法中的运用

3.3扩展的潜在语义分析技术(LSA)

3.3.1变形特征词(词组)识别历史矢量更新技术

3.3.2变形特征词(词组)的预测置信度

3.4试验结果与分析

3.5本章小结

第4章LSA和MD5算法的垃圾邮件过滤系统研究

4.1相似文本检测技术概述

4.2信息—摘要算法

4.2.1 MD5

4.2.2 SHA

4.2.3 SHA和MD5的比较

4.3垃圾邮件过滤系统采用的软硬件环境

4.3.1硬件环境

4.3.2软件环境

4.4垃圾邮件过滤系统的总体结构

4.5系统各个主要模块功能

4.5.1预处理模块

4.5.2 LSA特征提取模块

4.5.3特征码生成模块

4.5.4“邮件指纹”库模块

4.6系统实验结果分析

4.7本章小结

总结与展望

参考文献

致谢

附录A 攻读硕士学位期间所发表的学术论文

展开▼

摘要

随着Internet的迅速普及,垃圾邮件问题引起了社会广泛的关注。目前解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤是一个较为重要的方法。 本文采用潜在语义分析方法(LSA),通过对邮件样本集进行训练,用其产生的分类器对待测邮件内容进行文本分类、信息过滤,从而获取垃圾邮件。但LSA在权重计算上多继承向量空间模型,忽视了其自身特点,导致缺乏文档先验信息和文档全局信息植入,使得在实际应用中过分机械。为了解决这个问题,本文通过引入一种新的权重函数来改进原有方法,使得基于主动学习的潜在语义分析方法能构造出更适合于实际应用的垃圾邮件过滤系统。通过实验表明,采用扩展权重计算方法的LSA,在性能上优于传统权重计算方法的LSA。 针对现阶段多数垃圾邮件主体或发信人地址常动态改变,其正文及附件内容却基本一致,而在拥有数万用户的大型局域网中,垃圾邮件普遍以群发的方式在网内传播这些现象,本文利用Message-DigestAlgorithm 5(MD5),在LSA分析的基础上,对群发型垃圾邮件生成“邮件指纹”,以解决过滤技术在处理群发型垃圾邮件中低效的问题,进一步提高了垃圾邮件系统识别的准确率。 文中采用中国反垃圾邮件联盟收集的数据集,对基于LSA和MD5算法的垃圾邮件过滤系统进行测试评估,经与Naive Bayes算法过滤器进行比较,证明该方法在垃圾邮件过滤上优于Naive Bayes方法,并通过实验验证了该方法的可行性、优越性。 但是,本文所作的都是基于实验环境下的,要将该方法真正用于实际的电子邮件系统,还有大量的工作需要去做。

著录项

  • 作者

    孙晶涛;

  • 作者单位

    兰州理工大学;

  • 授予单位 兰州理工大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 张秋余;
  • 年度 2008
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.08;
  • 关键词

    垃圾邮件; 过滤系统; 互联网; 语义分析方法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号