基于LSA和MD5算法的垃圾邮件过滤系统研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的迅速普及，垃圾邮件问题引起了社会广泛的关注。目前解决垃圾邮件问题有众多的途径和思路，其中基于内容的垃圾邮件过滤是一个较为重要的方法。本文采用潜在语义分析方法(LSA)，通过对邮件样本集进行训练，用其产生的分类器对待测邮件内容进行文本分类、信息过滤，从而获取垃圾邮件。但LSA在权重计算上多继承向量空间模型，忽视了其自身特点，导致缺乏文档先验信息和文档全局信息植入，使得在实际应用中过分机械。为了解决这个问题，本文通过引入一种新的权重函数来改进原有方法，使得基于主动学习的潜在语义分析方法能构造出更适合于实际应用的垃圾邮件过滤系统。通过实验表明，采用扩展权重计算方法的LSA，在性能上优于传统权重计算方法的LSA。针对现阶段多数垃圾邮件主体或发信人地址常动态改变，其正文及附件内容却基本一致，而在拥有数万用户的大型局域网中，垃圾邮件普遍以群发的方式在网内传播这些现象，本文利用Message-DigestAlgorithm 5(MD5)，在LSA分析的基础上，对群发型垃圾邮件生成“邮件指纹”，以解决过滤技术在处理群发型垃圾邮件中低效的问题，进一步提高了垃圾邮件系统识别的准确率。文中采用中国反垃圾邮件联盟收集的数据集，对基于LSA和MD5算法的垃圾邮件过滤系统进行测试评估，经与Naive Bayes算法过滤器进行比较，证明该方法在垃圾邮件过滤上优于Naive Bayes方法，并通过实验验证了该方法的可行性、优越性。但是，本文所作的都是基于实验环境下的，要将该方法真正用于实际的电子邮件系统，还有大量的工作需要去做。

著录项

作者
孙晶涛;
展开▼
作者单位

兰州理工大学;

展开▼
授予单位兰州理工大学;
学科计算机软件与理论
授予学位硕士
导师姓名张秋余;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.08;
关键词
垃圾邮件; 过滤系统; 互联网; 语义分析方法;

相似文献

中文文献
外文文献
专利

1. LSA和MD5算法在垃圾邮件过滤系统的应用研究 [J] . 张秋余 ,孙晶涛 ,闫晓文 . 电子科技大学学报 . 2007,第006期
2. 基于贝叶斯算法的中文垃圾邮件过滤系统研究 [J] . 刘浩然 ,丁攀 ,郭长江 . 通信学报 . 2018,第012期
3. 基于OCR的图像型垃圾邮件过滤系统研究 [J] . 秦伟 . 机械工程与自动化 . 2013,第006期
4. 基于网页抓取分析和统计压缩模型的垃圾邮件过滤系统研究 [J] . 王玮 . 信息网络安全 . 2013,第006期
5. 基于神经网络的中文垃圾邮件过滤系统研究 [J] . 叶嫣 ,李培国 . 电脑知识与技术 . 2011,第008期
6. 基于高层次综合的高吞吐率MD5算法IP化设计 [C] . WANG Yiyun ,王一军 ,ZHANG Zengyang . 2014四川省电子学会半导体与集成技术专委会学术年会 . 2014
7. 基于MD5算法的用户身份认证系统研究 [A] . 喻谦 . 2013

基于LSA和MD5算法的垃圾邮件过滤系统研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅