首页> 中文学位 >协作式垃圾邮件过滤关键技术研究
【6h】

协作式垃圾邮件过滤关键技术研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章绪 论

1.1研究背景和意义

1.2垃圾邮件概述

1.2.1垃圾邮件的起源

1.2.2垃圾邮件的定义

1.2.3垃圾邮件的组成

1.3电子邮件的工作原理

1.3.1邮件传送过程

1.3.2 SMTP协议

1.3.3 POP3协议

1.3.4 MIME协议

1.4论文的主要内容和贡献

1.5论文组织结构安排

第2章国内外反垃圾邮件技术研究现状

2.1反垃圾邮件技术

2.1.1过滤技术

2.1.2验证查询

2.1.3挑战技术

2.2垃圾邮件反过滤的手段

2.3本章小结

第3章基于交叉N元组特征选取策略的Bayesian邮件分类算法

3.1 Bayes分类算法概述

3.1.1邮件预处理

3.1.2特征项提取

3.1.3 Naive Bayes分类过程

3.2交叉N元语言模型和特征选取

3.2.1交叉N元组的构造

3.2.2特征项选取策略

3.3基于交叉N元组的贝叶斯分类算法性能实验

3.3.1实验语料

3.3.2邮件分类评价标准

3.3.3实验结果及分析

3.4本章小结

第4章基于支持向量机的邮件分类算法研究

4.1支持向量机分类算法

4.1.1统计学习理论

4.1.2支持向量机

4.2基于不同核函数的支持向量机邮件分类效果的实验

4.2.1实验语料与邮件特征向量的构造

4.2.2实验及结果分析

4.3代价敏感支持向量机及其在垃圾邮件过滤中的应用

4.3.1代价敏感支持向量机

4.3.2实验及结果分析

4.4本章小结

第5章基于相似性检测的协作式邮件过滤方法研究

5.1相似文本检测

5.2相似图像检测

5.2.1图像特征提取

5.2.2图像相似性度量

5.3 P2P技术

5.3.1 P2P技术的特点

5.3.2 P2P网络拓扑结构分类

5.4结构化P2P网络相似文本和相似图像的聚集存储和模糊查询

5.4.1 Chord路由算法

5.4.2相似对象的聚集存储

5.4.3相似对象查询

5.4.4实验和性能分析

5.5基于P2P网络的协作式垃圾邮件过滤系统

5.6本章小结

总结与展望

参考文献

致 谢

附录A 攻读学位期间所发表的学术论文目录

展开▼

摘要

随着Internet的迅速普及,电子邮件已经成为人们进行信息交流的重要手段之一,它极大地方便了人们的工作、学习和生活。但近年来,垃圾邮件的泛滥愈演愈烈,对Internet的良性发展造成了很大危害,如何有效地抑制垃圾邮件的传播已经成为相关领域的重要研究课题。
   本文从国内垃圾邮件泛滥的现状出发,以垃圾邮件过滤中的关键技术为研究内容,重点对中文邮件特征项的构造、基于支持向量机邮件分类算法和基于P2P网络的垃圾邮件样本共享策略进行了研究:
   1.为了解决中文垃圾邮件过滤中分词这一瓶颈问题,本文提出一种交叉N元组特征项构造策略,可以避免中文分词不准确对过滤器性能的影响,同时在一定程度上克服了传统特征项提取中特征项独立性假设与实际情况不符的缺陷。为了验证该策略的有效性,使用朴素贝叶斯分类器在开放中文邮件语料库上进行实验,实验证明该策略具有较强的抗干扰性,可以在一定场景下识别通过文字处理进行伪装的垃圾邮件。
   2.在统计学习理论和支持向量机分类算法的研究基础上,通过翔实的实验,验证了支持向量机在垃圾邮件分类中的有效性,通过分析各种核函数、训练样本分布对分类性能的影响,根据中文邮件分类的特殊要求,提出一种代价敏感支持向量机,通过调整学习机参数可以有效降低垃圾邮件过滤假阳性率,使支持向量分类算法更加符合垃圾邮件过滤这一特定应用需求。
   通过分析支持向量机在垃圾邮件分类时错误分类样本的分布特性,提出一种将分类结果划分为正常邮件、垃圾邮件和可疑邮件3个类别的改进分类算法,可以使支持向量机进行垃圾邮件过滤时进一步降低对正常邮件的误判,提高分类器的实用性。
   3.为了保证垃圾邮件过滤技术在实际应用中的有效性,过滤器必须及时跟踪垃圾邮件语义特征的变化,且目前对图片格式垃圾邮件的过滤仍以相似图片检测为基础,这两个问题都需要以相对完备的垃圾邮件样本为基础,因此必须实现垃圾邮件样本的共享。在深入研究全分布式结构化P2P技术以及各种分布式哈希表路由算法基础上,针对结构化P2P无法实现资源的模糊查询的缺点,结合相似文本检测技术、相似图像检测技术,提出一种扩展路由策略。该策略通过扩展DHT路由策略,基于Chord路由算法实现了相似文本和相似图像在结构化P2P网络中的聚集存储,满足分布式存储中负载均衡的要求,并在此基础上实现了结构化P2P网络中垃圾邮件样本的高效共享。
   最后,针对单点、单种反垃圾邮件技术过滤能力有限的情况,结合上述关键技术的研究,提出一种多层次组合、多点协作的过滤系统体系,以期达到对各种垃圾邮件更加有效地进行过滤。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号