首页> 中文学位 >基于摘要相似性的垃圾邮件过滤技术
【6h】

基于摘要相似性的垃圾邮件过滤技术

代理获取

目录

文摘

英文文摘

第一章 引言

第一节 现代社会与垃圾邮件

第二节 反垃圾邮件现状

第三节 本文研究的内容

第四节 论文结构

第二章 研究基础

第一节 Chord网络环境研究

2.1.1 结构化P2P

2.1.2 Chord网络

2.1.3 基于Chord的协作式文件系统CFS

第二节 高维向量相似搜索研究

2.2.1 度量空间模型

2.2.2 高维向量近似搜索方法

第三章 改进的摘要算法P-Nil

第一节 哈希算法

第二节 摘要算法分析

3.2.1 Nilsimsa

3.2.2 CTPH模糊摘要算法

3.2.3 Nilsimsa和CTPH的特征及不足

第三节 分片摘要算法P-Nil的提出

第四章 基于LSH的P-Nil摘要的发布与查询方法

第一节 二值化摘要相似度量

第二节 局部敏感哈希LSH

4.2.1 LSH

4.2.2 LSH索引

第三节 基于Chord的LSH函数设计

4.3.1 基于Chord的LSH函数设计要点

4.3.2 汉明空间到k维向量的转化

4.3.3 k维向量映射转化为一维标识符

4.3.4 基于Chord的LSH关键字的产生

第四节 P-Nil摘要的发布与查询

4.4.1 摘要的发布

4.4.2 P-Nil摘要的查询

第五章 实验与性能评价

第一节 P-Nil验证实验描述

5.1.1 攻击方式抵御效果对比

5.1.2 相似文本实际过滤效果

第二节 摘要发布仿真实验

5.2.1 利用随机生成数据仿真

5.2.2 利用真实数据集仿真

第六章 原型系统设计与实现

第一节 LSHNil相似搜索系统设计

第二节 系统特性

第三节 数据的发布与查询

6.3.1 数据的发布

6.3.2 数据的查询

第七章 总结与展望

第一节 系统的特点

第二节 进一步完善系统的建议

参考文献

致谢

附录

附录 A:图索引

附录 B:表索引

个人简历、在学期间的研究成果

展开▼

摘要

随着网络的普及,互联网上的垃圾邮件问题日趋严重。垃圾邮件过滤作为有效遏制垃圾邮件泛滥的技术,其重要性和必要性越来越得到广泛的认可。由于分布式垃圾邮件过滤技术通过交换邮件服务器间的邮件信息能够很好地利用垃圾邮件分布的全局特性,具有较高的垃圾邮件识别能力,因此正逐渐成为研究热点。
   Nilsimsa摘要算法在分布式垃圾邮件过滤技术中占有重要地位。本文在对Nilsimsa摘要算法进行深入分析的基础上,提出了分片Nilsimsa摘要算法P-Nil。该算法结合了分片哈希和Nilsimsa算法的优势,首先对文本进行分片并且计算分片的Nilsimsa摘要,然后用分片摘要的相似度代表整个文本的相似度。P-Nil算法以一定相似度计算复杂度为代价换取识别率的提高。本文通过三组对比实验说明了P-Nil算法使识别率提高了20%左右。
   在此基础上,本文进一步提出了基于Chord的邮件P-Nil摘要发布与查询方法:LSHNil。文章详细论述了LSHNil的发布与查询方法。LSHNil使用局部敏感哈希LSH将摘要哈希成Chord网络中的key值,并且根据key值将摘要发布到Chord网络中。由于相似摘要的LSH哈希值相差较小,因此相似的摘要被发布到相同或拓扑相近的Chord节点上。然后本文通过仿真实验验证了LSHNil的有效性。对于随机数据,LSHNil可以保证每组相似邮件的发布至多涉及标识符空间的11%,并且近似查询只搜索9%的标识符空间就可以搜索到80%的相似邮件。真实数据的仿真实验得到了与随机数据相似的结论。仿真实验结果还证明了LSHNil系统具有较好的负载均衡特性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号