声明
摘要
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文组织结构
第2章 网页去重相关理论
2.1 搜索引擎介绍
2.2 重复网页介绍
2.3 重复网页产生的原因
2.4 搜索引擎的评价标准
2.4.1 准确率与召回率
2.4.2 平均准确率
2.4.3 重复网页对搜索结果的影响
2.5 本章小结
第3章 布隆过滤器及其改进算法介绍
3.1 标准布隆过滤器
3.1.1 标准布隆过滤器介绍
3.1.2 性能分析
3.1.3 算法缺点
3.2 计数布隆过滤器
3.2.1 计数布隆过滤器介绍
3.2.2 性能分析
3.3 多维布隆过滤器
3.3.1 多维布隆过滤器介绍
3.3.2 性能分析
第4章 模拟实验
4.1 实验评价标准
4.2 程序实现方式
4.3 Heritrix结构
4.4 代码结构
4.4.1 数据结构
4.4.2 哈希函数
4.4.3 方法函数
4.5 实验结果
4.5.1 标准布隆过滤器
4.5.2 计数布隆过滤器
4.5.3 多维布隆过滤器
4.6 本章小结
第5章 工作总结与展望
5.1 工作总结
5.2 后期展望
参考文献
致谢