文摘
英文文摘
致谢
1 引言
1.1 研究背景及意义
1.2 本文的主要工作
1.3 论文的组织结构
2 WAP页面消重框架
2.1 WAP页面特性
2.1.1 页面的类型
2.1.2 重复WAP页面的定义
2.2 消重框架流程
2.2.1 DOM解析
2.2.2 VIPS识别
2.2.3 页面分类
2.2.4 标题正文提取
2.3 本章小结
3 面向WAP页面的特征提取方法
3.1 现有特征提取方法
3.1.1 基于整个文档的特征提取方法
3.1.2 基于Shingle的特征提取方法
3.1.3 基于词(term/phrase)的特征提取方法
3.2 WAP页面驱动的特征提取
3.2.1 面向内容页的特征提取方法
3.2.2 面向下载页的特征提取方法
3.2.3 面向导航页的特征提取方法
3.2.4 面向图片页的特征提取方法
3.2.5 面向BBS页的特征提取方法
3.3 本章小结
4 基于SimHash消重技术的研究与应用
4.1 现有的消重技术
4.1.1 基于Shingle的消重技术
4.1.2 基于Bloom Filter的消重技术
4.1.3 基于SimHash的网页消重技术
4.2 面向WAP页面消重方法
4.2.1 算法详细描述
4.3 本章小结
5 实验及分析
5.1 WAP页面消重评价方法
5.1.1 现有评价方法
5.1.2 本文设计的评价方法
5.2 实验数据
5.3 实验设计
5.4 实验结果及分析
5.4.1 实验结果
5.4.2 实验分析
5.5 本章小结
6 总结与展望
6.1 全文总结
6.2 下一步工作展望
参考文献
作者简历
学位论文数据集