文摘
英文文摘
第一章 引言
1.1 互联网发展现状
1.2 搜索引擎简介
1.2.1 搜索引擎简介
1.2.2 提高搜索引擎检索效率的几种策略
1.3 网页去重的应用前景
1.4 本文的主要内容和组织
第二章 重复网页检测算法研究现状
2.1 重复网页检测概述
2.2 重复网页检测算法研究现状
2.2.1 基于内容的重复网页检测
2.2.2 基于链接的重复网页检测
2.2.3 基于链接信息的重复网页检测
2.2.4 几种重复网页检测方法的比较
2.3 重复网页检测相关技术
2.3.1 网页解析
2.3.2 网页文本分词
2.3.3 网页文本表示及特征选择
2.3.4 网页相似度比较
2.4 本章小结
第三章 中文重复网页的改进检测算法研究
3.1 DSC算法模型
3.2 改进中文重复网页检测算法总体设计
3.3 改进中文重复网页检测算法详细设计
3.4 本章小结
第四章 实验设计及结果分析
4.1 实验环境
4.2 实验步骤
4.2.1 网页解析及纯文本提取
4.2.2 网页文本的中文分词
4.2.3 网页向量空间表示及相似度计算
4.3 实验结果分析
4.4 本章小结
第五章 总结和展望
5.1 本文总结
5.2 未来工作展望
参考文献
附录 实验核心代码
致谢
攻读学位期间发表的学术论文目录