封面
声明
中文摘要
英文摘要
目录
第一章 绪论
§1.1 课题背景及研究意义
§1.1.1 搜索引擎发展及现状
§1.1.2 网页去重的需求
§1.1.3 研究内容及创新点
§1.1.4 本文的组织
第二章 网页去重技术
§2.1 去重技术概述
§2.2 国外去重算法
§2.2.1 SCAM算法
§2.2.2 DSC和DSC-SS算法
§2.2.3 I-Match算法
§2.3 国内去重算法
§2.3.1 北大天网查重算法
§2.3.2 基于特征串的网页查重算法
§2.3.3 基于特征句抽取的网页去重研究
§2.4 本章小结
第三章 STC和重复序列算法比较及改进算法
§3.1 STC和重复序列两种算法比较
§3.1.1 后缀树
§3.1.2 重复序列
§3.1.3 实验结果分析
§3.2 基于重复串的STC改进算法
§3.2.1 算法分析
§3.2.2 基本定义
§3.2.3 算法描述
§3.2.4 实验结果分析
§3.3 本章小结
第四章 搜索引擎系统开发及去重实验
§4.1 搜索引擎的系统框架
§4.2 系统的模块结构
§4.2.1 网络蜘蛛(爬虫)
§4.2.2 去除噪声、文本提取
§4.2.3 Page-Rank网络排名
§4.2.4 切词
§4.2.5 索引
§4.2.6 查询器
§4.3 改进去重算法在搜索引擎系统中的应用
§4.3.1 算法描述
§4.3.2 搜索引擎去重系统的实现
§4.4 改进算法测试结果
§4.4.1 搜索引擎评价指标
§4.4.2 查重效果测试
§4.5 本章小结
第五章 总结及展望
§5.1 总结
§5.2 展望
参考文献
致谢
作者在攻读硕士期间主要研究成果