文摘
英文文摘
第1章绪论
1.1搜索引擎简介
1.1.1搜索引擎的定义
1.1.2搜索引擎的发展
1.1.3搜索引擎的分类
1.1.4当前主要搜索引擎
1.2研究现状
1.3搜索引擎的发展动向
1.4内容安排
第2章搜索引擎技术
2.1搜索引擎的挑战
2.1.1传统信息检索技术
2.1.2 Web信息的挑战
2.2搜索引擎的体系结构
2.2.1 Crawler
2.2.2 Indexer
2.2.3 Searcher
2.3相关技术
2.3.1分布式技术
2.3.2中文分词
2.3.3网页排序
2.3.4海量数据存储
2.3.5压缩技术
2.4实际系统研究
2.4.1 Google的整体结构
2.4.2 Google的工作过程
第3章搜索引擎中的存储数据
3.1搜索引擎中的数据
3.2存储实现技术
3.2.1存储器模型
3.2.2存储技术
3.3存储方式选择
3.3.1页面数据
3.3.2索引数据
3.3.3 URL数据
3.4实际系统研究
3.4.1 Google中的数据存储
3.4.2 Lucene中的索引数据存储
3.4.3 Nutch中的页面数据存储
第4章数据存储系统WDB的实现
4.1设计特点
4.2体系结构
4.2.1数据问模块
4.2.2缓冲管理模块
4.2.3事务管理模块
4.2.4锁管理模块
4.2.5日志管理模模块
4.2.6元数据管理模块
4.3 API接口
4.3.1基本API接口层
4.4性能测试
第5章利用WDB实现Carwler
5.1 CRAWLER的数据存储
5.1.1表dmntbl_#DomainID
5.1.2表domain_info
5.1.3表global-info
5.1.4表timestamp
5.2 WDB提供的CRAWLER API接口
5.3数据存储服务过程
5.3.1连接建立过程
5.3.2具体请求数据格式
5.4试验结果
第6章总结与展望
参考文献
致谢
浙江大学;