首页> 中文学位 >搜索引擎中的数据存储问题研究
【6h】

搜索引擎中的数据存储问题研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1搜索引擎简介

1.1.1搜索引擎的定义

1.1.2搜索引擎的发展

1.1.3搜索引擎的分类

1.1.4当前主要搜索引擎

1.2研究现状

1.3搜索引擎的发展动向

1.4内容安排

第2章搜索引擎技术

2.1搜索引擎的挑战

2.1.1传统信息检索技术

2.1.2 Web信息的挑战

2.2搜索引擎的体系结构

2.2.1 Crawler

2.2.2 Indexer

2.2.3 Searcher

2.3相关技术

2.3.1分布式技术

2.3.2中文分词

2.3.3网页排序

2.3.4海量数据存储

2.3.5压缩技术

2.4实际系统研究

2.4.1 Google的整体结构

2.4.2 Google的工作过程

第3章搜索引擎中的存储数据

3.1搜索引擎中的数据

3.2存储实现技术

3.2.1存储器模型

3.2.2存储技术

3.3存储方式选择

3.3.1页面数据

3.3.2索引数据

3.3.3 URL数据

3.4实际系统研究

3.4.1 Google中的数据存储

3.4.2 Lucene中的索引数据存储

3.4.3 Nutch中的页面数据存储

第4章数据存储系统WDB的实现

4.1设计特点

4.2体系结构

4.2.1数据问模块

4.2.2缓冲管理模块

4.2.3事务管理模块

4.2.4锁管理模块

4.2.5日志管理模模块

4.2.6元数据管理模块

4.3 API接口

4.3.1基本API接口层

4.4性能测试

第5章利用WDB实现Carwler

5.1 CRAWLER的数据存储

5.1.1表dmntbl_#DomainID

5.1.2表domain_info

5.1.3表global-info

5.1.4表timestamp

5.2 WDB提供的CRAWLER API接口

5.3数据存储服务过程

5.3.1连接建立过程

5.3.2具体请求数据格式

5.4试验结果

第6章总结与展望

参考文献

致谢

展开▼

摘要

搜索引擎是传统的信息检索(Information Retrival)技术与Web结合的产物.传统的信息俭索技术是从一定规模的文档库中获取用户需要的信息,其核心是文本信息的索引和检索,检索主要采用传统目录方式和全文检索方式.在信息规模不大的情况下,传统的信息检索技术能够满足需求.在面对Internet上分散存储、动态变化的海量数据,传统信息检索技术无法让用户快速找到所需要的信息.搜索引擎作为传统IR技术在Web上的扩展,涉及到数据收集、中文分词技术、倒排索引、隐含数据获取、分布式结构、海量数据存储、用户行为分析等关键技术.从功能上看,搜索引擎主要由信息采集、索引、查询三部分构成.搜索引擎首先通过信息采集器(Crawler)从Internet采集网页数据,然后通过索引器(Indexer)对采集数据进行分析,并建立索引.检索器(Searcher)负责接受用户查询请求,通过索引找到所有相关网页,排序后返回给用户.本文首先介绍了Web搜索引擎的基本既念和研究现状,阐述了搜索引擎的体系结构和关键技术;然后分析了搜索引擎的数据存储管理中要处理的主要数据类型及其特点,研究了其他搜索引擎中数据存储的实现,提出了不同的存储支持方案;最后详细描述了一种具体的数据存储系统WDB的实现,并使用WDB实现Crawler的数据存储.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号