搜索引擎中的数据存储问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

搜索引擎是传统的信息检索(Information Retrival)技术与Web结合的产物.传统的信息俭索技术是从一定规模的文档库中获取用户需要的信息,其核心是文本信息的索引和检索,检索主要采用传统目录方式和全文检索方式.在信息规模不大的情况下,传统的信息检索技术能够满足需求.在面对Internet上分散存储、动态变化的海量数据,传统信息检索技术无法让用户快速找到所需要的信息.搜索引擎作为传统IR技术在Web上的扩展,涉及到数据收集、中文分词技术、倒排索引、隐含数据获取、分布式结构、海量数据存储、用户行为分析等关键技术.从功能上看,搜索引擎主要由信息采集、索引、查询三部分构成.搜索引擎首先通过信息采集器(Crawler)从Internet采集网页数据,然后通过索引器(Indexer)对采集数据进行分析,并建立索引.检索器(Searcher)负责接受用户查询请求,通过索引找到所有相关网页,排序后返回给用户.本文首先介绍了Web搜索引擎的基本既念和研究现状,阐述了搜索引擎的体系结构和关键技术;然后分析了搜索引擎的数据存储管理中要处理的主要数据类型及其特点,研究了其他搜索引擎中数据存储的实现,提出了不同的存储支持方案;最后详细描述了一种具体的数据存储系统WDB的实现,并使用WDB实现Crawler的数据存储.

著录项

作者
何华;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机软件与理论
授予学位硕士
导师姓名陈纯,卜佳俊;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序设计、软件工程;计算机情报检索系统;
关键词
互联网; 抓取器; 数据存储; 搜索引擎; 信息检索; 倒排索引;

相似文献

中文文献
外文文献
专利

1. BLOB数据存储技术在文件搜索引擎中的应用 [J] . 阎磊 ,马宏琳 . 福建电脑 . 2007,第001期
2. C8051F120系统中应用FM1808扩展数据存储器的时序问题研究 [J] . 袁成营 ,郝永生 ,张自宾 . 兵工自动化 . 2008,第008期
3. 计算机搜索引擎中潜藏的隐私安全问题研究 [J] . 马壮 . 电脑知识与技术 . 2017,第006期
4. 元搜索中成员搜索引擎的选择问题研究 [J] . 刘登洪 ,徐贤 . 计算机科学 . 2017,第010期
5. 商务元搜索引擎中域语义映射问题研究 [J] . 陈向阳 ,袁方 . 微计算机信息 . 2007,第03X期
6. 地震资料处理中数据存储系统应用优化 [C] . 董玉敏 ,杨敏 ,关宇 . 2019年中国石油石化企业信息技术交流大会 . 2019
7. 主题搜索引擎数据存储与更新的研究与实现 [A] . 赵海波 . 2007

搜索引擎中的数据存储问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅