首页> 外文期刊>ACM Transactions on Information Systems >Engineering Basic Algorithms of an In-Memory Text Search Engine
【24h】

Engineering Basic Algorithms of an In-Memory Text Search Engine

机译:内存中文本搜索引擎的工程基本算法

获取原文
获取原文并翻译 | 示例

摘要

Inverted index data structures are the key to fast text search engines. We first investigate one of the predominant operation on inverted indexes, which asks for intersecting two sorted lists of document IDs of different lengths. We explore compression and performance of different inverted list data structures. In particular, we present Lookup, a new data structure that allows intersection in expected time linear in the smaller list. Based on this result, we present the algorithmic core of a full text data base that allows fast Boolean queries, phrase queries, and document reporting using less space than the input text. The system uses a carefully choreographed combination of classical data compression techniques and inverted-index-based search data structures. Our experiments show that inverted indexes are preferable over purely suffix-array-based techniques for in-memory (English) text search engines. A similar system is now running in practice in each core of the distributed data base engine TREX of SAP.
机译:倒排索引数据结构是快速文本搜索引擎的关键。我们首先研究对倒排索引的一项主要操作,该操作要求将两个排序的长度不同的文档ID进行相交。我们探索了不同反向列表数据结构的压缩和性能。特别是,我们提出了Lookup,这是一种新的数据结构,它允许较小列表中的期望时间线性交集。基于此结果,我们介绍了全文数据库的算法核心,该算法数据库允许使用比输入文本小的空间进行快速布尔查询,短语查询和文档报告。该系统使用精心编排的经典数据压缩技术和基于反向索引的搜索数据结构的组合。我们的实验表明,对于内存中(英文)文本搜索引擎,倒排索引优于纯基于后缀数组的技术。现在,在SAP的分布式数据库引擎TREX的每个核心中实际上都在运行一个类似的系统。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号