首页> 外文会议>IST-Africa Conference Exhibition >Data structures for information retrieval
【24h】

Data structures for information retrieval

机译:信息检索的数据结构

获取原文

摘要

The process of efficiently indexing large document collections for information retrieval places large demands on a computer's memory and processor, and requires judicious use of these resources. In this paper, we describe our approach to constructing such an index based on the vector-space model (VSM). We review the stages involved in generating an index, for weighting the index terms, and for representing documents in the VSM. We explain our choice of data structures from the parsing of the document collection through the generation of index terms, to generation of document representations. We explain tradeoffs in our choice of data structures. We then demonstrate the approach using the OHSUMED data set. Our results show that even with only a modest amount of main memory (4 GB), large data sets such as the OHSUMED data set can be quickly indexed.
机译:有效索引大型文档集合以进行信息检索的过程对计算机的内存和处理器提出了很高的要求,并且需要明智地使用这些资源。在本文中,我们描述了基于向量空间模型(VSM)构建此类索引的方法。我们回顾了生成索引,加权索引术语以及在VSM中表示文档所涉及的阶段。我们解释了数据结构的选择,从文档集合的解析到索引词的生成,再到文档表示的生成。我们在选择数据结构时说明了权衡取舍。然后,我们使用OHSUMED数据集演示该方法。我们的结果表明,即使仅使用少量的主内存(4 GB),大型数据集(例如OHSUMED数据集)也可以快速建立索引。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号