首页> 外文学位 >SCRIBE: A clustering approach to semantic information retrieval .
【24h】

SCRIBE: A clustering approach to semantic information retrieval .

机译:SCRIBE:一种用于语义信息检索的聚类方法。

获取原文
获取原文并翻译 | 示例

摘要

Information retrieval is the process of fulfilling a user's need for information by locating items in a data collection that are similar to a complex query that is often posed in natural language. Latent Semantic Indexing (LSI) was the predominant technique employed at the National Institute of Standards and Technology's Text Retrieval Conference for many years until limitations of its scalability to large data sets were discovered. This thesis describes SCRIBE, a modification of LSI with improved scalability. SCRIBE clusters its semantic index into discrete volumes described by high-dimensional extensions to computer graphics data structures. SCRIBE's clustering strategy limits the number of items that must be searched and provides for sub-linear time complexity in the number of documents. Experimental results with a large, natural language document collection demonstrate that SCRIBE achieves retrieval accuracy similar to LSI but requires 1/10 the time.
机译:信息检索是通过在数据集合中定位类似于通常以自然语言提出的复杂查询的项目来满足用户对信息的需求的过程。潜在语义索引(LSI)是美国国家标准技术研究院的文本检索会议采用的主要技术,多年来一直被发现,直到发现其可扩展性仅限于大数据集为止。本文介绍了SCRIBE,这是对LSI的改进,具有可扩展性。 SCRIBE将其语义索引聚集成离散的卷,这些离散的卷由计算机图形数据结构的高维扩展描述。 SCRIBE的聚类策略限制了必须搜索的项目数量,并提供了文档数量中次线性的时间复杂性。具有大量自然语言文档集的实验结果表明,SCRIBE具有与LSI相似的检索精度,但所需时间仅为LSI的1/10。

著录项

  • 作者

    Langley, Joseph Russell.;

  • 作者单位

    Mississippi State University.;

  • 授予单位 Mississippi State University.;
  • 学科 Computer Science.
  • 学位 M.S.
  • 年度 2006
  • 页码 98 p.
  • 总页数 98
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 自动化技术、计算机技术;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号