首页> 外文会议>Human language technology >DOCUMENT REPRESENTATION IN NATURAL LANGUAGE TEXT RETRIEVAL
【24h】

DOCUMENT REPRESENTATION IN NATURAL LANGUAGE TEXT RETRIEVAL

机译:自然语言文本检索中的文档表示

获取原文
获取原文并翻译 | 示例

摘要

In information retrieval, the content of a document may be represented as a collection of terms: words, stems, phrases, or other units derived or inferred from the text of the document. These terms are usually weighted to indicate their importance within the document which can then be viewed as a vector in a N-dimensional space. In this paper we demonstrate that a proper term weighting is at least as important as their selection, and that different types of terms (e.g., words, phrases, names), and terms derived by different means (e.g., statistical, linguistic) must be treated differently for a maximum benefit in retrieval. We report some observations made during and after the second Text REtrieval Conference (TREC-2).
机译:在信息检索中,文档的内容可以表示为术语的集合:单词,词干,短语或其他从文档文本中得出或推断出的单位。通常对这些术语进行加权,以表明它们在文档中的重要性,然后可以将其视为N维空间中的向量。在本文中,我们证明了适当的术语权重至少与其选择一样重要,并且必须使用不同类型的术语(例如,单词,短语,名称)以及通过不同方式衍生的术语(例如,统计,语言学)区别对待以最大程度地提高检索效率。我们报告第二次文本检索会议(TREC-2)期间和之后的一些观察。

著录项

  • 来源
    《Human language technology》|1994年|364-369|共6页
  • 会议地点 Plainsboro NJ(US)
  • 作者

    Tomek Strzalkowski;

  • 作者单位

    Courant Institute of Mathematical Sciences New York University 715 Broadway, rm. 704 New York, NY 10003;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 计算机软件;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号