首页> 外文会议>Multilingual and multimodal information access evaluation >A Dictionary-and Corpus-Independent Statistical Lemmatizer for Information Retrieval in Low Resource Languages
【24h】

A Dictionary-and Corpus-Independent Statistical Lemmatizer for Information Retrieval in Low Resource Languages

机译:词典和语料库无关的统计抽取器,用于低资源语言中的信息检索

获取原文
获取原文并翻译 | 示例

摘要

We present a dictionary- and corpus-independent statistical lemmatizer StaLe that deals with the out-of-vocabulary (OOV) problem of dictionary-based lemmatization by generating candidate lemmas for any inflected word forms. StaLe can be applied with little effort to languages lacking linguistic resources. We show the performance of StaLe both in lemmatization tasks alone and as a component in an IR system using several datasets and query types in four high resource languages. StaLe is competitive, reaching 88-108 % of gold standard performance of a commercial lemmatizer in IR experiments. Despite competitive performance, it is compact, efficient and fast to apply to new languages.
机译:我们提出了一种独立于字典和语料库的统计词法分解器StaLe,它通过为任何变形的词形生成候选词条来处理基于字典的词法化的词外(OOV)问题。 StaLe可以毫不费力地应用于缺乏语言资源的语言。我们使用四种高资源语言的几个数据集和查询类型,展示了StaLe在单独词义化任务中以及作为IR系统中组件的性能。 StaLe具有竞争优势,在红外实验中达到了商用脱胶机的黄金标准性能的88-108%。尽管具有竞争优势,但它可以紧凑,高效且快速地应用于新语言。

著录项

  • 来源
  • 会议地点 Padua(IT);Padua(IT)
  • 作者

    Aki Loponen; Kalervo Jarvelin;

  • 作者单位

    Department of Information Studies and Interactive Media, FI-33014 University of Tampere, Finland;

    Department of Information Studies and Interactive Media, FI-33014 University of Tampere, Finland;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 TP311.13;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号