首页> 外文OA文献 >Implementacija učinkovitega sistema za gradnjo, uporabo in evaluacijo lematizatorjev tipa RDR
【2h】

Implementacija učinkovitega sistema za gradnjo, uporabo in evaluacijo lematizatorjev tipa RDR

机译:实施高效的RDR型脱毛器的构造,使用和评估系统

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Lemmatization is the process of determining teh canonical form of a word, called lemma, from its inflectional variants. We have developed a language independent system, LemmaGen, consisting of a set of tools for automatically learning of lemmatizers from lexicons of pre-lemmatized words. The system consists of three modules that can be used independently or sequentially. The input to the first module is a lexicon of lemmatized words from which it learns Ripple Down Rules that best describe word lemmatization. The next module takes these rules, which are in the form of RDR trees, and produces an efficient structure for fast lemmatizatio - the actual lemmatizer. In the last step we use the lemmatizer to transform the original input text into a set of lemmatized words. LemmaGen was applied to 14 different Multext and Multext-East lexicons and produced efficient lemmatizers for the corresponding languages. Its evaluation on the 14 lexicins shows that LemmaGen considerably outperforms the lemmatizers generated by the previously developed RDR leraning algorithm, both in terms of accuracy and efficiency. We used lemmatization also as a step in the analysisof a corpus of press-agency news and show improved result inerpretation, achieved by using LemmaGen in news preprocessing.
机译:引词化是根据词的屈折变体确定词的规范形式(称为引理)的过程。我们已经开发了一种独立于语言的系统LemmaGen,该系统由一组工具组成,这些工具可以从预先词义化的词的词典中自动学习词义化器。该系统由三个模块组成,可以独立使用,也可以顺序使用。第一个模块的输入是词素化词库,从中学习最能描述词素化的波纹下降规则。下一个模块采用RDR树形式的这些规则,并为快速的lemmatizatio(实际lemmatizer)生成有效的结构。在最后一步中,我们使用lemmatizer将原始输入文本转换为一组lemmatized单词。 LemmaGen被应用于14种不同的Multext和Multext-East词典,并为相应的语言生成了有效的词条分解器。对14种词汇素的评估表明,LemmaGen在准确性和效率上都大大优于以前开发的RDR精炼算法生成的词条识别器。我们还使用了lemmatization作为分析新闻机构新闻语料库的步骤,并显示了通过在新闻预处理中使用LemmaGen实现的更好的结果解释。

著录项

  • 作者

    Juršič Matjaž;

  • 作者单位
  • 年度 2007
  • 总页数
  • 原文格式 PDF
  • 正文语种
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号