首页> 外文会议>International Conference on Information Technology Interfaces >NLTK tagger for Albanian using iterative approach
【24h】

NLTK tagger for Albanian using iterative approach

机译:使用迭代方法的阿尔巴尼亚的NLTK标记器

获取原文

摘要

This paper presents a research done about a model of tagging for Albanian texts, using the NLTK toolkit. The model uses cascading of three taggers with backoff. We use a dictionary of around 32000 words, together their correspondent POS tags and a set of regular expressions rules too. A lemmatize module is implemented in order to convert nouns and verbs to their lemma. The text is tagged initially with a unigram tagger based on the dictionary. This is used as a baseline tagger for a regular expressions tagger. A correction is made for not correct lemmatized words, creating a third lookup tagger. This tagger will be used with the first and second tagger as backoff.
机译:本文使用NLTK Toolkit提出了关于阿尔巴尼亚语文本标记模型的研究。该模型使用带有退避的三个标记器的级联。我们使用大约32000个单词的字典,它们的对应POS标签以及一组正则表达式规则。实现了lemmatize模块,以便将名词和动词转换为其引导。最初使用基于字典的Unigram标记标记文本。这用作正则表达式标记器的基线标记器。为不正确的lemmatized字而进行校正,创建第三查找标记器。此标记器将与第一和第二标记器一起使用,作为退避。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号