首页> 外文会议>International Conference on Genetic and Evolutionary Computing >Analyzing Tagging Accuracy of Part-of-Speech Taggers
【24h】

Analyzing Tagging Accuracy of Part-of-Speech Taggers

机译:分析词语术语标签的标记精度

获取原文

摘要

Automated part-of-speech (POS) tagging has been a very active research area for many years and is the foundation of natural language processing systems. Natural Language Toolkit (NLTK) library in the Python environment provides the necessary tools for tagging, but doesn't actually tell us what methods work the best. Therefore, this work analyzes the performance of part-of-speech taggers, namely the NLTK Default tagger, Regex tagger and N-gram taggers (Unigram, Bigram and Trigram) on a particular corpus. The corpora we have used for the analysis are; Brown, Penn Treebank and CoNLL2000. We have applied all taggers to these three corpora, resultantly we have shown that whereas Unigram tagger does the best tagging in all corpora, the combination of taggers does better if it is correctly ordered.
机译:自动化部分语音(POS)标记已经是多年来的一个非常活跃的研究区,是自然语言处理系统的基础。 Python环境中的自然语言工具包(NLTK)库提供了用于标记的必要工具,但实际上并没有告诉我们哪些方法最佳工作。 因此,这项工作分析了语音部分标签的性能,即NLTK默认标记器,正则表达式标记和N-GRAM标记(UNIGRAM,BIGRAM和TRIGRAM)上的特定语料库。 我们用于分析的Corpora是; 棕色,宾夕法尼亚州班克和康普拉彭2000。 我们已经将所有标记器应用于这三个语料库,结果我们已经表明,虽然Uniagram标签在所有Corpora中做了最佳标记,但如果正确订购,标签器的组合会更好地表现更好。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号