【24h】

Annotated Amharic Corpora

机译:注释的Amharic Corpora.

获取原文

摘要

Amharic is one of under-resourced languages. The paper presents two text corpora. The first one is a substantially cleaned version of existing morphologically annotated WIC Corpus (210,000 words). The second one is the largest Amharic text corpus (17 million words). It was created from Web pages automatically crawled in 2013, 2015 and 2016. It is part-of-speech annotated by a tagger trained and evaluated on the WIC Corpus.
机译:Amharic是资源不足的语言之一。本文提出了两个文本语料库。第一个是现有的形态学注释的WIC语料库(210,000字)的基本清洁版。第二个是最大的Amharic文本语料库(1700万字)。它是从2013年,2013年,2016年自动爬网的网页创建的。它是由Tagger培训并在WIC语料库上进行评估的演讲。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号