【24h】

A 500 Million Word POS-Tagged Icelandic Corpus

机译:5亿字带有POS标签的冰岛语语料库

获取原文

摘要

The new POS-taggcd Icelandic corpus of the Leipzig Corpora Collection is an extensive resource for the analysis of the Icelandic language. As it contains a large share of all Web documents hosted under the .is top-level domain, it is especially valuable for investigations on modern Icelandic and non-standard language varieties. The corpus is accessible via a dedicated web portal and large shares are available for download. Focus of this paper will be the description of the tagging process and evaluation of statistical properties like word form frequencies and part of speech tag distributions. The latter will be in particular compared with values from the Icelandic Frequency Dictionary (IFD) Corpus.
机译:莱比锡语料库集合中新的带有POS标签的冰岛语语料库是用于分析冰岛语的广泛资源。由于它包含.is顶级域下托管的所有Web文档中的很大一部分,因此它对于研究现代冰岛语和非标准语言品种特别有价值。可以通过专用的Web门户访问该语料库,并且可以下载大量共享资源。本文的重点将是标记过程的描述和统计属性的评估,例如字形频率和部分语音标签分布。尤其将后者与冰岛频率字典(IFD)语料库中的值进行比较。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号