【24h】

A 500 Million Word POS-Tagged Icelandic Corpus

机译:一个500万字的POS标记的冰岛语料库

获取原文

摘要

The new POS-taggcd Icelandic corpus of the Leipzig Corpora Collection is an extensive resource for the analysis of the Icelandic language. As it contains a large share of all Web documents hosted under the .is top-level domain, it is especially valuable for investigations on modern Icelandic and non-standard language varieties. The corpus is accessible via a dedicated web portal and large shares are available for download. Focus of this paper will be the description of the tagging process and evaluation of statistical properties like word form frequencies and part of speech tag distributions. The latter will be in particular compared with values from the Icelandic Frequency Dictionary (IFD) Corpus.
机译:Leipzig Corpora Collection的新POS-Tagcd冰岛语料库是对冰岛语言分析的广泛资源。由于它包含在.is顶级域名下托管的所有Web文档中的大量份额,因此对现代冰岛和非标准语言品种的调查特别有价值。通过专用的Web门户网站和大型股票可以下载,可以访问语料库。本文的焦点将描述标记过程和统计属性的评估,如Word形式频率和词性标签分布的一部分。后者将与冰岛频率字典(IFD)语料库的值进行比较。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号