首页> 外文会议>Workshop on universal dependencies 2017 >Automatic Morpheme Segmentation and Labeling in Universal Dependencies resources
【24h】

Automatic Morpheme Segmentation and Labeling in Universal Dependencies resources

机译:通用依赖项资源中的词素自动切分和标记

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

Newer incarnations of the Universal Dependencies (UD) resources feature rich morphological annotation on the word-token level as regards tense, mood, aspect, case, gender, and other grammatical information. This information, however, is not aligned to any part of the word forms in the data. In this work, we present an algorithm for inferring this latent alignment between morphosyntactic labels and substrings of word forms. We evaluate the method on three languages where we have manually labeled part of the Universal Dependencies data-Finnish, Swedish, and Spanish-and show that the method is robust enough to use for automatic discovery, segmentation, and labeling of allo-morphs in the data sets. The model allows us to provide a more detailed morphosyntactic labeling and segmentation of the UD data.
机译:较新版本的通用依赖项(UD)资源在时态,语气,方面,大小写,性别和其他语法信息方面都具有丰富的词法标记形态注释。但是,此信息未与数据中单词形式的任何部分对齐。在这项工作中,我们提出了一种算法,用于推断词法句法标记和词形子串之间的这种潜在对齐方式。我们使用三种语言对方法进行了评估,在这些语言上我们手动标记了“通用依赖项”数据的一部分(芬兰语,瑞典语和西班牙语),并表明该方法具有足够的鲁棒性,可用于自动发现,分割和标记同种异体中的数据集。该模型使我们能够提供UD数据的更详细的形态句法标记和细分。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号