【24h】

Morphological Segmentation for Seneca

机译:塞内卡的形态分割

获取原文

摘要

This study takes up the task of low-resource morphological segmentation for Seneca, a critically endangered and morphologically complex Native American language primarily spoken in what is now New York State and Ontario. The labeled data in our experiments comes from two sources: one digitized from a publicly available grammar book and the other collected from informal sources. We treat these two sources as distinct domains and investigate different evaluation designs for model selection. The first design abides by standard practices and evaluates models with the in-domain development set, while the second one carries out evaluation using a development domain, or the out-of-domain development set. Across a series of monolingual and cross-linguistic training settings, our results demonstrate the utility of neural encoder-decoder architecture when coupled with multitask learning.
机译:本研究占据了塞内卡的低资源形态细分的任务,主要涉及现在纽约州和安大略省的主要濒临灭绝的和形态复杂的美洲语言。 我们的实验中的标记数据来自两个来源:从公共可用的语法书中数字化,另一个从非正式来源收集的另一个来源。 我们将这两个来源视为明显的域,并调查不同的评估设计进行模型选择。 第一个设计遵循标准实践,并使用域中开发集进行评估模型,而第二个一个设计使用开发域或域外开发集进行评估。 在一系列单声道和跨语言训练环境中,我们的结果展示了神经编码器 - 解码器架构时的效用在与多任务学习耦合时。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号