【24h】

Annotation automatique d'un corpus d'apprenants d'anglais avec un jeu d'étiquettes modifié du Penn Treebank

机译:带有Penn Treebank修改标签集的英语学习者语料库的自动注释

获取原文

摘要

Cet article aborde la problématique de l'annotation automatique d'un corpus d'apprenants d'anglais. L'objectif est de montrer qu'il est possible d'utiliser un étiqueteur PoS pour annoter un corpus d'apprenants afin d'analyser les erreurs faites par les apprenants. Cependant, pour permettre une analyse suffisamment fine, des étiquettes fonctionnelles spécifiques aux phénomènes linguistiques à étudier sont insérées parmi celles de l'étiqueteur. Celui-ci est entraîné avec ce jeu d'étiquettes étendu sur un corpus de natifs avant d'être appliqué sur le corpus d'apprenants. Dans cette expérience, on s'intéresse aux usages erronés de this et that par les apprenants. On montre comment l'ajout d'une couche fonctionnelle sous forme de nouvelles étiquettes pour ces deux formes, permet de discriminer des usages variables chez les natifs et non-natifs et, partant, d'identifier des schémas incorrects d'utilisation. Les étiquettes fonctionnelles éclairent sur le fonctionnement discursif.
机译:本文解决了自动注释英语学习者语料库的问题。目的是表明可以使用PoS标记器注释学习者的语料库,以便分析学习者所犯的错误。但是,为了进行足够详细的分析,将要研究的语言现象特有的功能标签插入标签制造商的功能标签中。在将这套标签扩展到本地人语料库之前,会对它进行培训,然后再将其应用于学习者语料库。在这个实验中,我们对学习者滥用本本和本本很感兴趣。我们展示了如何为这两种形式添加新标签形式的功能层,从而能够区分本地人和非本地人的变量使用,从而识别错误的使用方式。功能标签为话语功能提供了亮点。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号