【24h】

Subword Pooling Makes a Difference

机译:子字池会有所不同

获取原文

摘要

Contextual word-representations became a standard in modern natural language processing systems. These models use subword tok-enization to handle large vocabularies and unknown words. Word-level usage of such systems requires a way of pooling multiple sub-words that correspond to a single word. In this paper we investigate how the choice of subword pooling affects the downstream performance on three tasks: morphological probing, POS tagging and NER, in 9 typologically diverse languages. We compare these in two massively multilingual models, mBERT and XLM-RoBERTa. For morphological tasks, the widely used 'choose the first subword' is the worst strategy and the best results are obtained by using attention over the subwords. For POS tagging both of these strategies perform poorly and the best choice is to use a small LSTM over the subwords. The same strategy works best for NER and we show that mBERT is better than XLM-RoBERTa in all 9 languages.
机译:上下文中的字形成为现代自然语言处理系统的标准。 这些模型使用子字唱歌来处理大词汇表和未知单词。 这些系统的字级使用需要一种汇集与单个单词对应的多个子单词的方式。 在本文中,我们调查如何选择子字池的选择会影响三个任务的下游性能:形态探测,POS标记和ner,在9个类型的不同语言中。 我们将这些在两个大型多语言模型中,Mbert和XLM-Roberta进行了比较。 对于形态学任务,广泛使用的“选择第一个子字”是最糟糕的策略,通过使用子字通过注意力获得最佳结果。 对于POS标记这两个策略表现不佳,最佳选择是在子字上使用小LSTM。 相同的策略最适合Ner,我们表明Mbert比XLM-Roberta更好,所有9种语言都是XLM-Roberta。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号