首页> 外文会议>International Workshop on Semantic Evaluation >NLPDove at SemEval-2020 Task 12: Improving Offensive Language Detection with Cross-lingual Transfer
【24h】

NLPDove at SemEval-2020 Task 12: Improving Offensive Language Detection with Cross-lingual Transfer

机译:在Semeval-2020任务12的NLPDOVE:通过交叉传输提高令人反感的语言检测

获取原文

摘要

This paper describes our approach to the task of identifying offensive languages in a multilingual setting. We investigate two data augmentation strategies: using additional semi-supervised labels with different thresholds and cross-lingual transfer with data selection. Leveraging the semi-supervised dataset resulted in performance improvements compared to the baseline trained solely with the manually-annotated dataset. We propose a new metric. Translation Embedding Distance, to measure the transferability of instances for cross-lingual data selection. We also introduce various preprocessing steps tailored for social media text along with methods to fine-tune the pre-trained multilingual BERT (mBERT) for offensive language identification. Our multilingual systems achieved competitive results in Greek, Danish, and Turkish at OffensEval 2020.
机译:本文介绍了我们在多语言环境中识别冒犯性语言的任务的方法。 我们调查了两个数据增强策略:使用具有不同阈值的额外半监督标签以及使用数据选择的交叉传输。 利用半监控数据集导致性能改进与仅与手动注释的数据集接受的基线相比。 我们提出了一个新的指标。 翻译嵌入距离,测量跨语言数据选择的实例的可转换性。 我们还介绍了社交媒体文本量身定制的各种预处理步骤,以及用于微调预先训练的多语言BERT(MBERT)的方法,以进行攻击性语言识别。 我们的多语言系统在违法者2020年实现了希腊,丹麦语和土耳其语的竞争结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号