首页> 外文会议>Workshop on Arabic Natural Language Processing >Faheem at NADI shared task: Identifying the dialect of Arabic tweet
【24h】

Faheem at NADI shared task: Identifying the dialect of Arabic tweet

机译:NADI共享任务的Faheeme:识别阿拉伯语推文的方言

获取原文

摘要

This paper describes Faheem (adj. of understand),our submission to NADI (Nuanced Arabic Dialect Identification) shared task. With so many Arabic dialects being understudied due to the scarcity of the resources,the objective is to identify the Arabic dialect used in the tweet,at the country-level. We propose a machine learning approach where we utilize word-level n-gram (n = 1 to 3) and tf-idf features and feed them to six different classifiers. We train the system using a data set of 21.000 tweets-provided by the organizers-covering twenty-one Arab countries. Our top performing classifiers are: Logistic Regression,Support Vector Machines,and Multinomial Naive Bayes (MNB). We achieved our best result of macro-F_1 = 0.151 using the MNB classifier.
机译:本文介绍了Faheem(adj。了解),我们向NADI提交(患有细微的阿拉伯语方言识别)共享任务。 由于资源稀缺,因此由于资源的稀缺而被解读,目标是在国家一级识别推文中使用的阿拉伯语方言。 我们提出了一种机器学习方法,我们利用单词级n-gram(n = 1到3)和TF-IDF特征,并将它们馈送到六个不同的分类器。 我们使用组织者提供的21.000推文的数据集培训系统 - 覆盖二十一名阿拉伯国家。 我们的顶级表演分类器是:Logistic回归,支持向量机和多项式幼稚贝叶斯(MNB)。 我们使用MNB分类器实现了Macro-F_1 = 0.151的最佳结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号