首页> 外文会议>Conference of the European Chapter of the Association for Computational Linguistics >Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19
【24h】

Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19

机译:Mega-Cov:10亿尺度的Covid-19语言数据集

获取原文

摘要

We describe Mega-COV, a billion-scale dataset from Twitter for studying COVID-19. The dataset is diverse (covers 268 countries), longitudinal (goes as back as 2007), multilingual (comes in 100+ languages), and has a significant number of location-tagged tweets (~ 169M tweets). We release tweet IDs from the dataset. We also develop two powerful models, one for identifying whether or not a tweet is related to the pandemic (best F_1=97%) and another for detecting misinformation about COVID-19 (best F_1=92%). A human annotation study reveals the utility of our models on a subset of Mega-COV. Our data and models can be useful for studying a wide host of phenomena related to the pandemic. Mega-COV and our models are publicly available.
机译:我们描述了Mega-Cov,来自Twitter的十亿规模的数据集,用于学习Covid-19。 DataSet是多样化的(涵盖268个国家),纵向(回到2007年),多语言(有100多种语言),并拥有大量的位置标记推文(〜169米的推文)。 我们从数据集中释放Tweet ID。 我们还开发了两个强大的模型,一个用于识别推文是否与大流行(最佳F_1 = 97%)有关,另一个用于检测关于Covid-19的错误信息(最佳F_1 = 92%)。 人类注释研究揭示了我们模型在Mega-Cov的子集中的效用。 我们的数据和模型对于研究与大流行相关的广泛现象有用。 Mega-Cov和我们的模型是公开的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号