首页> 美国卫生研究院文献>other >Caveat emptor computational social science: Large-scale missing data in a widely-published Reddit corpus
【2h】

Caveat emptor computational social science: Large-scale missing data in a widely-published Reddit corpus

机译:求购者计算社会科学:广泛发布的Reddit语料库中的大规模缺失数据

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

As researchers use computational methods to study complex social behaviors at scale, the validity of this computational social science depends on the integrity of the data. On July 2, 2015, Jason Baumgartner published a dataset advertised to include “every publicly available Reddit comment” which was quickly shared on Bittorrent and the Internet Archive. This data quickly became the basis of many academic papers on topics including machine learning, social behavior, politics, breaking news, and hate speech. We have discovered substantial gaps and limitations in this dataset which may contribute to bias in the findings of that research. In this paper, we document the dataset, substantial missing observations in the dataset, and the risks to research validity from those gaps. In summary, we identify strong risks to research that considers user histories or network analysis, moderate risks to research that compares counts of participation, and lesser risk to machine learning research that avoids making representative claims about behavior and participation on Reddit.
机译:当研究人员使用计算方法大规模研究复杂的社会行为时,这种计算社会科学的有效性取决于数据的完整性。 2015年7月2日,杰森·鲍姆加特纳(Jason Baumgartner)发布了一个广告集,该数据集的广告内容包括“每个公开可用的Reddit评论”,并迅速在Bittorrent和Internet存档上共享。这些数据很快成为许多有关机器学习,社会行为,政治,突发新闻和仇恨言论的学术论文的基础。我们已经发现此数据集中存在巨大的差距和局限性,这可能导致该研究结果出现偏差。在本文中,我们记录了数据集,数据集中的大量遗漏观察以及从这些差距中进行研究有效性的风险。总而言之,我们确定考虑用户历史或网络分析的研究的重大风险,比较参与计数的研究的适度风险,以及避免对Reddit做出有关行为和参与的代表性主张的机器学习研究的风险较小。

著录项

  • 期刊名称 other
  • 作者单位
  • 年(卷),期 -1(13),7
  • 年度 -1
  • 页码 e0200162
  • 总页数 13
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号