...
首页> 外文期刊>Journal of the Association for Information Science and Technology >Softcite dataset: A dataset of software mentions in biomedical and economic research publications
【24h】

Softcite dataset: A dataset of software mentions in biomedical and economic research publications

机译:Softcite DataSet:生物医学和经济研究出版物中的软件提到数据集

获取原文
获取原文并翻译 | 示例

摘要

Software contributions to academic research are relatively invisible, especially to the formalized scholarly reputation system based on bibliometrics. In this article, we introduce a gold-standard dataset of software mentions from the manual annotation of 4,971 academic PDFs in biomedicine and economics. The dataset is intended to be used for automatic extraction of software mentions from PDF format research publications by supervised learning at scale. We provide a description of the dataset and an extended discussion of its creation process, including improved text conversion of academic PDFs. Finally, we reflect on our challenges and lessons learned during the dataset creation, in hope of encouraging more discussion about creating datasets for machine learning use.
机译:学术研究的软件贡献相对不可见,特别是基于书法测量学的形式化的学术声誉系统。 在本文中,我们从生物医学和经济学中的4,971个学术PDF的手动注释引入了软件提到的软件提到的黄金标准数据集。 DataSet旨在用于通过在规模监督学习的PDF格式研究出版物自动提取软件提升。 我们提供了对数据集的描述和对其创建过程的扩展讨论,包括改进了学术PDF的文本转换。 最后,我们反映了我们在数据集创建期间吸取的挑战和经验教训,希望有关创建用于创建机器学习使用的数据集的更多讨论。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号