【24h】

Identifying References to Datasets in Publications

机译:识别对出版物中数据集的引用

获取原文

摘要

Research data and publications are usually stored in separate and structurally distinct information systems. Often, links between these resources are not explicitly available which complicates the search for previous research. In this paper, we propose a pattern induction method for the detection of study references in full texts. Since these references are not specified in a standardized way and may occur inside a variety of different contexts - i.e., captions, footnotes, or continuous text - our algorithm is required to induce very flexible patterns. To overcome the sparse distribution of training instances, we induce patterns iteratively using a bootstrapping approach. We show that our method achieves promising results for the automatic identification of data references and is a first step towards building an integrated information system.
机译:研究数据和出版物通常存储在单独的,结构上不同的信息系统中。通常,这些资源之间的链接通常不是明确可用的,这会使先前研究的搜索复杂化。在本文中,我们提出了一种模式归纳方法来检测全文中的研究参考文献。由于这些参考文献不是以标准化的方式指定的,并且可能出现在各种不同的上下文(即标题,脚注或连续文本)中,因此需要我们的算法来产生非常灵活的模式。为了克服训练实例的稀疏分布,我们使用自举方法迭代地诱导模式。我们表明,我们的方法在自动识别数据引用方面取得了可喜的结果,并且是朝着建立集成信息系统迈出的第一步。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号