首页> 外文会议>International Symposium on Symbolic and Numeric Algorithms for Scientific Computing >A CiteSeerX-Based Dataset for Record Linkage and Metadata Extraction
【24h】

A CiteSeerX-Based Dataset for Record Linkage and Metadata Extraction

机译:基于CiteSeerX的数据集,用于记录链接和元数据提取

获取原文

摘要

Data cleaning constitutes an important problem in information science. Collecting data about the same entities from multiple sources or following distinct methodologies might result in slightly different, inconsistent data. The objective of data cleaning is to produce a fused version combining the differing data, resulting in a cleaner dataset. In this paper we collect document metadata records from CiteSeerX and build a supervised record linker to Crossref. The supervised method is trained using a manually linked dataset containing 512 verified DOIs-to our knowledge, up to now being the largest such dataset for bibliographic record linkage. We experiment using different supervised learning methods, and also prove experimentally that the accuracy of the attached metadata records can improve the performance of automatic metadata extraction systems.
机译:数据清理是信息科学中的一个重要问题。从多个来源或遵循不同的方法收集有关同一实体的数据可能会导致数据略有不同,不一致。数据清理的目的是生成一个融合了不同数据的融合版本,从而得到了一个更干净的数据集。在本文中,我们从CiteSeerX收集文档元数据记录,并建立一个与Crossref的监督记录链接器。据我们所知,监督方法是使用包含512个已验证DOI的手动链接数据集进行训练的,到目前为止,该数据集是用于书目记录链接的最大此类数据集。我们使用不同的监督学习方法进行了实验,并通过实验证明了附加的元数据记录的准确性可以提高自动元数据提取系统的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号