首页> 外文会议>International Symposium on Symbolic and Numeric Algorithms for Scientific Computing >A CiteSeerX-Based Dataset for Record Linkage and Metadata Extraction
【24h】

A CiteSeerX-Based Dataset for Record Linkage and Metadata Extraction

机译:基于CITERESERX的数据集,用于记录链接和元数据提取

获取原文

摘要

Data cleaning constitutes an important problem in information science. Collecting data about the same entities from multiple sources or following distinct methodologies might result in slightly different, inconsistent data. The objective of data cleaning is to produce a fused version combining the differing data, resulting in a cleaner dataset. In this paper we collect document metadata records from CiteSeerX and build a supervised record linker to Crossref. The supervised method is trained using a manually linked dataset containing 512 verified DOIs-to our knowledge, up to now being the largest such dataset for bibliographic record linkage. We experiment using different supervised learning methods, and also prove experimentally that the accuracy of the attached metadata records can improve the performance of automatic metadata extraction systems.
机译:数据清洁构成了信息科学的重要问题。收集来自多个源或以下不同方法的相同实体的数据可能导致略有不同,数据不一致。数据清洁的目的是产生组合不同数据的融合版本,从而产生清洁数据集。在本文中,我们收集来自CiteSeerx的文档元数据记录并将监督记录链接器构建到CrossRef。监督方法使用包含512个验证的DOIS的手动链接数据集进行培训,这是我们的知识,目前是本名为书目记录联动的最大的数据集。我们使用不同的监督学习方法进行实验,并通过实验证明所附元数据记录的准确性可以提高自动元数据提取系统的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号