首页> 外文会议>Iberian Conference on Information Systems and Technologies >Using Random Forest Classifiers to Detect Duplicate Gazetteer Records
【24h】

Using Random Forest Classifiers to Detect Duplicate Gazetteer Records

机译:使用随机林分类器来检测重复的宪录记录

获取原文

摘要

This paper presents an approach for detecting duplicate records in the context of digital gazetteers, using a state-of-the-art machine learning technique. It reports on a thorough evaluation of a machine learning approach designed for the task of classifying pairs of gazetteer records as either duplicates or not, built by using Random Forests and leveraging on different combinations of similarity scores for the feature vectors. Experimental results show that using feature vectors that combine multiple similarity scores, derived from place names, semantic relationships, place types and geospatial footprints, leads to an accuracy of 97.45%.
机译:本文介绍了一种方法,用于使用最先进的机器学习技术检测数字公报仪的上下文中的重复记录。它报告了一种彻底的评估,该方法是通过使用随机森林和利用特征向量的相似性分数的不同组合来构建为复制宪报记录的机器学习方法的全面评估。实验结果表明,使用从名称,语义关系,地方和地理空间占地面积的多个相似性分数结合多个相似度分数的特征向量,导致97.45%的准确性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号