首页> 外文会议>2017 IEEE International Conference on Systems, Man, and Cybernetics >Finding label noise examples in large scale datasets
【24h】

Finding label noise examples in large scale datasets

机译:在大规模数据集中查找标签噪声示例

获取原文
获取原文并翻译 | 示例

摘要

Mislabeled examples are difficult to avoid while building large scale datasets. In this paper we discuss an efficient approach for finding those mislabeled examples. Our approach involves selecting a small number of potentially mislabeled examples for review by an expert. We demonstrate the utility of our method by finding some mislabeled examples in one large scale dataset (ImageNet). We found 92 errors by automatically selecting 3607 examples to review out of 22951 images from 18 classes. This requires reviewing 9 times fewer examples than the random sampling method to find an equivalent number of mislabels.
机译:建立大型数据集时,难以避免标注错误的示例。在本文中,我们讨论了一种有效的方法来查找那些标签错误的示例。我们的方法涉及选择少量可能带有错误标签的示例,以供专家审查。通过在一个大型数据集(ImageNet)中找到一些标签错误的示例,我们证明了该方法的实用性。通过自动选择3607个示例从18个类别的22951个图像中进行回顾,我们发现了92个错误。与随机抽样方法相比,这需要审查的示例少9倍,才能找到相等数量的错误标签。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号