首页> 外文会议>Document Recognition and Retrieval VII >Comparison of text-based methods for detecting duplication in document image databases
【24h】

Comparison of text-based methods for detecting duplication in document image databases

机译:基于文本的在文档图像数据库中检测重复的方法的比较

获取原文
获取原文并翻译 | 示例

摘要

Abstract: This paper presents an experimental evaluation of several text-based methods for detecting duplication in document image databases using uncorrected OCR output. This task is challenging because of both the wide range of degradations printed documents can suffer, and conflicting interpretations of what it means to be a 'duplicate.' We report results for five sets of experiments exploring various aspects of the problem space. While the techniques studied are generally robust in the face of most types of OCR errors, there are nonetheless important differences which we identify and discuss in detail. !15
机译:摘要:本文提出了一种实验评估,该方法评估了几种使用未经校正的OCR输出检测文本图像数据库中重复项的基于文本的方法。这项任务具有挑战性,因为打印文档可能会遭受各种各样的降级,而且对“重复”的含义的解释也相互矛盾。我们报告了探索问题空间各个方面的五组实验的结果。尽管面对大多数类型的OCR错误,所研究的技术通常都非常可靠,但仍然存在一些重要的区别,我们将进行详细介绍和讨论。 !15

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号