首页> 外文会议>IAPR International Workshop on Document Analysis Systems >OCR-Free Table of Contents Detection in Urdu Books
【24h】

OCR-Free Table of Contents Detection in Urdu Books

机译:URDU书籍中无OCR的目录检测表

获取原文

摘要

Table of Contents (ToC) is an integral part of multiple-page documents like books, magazines, etc. Most of the existing techniques use textual similarity for automatically detecting ToC pages. However, such techniques may not be applied for detection of ToC pages in situations where OCR technology is not available, which is indeed true for historical documents and many modern Nabataean (Arabic) and Indic scripts. It is, therefore, necessary to develop tools to navigate through such documents without the use of OCR. This paper reports a preliminary effort to address this challenge. The proposed algorithm has been applied to find Table of Contents (ToC) pages in Urdu books and an overall initial accuracy of 88% has been achieved.
机译:目录(TOC)是多页文件的一个组成部分,如书籍,杂志等。大多数现有技术都使用文本相似性来自动检测到TOC页面。 然而,这种技术可能不应用于在OCR技术不可用的情况下检测TOC页面,这对于历史文档和许多现代的Nabataean(阿拉伯语)和指示脚本来说是真的。 因此,在不使用OCR使用的情况下开发工具以浏览此类文档所必需的。 本文报告了解决这一挑战的初步努力。 所提出的算法已应用于查找核武器书籍中的内容(TOC)页面,并且已经实现了88%的整体初始准确性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号