首页> 外文会议>International Conference on Document Analysis and Recognition >An OCR System with OCRopus for Scientific Documents Containing Mathematical Formulas
【24h】

An OCR System with OCRopus for Scientific Documents Containing Mathematical Formulas

机译:具有ocropus的OCR系统,用于含有数学公式的科学文件

获取原文

摘要

This paper describes the installation of a mathematical formula recognition module into an open source OCR system: OCRopus. In particular we consider the identification of inline formulas utilizing existing modules. Text lines including math formulas are first processed using a N-gram language model to reduce the number of formula candidates by thresholding the conditional probability of words. Then the formula candidates are classified into formulas and texts by SVM using geometric features associated with the bounding boxes of symbols.
机译:本文介绍了将数学公式识别模块的安装到开源OCR系统中:OCropus。特别是我们考虑使用现有模块的内联公式的识别。首先使用N-GRAM语言模型处理包括数学公式的文本线,以通过阈值平衡单词的条件概率来减少公式候选的数量。然后,通过与符号的边界框相关联的几何特征,通过SVM分类为公式候选者和文本。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号