【24h】

An efficient method for page segmentation

机译:一种有效的页面分割方法

获取原文

摘要

Page segmentation is necessary for optical character recognition (OCR) and also very useful for many other document image manipulations. We describe a bottom-up method for page segmentation. Connected components are extracted and clustered into a tree description according to their spatial relations. Then, a new iterative split and merge process is performed to refine the text blocks. We also propose new criterion for clustering the connected components and some new techniques to deal with noise and reduce the computation time. The experiment shows the method's efficiency.
机译:页面分割是光学字符识别(OCR)所必需的,也是对许多其他文档图像操纵的非常有用。我们描述了一个用于页面分段的自下而上方法。根据其空间关系提取连接组件并将其聚集到树描述中。然后,执行新的迭代拆分和合并过程以改进文本块。我们还提出了用于聚类连接组件的新标准和一些新技术来处理噪声并减少计算时间。实验表明了该方法的效率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号