中文版面分析和重构

         

摘要

目的 在将纸张文档数字化的过程中,解决中文文档版面信息的自动提取与恢复问题.方法 通过搜索连通域,并根据连通域的尺寸特征,优先提取非文本区域,对提取出来的非文本区域,根据投影直方图、宽高比和黑白像素比等特征区分出表格、直线和图像;对文本区域采用改进的基于投影的纵横切割法来达到对文本正确分割的目的;利用XML文档文件格式描述、组织、恢复原有版面的数据和样式.通过重构生成保持原版面格式的通用电子文档,达到"原文重现"的目的.结果 对大量的书籍样张和带表格、图像以及横竖混排等复杂样张的试验,结果 表明改进的版面分析方法分割准确,速度快;基于XML技术的重构方法实现了对文档版面较精确的重构.结论 采用统计特征得出的阈值参数用在了改进的版面分析方法中,提高了系统的适应性.该方法对较规范的文档效果较好,对复杂版面在一定的人工干预下基本可以适用.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号