首页> 中文学位 >面向移动平台的复杂文档结构分析系统
【6h】

面向移动平台的复杂文档结构分析系统

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题来源

1.2 研究的目的和意义

1.3 国内外研究现状分析

1.4 本文主要研究内容

第2章 复杂文档结构分析相关技术

2.1 引言

2.2 图形学和形态学技术

2.3 机器学习相关技术

2.4 经验和规则

2.5 本文所使用技术

2.6 本章小结

第3章 基于位置信息的文档结构分析方法

3.1 引言

3.2 文档页面的预处理

3.3 文档结构分析

3.4 本章小结

第4章 文档结构分析算法评测系统设计

4.1 引言

4.2 文档结构描述方法

4.3 文档结构标注系统设计

4.4 评测算法设计

4.5 本章小结

第5章 实验平台设计与实现

5.1 引言

5.2 PDF阅读器的实现

5.3 文档结构分析系统设计

5.4 评测系统设计

5.5 实验数据与结果

5.6 本章小结

结论

参考文献

声明

致谢

展开▼

摘要

复杂文档结构分析一直以来是光学字符识别系统中很重要的一个环节,用于将排版复杂的文档进行处理,解析出文档上所有元素的位置及阅读顺序,该技术广泛应用于票据识别、名片识别、纸质文稿电子化等系统中,其中比较有名的有Google News Archive,该项目将近几十年的报纸扫描处理,并构建索引,使得用户搜索相关新闻时可以直接看到事件当天的报纸。
  通常复杂文档结构分析都会借助图像处理技术进行预处理,然后借助形态学、几何学等分析其物理结构,对于逻辑结构的获取则通过机器学习或模式识别相关方法。本文提出一种基于图像处理和元素位置信息的文档结构分析方法,结合经验规则,可以高效的对文档进行处理。在经过图像处理技术进行预处理后,得到文档上所有的文字行,然后将这些文字行视为障碍物,通过基于位置信息的分栏查找算法,逐步寻找页面上的空白块,同时加入长宽比等因素,最终得到文档页面上分栏的位置,按照分栏将文字行排序,然后将排序结果,即文档结构输出。
  以往复杂文档结构分析算法的评测都是比较繁琐的,其关键原因是文档结构的标注比较麻烦。本文提出了一种高效的文档结构标注方法,将以往在PC平台进行的标注工作转移到了iPad,移动平台优良的操作体验使得标注工作得以简化。与以往的用鼠标框选的操作不同,在iPad上可以直接用手指进行拖拽框选。对于文字行级别的标注,本系统借助图像处理技术进行文字行提取,然后给标注者行标注提示,若处理结果正确则不需要再逐行标注。在大多数情况下,本系统给出的标注提示都是正确的。对于算法的评测,本文选取编辑距离、准确率和召回率三个标准,能较好地反映算法性能。
  经过一系列实验验证,本文提出的基于位置信息的复杂文档结构分析算法对于学术论文类文档的结构分析效果很好,在人工标注的30篇共202页文档的评测集上实验,准确率达到91.1%,召回率达到85.1%,同以往方法相比有一定提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号