声明
第 1 章 绪 论
1.1 课题背景及意义
1.2 国内外研究现状
1.2.1 基于学习方法研究现状
1.2.2 基于规则方法研究现状
1.2.3 其它研究方法
1.2.4 现有解析工具
1.3 论文主要工作
1.4论文内容安排
第 2 章 研究相关技术
2.1 PDF 文档对象
2.2 PDF 文档结构
2.2.1 PDF 物理结构
2.2.2 PDF 逻辑结构
2.3 PDF 图形元素
2.3.1 PDF 图形内容流
2.3.2 PDF 光栅图像
2.3.3 PDF 矢量图像
2.4 PDF 文本元素
2.4.1 PDF 字体对象
2.4.2 PDF 文本位置
2.4.3 PDF 文本显示
2.5 PDFTron 框架
2.6 本章小结
第 3 章 文本区域识别方法
3.1关键因素及影响分析
3.1.1 文本解析关键因素
3.1.2 文本解析影响分析
3.2 基于文本坐标规律的识别方法
3.2.1 全局信息获取
3.2.2 文本行坐标获取
3.2.3 文本块生成
3.3 本章小结
第 4 章 非文本区域识别方法
4.1 关键因素及影响分析
4.1.1 图形解析关键因素
4.1.2 图形解析影响分析
4.2 基于最大矩形区域扩充的识别方法
4.2.1 PATH 路径重绘
4.2.2 PATH 路径还原
4.2.3 矢量图形生成
4.3 本章小结
第 5 章 块的合并与排序
5.1 块的合并算法
5.2 块的排序算法
5.3 本章小结
第 6 章 实验评估
6.1 实验设计与过程
6.2 实验结果
6.2.1 文本
6.2.2 图像
6.2.3 表格
6.3 本章小结
结论
参考文献
附录 A 攻读硕士学位期间所发表的学术论文
附录 B 攻读硕士学位期间参加科研项目及申请的专利
致谢
湖南大学;