首页> 中文学位 >学术论文PDF结构解析技术的研究
【6h】

学术论文PDF结构解析技术的研究

代理获取

目录

声明

第 1 章 绪 论

1.1 课题背景及意义

1.2 国内外研究现状

1.2.1 基于学习方法研究现状

1.2.2 基于规则方法研究现状

1.2.3 其它研究方法

1.2.4 现有解析工具

1.3 论文主要工作

1.4论文内容安排

第 2 章 研究相关技术

2.1 PDF 文档对象

2.2 PDF 文档结构

2.2.1 PDF 物理结构

2.2.2 PDF 逻辑结构

2.3 PDF 图形元素

2.3.1 PDF 图形内容流

2.3.2 PDF 光栅图像

2.3.3 PDF 矢量图像

2.4 PDF 文本元素

2.4.1 PDF 字体对象

2.4.2 PDF 文本位置

2.4.3 PDF 文本显示

2.5 PDFTron 框架

2.6 本章小结

第 3 章 文本区域识别方法

3.1关键因素及影响分析

3.1.1 文本解析关键因素

3.1.2 文本解析影响分析

3.2 基于文本坐标规律的识别方法

3.2.1 全局信息获取

3.2.2 文本行坐标获取

3.2.3 文本块生成

3.3 本章小结

第 4 章 非文本区域识别方法

4.1 关键因素及影响分析

4.1.1 图形解析关键因素

4.1.2 图形解析影响分析

4.2 基于最大矩形区域扩充的识别方法

4.2.1 PATH 路径重绘

4.2.2 PATH 路径还原

4.2.3 矢量图形生成

4.3 本章小结

第 5 章 块的合并与排序

5.1 块的合并算法

5.2 块的排序算法

5.3 本章小结

第 6 章 实验评估

6.1 实验设计与过程

6.2 实验结果

6.2.1 文本

6.2.2 图像

6.2.3 表格

6.3 本章小结

结论

参考文献

附录 A 攻读硕士学位期间所发表的学术论文

附录 B 攻读硕士学位期间参加科研项目及申请的专利

致谢

展开▼

摘要

PDF为数字化信息传播及电子文档发行提供了很大便利,它也成为了目前学术论文的主要载体。这些海量的学术论文资源经过加工、整合、重编可以形成可重用的论文结构对象,这些结构对象将作为学术论文应用的输入数据。在理想情况下,PDF的元数据是可以存储结构化的信息,然而PDF是一种基于布局的格式,它并不提供结构信息,因此,对PDF学术论文结构内容的提取是学术资源挖掘的主要挑战。  本文从文本元素和矢量元素两方面介绍了解析的关键问题,对影响其解析结果的因素进行了分析并提出了解决方案,针对文本区域提出了基于文本坐标规律的识别方法,将文本块内的文本行的坐标规律作为文本块扩充的条件;针对非文本区域提出基于最大矩形区域扩充的识别方法,将正文看成以页面分割的各个区域,对提取的矢量元素按左右下方向扩充,以最大范围地包含矢量元素及非正文文本,识别出非文本块。考虑到识别出的块与块之间的冗余与重叠,设计了块的合并算法,并对于多栏版面的PDF渲染顺序不正确引起的生成的块顺序不正确的问题设计了排序算法。  实验结果表明,本文中提出的识别算法能很好地提取PDF结构信息,能够自动化地对学术资源进行抽取与处理,有利于PDF在学术论文领域中的进一步利用,对当前学术论文资源知识挖掘研究具有重要意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号